<a href="https://colab.research.google.com/github/mazdah/colab_practice/blob/main/%EC%A7%81%EC%9E%A5%EC%9D%B8%EC%9D%84_%EC%9C%84%ED%95%9C_%ED%8C%8C%EC%9D%B4%EC%8D%AC_%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
# 예측을 위한 머신러닝 라이브러리
---

In [None]:
# Scikit-learn을 이용한 예측 예제
'''
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x, y)
prediction = model.predict(x2)
'''

'\nfrom sklearn.linear_model import LinearRegression\n\nmodel = LinearRegression()\nmodel.fit(x, y)\nprediction = model.predict(x2)\n'

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression

---
### 데이터 준비
---

In [None]:
x = np.arange(10).reshape(-1, 1)
y = (2*x + 1).reshape(-1, 1)

In [None]:
x

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [None]:
y

array([[ 1],
       [ 3],
       [ 5],
       [ 7],
       [ 9],
       [11],
       [13],
       [15],
       [17],
       [19]])

---
### 모델 선언, 학습(fit) 및 예측(predict)
---

In [None]:
# 모델 선언
model = LinearRegression()

In [None]:
model

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
# 학습
model.fit(x, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
# 예측
prediction = model.predict([[10.0]])

In [None]:
prediction

array([[21.]])

---
### 학습 데이터와 예측(테스트) 데이터

- features : 학습을 위한 데이터 세트(또는 데이터 세트 내의 각각의 특성들), x, X로 표현함
- labels : 예측해야 할 값, 또는 지도학습에서 학습에 사용되는 정답 값, y, Y로 표현함
- 학습 데이터와 예측(테스트) 데이터는 명확하게 분리되어있어야 한다.
- 학습 데이터는 features와 labels가 모두 존해하나 예측(테스트) 데이터는 features만 존재함(labels를 맞추어야 함)
---

In [None]:
# 샘플 코드
'''
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)
prediction = model.predict(x_test)
'''

---
### 검증 데이터

- 과대적합 : 지나치게 학습 데이터에 맞춰짐
- 과소적합 : 훈련이 제대로 되지 않음
- 학습 데이터의 일부(학습 데이터의 약 20%)를 검증을 위한 데이터 세트로 분리
- 학습 과정에서 검증 세트가 포함되면 절대 안됨
---

---
### 전처리 기본 - scikit-learn의 전처리 기능

- 전처리(pre-processing) : 데이터 분석에 적합하게 _**데이터를 가공 / 변형 / 처리 / 클리닝**_ 하는 과정
- 전처리 관련 용어  
 . 결측치 - Imputer  
 . 이상치  
 . 정규화 (Normalization)  
 . 표준화 (Standardization)  
 . 샘플링 (over/under sampling)  
 . 피처 공학 (Feature Engineering)  
 &nbsp;&nbsp;&nbsp;&nbsp;: feature 생성 / 연산  
 &nbsp;&nbsp;&nbsp;&nbsp;: 구간 생성, 스케일 변홍
---

---
### 정규화 (Normalization)
- 0~1 사이의 분포로 조정

### 표준화 (Standardization)
- 평균을 0, 표준편차를 1로 맞충
---

---
### 전처리의 기본 - train_test_split으로 학습 데이터 준비하기
---

In [None]:
import numpy as np
import pandas as pd

train = pd.read_csv('https://bit.ly/fc-ml-titanic')
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


---
- PassangerId : 승객 아이디
- Survived : 생존 여부, 1: 생존, 0: 사망
- Pclass : 선실 등급
- Name : 이름
- Sex : 성별
- Age : 나이
- SibSp: 형제, 자매, 배우자 수
- Parch : 부모, 자식 수
- Ticket : 티켓 번호
- Fare : 요금
- Cabin : 좌석 번호
- Embarked : 탑승 항구
---

### 전처리 : train / validation 세트 나누기

1. feature와 label을 정의한다.
2. 적절한 비율로 train / validation set을 나눈다.
---

In [None]:
feature = ['Pclass', 'Sex', 'Age', 'Fare']
label = ['Survived']

In [None]:
train[feature].head()

Unnamed: 0,Pclass,Sex,Age,Fare
0,3,male,22.0,7.25
1,1,female,38.0,71.2833
2,3,female,26.0,7.925
3,1,female,35.0,53.1
4,3,male,35.0,8.05


In [None]:
train[label].head()

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0


In [None]:
from sklearn.model_selection import train_test_split

---
- **test_size** : validation set에 할당할 비율(20% -> 0.2)
- **shuffle** : 뒤섞기 여부 (기본은 True)
- **random_state** : 랜덤 시드 값
---

In [None]:
x_train, x_valid, y_train, y_valid = train_test_split(train[feature], train[label], test_size=0.2, shuffle=True, random_state=30)

In [None]:
x_train.shape, y_train.shape

((712, 4), (712, 1))

In [None]:
x_valid.shape, y_valid.shape

((179, 4), (179, 1))

---
### 전처리 기본 - 빈 값 처리

- 결측치 확인은 pandas의 isnull()과 합계를 구하는 sum()을 통해서도 할 수 있다.
- scikit-learn의 imputer를 이용하여 결측치를 채워준다.
---

In [None]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

---
- 단순한 값으로 결측치 채우는 방법
---

In [None]:
# 나이 컬럼의 결측치를 0으로 채우고 정보 보기
train['Age'].fillna(0).describe()

count    891.000000
mean      23.799293
std       17.596074
min        0.000000
25%        6.000000
50%       24.000000
75%       35.000000
max       80.000000
Name: Age, dtype: float64

In [None]:
# 나이 컬럼의 결측치를 나이의 평균으로 채우고 정보 보기
train['Age'].fillna(train['Age'].mean()).describe()

count    891.000000
mean      29.699118
std       13.002015
min        0.420000
25%       22.000000
50%       29.699118
75%       35.000000
max       80.000000
Name: Age, dtype: float64

---
- imputer : 2개 이상의 결측치를 채워줌
---

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
# 평균값으로 채우는 전략을 선택하여 imputer 생성
imputer = SimpleImputer(strategy='mean')

---
- fit()을 통해 결측치에 대한 학습을 진행
- 아래 Pclass 컬럼은 결측치가 없음. imputer는 결측치가 있는 대상에 대해서만 처리함
---

In [None]:
imputer.fit(train[['Age', 'Pclass']])

SimpleImputer(add_indicator=False, copy=True, fill_value=None,
              missing_values=nan, strategy='mean', verbose=0)

---
- 실제 결측치에 대한 처리는 transform()으로 함
---

In [None]:
result = imputer.transform(train[['Age', 'Pclass']])
result

array([[22.        ,  3.        ],
       [38.        ,  1.        ],
       [26.        ,  3.        ],
       ...,
       [29.69911765,  3.        ],
       [26.        ,  1.        ],
       [32.        ,  3.        ]])

In [None]:
train[['Age', 'Pclass']] = result

In [None]:
train[['Age', 'Pclass']].isnull().sum()

Age       0
Pclass    0
dtype: int64

In [None]:
train[['Age', 'Pclass']].describe()

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.699118,2.308642
std,13.002015,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,29.699118,3.0
75%,35.0,3.0
max,80.0,3.0


---
- fit_transform()은 fit()과 transform()을 한번에 해주는 함수이다.
---

In [None]:
# 중간값으로 채우는 전략을 선택하여 imputer 생성
imputer = SimpleImputer(strategy='median')
result = imputer.fit_transform(train[['Age', 'Pclass']])

In [None]:
train[['Age', 'Pclass']] = result

In [None]:
train[['Age', 'Pclass']].isnull().sum()

Age       0
Pclass    0
dtype: int64

In [None]:
train[['Age', 'Pclass']].describe()

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.361582,2.308642
std,13.019697,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,28.0,3.0
75%,35.0,3.0
max,80.0,3.0


---
- Categorical column 데이터에 대한 결측치 처리
---

In [None]:
# 1개의 컬럼을 처리하는 경우
train['Embarked'].fillna('S')

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: Embarked, Length: 891, dtype: object

In [None]:
# imputer를 이용하여 2개 이상의 컬럼을 처리할 때
imputer = SimpleImputer(strategy='most_frequent')

In [None]:
result = imputer.fit_transform(train[['Embarked', 'Cabin']])

In [None]:
train[['Embarked', 'Cabin']] = result

In [None]:
train[['Embarked', 'Cabin']].isnull().sum()

Embarked    0
Cabin       0
dtype: int64

In [None]:
train[['Embarked', 'Cabin']].describe()

Unnamed: 0,Embarked,Cabin
count,891,891
unique,3,147
top,S,B96 B98
freq,646,691


In [None]:
train[['Embarked', 'Cabin']]

Unnamed: 0,Embarked,Cabin
0,S,B96 B98
1,C,C85
2,S,B96 B98
3,S,C123
4,S,B96 B98
...,...,...
886,S,B96 B98
887,S,B42
888,S,B96 B98
889,C,C148


---
# 전처리의 기본 - Label Encoder

- 문자(categorical) 데이터를 수치(numerical) 데이터로 변환
- NaN 값이 포함되어있으면 정상 동작하지 않음
---

In [None]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
def convert(data):
    if data == 'male':
        return 1
    elif data == 'female':
        return 0

In [None]:
train['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [None]:
train['Sex'].apply(convert)

0      1
1      0
2      0
3      0
4      1
      ..
886    1
887    0
888    0
889    1
890    1
Name: Sex, Length: 891, dtype: int64

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le = LabelEncoder()

In [None]:
train['Sex_num'] = le.fit_transform(train['Sex'])

In [None]:
train['Sex_num'].value_counts()

1    577
0    314
Name: Sex_num, dtype: int64

In [None]:
le.classes_

array(['female', 'male'], dtype=object)

In [None]:
le.inverse_transform([0, 1, 1, 0, 0, 1, 1])

array(['female', 'male', 'male', 'female', 'female', 'male', 'male'],
      dtype=object)

In [None]:
# NaN 값이 포함된 컬럼 처리
le.fit_transform(train['Embarked'])

TypeError: ignored

In [None]:
# 먼저 결측치 처리를 함
train['Embarked'] = train['Embarked'].fillna('S')

In [None]:
le.fit_transform(train['Embarked'])

array([2, 0, 2, 2, 2, 1, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2, 2,
       1, 2, 2, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0,
       1, 2, 1, 1, 0, 2, 2, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 2, 2, 2, 0, 0,
       2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1,
       2, 0, 2, 2, 0, 2, 1, 2, 0, 2, 2, 2, 0, 2, 2, 0, 1, 2, 0, 2, 0, 2,
       2, 2, 2, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2,
       2, 0, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 2, 0, 2, 2, 2, 0, 1, 0, 2, 2, 2, 2, 1, 0, 2, 2, 0, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1,
       2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 1, 2, 2, 2,
       1, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 0,
       2, 2, 2, 1, 2, 0, 0, 2, 2, 0, 0, 2, 2, 0, 1,

---
# 전처리 기본 - One Hot Encoding
- 데이터 내에서 불필요한 관계를 배제하기 위해 One Hot Encoding을 사용한다.
- 예를들어 Embarked 컬럼을 수치형으로 바꾸어 S = 2, C = 0, Q = 1로 변환된 경우 Q + Q = S로 학습하는 경우가 발생하는데 이런 상황을 배제해야 한다.
- 카테고리형 데이터에 주로 사용된다.
---

In [None]:
train['Embarked'].value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

In [None]:
train['Embarked_num'] = le.fit_transform(train['Embarked'])

In [None]:
train['Embarked_num'].value_counts()

2    646
0    168
1     77
Name: Embarked_num, dtype: int64

In [None]:
train['Embarked'][:6]

0    S
1    C
2    S
3    S
4    S
5    Q
Name: Embarked, dtype: object

In [None]:
train['Embarked_num'][:6]

0    2
1    0
2    2
3    2
4    2
5    1
Name: Embarked_num, dtype: int64

In [None]:
pd.get_dummies(train['Embarked_num'][:6])

Unnamed: 0,0,1,2
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
5,0,1,0


In [None]:
one_hot = pd.get_dummies(train['Embarked_num'][:6])
one_hot.columns = ['C', 'Q', 'S']
one_hot

Unnamed: 0,C,Q,S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
5,0,1,0
