# #데이터 전처리 기본 TIPS
- 전처리: train / validation 세트 나누기
- 전처리 : 결측치
  - 수치형 (Numerical Column) 데이터에 대한 결측치 처리
  - 범주형(Categorical Column) 데이터에 대한 결측치 처리
- 전처리 : 인코딩
  - Label Encoding
  - One-Hot-Encoding (get_dummies())
- 전처리 : 스케일링
  - Min Max Scaling
  - Standard Scaling


In [2]:
import pandas as pd
import numpy as np
train = pd.read_csv('https://bit.ly/fc-ml-titanic')
train.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


## 전처리: train / validation 세트 나누기
1. 먼저, feature 와 label을 정의합니다.
2. feature / label을 정의했으면, 적절한 비율로 train / validation set을 나눕니다.

In [3]:
feature = train[['Pclass', 'Sex', 'Age', 'Fare']]
label = pd.DataFrame(train["Survived"])

In [4]:
feature.head(2)

Unnamed: 0,Pclass,Sex,Age,Fare
0,3,male,22.0,7.25
1,1,female,38.0,71.2833


In [5]:
label.head(2)

Unnamed: 0,Survived
0,0
1,1


In [6]:
from sklearn.model_selection import train_test_split

- test_size: validation set에 할당할 비율 (20% -> 0.2)
- shuffle: 셔플 옵션 (기본 True)
- random_state: 랜덤 시드값


- **return받는 데이터의 순서가 중요**합니다.
- 무조건 이 순서로!!
- **X_TRAIN,X_TEST,Y_TRAIN,Y_TEST**

In [7]:
X_TRAIN,X_TEST,Y_TRAIN,Y_TEST = train_test_split(feature,label,test_size = 0.2, shuffle = True, random_state = 30)

In [8]:
print(X_TRAIN.shape)
print(X_TEST.shape)
print(Y_TRAIN.shape)
print(Y_TEST.shape)

(712, 4)
(179, 4)
(712, 1)
(179, 1)


## 전처리 : 결측치
- 결측치를 확인하는 방법은 pandas의 isnull()
- 그리고 합계를 구하는 sum()을 통해 한 눈에 확인할 수 있습니다.

In [9]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [10]:
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### 1. 수치형 (Numerical Column) 데이터에 대한 결측치 처리

Age 컬럼 결측치 0으로 채우기

In [11]:
train["Age"].fillna(0)

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     0.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

Age 컬럼 결측치 평균값으로 채우기

In [12]:
train["Age"].fillna(train["Age"].mean())

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: Age, Length: 891, dtype: float64

### 2. 범주형(Categorical Column) 데이터에 대한 결측치 처리

In [13]:
train = pd.read_csv('https://bit.ly/fc-ml-titanic')
train['Embarked'].fillna('S')

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: Embarked, Length: 891, dtype: object

## 전처리 : 인코딩(Encoding)
### Label Encoding 
- **NaN 값이 포함되어 있다면, LabelEncoder 가 정상 동작하지 않습니다.**

In [14]:
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()

# 성별을 0,1 로 변환
train["Sex"] = encoder.fit_transform(train["Sex"])
train.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,C


In [15]:
# 라벨 인코더로 변환된 성별 값 종류와 개수 확인
train["Sex"].value_counts()

1    577
0    314
Name: Sex, dtype: int64

In [16]:
# Embarked 값의 종류와 개수 확인
train["Embarked"].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [17]:
# Embarked 결측값 개수 확인
train["Embarked"].isnull().sum()

2

Embarked 컬럼의 결측치는 가장 많은 값을 차지하는 S로 채움

In [18]:
train["Embarked"] = train["Embarked"].fillna("S")

Embarked 컬럼의 결측치가 채워졌음

In [19]:
train["Embarked"].isnull().sum()

0

현재 Embarked 컬럼은 문자형이라 효율적이지 않을 수 있으므로 라벨인코딩으로 수치형으로 변환해줌

In [20]:
train["Embarked"] = encoder.fit_transform(train["Embarked"])

In [21]:
train.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,0


- Embarked는 탑승 항구의 이니셜을 나타냈습니다.
- 그런데, 이것을 LabelEncoder 를 통해서 수치형으로 변환해주었습니다.
- 이대로 데이터를 기계학습을 시키면, 기계는 데이터 안에서 관계를 학습합니다.
- 즉, 'S' = 2, 'Q' = 1 이라고 되어 있는데, Q + Q = S 가 된다 라고 학습해버린다는 것입니다.
- 그렇기 때문에, 독립적인 데이터는 별도의 column으로 분리하고, 각각의 컬럼에 해당 값에만 True 나머지는 False를 갖습니다. 
- 우리는 이것을 원 핫 인코딩 한다라고 합니다.

### One-Hot-Encoding (get_dummies())
- pandas의 get_dummies 함수를 이용한 원-핫 인코딩

get_dummies는 결과를 데이터프레임 형태로 반환함

In [22]:
Embarked_dummies = pd.get_dummies(train["Embarked"])
Embarked_dummies

Unnamed: 0,0,1,2
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
886,0,0,1
887,0,0,1
888,0,0,1
889,1,0,0


기존 train 데이터셋에 Embarked_dummies를 합쳐 새로운 데이터셋을 만들어줌

In [23]:
train_new = pd.concat([train,Embarked_dummies],axis = 1)
train_new.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,0,1,2
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,2,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,0,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,,2,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,2,0,0,1
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,,2,0,0,1


## 전처리: 스케일링
### Min Max Scaler
- column 간에 다른 min, max 값을 가지는 경우, 정규화를 통해 최소치/ 최대값의 척도를 맞추어 주는 것
- 실습용 데이터 정보
  - 네이버 영화평점 (0점 ~ 10점): [2, 4, 6, 8, 10]
  - 넷플릭스 영화평점 (0점 ~ 5점): [1, 2, 3, 4, 5]

In [24]:
movie = pd.DataFrame({'naver': [2, 4, 6, 8, 10], 'netflix': [1, 2, 3, 4, 5]})
movie

Unnamed: 0,naver,netflix
0,2,1
1,4,2
2,6,3
3,8,4
4,10,5


MinMaxScaler는 결과를 array 형태로 반환함

In [25]:
from sklearn.preprocessing import MinMaxScaler
mm_scaler = MinMaxScaler()
mm_movie = mm_scaler.fit_transform(movie)
mm_movie

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])

- MinMaxScaler는 **결과를 array 형태로 반환**함
- 따라서 결과를 데이터프레임으로 변환해주어야함

In [26]:
mm_movie = pd.DataFrame(mm_movie,columns = movie.columns)
mm_movie

Unnamed: 0,naver,netflix
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


### Standard Scaler
- 평균이 0과 표준편차가 1이 되도록 변환

In [27]:
# 샘플데이터 생성
x = np.arange(10)

# outlier 추가
x[9] = 1000

x.mean(), x.std()

(103.6, 298.8100399919654)

In [28]:
from sklearn.preprocessing import StandardScaler
std_scaler = StandardScaler()
scaled = std_scaler.fit_transform(x.reshape(-1, 1))
print("표준화 전 - 평균: ", x.mean(),"표준편차 : ", x.std())
print("표준화 후 - 평균: ", scaled.mean(),"표준편차 : ", scaled.std())

표준화 전 - 평균:  103.6 표준편차 :  298.8100399919654
표준화 후 - 평균:  4.4408920985006264e-17 표준편차 :  1.0
