In [2]:
import numpy as np
import pandas as pd

In [7]:
data = pd.read_csv("https://bit.ly/fc-ml-titanic")

### 데이터 셋: 타이타닉 데이터셋 (출처: Kaggle.com)

In [8]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- PassengerId : 승객 아이디
- Pclass: 등급
- Survived: 생존여부, 1: 생존, 0: 사망
- SibSp: 형제, 자매, 배우자 수
- Parch: 부모, 자식 수
- Ticket: 티켓 번호
- Fare: 요금
- Cabin: 좌석번호

#### 전처리 : train / validation 세트 나누기

1. 먼저 feature 와 label을 정의함
2. feature / label을 정의했으면, 적절한 비율로 train과 validation set을 나눔

In [10]:
feature = [
    'Pclass', 'Sex', 'Age', 'Fare'
] # 학습을 하기 위한 컬럼

In [11]:
label = [
    'Survived'
] # 예측을 하기 위한 컬럼

In [14]:
data[feature].head() # 학습을 해야 할 값들

Unnamed: 0,Pclass,Sex,Age,Fare
0,3,male,22.0,7.25
1,1,female,38.0,71.2833
2,3,female,26.0,7.925
3,1,female,35.0,53.1
4,3,male,35.0,8.05


In [13]:
data[label].head() # 예측을 해야 할 값

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0


In [82]:
from sklearn.model_selection import train_test_split

- test_size: validation set에 할당할 비율 (20% -> 0.2) 
- shuffle: 셔플 옵션(기본 True)
- random_state: 랜덤 시드값_state: 랜덤 시드값

In [83]:
x_train, x_valid, y_train, y_valid = train_test_split(train[feature], train[label],
                                                      test_size=0.2,
                                                     shuffle=True, random_state=30)

In [84]:
x_train.shape, y_train.shape # 훈련데이터와 column 개수가 찍함, 차원수

((712, 4), (712, 1))

In [85]:
x_valid.shape, y_valid.shape

((179, 4), (179, 1))

In [86]:
data.info() # age컬럼, cabin embarked에 결측치 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    float64
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(3), int64(4), object(5)
memory usage: 83.7+ KB


In [87]:
data.isnull().sum() # 컬럼의 결측치 파악

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [88]:
data['Age'].isnull().sum() # 개별 column 결측치 확인

0

In [44]:
# sklearn impute로 결측치 채울 수 있음

In [45]:
# 수치형 데이터의 결측치 처리

In [40]:
data['Age'].fillna(0).describe() # 본래는 판다스 fillna로 결측치 채워줌, desc로 통계값 확인

count    891.000000
mean      23.799293
std       17.596074
min        0.000000
25%        6.000000
50%       24.000000
75%       35.000000
max       80.000000
Name: Age, dtype: float64

In [89]:
data['Age'].fillna(data['Age'].mean()).describe()

count    891.000000
mean      29.730666
std        0.015947
min       29.537094
25%       29.731979
50%       29.731979
75%       29.731979
max       29.731979
Name: Age, dtype: float64

In [46]:
from sklearn.impute import SimpleImputer

In [90]:
imputer = SimpleImputer(strategy='mean') # sklearn impute로 결측치 채울 수 있음

fit() 을 통해 결측치에 대한 학습 진행

In [91]:
imputer.fit(train[['Age', 'Pclass']])

SimpleImputer()

transform()은 실제 결측치에 대한 처리를 해주는 함수이다.

In [92]:
result = imputer.transform(train[['Age', 'Pclass']])

학습한 결측치를 본래 변수에 할당한다.

In [93]:
data[['Age', 'Pclass']] = result

In [94]:
data[['Age', 'Pclass']].isnull().sum()

Age       0
Pclass    0
dtype: int64

fit_transform()은 fit()과 transform()을 한 번에 수행하는 함수임

In [95]:
data[['Age', 'Pclass']].describe()

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.699118,2.308642
std,13.002015,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,29.699118,3.0
75%,35.0,3.0
max,80.0,3.0


In [96]:
# data.loc[data['Age'] <= 1, "Age"] = data['Age'].mean()

In [97]:
imputer = SimpleImputer(strategy="median") # 중앙값으로 채움

In [98]:
result = imputer.fit_transform(train[['Age', 'Pclass']])

In [99]:
train[['Age', 'Pclass']] = result

In [100]:
train[['Age', 'Pclass']].isnull().sum()

Age       0
Pclass    0
dtype: int64

In [102]:
train[['Age', 'Pclass']].describe()

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.361582,2.308642
std,13.019697,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,28.0,3.0
75%,35.0,3.0
max,80.0,3.0


#### Categorical Column에 대해서 데이터 처리

#### 위에 Numeric Column에 대한 데이터 처리

In [104]:
# data['Embarked'].fillna('S') 로 결측치 채워줄 수 있음

#### imputer 를 사용하는 경우, 2개 이상의 Column을 처리할 때

In [105]:
imputer = SimpleImputer(strategy='most_frequent')

In [107]:
result = imputer.fit_transform(data[['Embarked', 'Cabin']])

In [110]:
data[['Embarked', 'Cabin']] = result

In [111]:
data[['Embarked', 'Cabin']].isnull().sum()

Embarked    0
Cabin       0
dtype: int64

Label Encoding: 문자(Categorical)를 수치(numerical)로 변환


학습을 위해서 모든 문자로 된 **데이터는 수치로 변환**하여야함

In [147]:
data = pd.read_csv("https://bit.ly/fc-ml-titanic")

In [148]:
data.info() # 문자형도 object로 나옴

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [149]:
def convert(data):
    if data == 'male':
        return 1
    elif data == 'female':
        return 0

In [152]:
data['Sex'].value_counts() # column 별 값 확인

male      577
female    314
Name: Sex, dtype: int64

In [153]:
data['Sex'].apply(convert)

0      1
1      0
2      0
3      0
4      1
      ..
886    1
887    0
888    0
889    1
890    1
Name: Sex, Length: 891, dtype: int64

In [127]:
# data['Sex'].apply(lambda x: 1 if x == 'male' else 0) # elif 처리가 안되므로 그냥 convert 전달

0      1
1      0
2      0
3      0
4      1
      ..
886    1
887    0
888    0
889    1
890    1
Name: Sex, Length: 891, dtype: int64

In [11]:
from sklearn.preprocessing import LabelEncoder # 문자열을 데이터로 바꿀 라벨 인코더 import

In [155]:
data = pd.read_csv("https://bit.ly/fc-ml-titanic")

In [12]:
le = LabelEncoder()

In [157]:
data['Sex_num'] = le.fit_transform(data['Sex'])

In [158]:
data['Sex_num'].value_counts()

1    577
0    314
Name: Sex_num, dtype: int64

In [162]:
le.classes_ # 변경된 값이 원래 무슨 string인지 확인이 가능하다.

array(['female', 'male'], dtype=object)

In [160]:
data['Sex'] = le.inverse_transform(data['Sex']) # 본래값으로 복구가능
data['Sex'] # 본래값일 경우 복구 에러.. 무의미하다

ValueError: y contains previously unseen labels: ['female' 'male']

In [163]:
le.fit_transform(data['Embarked']) # 결측치 있을 경우 변환이 안된다.

TypeError: Encoders require their input to be uniformly strings or numbers. Got ['float', 'str']

In [164]:
data['Embarked'] = data['Embarked'].fillna('S')

In [165]:
le.fit_transform(data['Embarked']) # label encoding

array([2, 0, 2, 2, 2, 1, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2, 2,
       1, 2, 2, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0,
       1, 2, 1, 1, 0, 2, 2, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 2, 2, 2, 0, 0,
       2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1,
       2, 0, 2, 2, 0, 2, 1, 2, 0, 2, 2, 2, 0, 2, 2, 0, 1, 2, 0, 2, 0, 2,
       2, 2, 2, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2,
       2, 0, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 2, 0, 2, 2, 2, 0, 1, 0, 2, 2, 2, 2, 1, 0, 2, 2, 0, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1,
       2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 1, 2, 2, 2,
       1, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 0,
       2, 2, 2, 1, 2, 0, 0, 2, 2, 0, 0, 2, 2, 0, 1,

## 원 핫 인코딩(One Hot Encoding)

In [23]:
data = pd.read_csv("https://bit.ly/fc-ml-titanic")

In [24]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [25]:
data['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [26]:
data['Embarked'].isnull().sum()

2

In [27]:
data['Embarked'] = data['Embarked'].fillna('S')

In [28]:
data['Embarked'].value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

In [29]:
data['Embarked_num'] = le.fit_transform(data['Embarked'])

In [30]:
data['Embarked_num'].value_counts()

2    646
0    168
1     77
Name: Embarked_num, dtype: int64

Embarked는 탑승 항구의 이니셜을 나타냄
LabelEncoder를 통해서 수치형으로 변경할 수 있음
하지만, 이대로 데이터를 기계학습을 시키면, 기계는 데이터 안에서 관계를 학습합니다.

즉, 'S' = 2, Q = 1이라고 되어있는데, Q + Q = S 로 학습해버림
그렇기 때문에, 독립적인 데이터는 별도의 column으로 분리, 각각 컬럼에 해당값만 True, 나머지 False
이것을 원 핫 인코딩이라고 한다.

In [31]:
pd.get_dummies(data['Embarked_num'][:6]) # 데이터의 종류가 3개라 column이 3개가 나옴

Unnamed: 0,0,1,2
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
5,0,1,0


In [34]:
le.classes_ # 라벨 인코딩한 값 확인

array(['C', 'Q', 'S'], dtype=object)

In [36]:
one_hot = pd.get_dummies(data['Embarked_num'][:6]) # 이걸로 one hot encoding 가능

In [37]:
one_hot.columns = le.classes_

In [39]:
one_hot # 본인이 해당하는 column에 대해서만 True

Unnamed: 0,C,Q,S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
5,0,1,0


column을 분리시켜 카테고리형 -> 수치형으로 변환하면서 생기는 수치형 값의 관계를 끊어주면서
독립적인 형태로 바꾸어줌

원핫인코딩은 카테고리(계절, 항구, 성별, 종류, 한식/일식/중식...)의 특성을 가지는 column에 대해서 적용

