In [6]:
import numpy as np
import pandas as pd

In [7]:
data = pd.read_csv("https://bit.ly/fc-ml-titanic")

### 데이터 셋: 타이타닉 데이터셋 (출처: Kaggle.com)

In [8]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- PassengerId : 승객 아이디
- Pclass: 등급
- Survived: 생존여부, 1: 생존, 0: 사망
- SibSp: 형제, 자매, 배우자 수
- Parch: 부모, 자식 수
- Ticket: 티켓 번호
- Fare: 요금
- Cabin: 좌석번호

#### 전처리 : train / validation 세트 나누기

1. 먼저 feature 와 label을 정의함
2. feature / label을 정의했으면, 적절한 비율로 train과 validation set을 나눔

In [10]:
feature = [
    'Pclass', 'Sex', 'Age', 'Fare'
] # 학습을 하기 위한 컬럼

In [11]:
label = [
    'Survived'
] # 예측을 하기 위한 컬럼

In [14]:
data[feature].head() # 학습을 해야 할 값들

Unnamed: 0,Pclass,Sex,Age,Fare
0,3,male,22.0,7.25
1,1,female,38.0,71.2833
2,3,female,26.0,7.925
3,1,female,35.0,53.1
4,3,male,35.0,8.05


In [13]:
data[label].head() # 예측을 해야 할 값

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0


In [82]:
from sklearn.model_selection import train_test_split

- test_size: validation set에 할당할 비율 (20% -> 0.2) 
- shuffle: 셔플 옵션(기본 True)
- random_state: 랜덤 시드값_state: 랜덤 시드값

In [83]:
x_train, x_valid, y_train, y_valid = train_test_split(train[feature], train[label],
                                                      test_size=0.2,
                                                     shuffle=True, random_state=30)

In [84]:
x_train.shape, y_train.shape # 훈련데이터와 column 개수가 찍함, 차원수

((712, 4), (712, 1))

In [85]:
x_valid.shape, y_valid.shape

((179, 4), (179, 1))

In [86]:
data.info() # age컬럼, cabin embarked에 결측치 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    float64
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(3), int64(4), object(5)
memory usage: 83.7+ KB


In [87]:
data.isnull().sum() # 컬럼의 결측치 파악

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [88]:
data['Age'].isnull().sum() # 개별 column 결측치 확인

0

In [44]:
# sklearn impute로 결측치 채울 수 있음

In [45]:
# 수치형 데이터의 결측치 처리

In [40]:
data['Age'].fillna(0).describe() # 본래는 판다스 fillna로 결측치 채워줌, desc로 통계값 확인

count    891.000000
mean      23.799293
std       17.596074
min        0.000000
25%        6.000000
50%       24.000000
75%       35.000000
max       80.000000
Name: Age, dtype: float64

In [89]:
data['Age'].fillna(data['Age'].mean()).describe()

count    891.000000
mean      29.730666
std        0.015947
min       29.537094
25%       29.731979
50%       29.731979
75%       29.731979
max       29.731979
Name: Age, dtype: float64

In [46]:
from sklearn.impute import SimpleImputer

In [90]:
imputer = SimpleImputer(strategy='mean') # sklearn impute로 결측치 채울 수 있음

fit() 을 통해 결측치에 대한 학습 진행

In [91]:
imputer.fit(train[['Age', 'Pclass']])

SimpleImputer()

transform()은 실제 결측치에 대한 처리를 해주는 함수이다.

In [92]:
result = imputer.transform(train[['Age', 'Pclass']])

학습한 결측치를 본래 변수에 할당한다.

In [93]:
data[['Age', 'Pclass']] = result

In [94]:
data[['Age', 'Pclass']].isnull().sum()

Age       0
Pclass    0
dtype: int64

fit_transform()은 fit()과 transform()을 한 번에 수행하는 함수임

In [95]:
data[['Age', 'Pclass']].describe()

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.699118,2.308642
std,13.002015,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,29.699118,3.0
75%,35.0,3.0
max,80.0,3.0


In [96]:
# data.loc[data['Age'] <= 1, "Age"] = data['Age'].mean()

In [97]:
imputer = SimpleImputer(strategy="median") # 중앙값으로 채움

In [98]:
result = imputer.fit_transform(train[['Age', 'Pclass']])

In [99]:
train[['Age', 'Pclass']] = result

In [100]:
train[['Age', 'Pclass']].isnull().sum()

Age       0
Pclass    0
dtype: int64

In [102]:
train[['Age', 'Pclass']].describe()

Unnamed: 0,Age,Pclass
count,891.0,891.0
mean,29.361582,2.308642
std,13.019697,0.836071
min,0.42,1.0
25%,22.0,2.0
50%,28.0,3.0
75%,35.0,3.0
max,80.0,3.0


#### Categorical Column에 대해서 데이터 처리

#### 위에 Numeric Column에 대한 데이터 처리

In [104]:
# data['Embarked'].fillna('S') 로 결측치 채워줄 수 있음

#### imputer 를 사용하는 경우, 2개 이상의 Column을 처리할 때

In [105]:
imputer = SimpleImputer(strategy='most_frequent')

In [None]:
result = imputer.fit_transform(data['Embarked', ''])