#1. 캐글(Kaggle)
* 전세계 데이터 사이언티스트들이 다양한 데이터를 분석하고 토론할 수 있는 커뮤니티를 제공 (https://www.kaggle.com/)
* 데이터 분석 및 머신러닝, 딥러닝 대회를 개최
* 데이터셋, 파이썬자료, R자료 등 제공
* 데이콘: 우리나라의 데이터 커뮤니티 (https://dacon.io/)

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv('https://bit.ly/fc-ml-titanic')

In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


* passengerid: 승객번호
* survived: 생존여부(0:사망, 1:생존)
* pclass: 좌석등급
* name: 이름
* sex: 성별
* age: 나이
* sibsp: 형제,자매,배우자 수
* parch: 부모,자식 수
* ticket: 티켓번호
* fare: 요금
* cabin: 좌석번호
* embarked: 탑승항구

#2. 데이터 전처리
* 넓은 범위의 데이터 정제작업을 뜻함.
* 필요없는 데이터를 삭제하고, 필요한 데이터만 취하는 것, null 값이 있는 행을 삭제하는 것, 정규화, 표준화 등의 많은 작업들을 포함하고 있음.
* 머신러닝, 딥러닝 실무에서도 전처리가 50% 이상을 차지함.

###2-1. 결측치 처리

In [None]:
df.info()
# 확인결과, Age와 Cabin, Embarked에 결측치가 있음.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [None]:
# age는 0을 줄 수 없으므로 결측치를 평균으로 처리할 예정.
df['Age'] = df['Age'].fillna(df['Age'].mean())

In [None]:
df['Age']
# 평균값은 소수점이 존재하는 부분 → 결측치의 처리가 완료된 값.

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: Age, Length: 891, dtype: float64

###2-2. 라벨 인코딩(Label Encoding)
* 문자(Categorycal)를 수치(Numerical)로 변환.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
# 성별의 종류: male, female만 있음
df['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [None]:
# male은 1, female은 0으로 변환
def convert_sex(data):
  if data == 'male':
    return 1
  elif data == 'female':
    return 0

In [None]:
df['Sex'] = df['Sex'].apply(convert_sex)

In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,,S


In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
# LabelEncoder()를 le로 줌
le = LabelEncoder()

In [None]:
# 항구의 종류: S, C, Q만 있음
df['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [None]:
# embarked를 숫자로 인코딩 한 내용.
le.fit_transform(df['Embarked'])

array([2, 0, 2, 2, 2, 1, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2, 2,
       1, 2, 2, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0,
       1, 2, 1, 1, 0, 2, 2, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 3, 2, 2, 0, 0,
       2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1,
       2, 0, 2, 2, 0, 2, 1, 2, 0, 2, 2, 2, 0, 2, 2, 0, 1, 2, 0, 2, 0, 2,
       2, 2, 2, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 0, 2,
       2, 0, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 2, 0, 2, 2, 2, 0, 1, 0, 2, 2, 2, 2, 1, 0, 2, 2, 0, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1,
       2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 1, 2, 2, 2,
       1, 2, 2, 2, 2, 2, 2, 2, 2, 0, 1, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 0,
       2, 2, 2, 1, 2, 0, 0, 2, 2, 0, 0, 2, 2, 0, 1,

In [None]:
# C, Q, S, nan이 각각 0, 1, 2, 3임을 알려줌.
le.classes_

array(['C', 'Q', 'S', nan], dtype=object)

###2-3. 원 핫 인코딩(One Hot Encoding)
* 독립적인 데이터는 별도의 컬럼으로 분리하고 각각 컬럼의 해당 값에만 1, 나머지는 0을 갖게 하는 컬럼.
* 예) 머신러닝 알고리즘은'C:0', 'Q:1', 'S:2', 'NaN:3' 등과 같이 데이터의 관계성을 찾아 'Q+Q=S'라고 학습을 할 수 있음. → 이러한 내용의 관계성을 끊어주기 위한 목적으로 사용.

In [None]:
# 맨 끝부분에 Embarked_num이라는 라벨 인코딩이 삽입됨.
df['Embarked_num'] = LabelEncoder().fit_transform(df['Embarked'])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Embarked_num
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,,S,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,,S,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,S,2
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,,S,2


In [None]:
pd.get_dummies(df['Embarked_num'])

Unnamed: 0,0,1,2,3
0,0,0,1,0
1,1,0,0,0
2,0,0,1,0
3,0,0,1,0
4,0,0,1,0
...,...,...,...,...
886,0,0,1,0
887,0,0,1,0
888,0,0,1,0
889,1,0,0,0


###2-4. 독립변수와 종속변수 나누기

In [35]:
feature = ['Sex', 'Fare', 'Age', 'Pclass'] # 독립변수
label = ['Survived'] # 종속변수

In [36]:
df[feature].head()

Unnamed: 0,Sex,Fare,Age,Pclass
0,1,7.25,22.0,3
1,0,71.2833,38.0,1
2,0,7.925,26.0,3
3,0,53.1,35.0,1
4,1,8.05,35.0,3


In [37]:
df[label].head()

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0


In [38]:
df[label].value_counts()

Survived
0           549
1           342
dtype: int64

In [39]:
# 학습데이터와 검증데이터를 분할 (넣기 직전의 분할이므로 전처리과정은 이전에 모두 마쳐야 함.)
# 학습데이터(80%), 검증데이터(20%)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df[feature], df[label], test_size=0.2, random_state=10)
# X: 대문자. 관례상 매트릭스형태. y: 소문자. 관례상 스칼라형태. 단일값.

In [40]:
X_train.shape, y_train.shape

((712, 4), (712, 1))

In [41]:
X_test.shape, y_test.shape

((179, 4), (179, 1))