1. 라이브러리 불러오기
    - 우선 코드를 작성하기에 앞서 기초적으로 필요한 라이브러리를 불러옵니다.

In [51]:
# 필요한 라이브러리를 우선 불러옵니다.

## 데이터 분석 관련
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 데이터 시각화 관련
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid') # matplotlib의 스타일에 관련한 함
## 그래프 출력에 필요한 IPython 명령어
%matplotlib inline 

## Scikit-Learn의 다양한 머신러닝 모듈을 불러옵니다.
## 분류 알고리즘 중에서 선형회귀, 서포트벡터머신, 랜덤포레스트, K-최근접이웃 알고리즘을 사용해보려고 합니다.
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

2. 데이터 읽기
    - Kaggle 또는 데이터 분석에서 가장 많이 사용되는 파일 형식은 CSN 파일입니다.
    코드로 데이터를 읽는 방법은 다양한 방법이 있지만, 그 중에서도 가장 유용한 것은 pd.read_csv로 읽는 방법입니다.

In [52]:
# 데이터를 우선 가져와야합니다.
train_df = pd.read_csv("C:/Users/1/python/titanic/train.csv")
test_df = pd.read_csv("C:/Users/1/python/titanic/test.csv")

In [53]:
#데이터 미리보기
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


위의 정보에서 번호는 큰 의미를 가지지 않고, 이름과 티겟의 경우에는 불규칙성이 많아 처리하기 어려울 것 같습니다. 데이터의 정보는 info 메서드로 확인할 수 있습니다. 훈련 데이터와 테스트 데이터를 확인해보도록 하겠습니다. 

In [54]:
train_df.info()
print('-'*20)
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
--------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    

위 결과에서 각각의 데이터 개수는 891개, 418개인 것을 확인할 수 있습니다. 특성은 각각 12개, 11개 입니다. 그 이유는 
훈련 데이터는 생존 여부를 알고 있기 때문입니다.

여기서 주의깊게 봐야할 부분은 다음과 같습니다.

- 각 데이터는 빈 부분이 있는가?
    - 빈 부분이 있다면, Drop할 것 인가 아니면 Default값으로 채워넣을 것인가
    - Cabin, Age, Embarked 세 항목에 주의
- 데이터는 Float64로 변환할 수 있는가
    - 아니라면 범주형 데이터로 만들 수 있는가
    
필요없는 부분이라고 생각되는 부분을 지웁니다. 여기서는 PassengerID와 이름, 티켓을 지웁니다. 이름과 티켓에서 가져올 수 있는 
데이터는 없기 때문입니다. 하지만 이 문제에서 결과물은 'PassengerID', 'Survived' 요소가 필요하므로 훈련 데이터에서만 
삭제합니다. 

In [55]:
train_df = train_df.drop(['PassengerId', 'Name', 'Ticket'], axis=1)
test_df = test_df.drop(['Name', 'Ticket'], axis=1)

axis = 0 (index) ->> 행 방향으로 동작합니다., 작업 결과가 행으로 나타납니다.. 책을 위로 쌓아 정리하는 것과 같습니다.

axis = 1 (columns) ->> 열 방향으로 동작합니다., 작업 결과가 열으로 나타납니다.. 책을 옆으로 쌓아 정리하는 것과 같습니다.

3. 데이터 하나하나 처리하기
 이제 남은 데이터의 종류는 다음과 같습니다.
 1. Pclass
 2. Sex
 3. Age
 4. SibSp
 5. Parch
 6. Fare
 7. Cabin
 8. Embarked
 
 이제 순서대로 보도록 하겠습니다.

3.1 Pclass

Pclass는 서수형 데이터입니다.1등석, 2등석, 3등석과 같은 정보입니다. 처음에 확인시에 데이터가 비어있지 않은 것을 확인할 수
있었습니다.

데이터에 대한 확인과 데이터를 반환해보도록 하겠습니다. 우선 각 Unique한 Value에 대한 카운팅은 Value_counts() 메서드로 확인할
수 있습니다.

In [56]:
train_df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

1,2,3 은 정수이니, 그냥 실수로만 바꾸면 되지않을까 생각할 수 있습니다. 하지만 1, 2, 3 등급은 경우에 따라 다를 수 있지만
연속적인 정보가 아니며, 각 차이 또한 균등하지 않습니다. 그렇기에 범주형(카테고리) 데이터로 인식하고 인코딩해야 합니다.
(비슷한 예시로 영화 별점 등이 있습니다.)

이 데이터는 범주형 데이터 이므로 one-hot-encoding을 pd.get_dummies() 메서드로 인코딩합시다.

In [57]:
pclass_train_dummies = pd.get_dummies(train_df['Pclass'])
pclass_test_dummies = pd.get_dummies(test_df['Pclass'])

In [58]:
train_df.drop(['Pclass'], axis=1,inplace = True)
test_df.drop(['Pclass'], axis=1, inplace = True)

In [59]:
train_df = train_df.join(pclass_train_dummies)
test_df = test_df.join(pclass_test_dummies)

이렇게 Pclass의 원본을 없애고, 범주형으로 개별로 데이터가 변환되었습니다.
* 여기서 살짝 실수한게 columns의 이름을 설정하고, 넣어줘야하는데 안그래서 1,2,3 이라는 컬럼으로 데이터가 들어갔습니다.
    다른 데이터에서는 이런 적용을 피하도록 합시다.

3.2 Sex

Sex는 성별입니다. 남과 여로 나뉘므로 이 또한 one-hot-encoding을 진행해봅시다.

원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다. 이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 합니다.

원-핫 인코딩을 두 가지 과정으로 정리해보겠습니다.

(1) 각 단어에 고유한 인덱스를 부여합니다. (정수 인코딩)

(2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여합니다.

In [60]:
sex_train_dummies = pd.get_dummies(train_df['Sex'])
sex_test_dummies = pd.get_dummies(test_df['Sex'])

sex_train_dummies.columns = ['Female', 'Male']
sex_test_dummies.columns = ['Female', 'Male']

train_df.drop(['Sex'], axis=1,inplace = True)
test_df.drop(['Sex'], axis=1, inplace = True)

train_df = train_df.join(sex_train_dummies)
test_df = test_df.join(sex_test_dummies)

3.3 Age

나이는 연속형 데이터이므로, 큰 처리가 필요없습니다. (카테고리화를 하여 일부 알고리즘에 더 유용한 결과를 만들 수 있습니다.)
하지만 일부 NaN 데이터가 있으니 이를 채울 수 있는 방법에 대해서 생각해봅시다.

1. 랜덤
2. 평균값
3. 중간값
4. 데이터 버리기

저는 일단은 평균값으로 채우도록 하겠습니다. 데이터의 통일성을 가지기 위해 train 데이터셋의 평균값으로 훈련, 테스트 데이터셋을 채우겠습니다.

In [61]:
train_df["Age"].fillna(train_df["Age"].mean() , inplace=True)
test_df["Age"].fillna(train_df["Age"].mean() , inplace=True)

3.4 SibSP & Panch

형제 자매와 부모님은 가족으로 함께 처리할 수 있습니다. 하지만 마찬가지로 바꿀 필요는 없습니다.

3.5 Fare

Fare은 탑승료입니다. 신기하게 test 데이터셋에 1개의 데이터가 비어있습니다. 아마 디카프리오인듯 합니다. :-) 우선 빈 부분을 
fillna 메서드로 채우겠습니다.

저는 데이터 누락이 아닌 무단 탑승이라 생각하고 0으로 입력하겠습니다.

In [62]:
test_df["Fare"].fillna(0, inplace = True)

3.6 Cabin

Cabin은 객실입니다. NaN이 대부분인 데이터이므로 버립시다. 이 데이터를 살리는 것은 너무 어려운 일입니다.

In [63]:
train_df = train_df.drop(['Cabin'], axis=1)
test_df = test_df.drop(['Cabin'], axis=1)

3.7 Embarked

Embarked는 탑승 항구를 의미합니다. 우선 데이터를 확인해보겠습니다.

In [64]:
train_df['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [65]:
test_df['Embarked'].value_counts()

S    270
C    102
Q     46
Name: Embarked, dtype: int64

S가 대다수이고 일부 데이터가 비어있는 것을 알 수 있습니다. 빈 부분은 S로 우선 채우고 시작합니다.

In [66]:
train_df["Embarked"].fillna('S' , inplace = True)
test_df["Embarked"].fillna('S' , inplace = True)

In [67]:
embarked_train_dummies = pd.get_dummies(train_df['Embarked'])
embarked_test_dummies = pd.get_dummies(test_df['Embarked'])

embarked_train_dummies.columns = ['S', 'C', 'Q']
embarked_test_dummies.columns = ['S', 'C', 'Q']

train_df.drop(['Embarked'], axis=1, inplace=True)
test_df.drop(['Embarked'], axis=1, inplace=True)

train_df = train_df.join(embarked_train_dummies)
test_df = test_df.join(embarked_test_dummies)

4. 데이터 나누기

이제 학습용 데이터를 위해 데이터를 나누어야합니다.

(정보, 생존 여부) 와 같은 형태를 위하여 다음과 같이 데이터를 나눕니다.

In [68]:
X_train = train_df.drop("Survived", axis=1)
Y_train = train_df["Survived"]
X_test = test_df.drop("PassengerId", axis=1).copy()

In [69]:
X_train.info

<bound method DataFrame.info of            Age  SibSp  Parch     Fare  1  2  3  Female  Male  S  C  Q
0    22.000000      1      0   7.2500  0  0  1       0     1  0  0  1
1    38.000000      1      0  71.2833  1  0  0       1     0  1  0  0
2    26.000000      0      0   7.9250  0  0  1       1     0  0  0  1
3    35.000000      1      0  53.1000  1  0  0       1     0  0  0  1
4    35.000000      0      0   8.0500  0  0  1       0     1  0  0  1
..         ...    ...    ...      ... .. .. ..     ...   ... .. .. ..
886  27.000000      0      0  13.0000  0  1  0       0     1  0  0  1
887  19.000000      0      0  30.0000  1  0  0       1     0  0  0  1
888  29.699118      1      2  23.4500  0  0  1       1     0  0  0  1
889  26.000000      0      0  30.0000  1  0  0       0     1  1  0  0
890  32.000000      0      0   7.7500  0  0  1       0     1  0  1  0

[891 rows x 12 columns]>

5. 머신러닝 알고리즘 적용하기

이제 로지스틱 회귀, SVC, 랜덤포레스트,  K-최근접 이웃 알고리즘을 각각 적용해봅시다.

In [70]:
# Logistic Regression

logreg = LogisticRegression()
logreg.fit(X_train, Y_train)

Y_pred = logreg.predict(X_test)

logreg.score(X_train, Y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.8047138047138047

In [71]:
#Support Vector Machines

svc = SVC()

svc.fit(X_train, Y_train)

Y_pred = svc.predict(X_test)

svc.score(X_train, Y_train)

0.6868686868686869

In [72]:
#Random Forests

random_forest = RandomForestClassifier(n_estimators=100)

random_forest.fit(X_train, Y_train)

Y_pred = random_forest.predict(X_test)

random_forest.score(X_train, Y_train)

0.9820426487093153

In [74]:
knn = KNeighborsClassifier(n_neighbors = 3)

knn.fit(X_train, Y_train)

Y_pred = knn.predict(X_test)

knn.score(X_train, Y_train)

0.835016835016835

6. 제출용 파일 만들기

랜덤 포레스트가 가장 좋은 결과를 내는 것을 알 수 있습니다. 그 결과로 Submission 파일을 만들어 제출해 봅시다

In [75]:
# Random Forests

random_forest = RandomForestClassifier(n_estimators=100)
random_forest.fit(X_train, Y_train)
Y_pred = random_forest.predict(X_test)
random_forest.score(X_train, Y_train)

submission = pd.DataFrame({
    "PassengerId" : test_df["PassengerId"],
    "Survived" : Y_pred
})

In [76]:
submission.to_csv('titanic.csv', index = False)