# 데이터 설명

* survival은 생존여부를 나타냅니다
* pclass은 티켓이 몇등석인지를 나타냅니다
* sex는 성별을 나타냅니다
* Age는 나이를 나타냅니다
* sibsp은 동행자 중 형제, 배우자의 수를 합한 값을 나타냅니다
* parch는 동행자 중 부모님과 아이들의 수를 나타냅니다
* ticket은 티켓번호를 나타냅니다
* fare는 티켓 가격을 나타냅니다
* cabin은 선실번호를 나타냅니다
* embarked는 탑승한 항구를 나타냅니다

# 라이브러리 import

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

# 데이터 로드(csv 파일)
데이터를 로드하고 들여다 볼 수 있는 방법을 정리하였습니다

In [None]:
train = pd.read_csv("../input/titanic/train.csv")
test = pd.read_csv("../input/titanic/test.csv")
gender_submission = pd.read_csv("../input/titanic/gender_submission.csv")

#pd.read_csv는 csv파일을 pandas dataframe형식으로 바꾸어 데이터를 다루기 쉽게 합니다.

In [None]:
test.describe(include="all")

#dataframe형의 자료는 describe를 사용하여 count(전체 값의 개수), unique(값의 종류의 개수), mean(값의 평균) 등의 정보를 볼 수 있습니다.

In [None]:
train.head(10)
#.head()를 사용하면 데이터를 처음부터 지정한 곳까지 볼 수 있습니다.

In [None]:
gender_submission
#제출해야하는 submission의 양식을 보여줍니다.

In [None]:
train.columns
#이름, 성별, 나이 등 데이터에 각 값이 무엇을 의미하는지 확인 할 수 있습니다.

In [None]:
train.sample(10)
#.head()와 달리 random하게 자료를 볼 수 있습니다.

# 데이터 시각화
가장 기본적인 barplot을 이용하여 데이터를 시각화 하는 방법을 알고 feature간의 연관관계를 유추 할 수 있도록 하였습니다

In [None]:
train.Sex
#dataframe후에 .(feature명)을 이용하면 그 feature가 어떠한 값을 가지고 있는지 확인 할 수 있습니다.

In [None]:
train["Sex"]
#dataframe후에 대괄호 안에feature를 입력하여도 그 feature가 어떠한 값을 가지고 있는지 확인 할 수 있습니다.

In [None]:
sns.barplot(x="Sex", y="Survived",data=train)
#성별과 생존율의 상관관계를 유추해본다면 여자의 생존율이 더 높다는 것을 알 수 있습니다.

In [None]:
sns.barplot(x="Pclass",y="Survived",data=train)
#1등석의 손님일수록 생존률이 높다는 것을 유추해 볼 수 있습니다.

In [None]:
sns.barplot(x="Name",y="Survived",data=train)
#이름과 같이 값의 종류가 너무 다양하다면 feature의 특징을 찾기가 힘듭니다.

In [None]:
sns.barplot(x="Age",y="Survived",data=train)
#나이도 다양하지만 구간별로 값을 합하여 볼 수도 있습니다.

In [None]:
sns.barplot(x="SibSp",y="Survived",data=train)
#동행한 배우자나 형제의 수가 적을수록 생존률이 높았습니다.

In [None]:
sns.barplot(x="Parch",y="Survived",data=train)
#동행한 부모님이나 어린아이의 수가 많았을 때 생존률이 낮았습니다.

In [None]:
sns.barplot(x="Ticket",y="Survived",data=train)
#티켓넘버는 생존과의 관계를 찾기가 힘듭니다.

In [None]:
sns.barplot(x="Fare",y="Survived",data=train)
#요금도 값이 다양하여 특징을 찾기 힘듭니다.

In [None]:
sns.barplot(x="Cabin",y="Survived",data=train)
#cabin은 객실 번호입니다 티켓 넘버와 비슷하게 값이 너무 많습니다.

In [None]:
sns.barplot(x="Embarked",y="Survived",data=train)
#승선한 위치를 살펴보면 Cherbourg에서 탑승한 사람들의 생존률이 가장 높고 Queenstown, Southampton순으로 생존률이 높습니다.

In [None]:
train["Age"].isnull()
#feature에 isnull을 적용하면 값이 null인지 여부를 true로 반환해줍니다.

In [None]:
train["Age"].isnull().sum()
#sum을 적용한다면 1로 return된 값을 합산하여 null값의 수를 알 수 있습니다.

In [None]:
train["Age"].hist()
#histogram으로 값을 표현 할 수도 있습니다.

In [None]:
train["Age"]= train["Age"].fillna(-0.5)
test["Age"]= test["Age"].fillna(-0.5)
bins = [-1,0,5,12,18,24,35,60,np.inf]
labels=["Unknown","Baby","Child","Teenager","Student","Young Adult","Adult","Senior"]
train["AgeGroup"]=pd.cut(train["Age"],bins,labels=labels)
test["AgeGroup"]=pd.cut(train["Age"],bins,labels=labels)
sns.barplot(x="AgeGroup",y="Survived",data=train)
plt.show

#아까 이야기 하였듯이 나이의 구간별로 label을 설정하여 pd.cut이라는 함수로 새로운 feature를 생성 할 수 있습니다.
#fillna 함수를 사용하면 null값을 임의의 값으로 채울 수 있습니다.
#null값은 평균값, 최빈값, 임의의 값 등으로 설정할 수 있습니다.

In [None]:
train["Cabin"].isnull().sum()
#cabin feature의 null값은 687개가 있습니다.

In [None]:
train["Cabin"]
#실제로 값을 확인 할 수 있습니다

In [None]:
train["CabinBool"]=train["Cabin"].notnull().astype("int")
test["CabinBool"]=test["Cabin"].notnull().astype("int")
sns.barplot(x="CabinBool",y="Survived",data=train)
#nan 값을 0으로 치환하여 객실이 표시된 것과 생존률과의 관계를 시각화 할 수 있습니다.

In [None]:
test.describe(include="all")
#test값을 describe를 활용하여 봅니다.

In [None]:
train=train.drop(["Cabin"],axis=1)
test=test.drop(["Cabin"],axis=1)
#drop을 사용하여 특정 feature를 dataframe에서 제외 할 수 있습니다.

In [None]:
train=train.drop(["Ticket"],axis=1)
test=test.drop(["Ticket"],axis=1)
#drop을 사용하여 특정 feature를 dataframe에서 제외 할 수 있습니다.

In [None]:
train.Embarked.hist()
#Southampton에서 탑승한 손님이 가장 많은 것을 알 수 있습니다.

In [None]:
train=train.fillna({"Embarked":"S"})
#최빈값을 이용하여 null값을 채웁니다.

In [None]:
train.isnull().sum()
#null값이 없는 것을 확인 할 수 있습니다.

In [None]:
train=train.drop(["Name"],axis=1)
test=test.drop(["Name"],axis=1)
#이름은 생존과 큰 관련이 없다고 판단하여 drop합니다.

In [None]:
train=train.drop(["Age"],axis=1)
test=test.drop(["Age"],axis=1)
#나이는 구간별로 설정한 AgeGroup이 있기 때문에 drop합니다

In [None]:
age_group_mapping={"Unknown":0,"Baby":1,"Child":2,"Teenager":3,"Student":4,"Young Adult":5,"Adult":6,"Senior":7}
#string값이나 문자열 값은 인공지능이 학습하기 어렵기 때문에 값을 숫자로 치환합니다.

In [None]:
train["AgeGroup"]=train["AgeGroup"].map(age_group_mapping)
test["AgeGroup"]=test["AgeGroup"].map(age_group_mapping)
#map을 이용하여 dictionary형태를 따라 적용합니다

In [None]:
sex_group_mapping={"male":0,"female":1}
train["Sex"]=train["Sex"].map(sex_group_mapping)
test["Sex"]=test["Sex"].map(sex_group_mapping)
#string값이나 문자열 값은 인공지능이 학습하기 어렵기 때문에 값을 숫자로 치환합니다.

In [None]:
embarked_group_mapping={"S":1,"C":2,"Q":3}
train["Embarked"]=train["Embarked"].map(embarked_group_mapping)
test["Embarked"]=test["Embarked"].map(embarked_group_mapping)
##string값이나 문자열 값은 인공지능이 학습하기 어렵기 때문에 값을 숫자로 치환합니다.

In [None]:
test.isnull().sum()
#null값을 채워야 합니다.

In [None]:
test["Fare"]=test.Fare.fillna(test.Fare.mean())
#test dataframe의 fare feature를 평균값으로 채워넣습니다.

In [None]:
test.isnull().sum()
#null값이 없어진 것을 확인 할 수 있습니다.

In [None]:
from sklearn.model_selection import train_test_split
predictors = train.drop(["Survived","PassengerId"], axis=1)
target = train["Survived"]
x_train,x_val,y_train,y_val = train_test_split(predictors,target,test_size=0.2,random_state=0)
#train set과 valid set을 분류합니다.
#장점으로는 overfitting 유무를 판단할 수 있도록 합니다.

# feature들을 가지고 모델에 적용해보기
sklearn을 이용하여 모델을 불러오고 그 모델에 feature를 적용해봅니다.

fit과 pred, 정확도 출력의 과정으로 진행됩니다

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

gaussian = GaussianNB()
gaussian.fit(x_train, y_train)
y_pred=gaussian.predict(x_val)
acc_gaussian=round(accuracy_score(y_pred,y_val)*100,2)
print(acc_gaussian)

#GaussianNB라는 모델을 사용합니다.

In [None]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()
logreg.fit(x_train, y_train)
y_pred=logreg.predict(x_val)
acc_logreg=round(accuracy_score(y_pred,y_val)*100,2)
print(acc_logreg)

#LogisticRegression이라는 모델을 사용합니다.

In [None]:
from sklearn.linear_model import Perceptron

perceptron = Perceptron()
perceptron.fit(x_train, y_train)
y_pred=perceptron.predict(x_val)
acc_perceptron=round(accuracy_score(y_pred,y_val)*100,2)
print(acc_perceptron)

#Perceptron이라는 모델을 사용합니다.

In [None]:
from sklearn.svm import SVC

svc = SVC()
svc.fit(x_train, y_train)
y_pred=svc.predict(x_val)
acc_svc=round(accuracy_score(y_pred,y_val)*100,2)
print(acc_svc)

#support vector machine의 분류버전 모델을 사용합니다.

In [None]:
from sklearn.ensemble import RandomForestClassifier

rforest = RandomForestClassifier()
rforest.fit(x_train, y_train)
y_pred=rforest.predict(x_val)
acc_rforest=round(accuracy_score(y_pred,y_val)*100,2)
print(acc_rforest)

#RandomForestClassifier모델을 사용합니다.

# submission 생성

In [None]:
ids = test["PassengerId"]
preds = rforest.predict(test.drop('PassengerId', axis=1))
#passengerid를 예측값으로 치환합니다

In [None]:
output = pd.DataFrame({"PassengerId":ids, "Survived":preds})
output.to_csv("submission.csv", index=False)
#dataframe을 csv형식으로 바꾸면 submission 생성이 완료됩니다.