In [None]:
import os
print(os.getcwd()) #현재 작업 경로를 얻는 함수

In [None]:
import pandas as pd
train = pd.read_csv("./train.csv")
test = pd.read_csv("./test.csv")
submission = pd.read_csv("./submission.csv")

In [None]:
print(train.head())
print(train.shape)
print(test.shape)


In [None]:
train.columns

In [None]:
print(test.info())

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
#Seaborn은 Matplotlib을 기반으로 다양한 색상 테마와
#통계용 차트 등의 기능을 추가한 시각화 패키지
sns.set() # plot을 default하기 위한 seaborn 세팅 

In [None]:
def pie_chart(feature):
    f_ratio = train[feature].value_counts(sort=False)
    f_size = f_ratio.size
    f_index = f_ratio.index
    survived = train[train['Survived']==1][feature].value_counts()
    dead = train[train['Survived']==0][feature].value_counts()
    #feature 값이 들어옴에 따라서 각각의 특성들이 변수들에 저장
    
    plt.plot(aspect='auto')
    plt.pie(f_ratio, labels=f_index, autopct='%1.1f%%')
    plt.title(feature + '\'s ratio in total')
    plt.show()

    for i, index in enumerate(f_index):
        plt.subplot(1,f_size +1, i+1, aspect='equal')
        #aspect : 그래프의 눈금 스케일 설정 디폴트는 auto
        #subplot 여러개의 그래프를 하나의 그림에 나타냄
        plt.pie([survived[index], dead[index]], labels=['Survived','Dead'], autopct='%1.1f%%')
        #pie(차트의 survive, dead 비율, 레이블, 차트안에 표시될 숫자 형식)
        #소수점 한자리까지 표시
        plt.title(str(index)+'\'s ratio') # 그래프 제목
        plt.show()

In [None]:
pie_chart("Sex")

In [None]:
pie_chart("Pclass")

In [None]:
pie_chart("Embarked")

In [None]:
def bar_chart(feature):
    survived = train[train['Survived']==1][feature].value_counts()
    dead = train[train['Survived']==0][feature].value_counts()
    df = pd.DataFrame([survived,dead])
    #Dataframe : 행/열,Series(열에 있는 데이터들)로 구성
    #pd.DataFrame(data, index, colums, dtype, copy) data 빼고 전부 옵션
    df.index = ['Survived', 'Dead']
    df.plot(kind = 'bar', stacked=True, figsize=(10,5))

In [None]:
bar_chart("SibSp")

In [None]:
bar_chart('Parch')

In [None]:
#데이터 묶음
train_and_test = [train,test]

In [None]:
for dataset in train_and_test:
    dataset['Title'] = dataset.Name.str.extract('([A-Za-z]+)\.')
    #([A-Za-z]+). 정규표현식으로 공백으로 시작하고 .으로 끝나는 문자열 추출
train.head(5)

In [None]:
pd.crosstab(train['Title'], train['Sex'])
#추출한 title을 가진 사람을 성별과 함께 표현

In [None]:
for dataset in train_and_test:
    dataset['Title'] = dataset['Title'].replace(['Capt', 'Col', 'Countess', 'Don','Dona', 'Dr', 'Jonkheer', \
                                                'Lady','Major', 'Rev', 'Sir'], 'Other')
    dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')
    dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')

train[['Title', 'Survived']].groupby(['Title'], as_index=False).mean()

In [None]:
for dataset in train_and_test:
    dataset['Title'] = dataset['Title'].astype(str)
    #DataFrame의 series를 string으로 바꾸는 astype(str) 함수

In [None]:
for dataset in train_and_test:
    dataset['Embarked'] = dataset['Embarked'].fillna('S')
    dataset['Embarked'] = dataset['Embarked'].astype(str)

In [None]:
for dataset in train_and_test:
    dataset['Age'].fillna(dataset['Age'].mean(), inplace=True)
    #fillna : pandas 함수, NaN과 같은 결측값을 채운다.
    #inplace 옵션이 True이면,  명령어를 실행 한 후 메소드가 적용된 데이터 프레임으로 반환 한다.
    dataset['Age'] = dataset['Age'].astype(int)
    train['AgeBand'] = pd.cut(train['Age'],5)
    #pd.cut 같은 길이의 구간 5개를 만듦
print(train[['AgeBand', 'Survived']].groupby(['AgeBand'], as_index=False).mean())
#Binning : 여러 종료의 데이터에 대해 범위를 지정
# 카테고리를 통해 이전보다 작은 수의 그룹으로 만드는 기법

In [None]:
for dataset in train_and_test:
    dataset.loc[dataset['Age'] <=16, 'Age'] =0
    #loc를 이용해서 행 또는 열의 데이터를 조회 '[]' 사용
    #배열 형태 return시 DataFrame 형태로 출력
    dataset.loc[dataset['Age'] >16 & (dataset['Age'] <=32), 'Age']=1
    dataset.loc[dataset['Age'] >32 & (dataset['Age'] <=48), 'Age']=2
    dataset.loc[dataset['Age'] >48 & (dataset['Age'] <=64), 'Age']=3
    dataset.loc[dataset['Age'] >64, 'Age'] =4
    dataset['Age'] = dataset['Age'].map({0:'Child', 1: 'Young', 2: 'Middle', 3: 'Prime', 4 : 'Old'}).astype(str)
    #Age 값을 구간에 맞추어 소속시킴


In [None]:
print (train[['Pclass', 'Fare']].groupby(['Pclass'], as_index=False).mean())
#groupby 같은 값을 하나로 묶어 집계 결과를 얻음 
#groupby 사용시 기본으로 그룹 라벨이 index가 됨
#as_index = False : index 사용하지 않음 .mean() 평균값을 얻음
print("")
print(test[test["Fare"].isnull()]["Pclass"])

In [None]:
for dataset in train_and_test:
    dataset['Fare'] = dataset['Fare'].fillna(13.675)
    #Fare에 존재하는 NaN값을 Pclass 3의 값인 13.675로 넣어줌


In [None]:
for dataset in train_and_test:   
        dataset.loc[ dataset['Fare'] <= 7.854, 'Fare'] = 0
        dataset.loc[(dataset['Fare'] > 7.854) & (dataset['Fare'] <= 10.5), 'Fare'] = 1
        dataset.loc[(dataset['Fare'] > 10.5) & (dataset['Fare'] <= 21.679), 'Fare']   = 2
        dataset.loc[(dataset['Fare'] > 21.679) & (dataset['Fare'] <= 39.688), 'Fare']   = 3
        dataset.loc[ dataset['Fare'] > 39.688, 'Fare'] = 4
        dataset['Fare'] = dataset['Fare'].astype(int)
        #binning

In [None]:
for dataset in train_and_test:
    dataset["Family"] = dataset["Parch"] + dataset["SibSp"]
    dataset["Family"] = dataset["Family"].astype(int)


In [None]:
features_drop = ['Name', 'Ticket', 'Cabin', 'SibSp', 'Parch']
train = train.drop(features_drop, axis=1)
test = test.drop(features_drop, axis=1)
train = train.drop(['PassengerId', 'AgeBand'], axis=1)

print(train.head())
print(test.head())

In [None]:
# One-hot-encoding for categorical variables
train = pd.get_dummies(train)
test = pd.get_dummies(test)

train_label = train['Survived']
train_data = train.drop('Survived', axis=1)
test_data = test.drop("PassengerId", axis=1).copy()

In [None]:
# 모델 사용을 위한 scikit-learn 라이브리러리를 불러온다.
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.utils import shuffle

In [None]:
train_data, train_label = shuffle(train_data, train_label, random_state = 5)

In [None]:
def train_and_test(model):
    model.fit(train_data, train_label)
    #fit : 모델을 학습함
    prediction = model.predict(test_data)
    accuracy = round(model.score(train_data, train_label)*100,2)
    print("Accuracy : {}".format(accuracy))
    return prediction

In [None]:
# Logistic Regression
log_pred = train_and_test(LogisticRegression())
# SVM
svm_pred = train_and_test(SVC())
#kNN
knn_pred_4 = train_and_test(KNeighborsClassifier(n_neighbors = 4))
# Random Forest
rf_pred = train_and_test(RandomForestClassifier(n_estimators=100))
# Navie Bayes
nb_pred = train_and_test(GaussianNB())