In [1]:
import numpy as np
import pandas as pd
from pandas import Series
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn')
sns.set(font_scale=2.5)

import plotly.offline as py
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.tools as tls

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

df_train = pd.read_csv('../input/titanic/train.csv')
df_test = pd.read_csv('../input/titanic/test.csv')
df_train['FamilySize'] = df_train['SibSp'] + df_train['Parch'] + 1
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1

df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean()

df_train['Fare'] = df_train['Fare'].map(lambda i: np.log(i) if i > 0 else 0)
df_test['Fare'] = df_test['Fare'].map(lambda i : np.log(i) if i > 0 else 0)

### numpy

Numpy(보통 "넘파이"라고 발음)는 수치 해석용 Python 패키지이다.

다차원의 행렬 자료구조인 ndarray를 지원하여 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용된다.

### pandas

판다스(pandas)는 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 소프트웨어 라이브러리

### from 모듈 import 메소드/변수

해당 모듈 내에 있는 특정 메소드나 모듈 내 정의된 변수를 가져온다.

가져온 메소드나 변수를 앞에 모듈명을 붙이지 않고 그대로 사용할 수 있다.

다만, 이름이 같은 변수나 메소드가 존재할 경우 대체된다.

- from 모듈 import * 는 ipmort 모듈 과 동일하다.

### plotly

Python으로 시각화를 할 수 있는 무료 오픈소스 그래프 라이브러리

### seaborn.set()

seaborn 플롯의 테마 및 구성을 제어하는데 사용

In [2]:
df_train['Initial'] = df_train.Name.str.extract('([A-Za-z]+)\.')
df_test['Initial'] = df_test.Name.str.extract('([A-Za-z]+)\.')

### extract()

배열 속의 키값을 변수화 시켜주는 함수

In [3]:
pd.crosstab(df_train['Initial'], df_train['Sex']).T.style.background_gradient(cmap='summer_r')

In [4]:
df_train['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don','Dona'],['Miss', 'Miss', 'Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr','Mr'],inplace=True)
df_test['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don','Dona'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr','Mr'],inplace=True)


### replace()

문자열을 변경하는 함수

In [5]:
df_train.groupby('Initial').mean()

### groupby

- 같은 값을 하나로 묶어 통계 또는 집계 결과를 얻기 위해 사용하는 것
- 조건부로 집계하고 싶은 경우 활용
- 평균값을 구해주는 메서드로 **mean**을 사용

In [6]:
df_train.groupby('Initial')['Survived'].mean().plot.bar()

In [7]:
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mr'),'Age'] = 33
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mrs'),'Age'] = 36
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Master'),'Age'] = 5
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Miss'),'Age'] = 22
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Other'),'Age'] = 46

df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Mr'),'Age'] = 33
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Mrs'),'Age'] = 36
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Master'),'Age'] = 5
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Miss'),'Age'] = 22
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Other'),'Age'] = 46

### isnull()

각 원소의 Nan 값 여부가 표시된다

In [8]:
print('Embarked has',sum(df_train['Embarked'].isnull()),'Null values')

In [9]:
df_train['Embarked'].fillna('S',inplace=True)

### fillna()

DataFrame에서 결측값을 원하는 값으로 변경하는 메서드
결측값: 지정한 데이터 값을 사용자 결측값으로 정의

### inplace = True/False

- True → 명령어를 실행 한 후 메소드가 적용된 데이터 프레임으로 반환 한다. 즉, 삭제 메소드를 실행했다면 반환값은 컬럼이 삭제된 Dataframe이 된다.
- False → 명령어를 실행 한 후 메소드가 적용된 데이터 프레임을 기존 데이터 프레임으로 대체하겠다는 뜻

In [10]:
df_train['Age_cat'] = 0
df_train.loc[df_train['Age'] < 10, 'Age_cat'] = 0
df_train.loc[(10 <= df_train['Age']) & (df_train['Age'] < 20), 'Age_cat'] = 1
df_train.loc[(20 <= df_train['Age']) & (df_train['Age'] < 30), 'Age_cat'] = 2
df_train.loc[(30 <= df_train['Age']) & (df_train['Age'] < 40), 'Age_cat'] = 3
df_train.loc[(40 <= df_train['Age']) & (df_train['Age'] < 50), 'Age_cat'] = 4
df_train.loc[(50 <= df_train['Age']) & (df_train['Age'] < 60), 'Age_cat'] = 5
df_train.loc[(60 <= df_train['Age']) & (df_train['Age'] < 70), 'Age_cat'] = 6
df_train.loc[70 <= df_train['Age'], 'Age_cat'] = 7
              
df_test['Age_cat'] = 0
df_test.loc[df_test['Age'] < 10, 'Age_cat'] = 0
df_test.loc[(10 <= df_test['Age']) & (df_test['Age'] < 20), 'Age_cat'] = 1
df_test.loc[(20 <= df_test['Age']) & (df_test['Age'] < 30), 'Age_cat'] = 2
df_test.loc[(30 <= df_test['Age']) & (df_test['Age'] < 40), 'Age_cat'] = 3
df_test.loc[(40 <= df_test['Age']) & (df_test['Age'] < 50), 'Age_cat'] = 4
df_test.loc[(50 <= df_test['Age']) & (df_test['Age'] < 60), 'Age_cat'] = 5
df_test.loc[(60 <= df_test['Age']) & (df_test['Age'] < 70), 'Age_cat'] = 6
df_test.loc[70 <= df_test['Age'], 'Age_cat'] = 7

### loc[ ]

행 또는 열의 데이터를 조회한다.

loc의 첫번째는 행에 대한 정보, 두번째는 열에 대한 정보를 입력한다.

In [11]:
def category_age(x):
    if x < 10:
        return 0
    elif x < 20:
        return 1
    elif x < 30:
        return 2
    elif x < 40:
        return 3
    elif x < 50:
        return 4
    elif x < 60:
        return 5
    elif x < 70:
        return 6
    else:
        return 7
    
df_train['Age_cat_2'] = df_train['Age'].apply(category_age)

### apply() 메서드

주어진 this값과 배열(또는 유사 배열 객체)로 제공되는 arguments로 함수를 호출한다.

In [12]:
print('1번 방법, 2번 방법 둘다 같은 결과를 내면 True 줘야함 -> ', (df_train['Age_cat'] == df_train['Age_cat_2']).all())

### all()

- arguments로 iterable한 객체를 받는다.
- 모두 True 여야 True 반환

In [13]:
df_train.drop(['Age','Age_cat_2'],axis = 1, inplace = True)
df_test.drop(['Age'], axis = 1, inplace = True)

### drop() 메소드

데이터프레임의 행 또는 열을 삭제하는 명령

단, 기존 객체를 변경하지 않고 새로운 객체를 반환하는 점에 유의한다.

따라서 원본 객체를 직접 변경하기 위해서는 inplace=True 옵션을 추가하던지 df=df.drop() 처럼 반환된 객체를 기존 변수에 저장하여 대체해준다.

```
행 삭제 : DataFrame 객체.drop('행 인덱스' 또는 ['배열'], axis=0)
열 삭제 : DataFrame 객체.drop('열 이름' 또는 ['배열'], axis=1)
```

In [14]:
df_train['Initial'] = df_train['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs': 3, 'Other': 4})
df_test['Initial'] = df_test['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs': 3, 'Other': 4})

In [15]:
df_train['Embarked'].unique()

### unique()

데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수

In [16]:
df_train['Embarked'].value_counts()

### value_counts()

값별로 데이터의 수를 출력해주는 함수

In [17]:
df_train['Embarked'] = df_train['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})
df_test['Embarked'] = df_test['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})

In [18]:
df_train['Embarked'].isnull().any()

### any(iterable)함수

- 인자로 받은 반복가능한 자료형(iterable) 중 단 하나라도 참(True)이 있으면 참(True)를 반환하는 함수
- 모든 요소가 거짓(False)인 경우에만 거짓(False)을 반환한다.
- or의 특징을 가진 함수

In [19]:
df_train['Sex'] = df_train['Sex'].map({'female': 0, 'male': 1})
df_test['Sex'] = df_test['Sex'].map({'female': 0, 'male': 1})

In [20]:
heatmap_data = df_train[['Survived', 'Pclass', 'Sex', 'Fare', 'Embarked', 'FamilySize', 'Initial', 'Age_cat']]

colormap = plt.cm.RdBu
plt.figure(figsize=(14,12))
plt.title('Pearson Correlation of Features', y = 1.05, size = 15)
sns.heatmap(heatmap_data.astype(float).corr(),linewidths = 0.1, vmax = 1.0, square = True, cmap = colormap, linecolor = 'white', annot = True, annot_kws = {"size": 16})

del heatmap_data

### RdBu

양의 상관관계가 높을수록 진한 파란색, 음의 상관관계가 높을수록 진한 빨간색

### heatmap

- 열을 의미하는 heat와 지도를 뜻하는 map을 합친 단어
- 데이터들의 배열을 색상으로 표현해주는 그래프

### linewidths

선의 두께

In [21]:
df_train = pd.get_dummies(df_train, columns = ['Initial'], prefix = 'Initial')
df_test = pd.get_dummies(df_test, columns = ['Initial'], prefix = 'Initial')

### prefix

접두사

In [22]:
df_train.head()

In [23]:
df_train = pd.get_dummies(df_train, columns=['Embarked'], prefix='Embarked')
df_test = pd.get_dummies(df_test, columns=['Embarked'], prefix='Embarked')

### get_dummies()

데이터프레임에 대한 더미(dummy)변수를 자동으로 생성한다.

In [24]:
df_train.drop(['PassengerId', 'Name', 'SibSp', 'Parch', 'Ticket', 'Cabin'], axis=1, inplace=True)
df_test.drop(['PassengerId', 'Name',  'SibSp', 'Parch', 'Ticket', 'Cabin'], axis=1, inplace=True)

### inplace = True/False

- True → 명령어를 실행 한 후 메소드가 적용된 데이터 프레임으로 반환 한다. 즉, 삭제 메소드를 실행했다면 반환값은 컬럼이 삭제된 Dataframe이 된다.
- False → 명령어를 실행 한 후 메소드가 적용된 데이터 프레임을 기존 데이터 프레임으로 대체하겠다는 뜻

### axis (→매개변수)

특정 메소드 또는 함수가 Data Frame에 적용되는 방향을 지정한다.

axis = 0 은 함수가 열 단위로 적용되었음을 나타내고, axis= 1 은 함수가 Data Frame에서 행 단위로 적용됨을 의미한다.

In [25]:
df_train.head()

In [26]:
df_test.head()

In [27]:
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.model_selection import train_test_split

### sklearn

scikit-learn이란 python을 대표하는 머신러닝 라이브러리이다.

‘사이킷런’이라고 부르기도 한다.

In [28]:
X_train = df_train.drop('Survived', axis=1).values
target_label = df_train['Survived'].values
X_test= df_test.values

In [29]:
X_tr, X_vld, y_tr, y_vld = train_test_split(X_train, target_label, test_size=0.3, random_state=2018)

In [30]:
model = RandomForestClassifier()
model.fit(X_tr, y_tr)
prediction = model.predict(X_vld)

### fit() 메서드

머신러닝 모델 학습의 위함

### predict() 메서드

학습된 모델의 예측을 위함

In [31]:
print('총 {}명 중 {:.2f}% 정확도로 생존을 맞춤'.format(y_vld.shape[0], 100 * metrics.accuracy_score(prediction, y_vld)))

### accuracy_score

정확도 계산

### shape[]

- shape[0] → 행의 개수
- shape[1] → 열의 개수

In [32]:
from pandas import Series

feature_importance = model.feature_importances_
Series_feat_imp = Series(feature_importance, index=df_test.columns)

### Series

어떤 데이터 타입이든 보유할 수 있는 레이블(label)링된 1차원 배열

In [33]:
plt.figure(figsize=(8,8))
Series_feat_imp.sort_values(ascending=True).plot.barh()
plt.xlabel('Feature importance')
plt.ylabel('Feature')
plt.show()

### barh() 함수

수평 막대 그래프를 그림

In [34]:
submission = pd.read_csv('../input/titanic/gender_submission.csv')

In [35]:
submission.head()

In [36]:
prediction = model.predict(X_test)
submission['Survived'] = prediction

In [37]:
submission.to_csv('./my_first_submission.csv', index=False)