# Pandas and Scikit-learn
pandas는 python 라이브러리로, high-level 자료구조와 데이터 분석을 위한 응용 도구들을 가지고 있다. pandas를 python 버전의 Excel로 생각해볼 수 있다. 반면 Scikit-learn은 python의 머신러닝 오픈소스 라이브러리이다.

scikit-learn이 많은 중요한 일들을 하는 만큼, 동등한 수준으로 중요한 것은 raw data가 scikit-learn에 feed 될 수 있도록 처리하는 것이다. 그러므로 raw data를 pandas로 변형하는 능력은 우리의 toolkit에서 반드시 필요한 부분이다.

Kaggle

kaggle은 데이터 사이언스 컴피티션을 이끌고 있는 플랫폼이다. 참여자들은 상금을 두고 경쟁하는데, 가장 좋은 예측모델을 웹사이트에 업로드한 팀을 우승자로 선정한다.

https://www.kaggle.com/competitions

kaggle에 업로드 되는 문제들을 통해 머신러닝을 배우는 것은 우리가 고도의 접근방식을 취할 수 있게 한다.

1. 문제가 아주 잘 정의되어 있고, 데이터가 제공되며, 데이터를 조작하는데 더욱 집중할 수 있도록 해준다.
2. leader board를 통해 우리가 얼마나 잘 해내고 있는지 트래킹 할 수 있도록 해준다.

하단의 excercise들을 따라가면서 Titanic comptetition의 데이터들을 리뷰하도록 한다. 우리의 목표는 타이타닉의 특정 탑승자가 생존하는지를 예측하는 것이며 age, sex, class에 따라 분류해 보도록 한다.

# Section 1-0 - First Cut

먼저 training data를 처리하면서 시작할 것이다. 그 이후에 우리의 모델을 'train'(혹은 'fit) 하게 될 수 있다. trained model을 통해, test data에 적용함으로써 예측을 수행할 수 있을 것이다. 궁극적으로 kaggle에 제출하기 위해 csv 파일 형식으로 output을 낼 것이고, 얼마나 퍼포먼스가 잘 나오는지 관찰해 볼 것이다.

데이터 셋에서 missing value가 나타나는 것은 매우 일반적이다. 이번 섹션에서는 NaN value가 있는 모든 row를 무시하는 가장 간단한 방법들에 대해서 알아볼 것이다. 나중 섹션에서 이러한 접근법들을 완성시켜가 볼 것이다.

# Pandas - Extracting data

첫번쨰로, training data를 csv 파일에서 부터 load 하도록 한다.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('../data/train.csv')

# Pandas - Cleaning data

이제 data를 selection하여 살펴보도록 한다.

In [2]:
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


column들은 타이타닉 탑승객들의 feature들을 나타내고 있다는 것을 알 수 있다. age, sex, class와 같은 것들이다. 우리가 탑승객들에 대해서 관심있는 부분은 'Survived' column이다. 모델을 training 시킬 때 각각의 column들이 탑승객들의 생존에 영향을 미쳤는지 아닌지를 알아내는 것이 중요하다.(어떤 feature는 전혀 영향을 미치지 않았을 수도 있다.)

#### Excercise:

* 데이터의 마지막 부분을 살펴볼 수 있도록 코드를 작성하자.

Name, Ticket, Cabin column들을 살펴보았따. Ticekt과 Cabin은 현재 우리의 목적 상 연관성이 없다고 보인다. 이 두 column들을 data set에서 제거해 보자.

In [3]:
df = df.drop(['Name', 'Ticket', 'Cabin'], axis=1)

다음으로, column들의 데이터 타입, 데이터가 들어있는 숫자들을 count 해보자.

In [4]:
df.info()
# info method를 사용하면 index의 범위, column의 숫자
# 각 column이 가지고 있는 data의 수(NaN을 제외한)
# Null이 있는지, 그리고 각 column의 datatype에 대해 살펴볼 수 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 9 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Fare           891 non-null float64
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(2)
memory usage: 62.7+ KB


Age와 Embarked column은 NaN 이나 missing  value를 가지고 있다. 이전에 이야기 했던 것 처럼, missing value를 가지고 있는 row들을 제거해 보도록 하자.

In [5]:
df = df.dropna()

#### Question

* 만약 우리가 missing value를 채워 넣는다면, 어떤 value를 채워넣어야 하나? 왜 그 value를 채워 넣어야 하나?

scikit-learn은 오직 numerical 배열만 input으로 받을 수 있다. 따라서 categorical column들을 numerical value로 바꿔주는 작업을 해야 한다.(Sex, Embarked column을 변환시켜야 한다.) 먼저 Sex column의 value의 범위를 살펴보고, Sex의 categorical data를 number로 변환한 새로운 column을 만들도록 한다.

In [6]:
df['Sex'].unique()

array(['male', 'female'], dtype=object)

In [7]:
df['Gender'] = df['Sex'].map({'female': 0, 'male': 1}).astype(int)

Embarekd column에 대해서도 비슷한 작업을 수행한다. 우리는 각각의 탑승자들이 출항한 항구를 나타내는 새로운 column을 만든다.

In [8]:
df['Embarked'].unique()

array(['S', 'C', 'Q'], dtype=object)

In [9]:
df['Port'] = df['Embarked'].map({'C': 1, 'S': 2, 'Q': 3}).astype(int)

#### Question

* 우리가 Embarked column의 C, S, Q와 같은 값들을 1, 2, 3과 같은 값으로 mapping 시킬 때 만날 수 있는 문제점은 무엇일까? 다시 말하면, 이렇게 ordering 해서 mapping 시키는 것의 문제점은 무엇일까?(C, S, Q는 순서가 없는데 1, 2, 3으로 변형하는 순간 순서가 생기게 된다.) 같은 문제가 Sex column에서는 발생하는가 아닌가?

이제 우리는 Sex, Embarked column들에 의해 제공된 정보들을 캡슐화 하여 정보를 저장하고 있는 새로운 numerical column을 갖게 되었다. 이제 기존의 Sex, Embarded column은 제거 하도록 한다.

In [10]:
df = df.drop(['Sex', 'Embarked'], axis=1)

전처리 된 최종 데이터 셋을 만들고, 살펴보자

In [11]:
cols = df.columns.tolist()
print(cols)

['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Gender', 'Port']


더 쉽게 분석하기 위해서, Survived column을 가장 왼쪽으로 이동시키도록 한다. 가장 왼쪽의 column은 0으로 indexed 된다.

In [12]:
cols = [cols[1]] + cols[0: 1] + cols[2:]
df = df[cols]

training data에 대한 최종적인 리뷰를 해보면, 우리가 체크해야 할 상황은 다음과 같다 (1) Survive column은 가장 왼쪽에 있는지 (2) NaN value가 남아있지 않은지 (3) 모든 value가 numericla form으로 되어 있는지

In [13]:
df.head(10)

Unnamed: 0,Survived,PassengerId,Pclass,Age,SibSp,Parch,Fare,Gender,Port
0,0,1,3,22.0,1,0,7.25,1,2
1,1,2,1,38.0,1,0,71.2833,0,1
2,1,3,3,26.0,0,0,7.925,0,2
3,1,4,1,35.0,1,0,53.1,0,2
4,0,5,3,35.0,0,0,8.05,1,2
6,0,7,1,54.0,0,0,51.8625,1,2
7,0,8,3,2.0,3,1,21.075,1,2
8,1,9,3,27.0,0,2,11.1333,0,2
9,1,10,2,14.0,1,0,30.0708,0,1
10,1,11,3,4.0,1,1,16.7,0,2


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 9 columns):
Survived       712 non-null int64
PassengerId    712 non-null int64
Pclass         712 non-null int64
Age            712 non-null float64
SibSp          712 non-null int64
Parch          712 non-null int64
Fare           712 non-null float64
Gender         712 non-null int32
Port           712 non-null int32
dtypes: float64(2), int32(2), int64(5)
memory usage: 50.1 KB


최종적으로, 전처리된 training data를 Pandas DataFrame에서 Numpy array으로 변환시켜 준다.

In [15]:
train_data = df.values

# Scikit-learn - Training the model

이번 섹션에서는 모델을 블랙박스로서 사용해볼 것이다. 더 학술적인 테크닉은 이후의 섹션들에서 다루게 된다.

우선 Random Forest Model을 사용할 것이다. intuition을 아래와 같다. 각각의 feature가 결과값에 대해 얼마나 큰 영향을 미치게 될 지 알아보았다. 가장 유망한 feature는 'branch' 세그먼트로 분류된다. branch들의 collection은 'tree'가 된다. Random Forest Model은 tree들의 'forest'들을 만들어서 결과값을 aggregate한다.

http://en.wikipedia.org/wiki/Random_forest

In [16]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators = 100)

training data를 통해 우리의 모델을 'train'(혹은 'fit') 시킨다. Survived column은 second input이 되고 다른 feature들의 집합을(Passengerid는 생략한다.) first input으로 넣는다.

In [17]:
model = model.fit(train_data[0:, 2:], train_data[0:, 0])
#Survived column은 두번째 parameter로
#나머지 Passengerid를 제외한 column을 첫번쨰 parameter로 넣는다.

# Scikit-learn - Making predictions

테스트 데이터를 로드한다.

In [18]:
df_test = pd.read_csv('../data/test.csv')

data들의 selection을 살펴본다.

In [19]:
df_test.head(10)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
5,897,3,"Svensson, Mr. Johan Cervin",male,14.0,0,0,7538,9.225,,S
6,898,3,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,,Q
7,899,2,"Caldwell, Mr. Albert Francis",male,26.0,1,1,248738,29.0,,S
8,900,3,"Abrahim, Mrs. Joseph (Sophie Halaut Easu)",female,18.0,0,0,2657,7.2292,,C
9,901,3,"Davies, Mr. John Samuel",male,21.0,2,0,A/4 48871,24.15,,S


이 데이터를 살펴보면 처음 training data를 살펴봤을 때와 비슷하다. 하지만 Survived column은 없다. 우리의 학습된 모델을 가지고 예측을 하게 될 것이다.

이전처럼, test data에 대해 training data와 같은 과정을 거쳐서 전처리를 한다.

In [20]:
df_test = df_test.drop(['Name', 'Ticket', 'Cabin'], axis=1)

df_test = df_test.dropna()

df_test['Gender'] = df_test['Sex'].map({'female': 0, 'male': 1}).astype(int)
df_test['Port'] = df_test['Embarked'].map({'C': 1, 'S': 2, 'Q': 3}).astype(int)

df_test = df_test.drop(['Sex', 'Embarked'], axis=1)

test_data = df_test.values

이제 학습된 모델을 test data에 적용한다.(Passengerid는 생략한다.)

In [22]:
output = model.predict(test_data[:, 1:])

# Pandas - Preparing for submission

우리는 간단하게 Pandas DataFrame을 생성했다. 이는 test data의 index와 prediction의 output을 합쳐서 만든 것이다.

In [24]:
result = np.c_[test_data[:, 0].astype(int), output.astype(int)]
#np.c_[arrary1, array2]는 array1과 array2를 column으로 만들어서
#column 방향으로 concatenate한다.
df_result = pd.DataFrame(result[:, 0:2], columns=['PassengerId', 'Survived'])

이제 간단하게 우리의 예측 결과를 살펴볼 수 있다.

In [25]:
df_result.head(10)

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,1
4,896,0
5,897,0
6,898,0
7,899,0
8,900,1
9,901,0


이제 output을 csv파일 형태로 저장한다.

In [28]:
df_result.to_csv('../results/titanic_test_1-0.csv', index=False)

그러나, 문제가 발생한다. Kaggle submission website는 418개의 prediction을 요구한다. 

https://www.kaggle.com/c/titanic-gettingStarted/submissions/attach

우리의 output의 shape은 다음과 같다.

In [29]:
df_result.shape

(331, 2)

이는 우리가 NaN value들을 제거했기 때문이다. 결국 test data와 비교했을 때 더 작은 수의 row를 가지고 예측을 수행하게 되었다. Kaggle이 요구하는 418개의 output을 산출하지 못했으므로, 제출할 수 없게 됐다.

이번 섹션에서 우리는 아주 간단하게 missing value를 다루는 법을 배웠다. 그러나 완전한 prediction의 집합을 생성하는데는 실패했다. 이와 관련하여 새로운 접근 법을 1-1 섹션에서 살펴보도록 한다.