In [2]:
from IPython.core.display import display

## データ読み込み

In [3]:
import pandas as pd
titanic = pd.read_csv("data/train.csv")
titanic.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


## Pandasについて
### Pandasとは
DataFrame型という行列データとして扱いやすくするライブラリ。(ファイルをloadすると、このDataFrame型でかえってくる。)

基本的には行列をデータを扱うためのライブラリだが、簡易的な可視化機能もついており、
まずデータを眺めるのに最初に使うことになるライブラリ。

間違ってもPythonでデータ解析しようとしたときに、`import json`や`import csv`をして独自にデータをparseしてはいけない。
非常にめんどくさいのでpandasに頼ろう。

### pandasでよく使う型

|型|説明|リファレンス|
|--|--|
|DataFrame|行列型|[pandas.DataFrame — pandas 0.20.2 documentation](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame)|
|Series|DataFrameの中の1列|[pandas.Series — pandas 0.20.2 documentation](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html)|
|GroupBy|DataFrameやSeriesをグルーピングしたもの|[API Reference#groupby — pandas 0.20.2 documentation](http://pandas.pydata.org/pandas-docs/stable/api.html#groupby)|

## タイタニックのデータの情報の見方 

### 目的変数
- Survived: 生き残ったか、死んだか

### 説明変数
- PassengerId: あまり意味がなさそう
- PClass: 等級(1: 高級チケット、船の上層の部屋 3:安いチケット、船の下層の部屋)
- Sex: 男女
- Age: 年齢
- Fare: チケットの値段
- Cabin: 部屋番号。欠損値が多い
- Embarked: 乗船した港



#### 補足: 説明変数と目的変数とは？

機械学習では 要素x1, x2, x3から、yという結果を予測したいとき、
x1,x2,x3を**説明変数**、 yを**目的変数**と呼ぶ。

また、説明変数をx, 目的変数をyと置くのが一般的である。
私のコードでは、説明変数や目的変数が複数ある場合はわかりやすさのために大文字にする。


## 解析をする前に、Pandasでのデータの扱い基本

pandasはR界の色がよく出ているライブラリである。

操作が`Pythonらしく`ないため、扱いに慣れが必要である。。

慣れればとても扱いやすいのだが、
私自身もなれるまでにかなり大変だったので、まずは基本的な操作を一通りのできるようにここで紹介しておく。


### 列を取り出す

In [4]:
# 1列を取り出す： [] でキーを指定
titanic['Age'].head(2)

0    22.0
1    38.0
Name: Age, dtype: float64

In [5]:
# 2列以上を取り出す: []にキーの配列を指定
titanic[['Age', 'Sex']].head(2)

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female


### 行を取り出す

In [6]:
## locでは、loadした時にdfの一番左に自動的に割り当てられる「index」を指定して行を取り出す。
## DataFrame.loc[start:end]としたときに、startとendをどちらも含んだ状態で取り出すので注意
titanic.loc[0:2]

## 他にもlocやixといった行を取り出せる関数があるが、基本はlocを使うのがよい場合が多い

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### 条件にマッチするデータを取り出す

ここでは　DataFrame.queryによるデータの取り出し方を紹介する。

Pandasでは様々な方法でデータを取り出せるのだが、
.queryによる取り出しが読んだときに一番「この条件で取り出している」というのがわかりやすいと感じるので、
まずはこの方法を覚えるのが良いと思う。

In [7]:
# 1つの条件にマッチするデータを取り出す
titanic.query('Age < 20').head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [8]:
# 2つ以上の条件にマッチするデータを取り出す
titanic.query('(Age < 20) & (Sex == "female")').head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S


これ以上はまとめて書いても頭に入らないので、
解析を行いながら、都度使い方は説明していく。

## クロス集計して、列同士の関係性をつかむ

### 前処理：生存した人と、していない人でデータをグループ分けする

In [9]:
survive_group = titanic.groupby('Survived')
# groupByオブジェクトは、
# {group_key1: group_dataframe1, group_key2: group_dataframe2...}
# というような構造になる
for key, df in group:
    display("Survived={}".format(key), df.head(2))
    

NameError: name 'group' is not defined

### GroupByを使ってクロス集計する

In [10]:
#　生存しているかしていないかで、各データの平均をみる
titanic.groupby('Survived').mean()

Unnamed: 0_level_0,PassengerId,Pclass,Age,SibSp,Parch,Fare
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,447.016393,2.531876,30.626179,0.553734,0.32969,22.117887
1,444.368421,1.950292,28.34369,0.473684,0.464912,48.395408


In [11]:
# 平均は外れ値に弱いので中央値や分散もみたい・・・と思ったあなたには
titanic.groupby('Survived').agg(['mean', 'std', 'median'])
# mean: 平均
# std: 標準偏差
# median: 中央値

Unnamed: 0_level_0,PassengerId,PassengerId,PassengerId,Pclass,Pclass,Pclass,Age,Age,Age,SibSp,SibSp,SibSp,Parch,Parch,Parch,Fare,Fare,Fare
Unnamed: 0_level_1,mean,std,median,mean,std,median,mean,std,median,mean,std,median,mean,std,median,mean,std,median
Survived,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
0,447.016393,260.640469,455.0,2.531876,0.735805,3,30.626179,14.17211,28.0,0.553734,1.288399,0,0.32969,0.823166,0,22.117887,31.388207,10.5
1,444.368421,252.35884,439.5,1.950292,0.863321,2,28.34369,14.950952,28.0,0.473684,0.708688,0,0.464912,0.771712,0,48.395408,66.596998,26.0


In [10]:
## 説明変数と目的変数に分ける
X_key_all = ['PassengerId','Pclass', 'Name', 'Sex','Age','SibSp','Parch','Ticket','Fare','Cabin','Embarked']
y_key = 'Survived'

X = titanic[X_key_all] #type:pd.DataFrame
y = titanic[y_key] #type:pd.Series

display(X.head(2))
display(y.head(2))

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


0    0
1    1
Name: Survived, dtype: int64

In [15]:
titanic.head(4).style.bar(subset=['Age'], color='#d65f5f')


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
