# Pandas
```index```
+ [データサイエンスのためのPython入門⑩〜PandasインストールからSeriesの使い方〜](https://datawokagaku.com/pandas_series/)
+ [データサイエンスのためのPython入門11〜PandasのDataFrameを作る．CSVファイルを読み込む〜](https://datawokagaku.com/dataframe/)
+ [データサイエンスのためのPython入門12〜DataFrameの基本的な使い方(head, describe, Seriesの取得など)〜](https://datawokagaku.com/dataframe_howto_1/)
+ [データサイエンスのためのPython入門13〜DataFrameのフィルタ操作の基本(超重要)〜](https://datawokagaku.com/dataframe_filter/)
+ [データサイエンスのためのPython入門14〜DataFrameの欠損値NaNに対応する〜](https://datawokagaku.com/dataframe_nan/)
+ [データサイエンスのためのPython入門15〜DataFrameのgroupbyをマスターする〜](https://datawokagaku.com/dataframe_groupby/)
+ [データサイエンスのためのPython入門16〜DataFrameのテーブル結合を完全解説(merge, join, concat)〜](https://datawokagaku.com/dataframe_merge/)
+ [データサイエンスのためのPython入門17〜DataFrameの重要関数(apply, unique, value_counts)を超わかりやすく解説〜](https://datawokagaku.com/dataframe_apply/)
+ [データサイエンスのためのPython入門18〜DataFrameのその他頻出関数(to_csv, iterrows, sort_values)を解説〜](https://datawokagaku.com/dataframe_func1/)
+ [データサイエンスのためのPython入門19〜DataFrameのその他頻出関数(pivot_table, xs)を解説〜](https://datawokagaku.com/dataframe_func2/)


---
## 10: インストールからSeriesの使い方
    Pandasはデータ操作や解析を目的として作られたPythonライブラリで、NumPyをなかで使っている。
    とりわけ表形式のデータ処理が得意で、エクセルで処理するようなことをPythonでできる。

### | Pandasをimport

In [None]:
import pandas as pd

In [None]:
# Pandasの所在確認
pd.__file__

### | Seriesを使う
    PandasにあるSeriesというクラスを使う。
    Series：表形式のデータの各行、カラムを切り取ったデータを表すデータ形式

<img src='https://datawokagaku.com/wp-content/uploads/2020/01/dataframe_yougo.png' width=65%>

+ Table(テーブル):表形式のデータ
+ header(ヘッダー):表の一番うえに並んでいるの
+ column(カラム):ヘッダーを構成する一つ一つ
+ row(ロウ):表には色々なデータがずらっとヘッダーのカラム順に合わせて並んでいる一行一行
+ recode(レコード):行のこと

<img src='https://datawokagaku.com/wp-content/uploads/2020/01/dataframe_series.png' width=65%>

+ DataFrame(データフレーム):Pandasでは、この表をDataFrameというデータ構造で扱う。
+ Series(シリーズ):各行をSeriesというデータ構造を使って扱う。（縦に切り取ってもSeriesになる）
（つまり，Seriesというデータ構造が集まってDataFrameというデータ構造になるイメージ）


In [None]:
# 作り方は簡単で、dictionaryを作ってそれをpd.Series()に入れるだけ!
data = {
    'name':'John',
    'sex':'mael',
    'age':22
}

john_s = pd.Series(data)
print(john_s)
print('\n Johns age is {}.'.format(john_s['age']))

In [None]:
# NumPy Arraysを使って作ることも可能
import numpy as np
array = np.array([100, 200, 300])
array = pd.Series(array)
print(array)

In [None]:
array = array.rename(index={0:'a',1:'b',2:'c'})
print(array)

## 11: DataFrameを作る CSVファイルを読み込む

### | DataFrameの作り方

#### - ndarray → df

In [None]:
import pandas as pd 
import numpy as np


ndarray = np.random.randint(5, size=(5, 4))
pd.DataFrame(data=ndarray)

In [None]:
columns = ['a', 'b', 'c', 'd']
index = np.arange(0, 50, 10)
pd.DataFrame(data=ndarray, index=index, columns=columns)

#### - dictionary → df

In [None]:
data1 = {
    'name':'John',
    'sex':'male',
    'age':22
}
data2 = {
    'name':'Zack',
    'sex':'male',
    'age':30
}
data3 = {
    'name':'Emily',
    'sex':'female',
    'age':32
}
pd.DataFrame([data1, data2, data3])

#### - 各.file → df

In [None]:
pd.read_csv('url')

## 12: DataFrameの基本的操作

In [None]:
import pandas as pd
df = pd.read_csv('train.csv')

#### - .head()

In [None]:
df.head()

#### -.describe()

In [None]:
#統計量確認
df.describe()

#### - .columns

In [None]:
df.columns

### | [](ブラケット)特定カラム抽出（Series）

In [None]:
age_df = df['Age']
age_df

In [None]:
type(age_df)

In [None]:
df[['Age', 'Parch', 'Fare']].head()

#### -.iloc[int]
(index location)

>```memo```
>
>     基本はカラムは文字列，indexは数値になると思います.
>     たまにindexにID（タイタニックでいうと PassengerId ）を指定することもありますが,
>    行の取得にはほとんどの場合 ```.iloc[] ```を使います． 私は滅多に ```loc[] ```は使わないです．
>
>     カラムはできるだけ意味のある文字列にしてください． 意味を持たない数値はややこしいのでやめましょう．

In [None]:
df.iloc[888]

In [None]:
df.iloc[888]['Age']

In [None]:
# NaNというのはnp.nanでありNoneではないことに注意!!!
import numpy as np
np.isnan(df.iloc[888]['Age'])

In [None]:
df.iloc[888]['Age'] is None

In [None]:
df2 = pd.read_csv('train.csv').iloc[5:10] # Slicing
df2.head()

#### - .drop()
>     複数のカラムを落としたい場合はカラムをリストにして渡してください．
>     また， dropしても元のdfは変更されません．

In [None]:
df2.drop(5)

In [None]:
df2.drop('Age', axis=1)

In [None]:
df2

In [None]:
df2 = df2.drop(['Age', 'Parch'], axis=1) #元のdfを上書きする

In [None]:
df2

```Python
# df上書きパターン１ : inplace=True
df = pd.read_csv('train.csv')
df.drop(['Age', 'Cabin'], axis=1, inplace=True)


# df上書きパターン２ : 同名変数に再代入
df = pd.read_csv('train.csv')
df = df.drop(['Age', 'Cabin'], axis=1)
```


>```memo```
>
>      私は後者を使います． 理由は， ぱっと見でわかるしデータサイエンスではよく使う書き方だからです．
>      他のプログラミング言語を勉強した人からすると， 後者は違和感のある書き方だと思います．
>      なるべく結果は違う変数にして変数名を変えて意味を持たせることが多いと思います．
>      例えば df_drop という変数名にしたりとか
>      しかし， データサイエンスでは一つの変数が巨大なメモリを使っているケースが多いです．
>      タイタニックのデータは練習用なので小さいですが，実業務では普通に1万レコードとかになったりします．
>      大きなデータを複数のメモリでコピーしていくとすぐにメモリリーク(メモリ不足)を起こしてしまうので， 同じメモリを使いまわすのが定石です．
>      (ここではdfというオブジェクトを使い回しています．)

## 13: DataFrameのフィルタ操作の基本(超重要)

In [1]:
import pandas as pd

df = pd.read_csv('train.csv')

### | (超重要）特定条件フィルタ(filter)

In [2]:
# 条件付きでSeriesを取得
df['Survived']==1

0      False
1       True
2       True
3       True
4      False
       ...  
886    False
887     True
888    False
889     True
890    False
Name: Survived, Length: 891, dtype: bool

In [3]:
# df[filterの条件]で， ある条件に該当したレコードだけが返ってきます．(SQLでいうwhere句のような)
filter = df['Survived']==1
df[filter]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [5]:
df[filter].describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,342.0,342.0,342.0,290.0,342.0,342.0,342.0
mean,444.368421,1.0,1.950292,28.34369,0.473684,0.464912,48.395408
std,252.35884,0.0,0.863321,14.950952,0.708688,0.771712,66.596998
min,2.0,1.0,1.0,0.42,0.0,0.0,0.0
25%,250.75,1.0,1.0,19.0,0.0,0.0,12.475
50%,439.5,1.0,2.0,28.0,0.0,0.0,26.0
75%,651.5,1.0,3.0,36.0,1.0,1.0,57.0
max,890.0,1.0,3.0,80.0,4.0,5.0,512.3292


In [6]:
# 60才以上のレコードに絞る
fill_age60 = df['Age']>=60
# 1stクラスのレコードに絞る
fill_pclass = df['Pclass']==1
# 女性のレコードに絞る
fill_sex = df['Sex'] == 'female'

#### - ()&() , ()|()　
> 複数条件フィルタ

>     Pythonだとandやorを使って条件を作りますが，
>     DataFrameのフィルタ操作では & と | であることに注意!

In [7]:
# 60歳以上の女性のデータフレーム
df[(df['Age']>=60) & (df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
366,367,1,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)",female,60.0,1,0,110813,75.25,D37,C
483,484,1,3,"Turkula, Mrs. (Hedwig)",female,63.0,0,0,4134,9.5875,,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


In [8]:
# 1stクラスの人、もしくは10歳未満の子どものデータフレーム
df[(df['Pclass']==1) | (df['Age']<10)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


#### - ~ （スクィグル） 
> NOT演算フィルタ

>     条件の真偽が逆転します(NOT演算, inversionという．)
>     これは特に「値がbooleanのカラムでフィルタする時」によく使う。

In [9]:
# e.g. Survivedが真偽値の場合
data = [
    {'Name':'John', 'Survived':True},
    {'Name':'Emily', 'Survived':False},
    {'Name':'Ben', 'Survived':True},
]
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Survived
0,John,True
1,Emily,False
2,Ben,True


In [10]:
df[df['Survived']==True] #値は既にBoolのため、==Trueの場合は省略可能

Unnamed: 0,Name,Survived
0,John,True
2,Ben,True


In [11]:
f = df[df['Survived']==False]
s = df[~df['Survived']]
print(f, '\n', s)

    Name  Survived
1  Emily     False 
     Name  Survived
1  Emily     False


### | index変更

#### - .reset_index()
> 再度indexを割り振る

In [12]:
df2 = pd.read_csv('train.csv')
df2 = df2[df2['Sex']=='male']
df2.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


In [13]:
df2 = df2.reset_index()
df2.head()

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
2,5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
3,6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
4,7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


#### - .set_index()
> 特定のカラムをindexにする

In [14]:
# Nameをindexにしたい
df2 = df2.set_index('Name')
df2

Unnamed: 0_level_0,index,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
"Braund, Mr. Owen Harris",0,1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
"Allen, Mr. William Henry",4,5,0,3,male,35.0,0,0,373450,8.0500,,S
"Moran, Mr. James",5,6,0,3,male,,0,0,330877,8.4583,,Q
"McCarthy, Mr. Timothy J",6,7,0,1,male,54.0,0,0,17463,51.8625,E46,S
"Palsson, Master. Gosta Leonard",7,8,0,3,male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
"Banfield, Mr. Frederick James",883,884,0,2,male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
"Sutehall, Mr. Henry Jr",884,885,0,3,male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
"Montvila, Rev. Juozas",886,887,0,2,male,27.0,0,0,211536,13.0000,,S
"Behr, Mr. Karl Howell",889,890,1,1,male,26.0,0,0,111369,30.0000,C148,C


## 14: DataFrameの欠損値NaNに対応

### | DataFrameのNaNについて

>```復習```
>
> + NaNはNot A Numberの略
> + np.nanと同じ
> + NaN判定には np.isnan() を使う(後述: pd.isna()もあります．)
> + Noneとは別物
> + DataFrameでは基本NaNが使われる．

> ちなみに， csvやエクセルで値が空白だと読み込んだ時にNaNになります．Noneではないことに注意!!!


In [16]:
import numpy as np
import pandas as pd
df = pd.read_csv('train.csv')
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### | DataFrameのNaN用の関数

#### - .dropna()
> デフォルト axis=0 : NaNのあるレコード(行)を落とす
>> axis=1 を引数にいれるとNaNを含むカラム(列)をdrop

```memo```

    モデルを組む際に， データ数を減らさずにデータを説明する変数(説明変数)を減らす作戦のときに使いますが，
    「NaNが一つでもあるのでその説明変数を減らす」ということはまずありません．
    どの説明変数がモデル構築に重要なのかというのは非常に重要かつ慎重に考えるべき問題です．

In [19]:
df.dropna().tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C


In [22]:
# 特定カラムのNaNのレコードだけ！ (実行業務頻出)
# リスト形式で渡すので注意． たとえ一つのカラムでも， リストで囲って渡す
df.dropna(subset=['Age'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


#### - .fillna(value)
> NaNに特定のvalueを代入

In [23]:
df.fillna('This is it!').tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27,0,0,211536,13.0,This is it!,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,This is it!,1,2,W./C. 6607,23.45,This is it!,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32,0,0,370376,7.75,This is it!,Q


In [24]:
df['Age'].mean()

29.69911764705882

In [28]:
# AgeのカラムのNaNだけ、Ageの平均値を代入 
df['Age'].fillna(df['Age'].mean())

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: Age, Length: 891, dtype: float64

In [29]:
df['Age'] = df['Age'].fillna(df['Age'].mean())
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


#### - pd.isna()

> ```復習```
>
>     np.isnan() で， DataFrameの全ての値のNaNの判定が可能です．
>     しかし, np.isnan() だといちいちループで回さないといけないですし， stringsを入れるとエラーになったり， 使い勝手が悪いです．
>
>     そこで, DataFrameの中の値のNaN判定には pd.isna() を使うといいです．
>     (pd.isnull() も同じです． 最近名前が変わって pd.isna() が実装されました．特に理由がなければ pd.isna() を使いましょう．np.isnanと違って最後のnがないので注意です．)

In [31]:
df2 = pd.read_csv('train.csv')
pd.isna(df2).tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False
890,False,False,False,False,False,False,False,False,False,False,True,False


Seriesに対してよく使いますね．NaN判定の結果を別カラムで持ちたい時とか↓

In [35]:
#　Cabin_nanカラムを使いして，CabinのNaN判定結果を代入する
df2['Cabin_nan'] = pd.isna(df2['Cabin'])
df2.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Cabin_nan
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S,True
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S,False
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S,True
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C,False
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q,True


## 15: DataFrameのgroupby

## 16: DataFrameのテーブル結合(merge, join, concat)

## 17: DataFrameの重要関数(apply, unique, value_counts)

## 18: DataFrameのその他頻出関数(to_csv, iterrows, sort_values)

## 19: DataFrameのその他頻出関数(pivot_table, xs)