# Pandas
```index```
+ [データサイエンスのためのPython入門⑩〜PandasインストールからSeriesの使い方〜](https://datawokagaku.com/pandas_series/)
+ [データサイエンスのためのPython入門11〜PandasのDataFrameを作る．CSVファイルを読み込む〜](https://datawokagaku.com/dataframe/)
+ [データサイエンスのためのPython入門12〜DataFrameの基本的な使い方(head, describe, Seriesの取得など)〜](https://datawokagaku.com/dataframe_howto_1/)
+ [データサイエンスのためのPython入門13〜DataFrameのフィルタ操作の基本(超重要)〜](https://datawokagaku.com/dataframe_filter/)
+ [データサイエンスのためのPython入門14〜DataFrameの欠損値NaNに対応する〜](https://datawokagaku.com/dataframe_nan/)
+ [データサイエンスのためのPython入門15〜DataFrameのgroupbyをマスターする〜](https://datawokagaku.com/dataframe_groupby/)
+ [データサイエンスのためのPython入門16〜DataFrameのテーブル結合を完全解説(merge, join, concat)〜](https://datawokagaku.com/dataframe_merge/)
+ [データサイエンスのためのPython入門17〜DataFrameの重要関数(apply, unique, value_counts)を超わかりやすく解説〜](https://datawokagaku.com/dataframe_apply/)
+ [データサイエンスのためのPython入門18〜DataFrameのその他頻出関数(to_csv, iterrows, sort_values)を解説〜](https://datawokagaku.com/dataframe_func1/)
+ [データサイエンスのためのPython入門19〜DataFrameのその他頻出関数(pivot_table, xs)を解説〜](https://datawokagaku.com/dataframe_func2/)


---
## 10: インストールからSeriesの使い方
    Pandasはデータ操作や解析を目的として作られたPythonライブラリで、NumPyをなかで使っている。
    とりわけ表形式のデータ処理が得意で、エクセルで処理するようなことをPythonでできる。

### | Pandasをimport

In [None]:
import pandas as pd

In [None]:
# Pandasの所在確認
pd.__file__

### | Seriesを使う
    PandasにあるSeriesというクラスを使う。
    Series：表形式のデータの各行、カラムを切り取ったデータを表すデータ形式

<img src='https://datawokagaku.com/wp-content/uploads/2020/01/dataframe_yougo.png' width=65%>

+ Table(テーブル):表形式のデータ
+ header(ヘッダー):表の一番うえに並んでいるの
+ column(カラム):ヘッダーを構成する一つ一つ
+ row(ロウ):表には色々なデータがずらっとヘッダーのカラム順に合わせて並んでいる一行一行
+ recode(レコード):行のこと

<img src='https://datawokagaku.com/wp-content/uploads/2020/01/dataframe_series.png' width=65%>

+ DataFrame(データフレーム):Pandasでは、この表をDataFrameというデータ構造で扱う。
+ Series(シリーズ):各行をSeriesというデータ構造を使って扱う。（縦に切り取ってもSeriesになる）
（つまり，Seriesというデータ構造が集まってDataFrameというデータ構造になるイメージ）


In [None]:
# 作り方は簡単で、dictionaryを作ってそれをpd.Series()に入れるだけ!
data = {
    'name':'John',
    'sex':'mael',
    'age':22
}

john_s = pd.Series(data)
print(john_s)
print('\n Johns age is {}.'.format(john_s['age']))

In [None]:
# NumPy Arraysを使って作ることも可能
import numpy as np
array = np.array([100, 200, 300])
array = pd.Series(array)
print(array)

In [None]:
array = array.rename(index={0:'a',1:'b',2:'c'})
print(array)

## 11: DataFrameを作る CSVファイルを読み込む

### | DataFrameの作り方

#### - ndarray → df

In [None]:
import pandas as pd 
import numpy as np


ndarray = np.random.randint(5, size=(5, 4))
pd.DataFrame(data=ndarray)

In [None]:
columns = ['a', 'b', 'c', 'd']
index = np.arange(0, 50, 10)
pd.DataFrame(data=ndarray, index=index, columns=columns)

#### - dictionary → df

In [None]:
data1 = {
    'name':'John',
    'sex':'male',
    'age':22
}
data2 = {
    'name':'Zack',
    'sex':'male',
    'age':30
}
data3 = {
    'name':'Emily',
    'sex':'female',
    'age':32
}
pd.DataFrame([data1, data2, data3])

#### - 各.file → df

In [None]:
pd.read_csv('url')

## 12: DataFrameの基本的操作

In [None]:
import pandas as pd
df = pd.read_csv('train.csv')

#### - .head()

In [None]:
df.head()

#### -.describe()

In [None]:
#統計量確認
df.describe()

#### - .columns

In [None]:
df.columns

### | [](ブラケット)特定カラム抽出（Series）

In [None]:
age_df = df['Age']
age_df

In [None]:
type(age_df)

In [None]:
df[['Age', 'Parch', 'Fare']].head()

#### -.iloc[int]
(index location)

>```memo```
>
>     基本はカラムは文字列，indexは数値になると思います.
>     たまにindexにID（タイタニックでいうと PassengerId ）を指定することもありますが,
>    行の取得にはほとんどの場合 ```.iloc[] ```を使います． 私は滅多に ```loc[] ```は使わないです．
>
>     カラムはできるだけ意味のある文字列にしてください． 意味を持たない数値はややこしいのでやめましょう．

In [None]:
df.iloc[888]

In [None]:
df.iloc[888]['Age']

In [None]:
# NaNというのはnp.nanでありNoneではないことに注意!!!
import numpy as np
np.isnan(df.iloc[888]['Age'])

In [None]:
df.iloc[888]['Age'] is None

In [None]:
df2 = pd.read_csv('train.csv').iloc[5:10] # Slicing
df2.head()

#### - .drop()
>     複数のカラムを落としたい場合はカラムをリストにして渡してください．
>     また， dropしても元のdfは変更されません．

In [None]:
df2.drop(5)

In [None]:
df2.drop('Age', axis=1)

In [None]:
df2

In [None]:
df2 = df2.drop(['Age', 'Parch'], axis=1) #元のdfを上書きする

In [None]:
df2

```Python
# df上書きパターン１ : inplace=True
df = pd.read_csv('train.csv')
df.drop(['Age', 'Cabin'], axis=1, inplace=True)


# df上書きパターン２ : 同名変数に再代入
df = pd.read_csv('train.csv')
df = df.drop(['Age', 'Cabin'], axis=1)
```


>```memo```
>
>      私は後者を使います． 理由は， ぱっと見でわかるしデータサイエンスではよく使う書き方だからです．
>      他のプログラミング言語を勉強した人からすると， 後者は違和感のある書き方だと思います．
>      なるべく結果は違う変数にして変数名を変えて意味を持たせることが多いと思います．
>      例えば df_drop という変数名にしたりとか
>      しかし， データサイエンスでは一つの変数が巨大なメモリを使っているケースが多いです．
>      タイタニックのデータは練習用なので小さいですが，実業務では普通に1万レコードとかになったりします．
>      大きなデータを複数のメモリでコピーしていくとすぐにメモリリーク(メモリ不足)を起こしてしまうので， 同じメモリを使いまわすのが定石です．
>      (ここではdfというオブジェクトを使い回しています．)

## 13: DataFrameのフィルタ操作の基本(超重要)

In [None]:
import pandas as pd

df = pd.read_csv('train.csv')

### | (超重要）特定条件フィルタ(filter)

In [None]:
# 条件付きでSeriesを取得
df['Survived']==1

In [None]:
# df[filterの条件]で， ある条件に該当したレコードだけが返ってきます．(SQLでいうwhere句のような)
filter = df['Survived']==1
df[filter]

In [None]:
df[filter].describe()

In [None]:
# 60才以上のレコードに絞る
fill_age60 = df['Age']>=60
# 1stクラスのレコードに絞る
fill_pclass = df['Pclass']==1
# 女性のレコードに絞る
fill_sex = df['Sex'] == 'female'

#### - ()&() , ()|()　
> 複数条件フィルタ

>     Pythonだとandやorを使って条件を作りますが，
>     DataFrameのフィルタ操作では & と | であることに注意!

In [None]:
# 60歳以上の女性のデータフレーム
df[(df['Age']>=60) & (df['Sex']=='female')]

In [None]:
# 1stクラスの人、もしくは10歳未満の子どものデータフレーム
df[(df['Pclass']==1) | (df['Age']<10)]

#### - ~ （スクィグル） 
> NOT演算フィルタ

>     条件の真偽が逆転します(NOT演算, inversionという．)
>     これは特に「値がbooleanのカラムでフィルタする時」によく使う。

In [None]:
# e.g. Survivedが真偽値の場合
data = [
    {'Name':'John', 'Survived':True},
    {'Name':'Emily', 'Survived':False},
    {'Name':'Ben', 'Survived':True},
]
df = pd.DataFrame(data)
df

In [None]:
df[df['Survived']==True] #値は既にBoolのため、==Trueの場合は省略可能

In [None]:
f = df[df['Survived']==False]
s = df[~df['Survived']]
print(f, '\n', s)

### | index変更

#### - .reset_index()
> 再度indexを割り振る

In [None]:
df2 = pd.read_csv('train.csv')
df2 = df2[df2['Sex']=='male']
df2.head()

In [None]:
df2 = df2.reset_index()
df2.head()

#### - .set_index()
> 特定のカラムをindexにする

In [None]:
# Nameをindexにしたい
df2 = df2.set_index('Name')
df2

## 14: DataFrameの欠損値NaNに対応

### | DataFrameのNaNについて

>```復習```
>
> + NaNはNot A Numberの略
> + np.nanと同じ
> + NaN判定には np.isnan() を使う(後述: pd.isna()もあります．)
> + Noneとは別物
> + DataFrameでは基本NaNが使われる．

> ちなみに， csvやエクセルで値が空白だと読み込んだ時にNaNになります．Noneではないことに注意!!!


In [None]:
import numpy as np
import pandas as pd
df = pd.read_csv('train.csv')
df.tail()

### | DataFrameのNaN用の関数

#### - .dropna()
> デフォルト axis=0 : NaNのあるレコード(行)を落とす
>> axis=1 を引数にいれるとNaNを含むカラム(列)をdrop

```memo```

    モデルを組む際に， データ数を減らさずにデータを説明する変数(説明変数)を減らす作戦のときに使いますが，
    「NaNが一つでもあるのでその説明変数を減らす」ということはまずありません．
    どの説明変数がモデル構築に重要なのかというのは非常に重要かつ慎重に考えるべき問題です．

In [None]:
df.dropna().tail()

In [None]:
# 特定カラムのNaNのレコードだけ！ (実行業務頻出)
# リスト形式で渡すので注意． たとえ一つのカラムでも， リストで囲って渡す
df.dropna(subset=['Age'])

#### - .fillna(value)
> NaNに特定のvalueを代入

In [None]:
df.fillna('This is it!').tail()

In [None]:
df['Age'].mean()

In [None]:
# AgeのカラムのNaNだけ、Ageの平均値を代入 
df['Age'].fillna(df['Age'].mean())

In [None]:
df['Age'] = df['Age'].fillna(df['Age'].mean())
df.tail()

#### - pd.isna()

> ```復習```
>
>     np.isnan() で， DataFrameの全ての値のNaNの判定が可能です．
>     しかし, np.isnan() だといちいちループで回さないといけないですし， stringsを入れるとエラーになったり， 使い勝手が悪いです．
>
>     そこで, DataFrameの中の値のNaN判定には pd.isna() を使うといいです．
>     (pd.isnull() も同じです． 最近名前が変わって pd.isna() が実装されました．特に理由がなければ pd.isna() を使いましょう．np.isnanと違って最後のnがないので注意です．)

In [None]:
df2 = pd.read_csv('train.csv')
pd.isna(df2).tail()

Seriesに対してよく使いますね．NaN判定の結果を別カラムで持ちたい時とか↓

In [None]:
#　Cabin_nanカラムを使いして，CabinのNaN判定結果を代入する
df2['Cabin_nan'] = pd.isna(df2['Cabin'])
df2.tail()

## 15: DataFrameのgroupby

### | groupby

#### - .groupby().関数()

In [None]:
import pandas as pd
df = pd.read_csv('train.csv')

In [None]:
# Pclassでgroupby
df.groupby('Pclass').mean() # .sum() .count() .descrive()等々使える

In [None]:
df.groupby("Age").mean()

In [None]:
# 試しに、階級１をフィルタリングして統計量を算出
df[df['Pclass'] == 1].describe()

In [None]:
# 更に、meanにフォーカスしたいので、
df[df['Pclass'] == 1].describe().loc['mean']

In [None]:
# 当然これもDataFrameなので．以下のようにカラムを指定して取り出すことができます．
df.groupby('Pclass').describe()

In [None]:
df.groupby('Pclass').describe()['Age']

#### - set_option()

```Python
# カラムを省略せずに表示
pd.set_option('display.max_columns', None)
# 行を省略せずに表示
pd.set_option('display.max_rows', None)
```

戻し方


### | (上級者向け)groupbyの結果をfor文でまわす

    .groupby() の結果はfor文で回すことができ，(index, groupbyされたDataFrame)のタプルの形で回せます．
    
    どういうことかというと以下の例をみてください． 
    i と group_df にはそれぞれ1, 2, 3および Pclass==1, ==2, ==3でフィルタされたときのDataFrameが格納されています．
    （例として len() で各DataFrameのレコード数を表示してます．）

In [None]:
for i, group_df in df.groupby('Pclass'):
    print("{}: group_df's type is {} and has {}".format(i, type(group_df), len(group_df)))

In [None]:
# 各Pclassのグループの中で，各レコードが何番目にFareが高いか数字を振ってみ
df = pd.read_csv('train.csv')
results = []
for i, group_df in df.groupby('Pclass'):
    sorted_group_df = group_df.sort_values('Fare')
    sorted_group_df['RankInPClass'] = np.arange(len(sorted_group_df))
    results.append(sorted_group_df)
result_df = pd.concat(results)
result_df

## 16: DataFrameのテーブル結合

### | 表の結合とは？

> + 特定のカラムやindexをKeyにして結合する
> + DataFrameを単純に横に(もしくは縦に)結合する（ガッチャンコさせる）

    mergeとconcatでは圧倒的にmergeの方が出てきます．
    mergeもconcatも元のDataFrameを更新しないので ，新たな変数か元の変数に再代入する必要あり


In [None]:
import pandas as pd
df1 = pd.DataFrame({ 'Key': ['k0', 'k1', 'k2'],
        'A': ['a0', 'a1', 'a2'],
        'B': ['b0', 'b1', 'b2']})

df2 = pd.DataFrame({ 'Key': ['k0', 'k1', 'k2'],
        'C': ['c0', 'c1', 'c2'],
        'D': ['d0', 'd1', 'd2']})

#### - df.merge()

In [None]:
# 特定のカラムやindexをKeyにして結合する
df1.merge(df2)

#### - pd.concat()
> concatenateの略

In [None]:
# DataFrameを単純に横に(もしくは縦に)結合する（ガッチャンコさせる）
# 縦
pd.concat([df1, df2], axis=0)

In [None]:
# 横
pd.concat([df1, df2], axis=1)

### | .merge()の使い方をマスタ-

重要な引数：

<img src='https://datawokagaku.com/wp-content/uploads/2020/02/params_merge-300x241.png' width=35%>

> + how : どう結合するか→{‘left’, ‘right’, ‘outer’, ‘inner’}, デフォルトは ‘inner’
> + on : keyにするカラムを指定（どちらのDataFrameにも存在するカラム）．指定をしないと共通のカラムで結合される
> + left_on：leftのDataFrameのkeyにするカラム
> + right_on：rightのDataFrameのkeyにするカラム
> + left_index：leftのKeyをindexにする場合Trueを指定
> + right_index：rightのKeyをindexにする場合Trueを指定


#### - merge(how='') left right

In [None]:
df1 = pd.DataFrame({ 'Key': ['k0', 'k1', 'k2'],
                    'A': ['a0', 'a1', 'a2'],
                    'B': ['b0', 'b1', 'b2']})

df2 = pd.DataFrame({ 'Key': ['k0', 'k1', 'k3'],
                    'C': ['c0', 'c1', 'c3'],
                    'D': ['d0', 'd1', 'd3']})

In [None]:
df１

In [None]:
df2

In [None]:
# df1:left df2:right
# rightの表には’k2’がありません． なので’k2’のC, DはNaNが入ります．leftの表のレコードは失われないイメージ
df1.merge(df2, how='left')

#### - merge(how='') outer

In [None]:
# left(df1)もright(df2)もどちらもレコードを失うことなく， 結合できるレコードは結合(以外はNaNで埋める)
df1.merge(df2, how='outer')

#### - merge(how='') inner

In [None]:
# left(df1)もright(df2)にもある共通のレコードだけ
df1.merge(df2, how='inner')

#### - merge(on='') 

In [None]:
df1 = pd.DataFrame({ 'Key': ['k0', 'k1', 'k2'],
                    'ID': ['aa', 'bb', 'cc'],
                    'A': ['a0', 'a1', 'a2'],
                    'B': ['b0', 'b1', 'b2']})

df2 = pd.DataFrame({ 'Key': ['k0', 'k1', 'k3'],
                    'ID': ['aa', 'bb', 'cc'],
                    'C': ['c0', 'c1', 'c3'],
                    'D': ['d0', 'd1', 'd3']})

In [None]:
df1

In [None]:
df2

In [None]:
# KeyカラムをKeyにして結合
df1.merge(df2, on='Key')

In [None]:
# IDカラムをKeyにして結合
df1.merge(df2, on='ID')

In [None]:
# suffixesを指定する
df1.merge(df2, on='ID', suffixes=('_left', '_right'))

#### - merge(left_on='', right_on='') 

In [None]:
df1 = pd.DataFrame({ 'Key1': ['k0', 'k1', 'k2'],
                    'A': ['a0', 'a1', 'a2'],
                    'B': ['b0', 'b1', 'b2']})

df2 = pd.DataFrame({ 'Key2': ['k0', 'k1', 'k3'],
                    'C': ['c0', 'c1', 'c3'],
                    'D': ['d0', 'd1', 'd3']})

In [None]:
df1

In [None]:
df2

In [None]:
# suffixesを指定する
df1.merge(df2, left_on='Key1', right_on='Key2')

#### - merge(left_index='', right_index='') 

In [None]:
df1.merge(df2, left_index=True, right_index=True)

#### - .join()

> ```memo```
>
>     複数のDataFrameを一気に連結できます．
>     が...これはオススメしません．バグのもとになりやすいですし，コードが読みにくくなります．
>     できれば一つ一つ結合することをオススメします．

In [None]:
df1 = pd.DataFrame({ 'Key1': ['k0', 'k1', 'k2'],
                    'A': ['a0', 'a1', 'a2'],
                    'B': ['b0', 'b1', 'b2']})

df2 = pd.DataFrame({ 'Key2': ['k0', 'k1', 'k3'],
                    'C': ['c0', 'c1', 'c3'],
                    'D': ['d0', 'd1', 'd3']})
df3 = pd.DataFrame({ 'Key3': ['k0', 'k1', 'k4'],
                    'E': ['c0', 'c1', 'c3'],
                    'F': ['d0', 'd1', 'd3']})

df1.join([df2, df3])

## 17: DataFrameの重要関数(apply, unique, value_counts)

#### - .unique() .nunique()
> Seriesの関数です．よく使います．

>     「このカラムはどんな値を保持するんだろう？」と思いますよね？
>     例えば「本当にPclassは1, 2, 3しか値がないのだろうか？」と思うことがあると思います． そういうときにこれらの関数を使います．


In [None]:
import pandas as pd
df = pd.read_csv('train.csv')
df.head()

In [None]:
df['Pclass'].unique()

In [None]:
df['Pclass'].nunique()

#### - .value_counts()
> それぞれの値に対していくつのレコードがあるのかをSeries形式で返してくれます．

In [None]:
df['Pclass'].value_counts()

### | .apply（）

#### - (超重要).apply()
> apply : 適用
>
>     基本的にDataFrameの操作はapply関数で処理していくと言っていいと思います．
>     apply()関数を使って， DataFrameの全てのレコードに処理をして， その結果を別のカラムに格納することができます．

<img src='https://datawokagaku.com/wp-content/uploads/2020/02/apply_overview-1.png' width=45%>


In [None]:
def get_age_group(age):
    return str(age)[0] + '0s'

# 実行
get_age_group(45)

In [None]:
df = pd.DataFrame({ 'name': ['john', 'Mike', 'Emily'],
                    'age': ['23', '36', '42']})
df

In [None]:
df['age'].apply(get_age_group)

In [None]:
# 'age_group'カラムを新たに作り，結果を代入
df['age_group'] = df['age'].apply(get_age_group)
df

#### - lambda関数を使った.apply()

In [None]:
# lambda関数を変数fに代入して
f = lambda x: str(x)[0] + '0s'
#　試しに43を入れてみる
f(43)

In [None]:
df['age_group'] = df['age'].apply(lambda x: str(x)[0] + '0s')

#### - レコード全体に対し.apply()
> 行に対してapplyする場合，axis=1を指定する必要があります．

In [None]:
df = pd.DataFrame({ 'name': ['john', 'Mike', 'Emily'],
                    'age': ['23', '36', '42']})
df['description'] = df.apply(lambda row: '{} is {} years old'.format(row['name'], row['age']), axis=1)
df

## 18: DataFrameのその他頻出関数(to_csv, iterrows, sort_values)

#### - df.to_csv()

In [None]:
import pandas as pd
df = pd.read_csv('train.csv')

In [None]:
df.head(3)

In [None]:
df['Adult'] = df['Age'].apply(lambda x : x > 20)
df.head()

In [None]:
df.to_csv('train_w_aduld.csv')

In [None]:
df.to_csv('../../../../train_w_adult.csv')

In [None]:
df_new = pd.read_csv('train_w_aduld.csv')
display(df_new)

>    ```Unnamed:```と謎のカラムが作成される
>     これは、indexeがそのまま保存されている。pandasで読み込むたびに生成されるのは不要
>     オプションを付するればOK
>

> ```Python
> df.to_csv('pass.csv', index=False)
> ```

#### - .iterrows()
> DataFrameをfor文でイテレーションするときに使います．覚えにくいですが，「rows」を「iteration」するのでiter + row + s. と覚えましょう

In [None]:
for idx, row in df.iterrows():
    if row['Age'] > 40 and row['Pclass'] == 3 and row['Sex'] == 'male' and row["Survived"] == 1:
        print("{}: {} is very luck guy...!".format(idx, row['Name']))

#### - .sort_values()
>     SeriesではなくDataFrameの関数であることに注意してください．
>     デフォルトは昇順ソート(小→大)です．降順ソート(大→小)にするには ascending=False を指定します．


In [None]:
df.sort_values('Age', ascending=False)

## 19: DataFrameのその他頻出関数(pivot_table, xs)

#### - pivot_table()
> データサイエンスでは殆ど用いない。頭の片隅に置いておこう

In [None]:
import pandas as pd

In [None]:
data = {'Date':['Jan-1', 'Jan-1', 'Jan-1', 'Jan-2', 'Jan-2', 'Jan-2'], 
        'User':['Emily', 'John', 'Nick', 'Kevin', 'Emily', 'John'],
        'Method':['Card', 'Card', 'Cash', 'Card', 'Cash', 'Cash'],
        'Price':[100, 250, 200, 460, 200, 130]}
df = pd.DataFrame(data)
df

In [None]:
df.pivot_table(values='Price', index=['Date', 'User'], columns=['Method'])

In [None]:
pivot = df.pivot_table(values="Price", index=["Date", "User"], columns=["Method"])
pivot

#### .xs()
> cross-section操作
>
>     これもあまり使いませんが，ピボットのような複数のindexをもったDataFrameを操作する際に重宝します．

In [None]:
pivot.loc["Jan-1"]

In [None]:
pivot.loc["Card"]

In [None]:
pivot.xs("Card", level="Method")