# Pandas

### データセットを確認する  
- ファイルの入出力
- head, tail
- info, describe
- columns, index
- dtypes, shape

In [None]:
with open("./data/bank-names.txt", encoding="UTF-8") as f:
    print(f.read())

In [None]:
import pandas as pd

In [None]:
# 外部ファイルを読み込む
df = pd.read_csv("./data/bank.csv", sep=";")

In [None]:
# 外部ファイルに吐き出す
df.to_csv("./data/bank_output_test1.csv")
df.to_csv("./data/bank_output_test2.csv", index=False)
df.to_csv("./data/bank_output_test3.csv", index=False, sep=";")

In [None]:
# 上から5行を表示
df.head()

In [None]:
# 下から指定行数を表示
df.tail(10)

In [None]:
# データフレームの情報を表示
df.info()

In [None]:
#　データフレームの統計量を表示
df.describe()

In [None]:
# 列情報
df.columns

In [None]:
# 行情報
df.index

In [None]:
# データフレームの型
df.dtypes

In [None]:
# (行数, 列数)
df.shape

In [None]:
# 行数
len(df)

### データの操作
- コピー
- 参照（スライシング）  
- 列・行の取得
- シリーズ
- 代入、削除、列・行の追加
- 欠損処理
- 重複処理
- 集計処理
- 列名とインデックス
- 集約処理（groupby）
- ピボットテーブル
- 型の変更
- ソート
- データフレームの作成

#### コピー
 - copy

In [None]:
base = df.copy()
base.head()

#### セルの取得
- loc
- iloc

In [None]:
# loc[行名, 列名]
df.loc[0,"age"]

In [None]:
df.loc[[0,1], ["age", "job"]]

In [None]:
df.loc[0:1, "age":"job"]

In [None]:
# iloc[行インデックス, 列インデックス]
df.iloc[0,0]

In [None]:
df.iloc[[0,1],[0,1]]

In [None]:
df.iloc[0:1,0:1]

In [None]:
df = df.iloc[:5, :5]
df

#### 列の取得

In [None]:
df.loc[:, ["age","job"]]

In [None]:
df[["age","job"]]

In [None]:
df["age"]

#### Series

In [None]:
ser = df["age"]

In [None]:
ser[0]

In [None]:
ser[0:2]

In [None]:
ser.index

#### 行の取得

In [None]:
ser = df["age"]
target = ser > 30
target

In [None]:
# True/Falseのリスト形式のものを入れるとTrueの行を取得
df[target]

In [None]:
df[df["age"] > 30]

#### 代入

In [None]:
# セルを指定して代入
df.loc[4, "age"] = 60
df

In [None]:
# 列を指定して代入
yes_list = ["yes"] * 5
print(yes_list)
df["default"] = yes_list
df

In [None]:
df["default"] = "no"
df

#### 削除
- drop
- del

In [None]:
# 列を削除
df.drop(columns="job")

In [None]:
df.drop("job", axis=1)

In [None]:
del df["job"]
df

In [None]:
# 行の削除
df.drop(2)

#### 追加

In [None]:
#　列の追加  
df["new_col"] = 1
df

In [None]:
# 行の追加  
df.loc[5, :] = [40.0, "single", "secondary", "yes", 2]
df

#### 欠損処理
- isnull
- dropna
- ffill
- bfill
- interpolate
- fillna

In [None]:
# 欠損セルの確認
df.isnull()

In [None]:
# 欠損列の確認
df.isnull().any()

In [None]:
# 欠損行の確認
df.isnull().any(axis=1)

In [None]:
# 欠損行の抽出  
df[df.isnull().any(axis=1)]

In [None]:
# 欠損行の削除
df.dropna()

In [None]:
# 欠損列の削除
df.dropna(axis=1)

In [None]:
# 欠損を埋める(フォワードフィル)
df.ffill()

In [None]:
# 欠損を埋める(バックフィル)
df.bfill()

In [None]:
# 欠損を埋める(線形補完)
df.interpolate()

In [None]:
# 欠損を埋める(任意の値)
df.fillna(100)

#### 重複処理
- duplicated
- drop_duplicates

In [None]:
#　重複行の確認
df.duplicated()

In [None]:
df[["default","new_col"]].duplicated()

In [None]:
# 重複削除
df[["default","new_col"]].drop_duplicates()

#### 集計処理

In [None]:
df

In [None]:
df.sum()

In [None]:
df.sum(axis=1)

In [None]:
df.max()

In [None]:
#　平均値
df.mean()

In [None]:
# 列の合計
df["new_col"].sum()

#### 列名とインデックス
- columns, index
- reset_index

In [None]:
# 列名の変更
print(df.columns)
df.columns = ["age", "marital", "education", "default", "new_col2"]
df

In [None]:
df.rename(columns={"new_col2":"new_col3"}, inplace=True) # inplaceで破壊的に元のデータフレームを置き換える
df

In [None]:
# インデックスの変更　　
df.index = range(1,7)
df

In [None]:
# インデックスの初期化  
df.reset_index()

In [None]:
df.reset_index(drop=True)

#### 集約処理
- groupby

In [None]:
df

In [None]:
df.groupby("marital")

In [None]:
df.groupby("marital").sum()

In [None]:
df.groupby("marital").sum().reset_index()

In [None]:
df.groupby(["marital", "education"]).max().reset_index()

#### ピボットテーブル
- pivot_table

In [None]:
df.pivot_table(values="age", index=["marital", "education"], columns="default")

#### その他の処理
- astype
- sort_values
- pd.DataFrame

In [None]:
# 型の変更
df["new_col3"] = df["new_col3"].astype(int)
df

In [None]:
# ソート　　
df.sort_values("age")

In [None]:
df.sort_values("age", ascending=False)

In [None]:
df.sort_values(["new_col3", "age"], ascending=[True, False])

In [None]:
# データフレームの作成
new_df = pd.DataFrame(data=[[1,2],[3,4]], columns=["a", "b"])
new_df

### 複数データフレームの処理
- merge
- append
- concat

#### データフレームの結合

In [None]:
df

In [None]:
df2 = base.copy()
df2 = df2.loc[45:50, ["age","education"]]
df2.loc[45, "age"] = 30.0
df2["new_col4"] = 4
df2

In [None]:
# on句でキーを指定して結合（inner join）
df.merge(df2, on=["age", "education"])

In [None]:
# on句でキーを指定して結合（left outer join）
df.merge(df2, on=["age", "education"], how="left")

In [None]:
# 新しいデータフレームを行を追加する形で結合  
df3 = base.copy()
df3 = df3.loc[50:55, ["age","marital","education","default"]]
df3["new_col3"] = 3
df3

In [None]:
df

In [None]:
# appendによる追加
df.append(df3)

In [None]:
df.append(df3, ignore_index=True)

In [None]:
# concatによる追加  
pd.concat([df, df3])

###  one-hotエンコーディング
- get_dummies

In [None]:
df

In [None]:
pd.get_dummies(df["marital"])

In [None]:
pd.get_dummies(df)