## Pandas

In [1]:
import pandas as pd

### ファイルの読み込み

**pd.read_csv('ファイルパス', delimiter='区切り文字', skiprows=n, header=m, index_col=k)**  

- 第一引数にファイルパスを指定．  
- delimiter引数で区切り文字を指定．区切り文字がコンマ（,）なら省略可．  
区切り文字がタブの場合:delimiter=’\t’，空白の場合:delimiter=‘\s+’  
delimiter引数の代わりにsep引数を使っても良い  
- skiprows引数で読み飛ばす行数を指定．読み飛ばす行がなければ省略可  
- header引数で列ラベルを指定する．列ラベルがない場合はNone  
- index_col引数で行ラベルを指定する．行レベルがない場合は省略

※ データファイルを読み込む前にファイルの中身を確認する  
JupyterLabで開きたいデータファイルを右クリック，Open With > Editor  

（注）Pandasでは列ごとにデータ型が異なってもよい．（NumPyでは全ての要素が同じデータ型のみ）

In [2]:
df = pd.read_csv('data/user_data1.csv',delimiter=',',header=0)
display(df.head())
display(df)

Unnamed: 0,id,age,gender,occupation
0,1001,24,M,technician
1,1002,53,F,other
2,1003,23,M,writer
3,1004,24,M,technician
4,1005,33,F,other


Unnamed: 0,id,age,gender,occupation
0,1001,24,M,technician
1,1002,53,F,other
2,1003,23,M,writer
3,1004,24,M,technician
4,1005,33,F,other
5,1006,42,M,executive
6,1007,57,M,administrator
7,1008,36,M,administrator
8,1009,29,M,student
9,1010,53,M,lawyer


※ 以降の説明ではdfはDataFrameの変数名とする．

### DataFrameの条件抽出

**df[条件]**  
条件の書き方の例:  
- `df[df["列名"] == 値1]` 指定した列の値が値1と一致する行を抽出  
- `df[df["列名"] > 値2]` 指定した列の値が値2より大きい行を抽出   

複数条件の指定:   
- かつ(&): df[(条件1)&(条件2)]  
- どちらか一方(|): df[(条件1)|(条件2)]

In [3]:
display(df[df["age"] >= 50]) # 50歳以上を表示

Unnamed: 0,id,age,gender,occupation
1,1002,53,F,other
6,1007,57,M,administrator
9,1010,53,M,lawyer


In [4]:
display(df[(df["gender"] == "M")&(df["age"] < 30 )]) # 男性かつ30歳未満を表示

Unnamed: 0,id,age,gender,occupation
0,1001,24,M,technician
2,1003,23,M,writer
3,1004,24,M,technician
8,1009,29,M,student


### DataFrameに行を追加

**pd.concat([df, ser.to_frame().T],ignore_index=True)**

- 追加する行のindexはDataFrameの列ラベルと同じにする
- 追加後のDataFrameのindexはignore_index=Trueを用いて自動生成する
-　Seriesをto_frame()を用いて２次元のDataFrameに変換する。さらに、そのままでは列になっているので、「.T」を用いて転置をし、行にする。
- concatを用いて2つのDataFrameを結合する。

In [12]:
# 追加する行をSeriesに変換し，列ラベルをDataFrameと同じにする
ser = pd.Series([1013,20,"M","student"],index=df.columns) 
print(ser)
print(df.columns)

df2 = pd.concat([df, ser.to_frame().T],ignore_index=True)
display(df2)

id               1013
age                20
gender              M
occupation    student
dtype: object
Index(['id', 'age', 'gender', 'occupation'], dtype='object')


Unnamed: 0,id,age,gender,occupation
0,1001,24,M,technician
1,1002,53,F,other
2,1003,23,M,writer
3,1004,24,M,technician
4,1005,33,F,other
5,1006,42,M,executive
6,1007,57,M,administrator
7,1008,36,M,administrator
8,1009,29,M,student
9,1010,53,M,lawyer


### DataFrameに列を追加

**df["新しい列名"] = リスト or Series**

In [6]:
# 生まれた年を表す新しい列 "year" を追加する
df["year"] = 2020 - df["age"]
display(df)

Unnamed: 0,id,age,gender,occupation,year
0,1001,24,M,technician,1996
1,1002,53,F,other,1967
2,1003,23,M,writer,1997
3,1004,24,M,technician,1996
4,1005,33,F,other,1987
5,1006,42,M,executive,1978
6,1007,57,M,administrator,1963
7,1008,36,M,administrator,1984
8,1009,29,M,student,1991
9,1010,53,M,lawyer,1967


### DataFrameの行・列の削除

列の削除:  
**df.drop(columns="列名")**  もしくは  **df.drop("列名",axis=1)**

行の削除:  
**df.drop(index=行番号)**  もしくは  **df.drop(行番号)**

In [7]:
df = df.drop(columns="year")
display(df)

Unnamed: 0,id,age,gender,occupation
0,1001,24,M,technician
1,1002,53,F,other
2,1003,23,M,writer
3,1004,24,M,technician
4,1005,33,F,other
5,1006,42,M,executive
6,1007,57,M,administrator
7,1008,36,M,administrator
8,1009,29,M,student
9,1010,53,M,lawyer


### 2つのDataFrameをマージ

共通する列をもつ2つのDataFrameを1つのDataFrameに統合する方法

**pd.merge(df1,df2,on="キー(共通する列名)",how="マージ方法")**

- 第一引数のDataFrameが左表，第二引数のDataFrameが右表となる．
- 引数on: 共通する列名をキーとして2つのDataFrameをマージする  
- 引数how: マージ方法を指定する
```
how="inner": 内部結合．2つのDataFrameのキーの共通する行のみ抽出してマージ
how="outer": 外部結合．2つのDataFrameのキーの全ての行を使用してマージ
how="left": 左表(第一引数で指定したDataFrame)のキーのみを使う
how="right": 右表(第二引数で指定したDataFrame)のキーのみを使う
```

In [8]:
df2 = pd.read_csv('data/user_data2.csv',delimiter=',')
display(df2)

# 共通する列は "id", 外部結合によりマージする．
df_new = pd.merge(df,df2,on="id",how="outer")
display(df_new)

Unnamed: 0,id,zip_code
0,1001,904-0103
1,1002,999-3707
2,1006,785-0664
3,1007,590-0022
4,1008,787-0324
5,1009,379-1101
6,1010,817-1256
7,1011,099-5553
8,1012,989-6712


Unnamed: 0,id,age,gender,occupation,zip_code
0,1001,24,M,technician,904-0103
1,1002,53,F,other,999-3707
2,1003,23,M,writer,
3,1004,24,M,technician,
4,1005,33,F,other,
5,1006,42,M,executive,785-0664
6,1007,57,M,administrator,590-0022
7,1008,36,M,administrator,787-0324
8,1009,29,M,student,379-1101
9,1010,53,M,lawyer,817-1256


### グループ毎にデータを集約

カテゴリのグループ毎にデータを集約し，合計，最大，最小，平均などを求めることができる．

**df.groupby("列名").統計関数**

統計関数はsum(),max(),min(),mean()など

In [9]:
# 職業毎にデータを集約し，各列(数値データの列のみ)の平均値を求める
# df.groupby("occupation").mean()
df.groupby("occupation").mean(numeric_only=True)

Unnamed: 0_level_0,id,age
occupation,Unnamed: 1_level_1,Unnamed: 2_level_1
administrator,1007.5,46.5
executive,1006.0,42.0
lawyer,1010.0,53.0
other,1007.5,38.25
student,1009.0,29.0
technician,1002.5,24.0
writer,1003.0,23.0


### ソート

**df.sort_values(by="列名1",ascending=True)**  

- 引数`ascending`では対応する各列に対して昇順にするならばTrue，降順にするならばFalseを指定する  
- 複数の列を基準にソートしたい場合は次のようにする  **df.sort_values(by=["列名1","列名2"],ascending=[True,True])**  
この場合，はじめに列名2を基準にソートし，次に列名1を基準にソートされた結果が出力される

In [10]:
display(df_new.sort_values(by="age",ascending=True)) # 年齢順にソート

Unnamed: 0,id,age,gender,occupation,zip_code
2,1003,23,M,writer,
0,1001,24,M,technician,904-0103
3,1004,24,M,technician,
11,1012,28,F,other,989-6712
8,1009,29,M,student,379-1101
4,1005,33,F,other,
7,1008,36,M,administrator,787-0324
10,1011,39,F,other,099-5553
5,1006,42,M,executive,785-0664
1,1002,53,F,other,999-3707


### CSVファイルへの書き出し

**df.to_csv('ファイルパス')**

- 引数`header=False`を追加すると，列名を書き出さない  
- 引数`index=False`を追加するとindexを見出しとして挿入しない  
- 引数`columns=["列名1, 列名2"]`とすると指定した列だけ書き出すことができる

In [11]:
df_new.to_csv('data/new_user_data.csv',header=False,index=False)