# Pandas と Seaborn を使ってPythonで表を扱う
- Pandas: "Pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language." https://pandas.pydata.org/docs/index.html
- Seaborn: "Seaborn is a library for making statistical graphics in Python." https://seaborn.pydata.org/tutorial/introduction

In [5]:
# pandas は pd としてインポートされることが多い
import pandas as pd

# seaborn は sns としてインポートされることが多い
import seaborn as sns

## Google colaboratory でのデータの読み込み
- 通常は、左にある「ファイル」にデータをドラッグ & ドロップする
- 今は、データをダウンロードして使用する

In [10]:
# 本日使うデータをダウンロードする
# ファイル名は cobre_142.csv
![[ -f cobre_142.csv ]] || wget https://raw.githubusercontent.com/kytk/AI-MAILs/main/cobre_142.csv

--2023-08-09 09:53:50--  https://raw.githubusercontent.com/kytk/AI-MAILs/main/cobre_142.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 6345 (6.2K) [text/plain]
Saving to: ‘cobre_142.csv’


2023-08-09 09:53:50 (76.6 MB/s) - ‘cobre_142.csv’ saved [6345/6345]



## Pandas の用語: 「データフレーム」
- 一般的な表をイメージすればよい
- Pandasでは、ひとつの表を「データフレーム」と呼ぶ
- dataframe から df という変数に代入されることが多い

## Pandas へのデータの読み込み
- Pandas は、csvファイルやexcelファイルを読み込むことができる
- Excelファイルはいくつか追加パッケージが必要なため、csvファイルがおすすめ
- csvファイルに日本語が入っている場合、文字コードをUTF-8にすることがおすすめ
- `pd.read_csv('csvファイル')` で読み込むことができる

In [11]:
# pd.read_csv を使用する
# 1列目はIDのようなインデックスの場合、'index_col=0' と指定する
df = pd.read_csv('/content/cobre_142.csv', index_col=0)

In [12]:
# df.head() でデータの最初の5行を確認できる
df.head()

Unnamed: 0_level_0,Age,Dx,Sex,GMV,WMV,CSF,ICV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
sub-40000,20,2,0,640.99,431.95,289.0,1361.94
sub-40001,27,2,1,664.49,463.15,207.6,1335.24
sub-40002,19,2,1,617.81,418.59,281.2,1317.6
sub-40003,28,2,1,874.19,573.03,293.5,1740.72
sub-40004,55,2,1,670.24,488.44,477.5,1636.18


In [16]:
df['Age'].mean()

36.90845070422535

In [None]:
#何行何列か
df.shape

(142, 8)

In [None]:
df['ID']

0      40000
1      40001
2      40002
3      40003
4      40004
       ...  
137    40143
138    40144
139    40145
140    40146
141    40147
Name: ID, Length: 142, dtype: int64

In [None]:
df.ID

0      40000
1      40001
2      40002
3      40003
4      40004
       ...  
137    40143
138    40144
139    40145
140    40146
141    40147
Name: ID, Length: 142, dtype: int64

In [None]:
#行を取り出したいときはloc/ilocを使うしかない
df.loc[1,:]

ID        40001.00
Age          27.00
Type          2.00
Gender        1.00
Hand          1.00
GMV         664.49
WMV         463.15
TBV        1127.60
Name: 1, dtype: float64

In [None]:
df.iloc[0,3]

2

In [None]:
df.loc[0,'Hand']
# ここでは行indexが新たに振り直した連続数になっている。

1

In [None]:
# df.loc と df.iloc の違い
# df.loc はindex名を使う、ilocはindex(数字)を使う
# location-based indexer が正式名称

In [None]:
#最初から行indexを被験者IDにしておけばいい。
df = pd.read_csv("/content/COBRE_142_info_pandas.tsv",delimiter='\t',index_col=0)
df.head()

Unnamed: 0_level_0,Age,Type,Gender,Hand,GMV,WMV,TBV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
40000,20,2,2,1,640.99,431.95,1072.9
40001,27,2,1,1,664.49,463.15,1127.6
40002,19,2,1,1,617.81,418.59,1036.4
40003,28,2,1,1,874.19,573.03,1447.2
40004,55,2,1,1,670.24,488.44,1158.7


In [None]:
df.loc[40000,'GMV']

640.99

In [None]:
#複数列の抜き出し
df.loc[40000,['GMV','WMV','TBV']]

GMV     640.99
WMV     431.95
TBV    1072.90
Name: 40000, dtype: float64

In [None]:
# df から、GMV,Age,Gender,TBVの３つを抜き出したdf2を作成してください。
df2 = df[['GMV','Age','Gender','TBV']]
# df2 = df.loc[:,['GMV','Age','Gender,'TBV']] でも可

In [None]:
#df2 から男だけを選びたい
male = df2['Gender']==1
# →これではBoolean(真偽値)のみ返ってくる
df2[male]
# df2_male = df2[df2.Gender==1] でもよい
## Gender がDataFrameのattributeになっている

Unnamed: 0_level_0,GMV,Age,Gender,TBV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
40001,664.49,27,1,1127.6
40002,617.81,19,1,1036.4
40003,874.19,28,1,1447.2
40004,670.24,55,1,1158.7
40006,574.42,53,1,1037.4
...,...,...,...,...
40143,648.10,52,1,1048.0
40144,670.65,54,1,1159.9
40145,777.67,19,1,1227.0
40146,611.73,39,1,1041.6


In [None]:
age_condition = ((df2['Age'] > 40) & (df2['Age'] < 50))
# リストを扱うときは and/or ではなく、 & / | を使わないとエラーになる。
## and/or はTrue/FalseとTrue/Falseをつなぐのにしか使えない。

In [None]:
df2[age_condition]

Unnamed: 0_level_0,GMV,Age,Gender,TBV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
40005,493.73,48,2,824.95
40015,684.82,47,1,1235.9
40016,563.09,49,1,988.11
40018,660.19,47,1,1115.0
40019,687.82,44,1,1147.8
40023,687.81,48,1,1112.9
40024,678.31,42,1,1193.4
40026,621.06,44,1,1038.2
40027,676.53,48,1,1158.2
40030,717.05,43,1,1174.3


In [None]:
df2[df2.Gender==1][df2.Age>40]
# Warning は出るものの、正しい結果が返ってくる。

  df2[df2.Gender==1][df2.Age>40]


Unnamed: 0_level_0,GMV,Age,Gender,TBV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
40004,670.24,55,1,1158.7
40006,574.42,53,1,1037.4
40010,612.18,52,1,1045.2
40015,684.82,47,1,1235.9
40016,563.09,49,1,988.11
40018,660.19,47,1,1115.0
40019,687.82,44,1,1147.8
40023,687.81,48,1,1112.9
40024,678.31,42,1,1193.4
40026,621.06,44,1,1038.2


In [None]:
df0=pd.read_csv('/content/COBRE_142_info_pandas_2.tsv',delimiter='\t',index_col=0)

In [None]:
df0.head()

Unnamed: 0_level_0,Age,Type,Gender,Hand,GMV,WMV,TBV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
ID40000,20,2,2,1,640.99,431.95,1072.9
ID40001,27,2,1,1,664.49,463.15,1127.6
ID40002,19,2,1,1,617.81,418.59,1036.4
ID40003,28,2,1,1,874.19,573.03,1447.2
ID40004,55,2,1,1,670.24,488.44,1158.7


In [None]:
import numpy as np
np.array(df0)

array([[2.0000e+01, 2.0000e+00, 2.0000e+00, 1.0000e+00, 6.4099e+02,
        4.3195e+02, 1.0729e+03],
       [2.7000e+01, 2.0000e+00, 1.0000e+00, 1.0000e+00, 6.6449e+02,
        4.6315e+02, 1.1276e+03],
       [1.9000e+01, 2.0000e+00, 1.0000e+00, 1.0000e+00, 6.1781e+02,
        4.1859e+02, 1.0364e+03],
       [2.8000e+01, 2.0000e+00, 1.0000e+00, 1.0000e+00, 8.7419e+02,
        5.7303e+02, 1.4472e+03],
       [5.5000e+01, 2.0000e+00, 1.0000e+00, 1.0000e+00, 6.7024e+02,
        4.8844e+02, 1.1587e+03],
       [4.8000e+01, 2.0000e+00, 2.0000e+00, 1.0000e+00, 4.9373e+02,
        3.3122e+02, 8.2495e+02],
       [5.3000e+01, 2.0000e+00, 1.0000e+00, 1.0000e+00, 5.7442e+02,
        4.6295e+02, 1.0374e+03],
       [6.5000e+01, 2.0000e+00, 2.0000e+00, 1.0000e+00, 4.4260e+02,
        3.5228e+02, 7.9488e+02],
       [2.8000e+01, 2.0000e+00, 1.0000e+00, 1.0000e+00, 7.9609e+02,
        5.0265e+02, 1.2987e+03],
       [3.1000e+01, 2.0000e+00, 2.0000e+00, 1.0000e+00, 6.5641e+02,
        4.2112e+02, 1.0

In [None]:
ds0 = np.array(df0)

In [None]:
df0.drop(['Hand'],axis=1)

Unnamed: 0_level_0,Age,Type,Gender,GMV,WMV,TBV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ID40000,20,2,2,640.99,431.95,1072.9
ID40001,27,2,1,664.49,463.15,1127.6
ID40002,19,2,1,617.81,418.59,1036.4
ID40003,28,2,1,874.19,573.03,1447.2
ID40004,55,2,1,670.24,488.44,1158.7
...,...,...,...,...,...,...
ID40143,52,2,1,648.10,399.88,1048.0
ID40144,54,1,1,670.65,489.29,1159.9
ID40145,19,2,1,777.67,449.32,1227.0
ID40146,39,1,1,611.73,429.90,1041.6


In [None]:
df10=df['Age']

In [None]:
df11=df['GMV']

In [None]:
df12=pd.concat([df10,df11],axis=1)

In [None]:
df12.head()

Unnamed: 0_level_0,Age,GMV
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
40000,20,640.99
40001,27,664.49
40002,19,617.81
40003,28,874.19
40004,55,670.24


In [None]:
# groupby メソッドで、グループ毎の統計量を簡単に見られる。
df0.groupby(by='Gender').describe()['TBV']

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,108.0,1181.007685,124.201079,910.03,1099.7,1168.4,1251.325,1572.9
2,34.0,1039.657647,94.346283,794.88,984.5675,1059.05,1092.625,1225.6


In [None]:
df0.groupby(by=['Gender','Type']).mean()['TBV']

Gender  Type
1       1       1191.220400
        2       1172.203621
2       1       1066.550952
        2        996.214615
Name: TBV, dtype: float64

In [None]:
df0.groupby(by=['Gender','Type']).size()

Gender  Type
1       1       50
        2       58
2       1       21
        2       13
dtype: int64