# Pandas で 表を扱い、Seaborn で可視化する
- Pandas: "Pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language." https://pandas.pydata.org/docs/index.html
- Seaborn: "Seaborn is a library for making statistical graphics in Python." https://seaborn.pydata.org/tutorial/introduction

In [None]:
# pandas は pd としてインポートされることが多い
import pandas as pd

# seaborn は sns (seaborn name space) としてインポートされることが多い
import seaborn as sns


## Google colaboratory でのデータの読み込み
- 通常は、左にある「ファイル」の下にデータをドラッグ & ドロップする
- そうすると、/content/ファイル名 でアクセスできる
- 今は、データをダウンロードして使用する

In [None]:
# 本日使うデータをダウンロードする
# ファイル名は cobre_142.csv
# ! はPythonからシェルで動かすプログラムを実行したい時につける
# [[ -f cobre_142.csv ]] は、「cobre_142.csv というファイルがあるか？」というテスト文
# || は、戻り値が False ならば…　というコマンド
# wget はダウンロードするLinuxのプログラム

![[ -f cobre_142.csv ]] || wget https://raw.githubusercontent.com/kytk/AI-MAILs/main/cobre_142.csv


## Pandas の用語: 「データフレーム Data Frame」
- 一般的な表をイメージすればよい
- Pandasでは、ひとつの表を「データフレーム」と呼ぶ
- 行: row; 列: column
- dataframe から df という変数に代入されることが多い

## Pandas へのデータの読み込み
- Pandas は、csvファイルやexcelファイルを読み込むことができる
- Excelファイルはいくつか追加パッケージが必要なことがあるため、csvファイルがおすすめ
- csvファイルに日本語が入っている場合、文字コードをUTF-8にすることがおすすめ
- Excel は、`pd.read_excel('excelファイル')` で読み込むことができる
- CSVは、`pd.read_csv('csvファイル')` で読み込むことができる

In [None]:
# pd.read_csv を使用する
# 1列目はIDのようなインデックスの場合、'index_col=0' と指定する
df = pd.read_csv('/content/cobre_142.csv', index_col=0)

In [None]:
import pandas as pd
import seaborn as sns
df = pd.read_csv('/content/cobre_142.csv', index_col=0)
sns.set_theme()
sns.relplot(data=df, x="Age", y="GMV", hue="Sex",style="Dx")

In [None]:
df.head()

In [None]:
df.loc['sub-40037','CSF']=408.3


In [None]:
df.loc['sub-40037','ICV'] -= 1000

In [None]:
df.loc['sub-40037']['ICV']

In [None]:
sns.relplot(data=df, x="ICV", y="CSF",hue="Sex",style="Dx")

In [None]:
sns.pairplot(df)

In [None]:
# df.head() でデータの最初の5行を確認できる
df.head()

In [None]:
df.shape

In [None]:
df.index

In [None]:
# カラム名を使ってデータの一部を抽出できる
# Age のみ抜き出したかったら df['Age']
df['Age']

In [None]:
# 複数の項目を抜き出したかったら、まず、項目をリストとして作成して、
# df[リスト] とすればよい
# Age と GMV を抜き出したかったら、まず、['Age', 'GMV'] というリストを作る
# そのリストを df[] の中に入れる
# a = ['Age','GMV']
# df[a]

df[['Age','GMV']]

In [None]:
# データフレームの記述統計は、describe() で求められる
df.describe()

In [None]:
# データフレームの平均は mean() メソッドで簡単に求められる
df.mean()

In [None]:
df.median()

In [None]:
# ある列の平均は、その列だけ取り出して mean() メソッドで簡単に求められる
df['Age'].mean()

In [None]:
# 複数の列の平均も一度に求められる
df[['Age','GMV']].mean()

In [None]:
df.mean()

In [None]:
df.std()

In [None]:
df.describe()


In [None]:
# 年齢が40歳より上を取り出したい
#df[df['Age'] >40]
df['Age']>40


In [None]:
df[df['Age']>40]

In [None]:
#行を取り出したいときはloc/ilocを使う location based indexer
# 2行目を取り出したい時
df.iloc[1,:]

In [None]:
# 3行目から5行目を取り出したい
df.iloc[2:5,:]

In [None]:
# groupby メソッドで、グループ毎の統計量を簡単に見られる。
df.groupby(by='Sex').describe()['Age']

In [None]:
df.groupby(by=['Sex','Dx']).mean()['ICV']

In [None]:
df.groupby(by=['Sex','Dx']).size()

In [None]:
sns.set_theme()
sns.relplot(
    data=df,
    x="Age", y="GMV", hue="Sex",style="Dx")

In [None]:
sns.relplot(
    data=df,
    x="Age", y="GMV", hue="Dx",style="Sex")

In [None]:
df['GMV']+df['WMV']

In [None]:
df['TBV']=df['GMV']+df['WMV']

In [None]:
df.head()

## Pandasでできることの例
- 表を扱う
- 表の記述統計量
- 表の一部を抽出する
- 複数の列の情報から新しい列を生成する
- PandasのデータフレームはSeabornでのグラフ作成にそのまま使用できる
