<a href="https://colab.research.google.com/github/gmoriki/C4RA-Python-Tutorials/blob/main/0616/0616_Tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第6回C4RA勉強会
## DataFrameのデータ統計と集計
---

## ★ 勉強会の基本方針

* 5月12日(金)から6月30日(金)までの計8回を予定しています。
* 目標は**pandas.DataFrame形式の基本的な操作をマスターすること**です。

* 環境はGoogle Colaboratory(通称Colab)を使用します。Googleアカウントをご用意ください。
  * 各々のローカル環境でも実行可能です。
* 一部、東京大学「Pythonプログラミング入門」の教材を共有しながら勉強会を進めます。
  * 勉強会では**東大教材**と呼びます
  * URL：https://utokyo-ipp.github.io/index.html

* Colab（Jupyter Notebook）の詳しい使い方について、勉強会の中で深入りはしません
  * Colab立ち上げのURL：https://colab.research.google.com/
  * 便利なショートカット：https://blog.kikagaku.co.jp/google-colaboratory-shortcut

* Pythonに関する不明点があれば森木(Pumble,Mail,Twitter等)までご連絡ください
* 勉強会の内容でなくてもOKです（Colabの使い方や環境構築なども）
---

## ■ pandasの概要(前回のおさらい)

### pandas（概要）

* **データ構造**：DataFrameとSeriesを提供。
* **データ操作**：フィルタリング、ソート、集約などの機能。
* **入出力**：CSVやExcelなどのファイル形式とのやり取り。
* **欠損値処理**：欠損値の検出や補完、削除が可能。

In [None]:
import pandas as pd

# データフレーム作成
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'San Francisco', 'Los Angeles']}
df = pd.DataFrame(data)

# データフレームから年齢が30以上の行を抽出
older_than_30 = df[df['Age'] >= 30]

# CSVファイルに書き込み
df.to_csv("sample_data.csv", index=False)

# CSVファイルから読み込み
df_from_csv = pd.read_csv("sample_data.csv")

#### **東大教材(pandas)**
* 7-1. pandasライブラリ
  * https://colab.research.google.com/github/utokyo-ipp/utokyo-ipp.github.io/blob/master/colab/7/7-1.ipynb

## ■ データの選択

DataFrameから特定のデータを選択する方法について学びましょう。

また指定した行をコメントアウトするには`Ctrl+/`を実行します・

### データの読み込み・インデックスの付与

In [None]:
df = pd.read_csv("sample_data.csv")
df.set_index(pd.Index(['index_1', 'index_2', 'index_3']), inplace=True)
df

### データの選択① 列を指定する

データフレームからデータを選択する基本的な方法は2つあります。一つは列を選択する方法、もう一つは行を選択する方法です。

列を選択するには、列の名前をブラケット(`[]`)と一緒に使用します。例えば、`df['Name']`とすると、'Name'という名前の列が選択されます。

In [None]:
# 列の選択
df['Name']

複数の列を選択するには、列の名前をリストとしてブラケット内に渡します。例えば、`df[['Name', 'Age']]`とすると、'Name'と'Age'の2つの列が選択されます。

In [None]:
# 複数列の選択
df[['Name', 'Age']]

In [None]:
# 参考：フィルター関数による複数列の選択
df.filter(like='e')

### データの選択② 行を指定する+列と行を指定する

`loc`は`pandas`の`DataFrame`で使用できるラベルベースのインデクシングツールです。`loc`はラベルベースのインデクシングなので、ラベル名（インデックス名や列名）を使用してデータにアクセスします。

例えば、`df.loc[0]`を使用すると、ラベル（インデックス）が0の行を選択します。

行と列を選択するには以下のようにします：

- 行選択: `df.loc[0]` これはインデックスが0の行を選択します。
- 列選択: `df.loc[:, 'ColumnName']` これは'ColumnName'という名前の列を選択します。
- 行と列の選択: `df.loc[0, 'ColumnName']` これはインデックスが0の行と'ColumnName'という名前の列にある要素を選択します。

また、範囲を指定して選択することも可能です。例えば、`df.loc[0:2]`はインデックス0から2までの行を選択し、`df.loc[:, 'ColumnName1':'ColumnName3']`は'ColumnName1'から'ColumnName3'までの列を選択します。`df.loc[0:2, 'ColumnName1':'ColumnName3']`はインデックス0から2までの行と'ColumnName1'から'ColumnName3'までの列の部分的なDataFrameを選択します。

In [None]:
# 行の選択
df.loc['index_1']

In [None]:
# 複数行の選択
df.loc[['index_1','index_2']]

In [None]:
# 全てのインデックスと一つの列を指定
df.loc[:,'Age']

In [None]:
# 全てのインデックスと複数の列を指定
df.loc[:,['Age','Name']]

In [None]:
# 一つのインデックスと一つの列を指定
df.loc['index_1','Age']

In [None]:
# 繰り返し処理により値を出力することも可能
for column in df.columns:
    print(df.loc['index_1',column])

`iloc`は`pandas`の`DataFrame`で使用できる整数位置ベースのインデクシングツールです。`loc`がラベルベースのインデクシングであるのに対し、`iloc`は位置ベースのインデクシングです。つまり、`iloc`では整数値のインデックス番号を使用してデータにアクセスします。

例えば、`df.iloc[0]`を使用すると、DataFrameの最初の行を選択します。これはPythonのリストのインデクシングと同じように機能します。

行と列を選択するには以下のようにします：

- 行選択: `df.iloc[0]` これはDataFrameの最初の行を選択します。
- 列選択: `df.iloc[:, 0]` これはDataFrameの最初の列を選択します。
- 行と列の選択: `df.iloc[0, 0]` これはDataFrameの最初の行と最初の列にある要素を選択します。

また、範囲を指定して選択することも可能です。例えば、`df.iloc[0:5]`は最初の5行を選択し、`df.iloc[:, 0:5]`は最初の5列を選択します。`df.iloc[0:5, 0:5]`は最初の5行と5列の部分的なDataFrameを選択します。

In [None]:
# 行の選択
df.iloc[0]

In [None]:
# 複数行の選択
df.iloc[0:2]

In [None]:
# 全てのインデックスと一つの列を指定
df.iloc[:,1] # Age列

In [None]:
# 全てのインデックスと複数の列を指定
df.iloc[:,[1,0]]

In [None]:
# 一つのインデックスと一つの列を指定
df.iloc[0,1]

In [None]:
# 繰り返し処理により値を出力することも可能
for column in range(len(df)):
    print(df.iloc[0,column])

## ■ データの抽出

特定の条件を満たすデータを抽出する方法について学びましょう。

特定の条件を満たすデータを抽出するには、ブールインデックスを使用します。ブールインデックスとは、各行が条件を満たすか満たさないかをTrueまたはFalseで示したものです。

例えば、'Age'が30以上のデータを抽出するには、`df['Age'] >= 30`という条件をデータフレームに適用します。この条件は、各行の'Age'が30以上であればTrue、そうでなければFalseというブールインデックスを作成します。そして、このブールインデックスをデータフレームに適用することで、条件を満たす行だけが選択されます。

In [None]:
df['Age'] >= 30

In [None]:
# Ageが30以上のデータを抽出
df[df['Age'] >= 30]

In [None]:
# Ageが30以上のデータ かつ 値に'Ch'を含む行を抽出
df[(df['Age'] >= 30) & (df['Name'].str.contains('Ch'))]

In [None]:
# 参考：スッキリした書き方 queryメソッド
mask = df['Name'].str.contains('Ch')
df[mask].query("`Age` >= 30")

In [None]:
df.filter(like='e')

## ■ データの整形

データを整形するための基本的な操作について学びましょう。

PandasのDataFrameでは、新しい列の追加、列名の変更、および列の削除が可能です。

1. **新しい列の追加**: 新しい列を追加するには、新しい列名をブラケット演算子(`[]`)の中に指定し、その値に新しいデータ（スカラー値、リスト、Series等）を割り当てます。

```python
df['new_column'] = value
```

ここで、`value`は新しい列に割り当てる値（スカラー値、リスト、シリーズなど）です。

2. **列名の変更**: 列名を変更するには、`rename()`メソッドを使用します。`rename()`メソッドは新しいDataFrameを返しますので、元のDataFrameに変更を反映させるためには`inplace=True`を指定する必要があります。

```python
df.rename(columns={'old_name': 'new_name'}, inplace=True)
```

ここで、`'old_name'`は変更前の列名で、`'new_name'`は変更後の列名です。

3. **列の削除**: 列を削除するには`drop()`メソッドを使用します。`drop()`メソッドは新しいDataFrameを返しますので、元のDataFrameに変更を反映させるためには`inplace=True`を指定する必要があります。

```python
df.drop('column_name', axis=1, inplace=True)
```

ここで、`'column_name'`は削除する列名です。`axis=1`は列方向に操作を行うことを示しています。

これらの操作は元のDataFrameを直接変更しません。DataFrameに変更を直接反映させるには`inplace=True`を指定します。

In [None]:
# 新しい列の追加
df['Profession'] = ['Engineer', 'Doctor', 'Artist']
df

In [None]:
# 列の名前の変更
df = df.rename(columns={'Name': 'FirstName','Profession':'職業'})
df

In [None]:
# 列の削除
df = df.drop('Age', axis=1)
df

In [None]:
# 'Age'列を再追加
df['Age'] = [25, 30, 35]
df

PandasのDataFrameでは、`fillna()`、`dropna()`などのメソッドを用いて欠損値(NaN)を処理することが可能です。

1. `fillna()`: 欠損値を特定の値で埋めます。

```python
df.fillna(value) 
```

ここで`value`は任意の値（スカラー値、辞書、シリーズ、データフレーム）をとることができます。たとえば、すべての欠損値を0で埋める場合は`df.fillna(0)`とします。

2. `dropna()`: 欠損値を含む行または列を削除します。

```python
df.dropna()
```

`dropna()`を使用すると、デフォルトでは欠損値を1つでも含む行がすべて削除されます。列を削除するには引数に`axis=1`を指定します（`df.dropna(axis=1)`）。

以上のメソッドは新しいDataFrameを返すだけで、元のDataFrameは変更されません。元のDataFrameを直接変更するには`inplace=True`を指定します（`df.fillna(value, inplace=True)`、`df.dropna(inplace=True)`）。

また、`isna()`や`notna()`メソッドを使用して、各要素が欠損値かどうかを確認することも可能です。これらのメソッドは各要素が欠損値であるか（`isna()`）または欠損値でないか（`notna()`）を示すブール値のDataFrameを返します。

```python
df.isna()  # 各要素が欠損値かどうかを示すブール値のDataFrameを返す
df.notna()  # 各要素が欠損値でないかを示すブール値のDataFrameを返す
```

In [None]:
import numpy as np
# Nan処理
df['NanTest'] = [np.nan,100,500]
df

In [None]:
df.isna()

In [None]:
df.fillna(0)

In [None]:
# Nanを含む行を削除した結果
df.dropna(axis=0, how='any')

In [None]:
df.dropna(axis=1, how='any')

## ■ 実践っぽいこと[参考]

In [None]:
## ファイルの取得
!wget -P . https://raw.githubusercontent.com/gmoriki/C4RA-Python-Tutorials/master/0609/kaken.nii.ac.jp_2023-06-07_10-57-32.csv

In [None]:
df_kaken = pd.read_csv('./kaken.nii.ac.jp_2023-06-07_10-57-32.csv')
df_kaken.head(5)

In [None]:
df_kaken.tail(5)

In [None]:
df_kaken.columns

In [None]:
df_kaken['研究種目'].value_counts()

In [None]:
df_kaken['研究期間 (年度)'].str.startswith('2023').value_counts()

In [None]:
df_kaken.dropna(axis=1, how='any')

In [None]:
df_kaken.dropna(axis=1, how='any')[['研究課題名','研究種目','総配分額']]

### オマケ：パイプラインについて

In [None]:
# copy
df_kaken_1 = df_kaken.copy()
# こうやって書くと大変

# 欠損値を削除
df_kaken_1 = df_kaken_1.dropna(axis=1, how='any')

# 必要な列だけを選択
df_kaken_1 = df_kaken_1[['研究課題名','研究種目','総配分額']]

# 条件に合う行を選択
mask = (df_kaken_1['総配分額'] > df_kaken_1['総配分額'].mode().values[0]) & (df_kaken_1['研究種目'].str.contains('C'))
df_kaken_1 = df_kaken_1[mask]

# '総配分額'でソート
df_kaken_1 = df_kaken_1.sort_values(by='総配分額')

# インデックスをリセット
df_kaken_1 = df_kaken_1.reset_index(drop=True)
df_kaken_1

In [None]:
# copy
df_kaken_2 = df_kaken.copy()
# 複数の処理を続けて書くことができます(パイプライン)
df_kaken_2 = df_kaken_2.dropna(axis=1, how='any')[['研究課題名','研究種目','総配分額']][(df_kaken_2['総配分額'] > df_kaken_2['総配分額'].mode().values[0]) & (df_kaken_2['研究種目'].str.contains('C'))].sort_values(by='総配分額').reset_index(drop=True)
df_kaken_2

In [None]:
# copy
df_kaken_3 = df_kaken.copy()

# 見やすい例1
df_kaken_3 = (df_kaken_3.dropna(axis=1, how='any') \
            [['研究課題名','研究種目','総配分額']] \
            [(df_kaken_3['総配分額'] > df_kaken_3['総配分額'].mode().values[0]) & (df_kaken_3['研究種目'].str.contains('C'))] \
            .sort_values(by='総配分額') \
            .reset_index(drop=True)
            ) 
df_kaken_3

In [None]:
# copy
df_kaken_4 = df_kaken.copy()

# 見やすい例2
def drop_na_cols(df):
    return df.dropna(axis=1, how='any')

def filter_rows(df):
    return df[(df['総配分額'] > df['総配分額'].mode()[0]) & (df['研究種目'].str.contains('C'))]

def select_columns(df):
    return df[['研究課題名','研究種目','総配分額']]

def sort_values(df):
    return df.sort_values(by='総配分額')

def reset_idx(df):
    return df.reset_index(drop=True)

df_kaken_4 = (df_kaken_4
            .pipe(drop_na_cols)
            .pipe(filter_rows)
            .pipe(select_columns)
            .pipe(sort_values)
            .pipe(reset_idx)
           )
df_kaken_4

In [None]:
# copy
df_kaken_5 = df_kaken.copy()

# 見やすい例3
def process_dataframe(df):
    df = df.dropna(axis=1, how='any')
    df = df[(df['総配分額'] > df['総配分額'].mode()[0]) & (df['研究種目'].str.contains('C'))]
    df = df[['研究課題名','研究種目','総配分額']]
    df = df.sort_values(by='総配分額')
    df = df.reset_index(drop=True)
    return df

df_kaken_5 = df_kaken_5.pipe(process_dataframe)
df_kaken_5

### よくやるやつ

In [None]:
# 新しいカラムの追加
df_kaken['総配分額[百万]'] = df_kaken['総配分額'] / 1000000

In [None]:
df_kaken