<a href="https://colab.research.google.com/github/gmoriki/C4RA-Python-Tutorials/blob/main/0609/0609_Tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第5回C4RA勉強会
## DataFrameのデータ抽出と選択・整形
---

## ★ 勉強会の基本方針

* 5月12日(金)から6月30日(金)までの計8回を予定しています。
* 目標は**pandas.DataFrame形式の基本的な操作をマスターすること**です。

* 環境はGoogle Colaboratory(通称Colab)を使用します。Googleアカウントをご用意ください。
  * 各々のローカル環境でも実行可能です。
* 一部、東京大学「Pythonプログラミング入門」の教材を共有しながら勉強会を進めます。
  * 勉強会では**東大教材**と呼びます
  * URL：https://utokyo-ipp.github.io/index.html

* Colab（Jupyter Notebook）の詳しい使い方について、勉強会の中で深入りはしません
  * Colab立ち上げのURL：https://colab.research.google.com/
  * 便利なショートカット：https://blog.kikagaku.co.jp/google-colaboratory-shortcut

* Pythonに関する不明点があれば森木(Pumble,Mail,Twitter等)までご連絡ください
* 勉強会の内容でなくてもOKです（Colabの使い方や環境構築なども）
---

## ■ pandasの概要(前回のおさらい)

### pandas（概要）

* **データ構造**：DataFrameとSeriesを提供。
* **データ操作**：フィルタリング、ソート、集約などの機能。
* **入出力**：CSVやExcelなどのファイル形式とのやり取り。
* **欠損値処理**：欠損値の検出や補完、削除が可能。

In [2]:
import pandas as pd

# データフレーム作成
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'San Francisco', 'Los Angeles']}
df = pd.DataFrame(data)

# データフレームから年齢が30以上の行を抽出
older_than_30 = df[df['Age'] >= 30]

# CSVファイルに書き込み
df.to_csv("sample_data.csv", index=False)

# CSVファイルから読み込み
df_from_csv = pd.read_csv("sample_data.csv")

#### **東大教材(pandas)**
* 7-1. pandasライブラリ
  * https://colab.research.google.com/github/utokyo-ipp/utokyo-ipp.github.io/blob/master/colab/7/7-1.ipynb

## ■ データの選択

DataFrameから特定のデータを選択する方法について学びましょう。

また指定した行をコメントアウトするには`Ctrl+/`を実行します・

### データの読み込み・インデックスの付与

In [10]:
df = pd.read_csv("sample_data.csv")
df.set_index(pd.Index(['index_1', 'index_2', 'index_3']), inplace=True)
df

Unnamed: 0,Name,Age,City
index_1,Alice,25,New York
index_2,Bob,30,San Francisco
index_3,Charlie,35,Los Angeles


### データの選択① 列を指定する

データフレームからデータを選択する基本的な方法は2つあります。一つは列を選択する方法、もう一つは行を選択する方法です。

列を選択するには、列の名前をブラケット(`[]`)と一緒に使用します。例えば、`df['Name']`とすると、'Name'という名前の列が選択されます。

In [11]:
# 列の選択
df['Name']

index_1      Alice
index_2        Bob
index_3    Charlie
Name: Name, dtype: object

複数の列を選択するには、列の名前をリストとしてブラケット内に渡します。例えば、`df[['Name', 'Age']]`とすると、'Name'と'Age'の2つの列が選択されます。

In [30]:
# 複数列の選択
df[['Name', 'Age']]

Unnamed: 0,Name,Age
index_1,Alice,25
index_2,Bob,30
index_3,Charlie,35


In [31]:
# 参考：フィルター関数による複数列の選択
df.filter(like='e')

Unnamed: 0,Name,Age
index_1,Alice,25
index_2,Bob,30
index_3,Charlie,35


### データの選択② 行を指定する+列と行を指定する

`loc`は`pandas`の`DataFrame`で使用できるラベルベースのインデクシングツールです。`loc`はラベルベースのインデクシングなので、ラベル名（インデックス名や列名）を使用してデータにアクセスします。

例えば、`df.loc[0]`を使用すると、ラベル（インデックス）が0の行を選択します。

行と列を選択するには以下のようにします：

- 行選択: `df.loc[0]` これはインデックスが0の行を選択します。
- 列選択: `df.loc[:, 'ColumnName']` これは'ColumnName'という名前の列を選択します。
- 行と列の選択: `df.loc[0, 'ColumnName']` これはインデックスが0の行と'ColumnName'という名前の列にある要素を選択します。

また、範囲を指定して選択することも可能です。例えば、`df.loc[0:2]`はインデックス0から2までの行を選択し、`df.loc[:, 'ColumnName1':'ColumnName3']`は'ColumnName1'から'ColumnName3'までの列を選択します。`df.loc[0:2, 'ColumnName1':'ColumnName3']`はインデックス0から2までの行と'ColumnName1'から'ColumnName3'までの列の部分的なDataFrameを選択します。

In [17]:
# 行の選択
df.loc['index_1']

Name       Alice
Age           25
City    New York
Name: index_1, dtype: object

In [19]:
# 複数行の選択
df.loc[['index_1','index_2']]

Unnamed: 0,Name,Age,City
index_1,Alice,25,New York
index_2,Bob,30,San Francisco


In [51]:
# 全てのインデックスと一つの列を指定
df.loc[:,'Age']

Unnamed: 0,Age,City
index_1,25,New York
index_2,30,San Francisco
index_3,35,Los Angeles


In [52]:
# 全てのインデックスと複数の列を指定
df.loc[:,['Age','Name']]

Unnamed: 0,Age,Name
index_1,25,Alice
index_2,30,Bob
index_3,35,Charlie


In [40]:
# 一つのインデックスと一つの列を指定
df.loc['index_1','Age']

25

In [25]:
# 繰り返し処理により値を出力することも可能
for column in df.columns:
    print(df.loc['index_1',column])

Alice
25
New York


`iloc`は`pandas`の`DataFrame`で使用できる整数位置ベースのインデクシングツールです。`loc`がラベルベースのインデクシングであるのに対し、`iloc`は位置ベースのインデクシングです。つまり、`iloc`では整数値のインデックス番号を使用してデータにアクセスします。

例えば、`df.iloc[0]`を使用すると、DataFrameの最初の行を選択します。これはPythonのリストのインデクシングと同じように機能します。

行と列を選択するには以下のようにします：

- 行選択: `df.iloc[0]` これはDataFrameの最初の行を選択します。
- 列選択: `df.iloc[:, 0]` これはDataFrameの最初の列を選択します。
- 行と列の選択: `df.iloc[0, 0]` これはDataFrameの最初の行と最初の列にある要素を選択します。

また、範囲を指定して選択することも可能です。例えば、`df.iloc[0:5]`は最初の5行を選択し、`df.iloc[:, 0:5]`は最初の5列を選択します。`df.iloc[0:5, 0:5]`は最初の5行と5列の部分的なDataFrameを選択します。

In [32]:
# 行の選択
df.iloc[0]

Name       Alice
Age           25
City    New York
Name: index_1, dtype: object

In [34]:
# 複数行の選択
df.iloc[0:2]

Unnamed: 0,Name,Age,City
index_1,Alice,25,New York
index_2,Bob,30,San Francisco


In [50]:
# 全てのインデックスと一つの列を指定
df.iloc[:,1] # Age列

index_1    25
index_2    30
index_3    35
Name: Age, dtype: int64

In [57]:
# 全てのインデックスと複数の列を指定
df.iloc[:,[1,0]]

Unnamed: 0,Age,Name
index_1,25,Alice
index_2,30,Bob
index_3,35,Charlie


In [45]:
# 一つのインデックスと一つの列を指定
df.iloc[0,1]

25

In [47]:
# 繰り返し処理により値を出力することも可能
for column in range(len(df)):
    print(df.iloc[0,column])

Alice
25
New York


## データの抽出

特定の条件を満たすデータを抽出する方法について学びましょう。

特定の条件を満たすデータを抽出するには、ブールインデックスを使用します。ブールインデックスとは、各行が条件を満たすか満たさないかをTrueまたはFalseで示したものです。

例えば、'Age'が30以上のデータを抽出するには、`df['Age'] >= 30`という条件をデータフレームに適用します。この条件は、各行の'Age'が30以上であればTrue、そうでなければFalseというブールインデックスを作成します。そして、このブールインデックスをデータフレームに適用することで、条件を満たす行だけが選択されます。

In [46]:
df['Age'] >= 30

index_1    False
index_2     True
index_3     True
Name: Age, dtype: bool

In [62]:
# Ageが30以上のデータを抽出
df[df['Age'] >= 30]

Unnamed: 0,Name,Age,City
index_2,Bob,30,San Francisco
index_3,Charlie,35,Los Angeles


In [63]:
# Ageが30以上のデータ かつ 値に'Ch'を含む行を抽出
df[(df['Age'] >= 30) & (df['Name'].str.contains('Ch'))]

Unnamed: 0,Name,Age,City
index_3,Charlie,35,Los Angeles


In [65]:
df.filter(like='e')

Unnamed: 0,Name,Age
index_1,Alice,25
index_2,Bob,30
index_3,Charlie,35


## データの整形

データを整形するための基本的な操作について学びましょう。

データフレームのデータを整形するための基本的な操作には、新しい列の追加や既存の列の削除などがあります。

新しい列を追加するには、新しい列名とデータをデータフレームに直接代入します。例えば、`df['Profession'] = ['Engineer', 'Doctor', 'Artist', 'Scientist']`とすると、'Profession'という新しい列が追加され、指定したデータがその列に設定されます。

列を削除するには、`drop`メソッドを使用します。`drop`メソッドには、削除する列の名前と、axisパラメータを指定します。axisパラメータに1を指定すると、列の削除を意味します。例えば、`df = df.drop('Age', axis=1)`とすると、'Age'という列が削除されます。

In [68]:
# 新しい列の追加
df['Profession'] = ['Engineer', 'Doctor', 'Artist']
df

Unnamed: 0,Name,Age,City,Profession
index_1,Alice,25,New York,Engineer
index_2,Bob,30,San Francisco,Doctor
index_3,Charlie,35,Los Angeles,Artist


In [69]:
# 列の削除
df = df.drop('Age', axis=1)
df

Unnamed: 0,Name,City,Profession
index_1,Alice,New York,Engineer
index_2,Bob,San Francisco,Doctor
index_3,Charlie,Los Angeles,Artist


In [70]:
# 'Age'列を再追加
df['Age'] = [25, 30, 35]
df

Unnamed: 0,Name,City,Profession,Age
index_1,Alice,New York,Engineer,25
index_2,Bob,San Francisco,Doctor,30
index_3,Charlie,Los Angeles,Artist,35


In [71]:
# 列の名前の変更
df = df.rename(columns={'Name': 'FirstName'})
df

Unnamed: 0,FirstName,City,Profession,Age
index_1,Alice,New York,Engineer,25
index_2,Bob,San Francisco,Doctor,30
index_3,Charlie,Los Angeles,Artist,35


## ■ 実践っぽいこと

In [None]:
## ファイルの取得
!wget -P . https://raw.githubusercontent.com/gmoriki/C4RA-Python-Tutorials/master/0609/kaken.nii.ac.jp_2023-06-07_10-57-32.csv

In [10]:
df_kaken = pd.read_csv('./kaken.nii.ac.jp_2023-06-07_10-57-32.csv')
df_kaken.head(5)

Unnamed: 0,研究課題名,研究課題名 (英文),研究課題/領域番号,研究期間 (年度),研究代表者,研究分担者,連携研究者,研究協力者,特別研究員,外国人特別研究員,...,雑誌論文 (オープンアクセス),学会発表,学会発表 (国際学会),学会発表 (招待講演),図書,プレス/新聞発表,備考 (成果物),産業財産権,産業財産権 (外国),文献書誌
0,交通事故における自動車と衝突した手動式車いすの衝突挙動と受傷過程の解明,,23K11991,2023-04-01 – 2026-03-31,"大賀 涼 科学警察研究所, その他部局等, その他 (50392262)",,,,,,...,0,0,0,0,0,0,0,0,0,0
1,環境センサと移動ロボットを連携した見守りシステムの教師なし学習による認識精度向上,,23K11990,2023-04-01 – 2026-03-31,"佐竹 純二 福岡工業大学, 情報工学部, 准教授 (60392726)",,,,,,...,0,0,0,0,0,0,0,0,0,0
2,生活環境と操作特性に応じてカスタマイズ可能なシニアカー訓練プログラムの開発,,23K11989,2023-04-01 – 2027-03-31,"竹嶋 理恵 帝京科学大学, 公私立大学の部局等, 准教授 (80534130)",,,,,,...,0,0,0,0,0,0,0,0,0,0
3,女性大腿切断者の月経周期における断端周径変化量の解明と要因分析,,23K11988,2023-04-01 – 2026-03-31,"佐藤 未希 新潟医療福祉大学, 公私立大学の部局等, 助教 (70759331)",,,,,,...,0,0,0,0,0,0,0,0,0,0
4,聴き取りづらい音韻の個人差に対応する新たな補聴方式の開発,,23K11987,2023-04-01 – 2026-03-31,"森山 剛 東京工芸大学, 工学部, 准教授 (80449032)",,,,,,...,0,0,0,0,0,0,0,0,0,0


In [15]:
df_kaken.columns

Index(['研究課題名', '研究課題名 (英文)', '研究課題/領域番号', '研究期間 (年度)', '研究代表者', '研究分担者',
       '連携研究者', '研究協力者', '特別研究員', '外国人特別研究員', '受入研究者', 'キーワード', '研究分野', '審査区分',
       '研究種目', '研究機関', '応募区分', '総配分額', '総配分額 (直接経費)', '総配分額 (間接経費)', '各年度配分額',
       '各年度配分額 (直接経費)', '各年度配分額 (間接経費)', '現在までの達成度 (区分コード)', '現在までの達成度 (区分)',
       '理由', '研究開始時の研究の概要', '研究概要', '研究概要 (英文)', '研究成果の概要', '研究成果の概要 (英文)',
       '研究実績の概要', '現在までの達成度 (段落)', '今後の研究の推進方策', '次年度の研究費の使用計画',
       '次年度使用額が生じた理由', '次年度使用額の使用計画', '自由記述の分野', '評価記号', '備考', '国際共同研究',
       '学会・シンポジウム開催', '雑誌論文', '雑誌論文 (国際共著)', '雑誌論文 (査読あり)', '雑誌論文 (オープンアクセス)',
       '学会発表', '学会発表 (国際学会)', '学会発表 (招待講演)', '図書', 'プレス/新聞発表', '備考 (成果物)',
       '産業財産権', '産業財産権 (外国)', '文献書誌'],
      dtype='object')

In [44]:
df_kaken.dropna(axis=1, how='any')[['研究課題名','研究代表者','総配分額']].describe()

Unnamed: 0,総配分額
count,15785.0
mean,9333283.0
std,15534000.0
min,390000.0
25%,4550000.0
50%,4680000.0
75%,4810000.0
max,215410000.0


In [68]:
# やべーコード
df_kaken = df_kaken.dropna(axis=1, how='any')[['研究課題名','研究代表者','総配分額']][(df_kaken['総配分額'] > df_kaken['総配分額'].mode().values[0]) & (df_kaken['研究代表者'].str.contains('助教'))].sort_values(by='総配分額').reset_index()

In [74]:
# 見やすい例1
df_kaken = (df_kaken.dropna(axis=1, how='any') \
            [['研究課題名','研究代表者','総配分額']] \
            [(df_kaken['総配分額'] > df_kaken['総配分額'].mode().values[0]) & (df_kaken['研究代表者'].str.contains('助教'))] \
            .sort_values(by='総配分額') \
            .reset_index()
            ) 

In [None]:
def drop_na_cols(df):
    return df.dropna(axis=1, how='any')

def filter_rows(df):
    return df[(df['総配分額'] > df['総配分額'].mode()[0]) & (df['研究代表者'].str.contains('助教'))]

def select_columns(df):
    return df[['研究課題名','研究代表者','総配分額']]

def sort_values(df):
    return df.sort_values(by='総配分額')

def reset_idx(df):
    return df.reset_index()

df_kaken = (df_kaken
            .pipe(drop_na_cols)
            .pipe(filter_rows)
            .pipe(select_columns)
            .pipe(sort_values)
            .pipe(reset_idx)
           )


In [None]:
def process_dataframe(df):
    df = df.dropna(axis=1, how='any')
    df = df[(df['総配分額'] > df['総配分額'].mode()[0]) & (df['研究代表者'].str.contains('助教'))]
    df = df[['研究課題名','研究代表者','総配分額']]
    df = df.sort_values(by='総配分額')
    df = df.reset_index()
    return df

df_kaken = df_kaken.pipe(process_dataframe)

In [71]:
df_kaken['総配分額[百万]'] = df_kaken['総配分額'] / 1000000

In [72]:
df_kaken

Unnamed: 0,index,研究課題名,研究代表者,総配分額,総配分額[百万]
0,23,カテーテル位置計測機能を備える吸引シミュレーターによる吸引技術評価システムの開発,"堀内 裕子 目白大学, 看護学部, 助教 (80789008)",4810000,4.81
1,5828,海馬ミクログリアサブセットに着目した神経障害性疼痛の病態解明と新規治療法への応用,"久岡 一恵 広島大学, その他の研究科, 助教 (20393431)",4810000,4.81
2,5761,RASのタンパク質恒常性に注目した希少遺伝性難病の病態解明と遺伝子治療法の開発,"阿部 太紀 東北大学, 医学(系)研究科(研究院), 助教 (40810594)",4810000,4.81
3,5734,がん分子標的薬による腎障害の発現機序解明：BRAF阻害剤に着目した検討,"真川 明将 名古屋市立大学, 薬学研究科(研究院), 助教 (20827670)",4810000,4.81
4,5681,アミロイドβプラークに付随した神経突起変性がもたらす遠距離神経毒性の解明,"山内 健太 順天堂大学, 医学(系)研究科(研究院), 助教 (00513079)",4810000,4.81
...,...,...,...,...,...
566,15774,「古文書科学」の応用実践,"渋谷 綾子 東京大学, 史料編纂所, 助教 (80593657)",46670000,46.67
567,15676,パイオンと電子ビームを使ったハイパー核研究：異種量子線共同分光の創始,"後神 利志 京都大学, 理学(系)研究科(研究院), 助教 (20750368)",46930000,46.93
568,15679,超伝導デバイスによるミリ波分光で切り拓くダークマターの検出実験,"安達 俊介 京都大学, 学内共同利用施設等, 助教 (80835273)",46930000,46.93
569,15668,積層薄膜構造導入による次世代超伝導加速空洞開発のための新成膜手法の開発,"片山 領 大学共同利用機関法人高エネルギー加速器研究機構, その他部局等, 助教 (6080...",49400000,49.40


まずは