# Pandas操作(表操作)

Python第一回目はいかがだったでしょうか。<br>
リストの扱いなどでは、「'T->U' や 'わ->は' の置き換えは、手作業の方が早そう」など、<br>
思うところはあったと思います。<br><br>

今回の表操作も、「Excelなら直感的に、簡単にできるのに」と感じる場面があるかと思います。<br>
慣れるまでは大変ですが、慣れてしまえばExcelよりもずっと楽に解析を行えます。<br><br>

焦らず、まずは今回の第8回目で体験して頂けたら幸いです。

今回は、渡邉先生の講義、<br>
【入門コース】6回目「【R】Rを用いた統計解析の実際」（2024年度）<br>
で取り上げられていたデータを中心に、Pythonで操作をしてみます。<br><br>

まだ受講されていない方は、先に受講してから今回の作業を開始することをオススメします。<br><br>

# 0. import

import: Rではlibrary()にあたる・
外部のモジュールやライブラリを取り込み、ここで使えるようにする。

```python
import ライブラリ名
```
また、import ライブラリ名 as 省略名 にすると便利<br><br>
※ 「略するかしないか」や「どう略するか」などは規則はなく、<br>
ほとんどが通例になっているので、使用するライブラリのimport方法は、ドキュメント通りに書いてください。

<br><br>
pandasのドキュメント: 
[https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

In [None]:
import pandas as pd

Rの場合、`library(ggplot2)`をすると、`ggplot2`が持つ `ggplot`や`labs`、`geom_vline`などが<br>
使えるようになりますが、Pythonの場合、`pd.read_csv`や`plt.scatter`など、`ライブラリ名.関数名`で指定するのが通例です。

# 1. csvファイルの読み込み

講義内で解説します。<br>
`Google Driveに保存 -> Colabにマウント -> /content/drive へ読みに行く`<br><br>
や、
```python
from google.colab import files
uploaded = files.upload()
```

という方法もあります。

### ちなみに、、、
Rと同じ様に、Excel形式のデータで空白の行や列がある場合や、不規則な並びをしている場合は、<br>
事前に整えておく必要があります。<br>
<br>
渡邉先生の講義（6回目「【R】Rを用いた統計解析の実際」）をご参照ください。<br>
今回は事前に整えておきましたので、気にするありませんが、頭の中に入れておいて下さい。
<br>
![](../img/import_csv_format.png)

# 基本的な操作一覧

| やりたいこと | コード | 返される形式 |
| --- | --- | --- |
| 上5列を表示 | df.head(5) | pandas.DataFrame |
| 下5列を表示 | df.tail(5) | pandas.DataFrame |
| １列だけ取得 | df[“列名1”] | pandas.Series |
| 複数列を選択 | df[[“列名1”, “列名2”, “列名3”]] | pandas.DataFrame |
| １行だけ取得 | df.loc[“行名1”] | pandas.Series |
| 複数行を選択 | df.loc[[“行名1”, “行名2”, “行名3”]] | pandas.DataFrame |
| 1列の値だけを取得 | df[“列名1”].values | numpy.array |
| (行名は無し) | df[“列名1”].tolist() | list |
| 列名の一覧 | df.columns |  |
| 行名の一覧 | df.index | |


# 2. 例題1(列・行の指定)

In [None]:
example_1 = pd.read_csv("example-1-1.csv")
example_1

## データフレームの要素の確認

In [None]:
# すべて見る
example_1

In [None]:
# 上5個
## example_1.head(5) と example_1.head() は同じ
example_1.head()

In [None]:
# 下5個
## example_1.tail(5) と example_1.tail() は同じ
example_1.tail()

### 列の取得

```python
# pd.Seriesとして取得(1列のみ)
dataframe["列名"]

# データフレームの一部として取得(複数列 可)
dataframe[["列名1"...]]
```

In [None]:
# 出席番号のSeriesを取得
example_1["出席番号"]

In [None]:
# 出席番号 と 国語の 2列 を取得
example_1[["出席番号", "国語"]]

### 行の取得

行と同様。ただし、.loc を使用する。

```python
dataframe.loc["列名"]
```

```python
dataframe.loc[["列名1"...]]
```

In [None]:
# 行名が0の行のSeriesを取得
example_1.loc[0]

In [None]:
# 行名が0,1,2の行のデータフレームを取得
example_1.loc[[0, 1, 2]]

In [None]:
# スライスも使えます
example_1.loc[0:5]

「行名指定」の`loc`に似た、`iloc`を使って「行番号」を指定することもできます。よりこんがらがるので、今回は触れないでおきます。

### 列名の変更
日本語での操作は、文字化けのリスクなどがあります。<br>
対策はありますが、できれば列・行名は英語にする方が無難です。<br><br>

```python
after_df = before_df.rename(
    columns={"旧列名1": "新列名1", "旧列名2": "新列名2"},
    index={"旧行名1": "新行名1", "旧行名2": "新行名2"}
)
```

※ columns, index どちらか１つでもOKで

In [None]:
translate_dict = {"出席番号": "account_num", "国語": "Japanese", "数学": "Math"}

example_1_renamed = example_1.rename(columns=translate_dict)

# account_numを行名にする。
example_1_renamed = example_1_renamed.set_index("account_num")
example_1_renamed

### 演習
1. `example_1_renamed` から、`Japanese`の列を`Series`として取得してください。
2. `example_1_renamed` から、`Japanese`の列を`DataFrame`として取得してください。
3. `example_1_renamed` から、`3`,`8`,`9`の行を`DataFrame`として取得してください。

## 3. 箱ひげ図(boxplot)の表示

In [None]:
# 作図をするライブラリをインポート
# (Google Colab にはデフォルトでインストールされているハズです。インストールする際は、ターミナルで`pip install matplotlib seaborn``)
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [None]:
# https://seaborn.pydata.org/generated/seaborn.boxplot.html

sns.boxplot(data=example_1_renamed)
plt.show()

---
シンプルなデータなら、seabornの関数に突っ込むだけでできる。<br>
が、下のような性別などを入れたで、別々に表示などがしたい場合、先程の表の形式ではできない。
![](../img/boxplot_with_sex.png)

In [None]:
# 性別を入れたデータ(example-1-2.csv)を読み込む
# `index_col=列番号` で、行名となる列を指定できる。

example_1_2 = pd.read_csv("example-1-2.csv", index_col=0)
example_1_2

In [None]:
# 整然データに直す(tidyデータ)
## ※個々の変数が１つの列にまとまったような形式

example_1_2_tidy = example_1_2.melt(
    # 質的変数として使う(残す)列を指定
    id_vars=["sex"],
    # 量的変数として扱う(まとめる)列を指定
    value_vars=["Japanese", "Math"],
    # (optional) 新しく追加される、量的変数の 「カテゴリ名」と「数値」の列名を決める。
    var_name="subject", value_name="score"
)

example_1_2_tidy

In [None]:
sns.boxplot(data=example_1_2_tidy, x="subject", y="score", hue="sex")
plt.show()

# 4. 簡単な統計

In [None]:
example_2 = pd.read_csv("example-2-1.csv", index_col=0)
example_2

In [None]:
example_2.sum()

In [None]:
example_2.sum(axis=1)

In [None]:
example_2.mean(axis=1)

In [None]:
# 2つの列を抜き出した上で、平均値を取る
example_2[["Japanese", "English"]].sum(axis=1)

In [None]:
example_2.describe()

In [None]:
example_2.sort_values(by="Math", ascending=False)

In [None]:
sns.boxplot(data=example_2)
plt.show()

In [None]:
sns.boxplot(data=example_2)

plt.title("Scores for each subject")
plt.xlabel("Subject")
plt.ylabel("Score")
plt.show()

# 演習問題1

`example-2-2.csv`を読み込み、以下のような箱ひげ図を描いてください。<br>
- pd.read_csv() で読み込み
- データ.melt() でtidyデータにする。
- sns.boxplot() で可視化

![](../img/boxplot_with_sex_2.png)

## 新しい列の挿入

`.sum()`や`.mean()`などが使えるようになったので、Excelのように「新しい列を追加」したくなるかと思います。

```
df["新しい列名"] = データ
```
で、データフレームに新しい列を追加できます。<br>
ただし、行数が対応している必要があります。

In [None]:
example_2

In [None]:
example_2["Language"] = example_2[["Japanese", "English"]].sum(axis=1)
example_2

In [None]:
example_2["Mean"] = example_2[["Japanese", "Math", "English", "Science"]].mean(axis=1)
example_2

# 5. 散布図

`example_2`のデータを使い、各教科の相関を見てみましょう。

In [None]:
example_2

In [None]:
# https://seaborn.pydata.org/generated/seaborn.scatterplot.html

sns.scatterplot(data=example_2, x="Japanese", y="Math")
plt.show()

In [None]:
sns.pairplot(data=example_2[["Japanese", "Math", "English", "Science"]])
plt.show()

# T検定
２つのグループの平均に統計的な差があるかどうか、t検定を取ってみましょう。

---

渡邉先生の講義(第５回目【R-2】)のコード、
```
t.test(d4)#t検定を実行します
```

をPythonで行うには、`scipy.stats.ttest_ind` を使います。

`example-1-1.csv`(`example_1`として読み込み済み)で検定してみましょう。

![](../img/R_Ttest.png)

In [None]:
# 渡邉先生の講義を参考に、身長データを準備。
## 簡略化のため、「母集団の分散が等しい、独立した２つのサンプル群」と仮定します。

heigth1 = [165.6, 161.3, 163.1, 167.1, 165.9, 156.9, 163.0, 159.5, 159.7, 161.3]
heigth2 = [175.5, 179.6, 177.4, 175.4, 176.4, 176.1, 179.7, 174.4, 176.0, 172.3]

In [None]:
from scipy.stats import ttest_ind, ttest_rel

# tttest_ind: 独立な2群のt検定
# ttest_rel: 対応のある2群のt検定

help(ttest_ind)

In [None]:
# t-statistic: t値(統計量) = abs(平均-母平均) / (標準偏差/√n) (n: サンプル数)
# p-value: p値
# df: 自由度

ttest_ind(heigth1, heigth2)

# データフレームの行を取り出して、検定にかけてみる。

In [None]:
example_1

In [None]:
kokugo_score = example_1["国語"].values
suugaku_score = example_1["数学"].values
print(kokugo_score)

In [None]:
ttest_ind(kokugo_score, suugaku_score)

### 演習
`example_2`から2つの教科を選び、２群間の平均に差があるか確かめてみて下さい。

ttestのほかにも、`scipy.stats`や`statsmodels`では、様々な統計計算用の関数が用意されています。<br>
必要な手法は、`Python ANOVA`のように、検索(or AIに質問)してみて下さい。