<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/banner.png?raw=true" alt="ILASセミナー「ゲノム博物学入門」" height="100px" align="middle">

# データ解析入門 - Pythonデータ解析 -

　「Pythonデータ解析」では、より実践的なPythonプログラミングを学んでいきます。

## 使用するデータ

　このテキストでは、サンプルデータとして、アヤメ属植物の花の形態データ（アヤメデータ; irisデータ）を用います。

アヤメデータ: https://github.com/CropEvol/lecture/raw/master/ILAS_2020/03/iris.csv

　アヤメ属植物の花には、外花被片（がく片; sepal）と内花被片（花弁; petal）があります（さらに内側には、雄蕊と雌蕊があります）。

<img src="http://suruchifialoke.com/img/ML/iris.png" alt="iris_flower" height="150px">

<small>画像は [Classification of Iris Varieties](http://suruchifialoke.com/2016-10-13-machine-learning-tutorial-iris-classification/) から引用 </small>

　使用するアヤメデータは、3種のアヤメ *Iris setosa* と *I. versicolor*、*I. virginica* 各50個体（計150個体）の外花被片と内花被片の長さ・幅を測定したデータセットです。

- sepal_length: 外花被片の長さ
- sepal_width: 外花被片の幅
- petal_length: 内花被片の長さ
- petal_width: 内花被片の幅
- species: 種名
 
| sepal_length | sepal_width | petal_length | petal_width | species |
|:---:|:---:|:---:|:---:|:---:|
|5.1|3.5|1.4|0.2|Iris-setosa|
|4.9|3.0|1.4|0.2|Iris-setosa|
|4.7|3.2|1.3|0.2|Iris-setosa|
|.....|.....|.....|.....|.....|
|7.0|3.2|4.7|1.4|Iris-versicolor|
|6.4|3.2|4.5|1.5|Iris-versicolor|
|6.9|3.1|4.9|1.5|Iris-versicolor|
|.....|.....|.....|.....|.....|
|6.5|3.0|5.2|2.0|Iris-virginica|
|6.2|3.4|5.4|2.3|Iris-virginica|
|5.9|3.0|5.1|1.8|Iris-virginica|

　下記のコードを実行して、このアヤメデータのファイル（**カンマ区切りファイル**）をGoogle Colab上にダウンロードしてください。 




In [0]:
# アヤメデータをダウンロードする
# ダウンロードファイル: iris.csv
!wget -O iris.csv https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/iris.csv

## データセットの準備方法

　このテキストではサンプルデータを使用して解析しますが、自身のデータでも同様の解析をおこなえます。自身のデータを使用するには、Pythonで読み込んで解析できるようなデータセットを準備する必要があります。

　データセットの準備方法については、下記URL先のページを参考にしてください。

https://github.com/CropEvol/lecture/blob/master/ILAS_2020/03/L03_data_preparation.md

## データセットのアップロード方法


　データセットを手元のパソコンで用意した場合、そのデータを解析するためには、まずGoogle Colab上にデータをアップロードしなければなりません。

アップロードの手順は、以下の通りです。
1. 画面左にあるフォルダアイコン > 「アップロード」
1. アップロードするテキストファイルを選択する

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/03/images/colab_upload.png?raw=true" alt="colab_upload" height="200px">

## 実習内容

1. データセットをPythonで読み込む
1. 読み込んだデータセットを取り扱う
1. データをグラフにする
1. データから基本統計量を取得する
1. ノートブックを保存する

## 1. データセットをPythonで読み込む

　アップロードしたアヤメデータを表示してみましょう。データファイルを読み込む方法は多数ありますが、ここではアヤメデータのようなテーブル状のデータでよく使われる方法で読み込みます。Pythonライブラリ（追加機能のようなもの） **pandas** を使います。

　なお、pandasを使って読み込んだデータのことを、**pandasデータフレーム** や単に **データフレーム** と呼ぶことが多いです。

```python
# コード例1 (pandasに省略名を付けない場合)
import pandas
データフレーム名 = pandas.read_csv(ファイル名, sep=区切り文字, header=ヘッダー行番号)

# コード例2 (pandasに省略名を付ける場合)
import pandas as pd
データフレーム名 = pd.read_csv(ファイル名, sep=区切り文字, header=ヘッダー行番号)
```

<u>区切り文字</u>
- カンマ区切りファイル: `","`
- タブ区切りファイル: `"\t"`, `"¥t"`
  - Windowsの場合、`"¥t"`(円マーク+t)
  - Macの場合、`"\t"`(バックスラッシュ+t)
    - バックスラッシュは、「alt + ¥」キーで入力可能

<u>ヘッダー行番号</u>
- ヘッダー行がない場合: `None`
- ヘッダー行が一番上の行の場合: `0`

In [0]:
# pandasライブラリの準備
import pandas as pd

# pandasライブラリでファイル読み込み
df = pd.read_csv("iris.csv", sep=",", header=0)

# データの中身を表示
df

### print関数を使わない「出力（表示）」

　Google Colabでは、セル中で最後に実行されるコードに変数（データ）があると、そのデータを表示してくれます。これは、Python自体の機能ではありません。Google Colabノートブックの機能です。セル途中のデータは、`print`を使わないと表示されません。

In [0]:
a = 1
b = 2
c = 3
d = 4

# 表示されない
a

# 表示される
print(b)

# 表示されない
c

# 表示される
d

## 2. 読み込んだデータセットを取り扱う

　まず、pandasデータフレームの基本操作方法を勉強します。

- 2-1. 列データにアクセスする
- 2-2. 行データにアクセスする
- 2-3. セルデータにアクセスする
- 2-4. 条件に合う行データを取り出す
- 2-5. 列データ間の計算をおこなう

### 2-1. 列データにアクセスする

　下記のようなコードを書くと、任意の列を取り出すことが可能です。

```python
データフレーム名[列名]
　または
データフレーム名.列名
　または
データフレーム名.loc[:, 列名]
　または
データフレーム名.iloc[:, 列番号]
```

In [0]:
# 1列分のデータを取り出す
df["sepal_length"]
#df.sepal_length
#df.loc[:, "sepal_length"]
#df.iloc[:, 0]

In [0]:
# 複数列を範囲指定で取り出す
df.loc[:, "sepal_length":"sepal_width"]  # 取り出されるデータは、終点に指定した列も含んでいる
#df.iloc[:, 0:2]                            # 取り出されるデータは、終点に指定した列を含まない

### 実習2-1

　後方3列（`sepal_length`から`species`まで）の列データを取り出してください。

#### 解答例

In [0]:
df.loc[:, "petal_length":"species"]
#df.loc[:, "petal_length":]
#df.iloc[:, 2:5]
#df.iloc[:, 2:]

### 2-2. 行データにアクセスする

　下記のようなコードを書くと、任意の列を取り出すことが可能です。

```python
データフレーム名.loc[行名, :]
　または
データフレーム名.iloc[行番号, :]
```

In [0]:
# 1行分のデータを取り出す
df.loc[0, :]
#df.iloc[0, :]

In [0]:
# 複数行のデータを範囲指定で取り出す
df.loc[0:4, :]  # 取り出されるデータは、終点に指定した行も含んでいる
#df.iloc[0:5, :]   # 取り出されるデータは、終点に指定した行を含まない

### 実習2-2
　48行目から52行目までのデータを取り出してください。

<small>「48行目から52行目」は、Zero-based numberingで考えたときの行番号です。</small>

#### 解答例

In [0]:
df.loc[48:52, :]
#df.iloc[48:53, :]

### 2-3. セルデータにアクセスする

　セルのデータを取り出すには、「3-1. 列データ」と「3-2. 行データ」で習った方法を組み合わせます。

```python
データフレーム名.loc[行名, 列名]
　または
データフレーム名.iloc[行番号, 列番号]
```

In [0]:
# 1セルのデータを取り出す
df.loc[0, "sepal_length"]
#df.iloc[0, 0]

In [0]:
# 複数セルのデータを範囲指定で取り出す
df.loc[0:4, "sepal_length":"sepal_width"]
#df.iloc[0:5, 0:2]

### 実習2-3

　48行目から52行目までのspecies列のデータを取り出してください。

<small>「48行目から52行目」は、Zero-based numberingで考えたときの行番号です。</small>

#### 解答例

In [0]:
df.loc[48:52, "species"]
#df.iloc[48:53, 4]
#df.iloc[48:53, -1]

### 2-4. 条件に合う行データを取り出す

　今度は、範囲指定ではなく、条件に合うデータを取り出します。

```python
データフレーム[条件式]
```

In [0]:
# 「sepal_lengthが7以上」のデータ
df[df["sepal_length"] >= 7]

In [0]:
# 条件式が二つの場合
# AND条件： 「sepal_lengthが7以上」 かつ 「petal_lengthが6以上」のデータ
df[(df["sepal_length"] >= 7) & (df["petal_length"] >= 6)]

# OR条件: 「sepal_lengthが7以上」 または 「petal_lengthが6以上」のデータ
df[(df["sepal_length"] >= 7) | (df["petal_length"] >= 6)]

### 実習2-4

　次の条件に合うデータを取り出してください。

```
　「petal_widthが0.3より大きい」のデータ
```

　余裕がある人は、こちらの条件に合ったデータも取り出してください。
```
「petal_widthが0.3より大きい」かつ「speciesが"Iris-setosa"」 のデータ
```

#### 解答例

In [0]:
# petal_widthが0.3より大きい
df[df["petal_width"] > 0.3]

# petal_widthが0.3より大きい、かつ、speciesが"Iris-setosa"
df[(df["petal_width"] > 0.3) & (df["species"] == "Iris-setosa")]

### 2-5. 列データ間の計算をおこなう

　外花被片の長さと幅のデータから「外花被片の面積」を算出したい場合、列データ間の計算をおこなうことになります。

```python
列データ + 列データ # 足し算
列データ - 列データ # 引き算
列データ * 列データ # 掛け算
列データ / 列データ # 割り算
```

　ここでは、外花被片を仮に長方形と仮定して、それぞれのサンプルで外花被片の面積（＝長さ x 幅）を求めてみましょう。また、その結果を新しい列データとしてデータフレームに追加してみましょう。

In [0]:
df["sepal_length"] * df["sepal_width"]

# 新しい列データとしてデータフレームに追加する
# 書き方: データフレーム[新しい列名] = 追加するデータ
#df["sepal_area"] = df["sepal_length"] * df["sepal_width"]

### 実習2-5

　内花被片の面積を求めて、その結果を新しい列データ（`petal_area`）としてデータフレームに追加してください。

```
内花被片の面積 = 内花被片の長さ x 内花被片の幅
```

#### 解答例

In [0]:
# 内花被片の面積
df["petal_area"] = df["petal_length"] * df["petal_width"]

# 表示
df

## 3. データをグラフにする

　データのグラフ化は、データ解析のファーストステップです。データをグラフ化（視覚化）することにより、データの分布の形や散らばり具合、データ同士の関係といった、データの全体像を掴めるようになります。

　pandasデータフレームをグラフ化するのは比較的簡単に可能です。
ここでは、**[seaborn](https://seaborn.pydata.org/)**と呼ばれるグラフ描画ライブラリを利用して、**散布図**を作成します。

```python
# グラフ描画用ライブラリ
import seaborn as sns
# 散布図行列の描画
sns.scatterplot(x=列データ1, y=列データ2, hue=カテゴリ変数の列データ)
```

In [0]:
import seaborn as sns

# 散布図（種ごとに色分け）
sns.scatterplot(x=df["sepal_length"], y=df["sepal_width"], hue=df["species"])

# 散布図（種ごとに色分けしない）
#sns.scatterplot(x=df["sepal_length"], y=df["sepal_width"])

　グラフ描画の別の例として、**ヒストグラム** も作成してみましょう。

```python
# グラフ描画用ライブラリ
import seaborn as sns
# 散布図行列の描画
sns.distplot(列データ)
```

In [0]:
# 例: 外花被片の長さ petal_length のヒストグラム

import seaborn as sns

# それぞれの種のデータを取り出す
setosa = df[df["species"]=="Iris-setosa"]
virginica = df[df["species"]=="Iris-virginica"]
versicolor = df[df["species"]=="Iris-versicolor"]

# ヒストグラム: それぞれ種のヒストグラムを一つのグラフに描画している
sns.distplot(setosa["petal_length"])
sns.distplot(virginica["petal_length"])
sns.distplot(versicolor["petal_length"])

### 実習3

　x軸が内花被片の長さ`petal_length`、y軸が内花被片の幅`petal_width`となるような散布図を作成してください。

#### 解答例

In [0]:
import seaborn as sns
sns.scatterplot(x=df["petal_length"], y=df["petal_width"], hue=df["species"])

### グラフ描画の考え方

　上述の例では、たった2行のコードで、データフレームからグラフを描画できました。これは、seabornの内部に数行〜数百行のコードが書かれており、そのコードをたった2行で呼び出せるからです。

　では、どのようにしてseabornはグラフを書いているのでしょうか？ 

　まず、同じようなグラフを、**matplotlibライブラリ**と呼ばれるグラフ描画ライブラリを使って描いてみます。

In [0]:
import matplotlib.pyplot as plt

# それぞれの種のデータを取り出す
setosa = df[df["species"]=="Iris-setosa"]
virginica = df[df["species"]=="Iris-virginica"]
versicolor = df[df["species"]=="Iris-versicolor"]

# 以下、グラフ描画のコード
plt.figure(figsize=[6,4])                                              # グラフフィールドを作成
plt.scatter(x=setosa["petal_length"], y=setosa["petal_width"])       # setosa の散布図
#plt.scatter(x=virginica["petal_length"], y=virginica["petal_width"])    # virginica の散布図
#plt.scatter(x=versicolor["petal_length"], y=versicolor["petal_width"]) # versicolor の散布図
#plt.xlabel("petal_length")                      # x軸ラベル
#plt.ylabel("petal_width")                       # y軸ラベル
#plt.legend(["setosa", "virginica", "versicolor"]) # 凡例
plt.show()                                     #グラフを表示

　グラフ描画の基本は、部分的な情報が書き込まれた透明な層（レイヤー）を一枚ずつ上に付け加えて、一つのグラフを作っていくイメージです。


<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/03/images/drawing_graph.png?raw=true" alt="drawing_graph" height="300px">

### seaborn と matplotlib の関係

　seabornも、実は、内部でmatplotlibを使っています。

　matplotlib では、グラフの各部品（それぞれの散布図やx軸ラベル、y軸ラベル、凡例）を表示するコードを数行記述する必要があります。

　seaborn は、そのような数行のコードを事前に記述しており、散布図の場合には`scatterplot`、ヒストグラムの場合には`distplot`といった1行のコードで呼び出せるようにしています。

　次のようなグラフ（散布図行列）を matplotlib だけで描こうとすると結構手間がかかります。seaborn では、たった1行で表示できてしまいます。

In [0]:
import seaborn as sns

sns.pairplot(df, hue="species")

## pairplotの書き方
## pairplot(データフレーム, hue=カテゴリ変数の列名)

In [0]:
# seabornを使わない場合

import matplotlib.pyplot as plt

# データを種ごとに分ける
seto = df[df.species == 'Iris-setosa']
vers = df[df.species == 'Iris-versicolor']
virg = df[df.species == 'Iris-virginica']

traits = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
# 描画
fig, axes= plt.subplots(4,4, figsize=(12, 12))

for i in range(4):
  for j in range(4):
    if i == j:
      g = seto[traits[i]].plot(kind="kde", color='blue', ax=axes[i][j])
      vers[traits[i]].plot(kind="kde", color='orange', ax=axes[i][j])
      virg[traits[i]].plot(kind="kde", color='green', ax=axes[i][j]) 

    else:
      g = seto.plot(kind="scatter", y=traits[i], x=traits[j], color='blue', alpha=0.5, ax=axes[i][j])
      vers.plot(kind="scatter", y=traits[i], x=traits[j], color='orange', alpha=0.5, ax=axes[i][j])
      virg.plot(kind="scatter", y=traits[i], x=traits[j], color='green', alpha=0.5, ax=axes[i][j])
      
    if j ==0:
      g.set_ylabel(traits[i])
    else:
      g.set_ylabel(None)
      
    if i ==3:
      g.set_xlabel(traits[j])
    else:
      g.set_xlabel(None)

plt.show() 

## 4. データから基本統計量を取得する

　グラフを描くことで、それぞれの種のデータの分布具合が視覚化されました。

　ここでは、より具体的な情報を得るために、各列データの **基本統計量**（サンプル数、平均値、標準偏差、最小値、四分位数、最大値）を調べてみましょう。

　各列のデータの基本統計量は、`describe()`を使うと、簡単に調べられます。

```python
データフレーム.describe()
```

In [0]:
df.describe()

　表示された基本統計量は、150サンプル分の結果です。

　*Iris setosa*のみの基本統計量も表示してみましょう。

手順は、
1. *Iris setosa*のデータのみを取り出して、別の変数に代入する（別のデータフレームにする）
2. そのデータフレームで`describe()`を実行する。

In [0]:
# Iris setosa のデータのみを取り出す
setosa = df[df['species']=="Iris-setosa"]
# Iris setosa の基本統計量
setosa.describe()

### 実習3

 *Iris virginica*の基本統計量を表示してください。

#### 解答例

In [0]:
# Iris virginica のデータのみを取り出す
virginica = df[df['species']=="Iris-virginica"]
# Iris virginica の基本統計量
virginica.describe()

## 5. ノートブックを保存する

　最後に、このノートブックを保存（またはダウンロード）する方法を覚えておきましょう。

- Googleドライブに保存する: 「ファイル」 > 「保存」
- ダウンロードしてパソコンに保存する: 「ファイル」 > 「.ipynbをダウンロード」

　保存したファイルは、「ノートブックを開く」や「ノートブックをアップロード」から再度開けます。

## まとめ

　今回は、実践的なデータ解析方法の基礎を学んでいきました。
- ファイルをデータフレームとして読み込む方法
- データフレームを扱う方法
- グラフを描く方法
- 基本統計量を得る方法
を学びました。

　また、データ解析をおこなったノートブックをファイルとして保存する方法も勉強しました。

　ここではサンプルデータを使いましたが、自分で収集したデータを解析することももちろん可能です。

　身の回りには、多くの生物がいます。まず、いくつかの生物の名前を覚えてみてください。名前を覚えると、その生物がより身近な存在になります。そうすると、その生物のちょっとした変化（個体間の違いなど）にも気付き、何らかの疑問が湧いてくることがあります。そのようなとき、（もし可能なら）自分の手でデータを集めてみてください。そして、今回おこなったように、そのデータを解析し始めてみてください。それが、研究やデータ解析の世界への第一歩になるでしょう。