<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2021/01/images/banner.png?raw=true" alt="ILASセミナー「ゲノム博物学入門」" height="100px" align="middle">

# 自分達で採集したデータを解析する

　本実習では、フィールドワークにて自分達が収集した植物サンプルのデータを用いて、データ解析を進めて行きます。

## 使用するデータ

　このテキストでは、6月21日に鴨川にて採集したイネ科植物のネズミムギのデータを解析していきます。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2021/03/nezumimugi.jpeg?raw=true" alt="colab_upload" height="150px">

<small>画像は [Wikipedia](https://ja.wikipedia.org/wiki/%E3%83%8D%E3%82%BA%E3%83%9F%E3%83%A0%E3%82%AE) から引用 </small>

　今回は各々約20個体のネズミムギを採集し、穂についている小穂の長さ (cm)を測定してもらいました。

ネズミムギデータ: https://github.com/CropEvol/lecture/raw/master/ILAS_2021/03/LoliumSpikelets.csv

　使用するデータは、調査者・穂番号・小穂位置番号・小穂の長さ (cm)・植物の状態が記入されたデータセットになります。

- Person	調査者
- Spike	穂番号
- Position 小穂位置番号	
- Length 小穂の長さ (cm)
- Condition 植物の状態
 
| Person | Spike | Position | Length | Condition |
|:---:|:---:|:---:|:---:|:---:|
|Nii|1|1|0.8|-|
|Nii|1|2|0.8|-|
|Nii|1|3|0.9|-|
|.....|.....|.....|.....|.....|
|Asaoka|20|13|0.8|-|
|Asaoka|20|14|0.8|-|
|Asaoka|20|15|0.7|-|
|.....|.....|.....|.....|.....|

　このネズミムギデータのファイル（**カンマ区切りファイル**）を下のコマンドでGoogle Colab上にダウンロードしてみてください。 


In [None]:
# ネズミムギデータをダウンロードする
# ダウンロードファイル: LoliumSpikelets.csv
!wget -O LoliumSpikelets.csv https://github.com/CropEvol/lecture/raw/master/ILAS_2021/03/LoliumSpikelets.csv

## データセットのアップロード方法


　データセットを手元のパソコンで用意した場合、そのデータを解析するためには、まずGoogle Colab上にデータをアップロードしなければなりません。

アップロードの手順は、以下の通りです。
1. 画面左にあるフォルダアイコン > 「アップロード」
1. アップロードするテキストファイルを選択する

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/03/images/colab_upload.png?raw=true" alt="colab_upload" height="200px">

## 実習内容

1. データセットをPythonで読み込む
1. 読み込んだデータセットを取り扱う
1. データをグラフにする
1. データから基本統計量を取得する

## 1. データセットをPythonで読み込む

　Pythonライブラリ**pandas** を使って、アップロードしたネズミムギデータを表示してみましょう。


```python
import pandas as pd
データフレーム名 = pd.read_csv(ファイル名, sep=区切り文字, header=ヘッダー行番号)
```

**実習:データセットの読み込み**

In [None]:
# pandasライブラリの準備
import pandas as pd
# pandasライブラリでファイル読み込み
df = pd.read_csv("LoliumSpikelets.csv", sep=",", header=1)    # header=0だと英語の列名がデータに含まれてしまう
# データの中身を表示
df

## 2. 読み込んだデータセットを取り扱う

　前回学んだデータセットの取り扱い方を参考に、自分たちのデータを操作してみましょう。


### 2-1. 小穂の長さ (cm) データにアクセスする

　まずは小穂の長さデータを確認してみましょう。

　列データの取り出し方
```python
データフレーム名.loc[:, 列名]
　または
データフレーム名.iloc[:, 列番号]
```

**実習:小穂の長さデータへのアクセス**

In [None]:
# 1列分(Length)のデータを取り出す


次に、小穂位置番号と小穂の長さを取り出してみましょう。

In [None]:
# 2列分(PositionとLength)のデータを取り出す


### 2-2. 行データにアクセスする
　
　続いて、1~100行目のデータを取り出して確認してみましょう。

　行データの取り出し方

```python
データフレーム名.loc[行名, :]
　または
データフレーム名.iloc[行番号, :]
```

**実習:複数行へのアクセス**

In [None]:
# 1~100行目のデータを範囲指定で取り出す


### 2-3. 条件に合うデータを取り出す

　今度は、目的に応じた条件に合うデータを取り出してみましょう。

```python
データフレーム[条件式]
```

#### 2-3-1. 自分のデータを取り出す
「調査者が自分」のデータを取り出してみましょう。
```
条件:調査者==自分の名前
```
余裕がある人は自分+他の誰かの2人分のデータを取り出してみましょう。

**実習:条件に合うデータへのアクセス**

In [None]:
# 調査者(Person)が自分のデータ


In [None]:
# 調査者(Person)が自分+他一人のデータ


#### 2-3-2. 小穂の位置が1番目のデータを取り出す

　次の条件に合うデータを取り出してください。

```
　「小穂位置が1」のデータ
```

　余裕がある人は、こちらの条件に合ったデータも取り出してください。
```
「小穂位置が1」かつ「調査者が自分」 のデータ
```

**実習:条件に合うデータへのアクセス**

In [None]:
# 小穂の位置が1番目のデータ


In [None]:
# 小穂の位置が1番目かつ調査者が自分のデータ


## 3. データをグラフにする

　**seaborn**ライブラリを利用して、ネズミムギのデータをグラフ化することで、データの特徴を掴んでみましょう。

###3-1. 小穂の長さの分布を見る

小穂の長さデータを取り出し、ヒストグラムを描いてみましょう。

```python
# グラフ描画用ライブラリ
import seaborn as sns

# ヒストグラムの描画
sns.distplot(小穂の長さデータ)
```

**実習:小穂の長さデータのヒストグラムの描写**

In [None]:
# seabornライブラリの準備

# 小穂の長さのヒストグラム



また、全体の小穂の長さデータを使って描いたヒストグラムと、

自分のデータのみを使って描いたヒストグラムを比べてみましょう。

同じような分布になっているでしょうか？

```python
# 小穂の長さから自分のデータを取り出す
my_length = 自分の小穂の長さデータ
# ヒストグラムの描画
sns.distplot(my_length)
```

**実習:条件に合うデータのヒストグラムの描写**

In [None]:
# 小穂の長さから自分のデータを取り出す

# ヒストグラムの描画


次に、小穂の位置によって小穂の長さに変化はあるのかを確認してみましょう。


In [None]:
# 小穂の位置が1番目の小穂の長さのヒストグラム

# 小穂の位置が10番目の小穂の長さのヒストグラム


## 4. データから基本統計量を取得する

　より具体的な情報を得るために、各データの **基本統計量**（サンプル数、平均値、標準偏差、最小値、四分位数、最大値）を調べてみましょう。


```python
データフレーム.describe()
```

### 4-1. 全体の小穂の長さデータの基本統計量を確認する。

**実習:データの基本統計量の確認**

In [None]:
# 小穂の長さの基本統計量


また、全体の小穂の長さデータと自分のデータの基本統計量を比較してみましょう。

In [None]:
# 自分のデータの小穂の長さの基本統計量


## 5. 新たなデータセットを作成・保存する
ここまで、配布したネズミムギのデータセットの特徴を確認してきましたが、そういった特徴や新たな情報をデータフレームとして新たに作成し、保存することが可能です。


今回は、各個体毎の小穂の数と小穂の長さの平均値のデータフレームを作成し、保存してみましょう。


データフレームの作成
```python
新しいデータフレーム名 = pd.DataFrame({ '列名A' : データ, '列名B' : データ ...})
```

データフレームをcsvファイルとして保存
```python
新しいデータフレーム名.to_csv(ファイル名)
```

### 5-1. 各個体毎の小穂の数や小穂の長さの平均値を計算する

**実習:各個体ごとの小穂の数、小穂の長さの平均値を取得する**

In [None]:
#各個体ごとの小穂の数を取得する

Spikelets = []                                                                            # 小穂の数を入れる入れ物を作る
Means = []                                                                                # 平均値を入れる入れ物を作る
for person in df["Person"].unique():                                            
    each_df = df[df["Person"] == person]                                    # それぞれの調査者毎にデータを取得
    for Spike_num in each_df["Spike"].unique():                           
        each_spike_df = each_df[each_df["Spike"] == Spike_num]  # それぞれの個体毎にデータを取得
        Spikelets_num = each_spike_df["Position"].max()                # 個体の小穂の数を取得
        Spikelets.append(Spikelets_num)                                        # 小穂の数を入れ物に追加
        Spikelets_mean = each_spike_df["Length"].mean()              # 個体の小穂の長さの平均値を取得
        Means.append(Spikelets_mean)                                           # 小穂の長さの平均値を入れ物に追加

**実習:新しいデータフレームを作成し、保存する。**

In [None]:
# 新しいデータフレームを作成する
new_df = pd.DataFrame({ 'Spikelets_num' : Spikelets, 'Spikelets_mean' :  Means})
# データの中身を表示
new_df

In [None]:
# データフレームを保存する
new_df.to_csv("Spikelets_mean.csv")

## 6. データの相関関係を調べる

　これまでは、データそのものの特徴(統計量や分布、自分で採集したデータの特徴)を調べてきました。


　続いては、データ間の関係性について調べていきます。
例えば、2番目の小穂の長さと7番目の小穂の長さには関係性があるのか、小穂の長さと小穂の数の間には相関があるのか…などなど。

### 6-1. 散布図を確認する。
データセットの中の2つの値の関係性を手っ取り早く簡潔に確認する方法の１つが散布図になります。

```python
# グラフ描画用ライブラリ
import seaborn as sns
# 散布図行列の描画
sns.scatterplot(x=列データ1, y=列データ2)
```

**実習:2番目の小穂と7番目の小穂の長さの関係性を散布図に表示する**

In [None]:
# 2番目の小穂データ、7番目の小穂データにアクセス
df_2 = df[df["Position"] == 2]
df_7 = df[df["Position"] == 7]

# 小穂の長さを取得
df_2_length = df_2.loc[:, "Length"].values
df_7_length = df_7.loc[:, "Length"].values

In [None]:
# ライブラリの準備
import seaborn as sns
# 散布図を描く
sns.scatterplot(x=df_2_length, y=df_7_length)