<img src="https://lh3.googleusercontent.com/pw/ACtC-3fFHZrzKpHGWl0vYz7Sr8FX8QqLQ_tc8XHBSwqQnM4hgsIOjtjaOde1M9oHSAfe1Fs2SwVORlapit4-JOz0mjP8Tnz6HetkLZDZb8CifSd0uoSp1Nj3wG_wh1sEQlKXXzvEA9Y9HnQqu2Ecv2igmInb=w1097-h235-no?authuser=0" alt="2020年度ゲノム情報解析入門" height="100px" align="middle">

# Pythonライブラリを使う - pandas -[<img src="https://dev.pandas.io/static/img/pandas.svg" alt="pandas" height="40px" align="right">](https://pandas.pydata.org/index.html)


## はじめに
　
 Pythonには多数の追加パッケージ（**ライブラリ**）があります。研究などで得られたデータを解析するとき、その都度、適切なライブラリを利用すると、より快適に解析をおこなえます。

　今回の実習では、データ解析でよく利用する表計算ライブラリ **pandas** の使い方を学びます。



### サンプルデータの概要

　[サンプルデータ](https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_sample_mini.txt) は、101行6列のテーブル状（表状）のデータです。テキストファイルに書かれています。また、各列の情報は、カンマ記号(,)で区切られています。このようなカンマ記号で区切られたテキストファイルのことを **カンマ区切りファイル (Comma-Separated Values file; CSV file)** と呼びます。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3fm0rBKBC-u2CaJHTyeMSjz6-ux2CspDCUpWBBoIZ7NnGBFNMFMecU-R8OCi4QsUZH3az1wpgXg3s6_EjJh255XwpU0O1Ylj6hpBcaivcIPC1oANOg7r9hTvT53lrMIrsm8kvbkBYvSylwkNVuAm_jZ=w1208-h627-no?authuser=0" alt="csv" height="220px">

　このCSVファイルには次のような情報が書かれています。
- 最初の行は、各列の名前が書かれた**ヘッダー行 (Header line)**。
- 2行目以降の各行には、**SNP (Single Nucleotide Polymorphism)** が見つかった1塩基座（SNP座）分の情報
- 各列（左の列から以下の情報）
  - 染色体名
  - 染色体中の塩基座位の場所
  - リファレンスの塩基
  - リファレンスとは異なる塩基
  - リファレンスと同じ塩基をもつリード数
  - リファレンスと異なる塩基をもつリード数

<img src="https://lh3.googleusercontent.com/pw/ACtC-3eDcYu-05A4ltNxlrW6i7Kd1EvLyG5olajJlRfzkIWgrGWWt3FF1T7Plbpdv-nsO91mv4psK-SKaUGFOmcyvspjFRs3JQnUjycNBduc-bmVoT7ssTOFAurKWyKyoWQmjiooQH2Izy0XR8myupkOR7lC=w1489-h1029-no?authuser=0" alt="sample_dataset" height="350px">

　今回、テーブル状のデータセットをpandasライブラリで処理する方法を学ぶだけですので、このデータセットの詳細説明（どのような実験系で生み出されたデータセットか、何を調べるためのデータセットか）は省きます。

<small>※ 「大規模データ解析入門」でデータセットの詳細を説明します。</small>

### サンプルデータのダウンロード


　次のコードセルを実行して、[サンプルデータ](https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_sample_mini.txt)をGoogle Colab上にダウンロードしてください。「pandas_sample_mini.txt」という名前のテキストファイルがダウンロードされます。

In [None]:
"""
＊重要＊
最初にこのセルを実行してください。
この実習で使うサンプルファイルをダウンロードします。
"""
# 例題用サンプルファイル
!wget -O pandas_sample_mini.txt https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_sample_mini.txt

# 実習用サンプルファイル
!wget -O pandas_sample_mini2.txt https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_sample_mini2.txt

## 今回の実習内容
1. テキストファイルの読み込み
1. 任意のセルデータを取り出す
1. 任意の列データを取り出す
1. 任意の行データを取り出す
1. 条件に合う行を取り出す
1. 2つの列データの要素同士を計算する

---

## 1. テキストファイルの読み込み

　早速、下のコードセルのプログラムを実行して、先ほどダウンロードしたサンプルファイル「pandas_sample_mini.txt」をpandasで読み込んでみましょう。各行のプログラムの解説はすぐあとにあります。

In [None]:
# pandasを使える状態にする
import pandas as pd

# カンマ区切りファイルを読み込む
df = pd.read_csv("pandas_sample_mini.txt", sep=",", header=0)

# データを確認する
df

### `import pandas as pd` の解説

　`import ライブラリ` で、ライブラリを呼び出して使える状態にします。また、`as 略称` により、ライブラリの略称を設定できます。略称の設定は任意です。略称を設定した場合、以降の解析で、ライブラリ名のフルネームの代わりに、設定した略称を使って、そのライブラリの様々な機能を使用できるようになります。  

```python
# pandasのread_csv機能を使う
# 略称なし
import pandas
pandas.read_csv(......)
# 略称「pd」
import pandas as pd
pd.read_csv(......)
# 略称「ku」
import pandas as ku
ku.read_csv(......)
```

### `df = pd.read_csv("pandas_sample_mini.txt", sep=",", header=0)` の解説

　pandasの`read_csv()`を使ってテキストファイルを読み込みます。ここでは、import時にpandasの略称「pd」を設定したため、`pd.read_csv()`と書きます。

```python
# read_csvの書き方 (略称pdを使用)
データフレーム変数 = pd.read_csv(ファイル名, sep=区切り文字, header=ヘッダー行番号)
```

　ファイルを読み込む際、`read_csv()`にはおもに3つの情報を与えます。

- ファイル名: 読み込むテキストファイルの名前です。今回の例では、`pandas_sample_mini.txt`です。
- `sep`: 区切り文字を指定します。今回の例では、カンマ区切りファイルであるためカンマ(`,`)を指定します。
- `header`: ヘッダー行の行番号を指定します。今回の例では、最初の行（行番号は0から数え始めるため「0行目」）がヘッダー行です。

　なお、pandasで読み込まれたデータを、**pandasデータフレーム（以下、データフレーム）** と呼びます。

データフレームの各部の名称:
- 先頭の太字で表示される行は、**列名（ヘッダー）**です。
- 左の太字で表示される列は、**行名（インデックス）**です。
- 行と列で指定される１個分の区画のことを**セル**と言います。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3dTmqWh96aiKR7r6N9bCpmm8v727Axn8Lr-bIv4OGgKOy3muakVuUe5H_VQMJdyfVyiq-qj8EMj8VwAP7iUqoXkji6-8hKKeLUzYHnsqwEmKgZeBwHysYqIGofizfXjOD_n7SoD8wtzpB2YWe6MDVQl=w1335-h670-no?authuser=0" alt="pandas_dataframe" height="250px">

### `df` の解説

　`df`の中身、すなわち、データフレームを表示しているコードです。

　print関数を使っていませんが、データの中身を表示できています。これは、Google Colabノートブック自体の機能を使っているためです。変数名を書くだけで、その中身のデータ（ここではデータフレーム）を表示できます。ただし、表示できるデータは、そのコードセルのプログラムの中で最後に実行される一つのみです。

In [None]:
# 変数設定
a = 1
b = 2
c = 3
d = 4

# プログラムとして最後に実行されるデータのみ表示可能
a   # これは表示されない
b   # これは表示されない
c   # 表示される
#d  # これはコメント行なので表示されない

### 実習1

　`read_csv()`を使って、実習用サンプルデータ「pandas_sample_mini2.txt」（カンマ区切りのテキストファイル）を読み込んでください。


<small>※ 例題用のデータフレーム変数を上書きしないように、実習用のデータフレーム変数を`df2`にしています。</small>

In [None]:
import pandas as pd

df2 = 

df2

#### 解答例

In [None]:
import pandas as pd

df2 = pd.read_csv("pandas_sample_mini2.txt", sep=",", header=0)

df2

## 2. 任意のセルのデータを取り出す


### 2-1. 任意の1セルのデータを取り出す

　データフレームから任意のデータを取り出す方法を学んでいきましょう。まずは、1つのセルのデータにアクセスする方法です。
 
```python
# 1つのセルのデータを取り出す
データフレーム.loc[行名, 列名]
```

In [None]:
# 例: 1つのセルのデータを取り出す
df.loc[0, "POS"]

### 実行したコードセルの情報は別のコードセルにも引き継がれる

　Google Colabノートブックでは、実行したコードセルの情報（変数など）は、同じノートブック上の別のコードセルにも引き継がれます。

　つまり、実行したコードセルで変数を設定していれば、別のコードセルでもその変数を使用できます。


In [None]:
a = 123

In [None]:
print(a)

　Google Colabノートブックでデータ解析をおこなう場合、
1. 短い解析コードを書いて、実行して、その結果を確認、
1. 次の解析コードを書いて、実行して、結果を確認、
1. また次の解析コードを書いて...  

のように、コードの記述と実行、結果の確認を繰り返しながら、解析を進めていくのが一般的です。なお、ひとつのコードセルに書くコードの量は自由です。

### 実習2-1

　実習用データフレーム`df2`から、次のデータを取り出してください。
- 行名`99`　かつ　列名`REF`

#### 解答例

In [None]:
df2.loc[99, "REF"]

### 2-2. 範囲指定して複数セルのデータをまとめて取り出す

　範囲指定でまとめて複数セルのデータを取り出すことも可能です。
 
```python
# まとめて複数セルのデータを取り出す
データフレーム.loc[開始行名：終点行名, 開始列名：終点列名]
```

In [None]:
# 例： まとめて複数セルのデータを取り出す
df.loc[2:4, "POS":"ALT"]

### 実習2-2

　実習用データフレーム`df2`から、次のデータを取り出してください。
- 行名`50`から`55`　かつ　列名`CHR`から`ALT`

#### 解答例

In [None]:
df2.loc[50:55, "CHR":"ALT"]

### 「最初の行（列）から」や「最後の行（列）まで」を指定する方法

　範囲指定をするとき、最初の行や列、最後の行や列を指定する便利な方法を紹介します。

　上述で習った範囲指定の方法から、開始行名や終点行名、開始列名、終点列名をそれぞれ省略するとどうなるでしょうか？
```python
# まとめて複数セルのデータを取り出す
df.loc[開始行名：終点行名, 開始列名：終点列名]
```

- 開始行名を省略: 「最初の行から」になる
- 終点行名を省略: 「最後の行まで」になる
- 開始列名を省略: 「最初の列から」になる
- 終点列名を省略: 「最後の列まで」になる


In [None]:
# 省略しない場合
df.loc[2:4, "POS":"ALT"]

In [None]:
# 開始行名を省略する 
df.loc[:4, "POS":"ALT"]

In [None]:
# 終点列名を省略する 
df.loc[2:4, "POS":]

In [None]:
# すべて省略する
# => 最初の行から最後の行まで、最初の列から最後の列まで
# => すなわち、データフレーム全体
df.loc[:, :]

## 3. 任意の列のデータを取り出す
　次に任意の列のデータを取り出してみましょう。いくつか方法がありますが、ここでは先ほど習った`loc`を使う方法を見てみましょう。
 
```python
# 任意の1列を取り出す
データフレーム.loc[:, "列名"]
```

```python
# 連続する任意の複数列を取り出す
データフレーム.loc[:, "開始列名":"終点列名"]
```

```python
# 連続しない任意の複数列を取り出す
データフレーム.loc[:, ["列名1", "列名2", "列名3"]]
```

In [None]:
# 例: 1つの列データを取り出す
df.loc[:, "POS"]

In [None]:
# 例: 連続する複数の列データを取り出す
df.loc[:, "CHR":"POS"]

In [None]:
# 例: 連続しない複数の列データを取り出す
df.loc[:, ["POS", "REF", "N_REF"]]

### 実習3

　実習用データフレーム`df2`から、次のデータを取り出してください。
- 4列: `CHR`、`POS`、`N_REF`、`N_ALT`

#### 解答例

In [None]:
df.loc[:, ["CHR", "POS", "N_REF", "N_ALT"]]

### 1列を取り出す場合の簡単な書き方

　任意の1列を取り出す場合、簡単な書き方があります。

```python
データフレーム変数["列名"]
```
```python
データフレーム変数.列名
```



In [None]:
# 例: 任意の1列を取り出す
df["POS"]

In [None]:
# 例: 任意の1列を取り出す
df.POS

## 4. 任意の行のデータを取り出す

　　任意の行を取り出したいときも `loc` を使います。行名を指定して、列名をコロン(`:`)のみにします。

<small>※ 列名のコロンは省略可能です。</small>

```python
# 任意の1行を取り出す
データフレーム.loc[行名, :]
```

```python
# 連続する任意の複数行を取り出す
データフレーム.loc[開始行名:終点行名, :]
```

```python
# 連続しない任意の複数行を取り出す
データフレーム.loc[[行名1, 行名2, 行名3], :]
```

In [None]:
# 例: 任意の1行を取り出す
df.loc[2, :]

In [None]:
# 例: 連続する任意の複数行を取り出す
df.loc[2:5, :]

In [None]:
# 例: 連続しない任意の複数行を取り出す
df.loc[[2,4,5], :]

### 実習4

　実習用データフレーム`df2`から、次のデータを取り出してください。
- 行名 `10`から`20`までのデータ

#### 解答例

In [None]:
df2.loc[10:20, :]

## 5. 条件に合った行データを取り出す


### 5-1. 条件が1つの場合
　指定の条件に合った行のデータをデータフレームから取り出してみましょう。

```python
# 条件に合った行データを取り出す
データフレーム[ 条件式 ]
# 例： REF列が"A"のデータのみを取り出す
df[ df["REF"] == "A" ]
```

 「REF列が"A"のデータ」を取り出す場合には、イコール記号2つを使用して`df["REF"] == "A"`と記述する注意してください。詳しくは、後述の「条件で使用するおもな比較演算子」で説明します。

In [None]:
# 例： REF列が"A"のデータのみを取り出す
df[ df["REF"] == "A" ]

### 実習5-1

　実習用データフレーム`df2`から、次のデータを取り出してください。

- `ALT`列が"G"

#### 解答例

In [None]:
df2[ df2["ALT"] == "G" ]

### 「条件式」で得られるデータ

```python
# 条件に合った行データを取り出す
データフレーム[ 条件式 ]
# 例： REF列が"A"のデータのみを取り出す
df[ df["REF"] == "A" ]
```

　このうち、条件式の部分からはどのようなデータが得られるか見てみましょう。


In [None]:
# 条件式のみ
df["REF"] == "A"

　`True`や`False`のデータが得られました。

　「条件に合った行データの取り出し」では、条件式の部分で各行が条件に合っているか（`True`か）、合っていないか（`False`か）のリスト状データを作っています。

　そのリスト状のデータを`df[ ]`の角カッコ内に書くことで、`True`の行のみ、すなわち、条件に合っている行のみが取り出されます。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3ff1_qpZMp9J2szqWoR4D_wRyrONjaGy4EOCxvpFge1kvGW07RCFKHrN9PciCrdj3x8nWyPJHNIhXHGVOIeO37JZkT4bY29cstEp1s3GtDxepWGsLOk5WPEu3VFaSQN3YbS6b6lvInkr7W9t-Ore5eF=w1695-h729-no?authuser=0" alt="csv" height="280px">

### 5-2. 条件が複数の場合

　条件が複数の場合、次のように記述します。

```python
# 条件2つ（AND条件）;  条件1かつ条件2
データフレーム[ (条件式1) & (条件式2)]
# 条件2つ（OR条件）; 条件1または条件2
データフレーム[ (条件式1) | (条件式2)]
```

In [None]:
df[ df["ALT"] == "T" ]

In [None]:
# AND条件; 条件1かつ条件2
df[ (df["REF"] == "A") & (df["ALT"] == "G") ]

In [None]:
# OR条件; 条件1または条件2
df[ (df["REF"] == "A") | (df["ALT"] == "G") ]

### 実習5-2

　実習用データフレーム`df2`から、次のデータを取り出してください。

- `REF`列が"T" かつ `ALT`列が"G"

#### 解答例

In [None]:
df2[ (df2["REF"] == "T") & (df2["ALT"] == "G") ]

### 条件で使用するおもな比較演算子


 pandasの条件式で使用する比較演算子はいくつもあります。主要なものをここで取り上げます。

```python
# 列データがある"文字列"と同じ
データフレーム["列名"] == "文字列"
# 列データがある"文字列"と異なる
データフレーム["列名"] != "文字列"
# 列データがある数値に等しい
データフレーム["列名"] == 数値
# 列データがある数値と等しくない
データフレーム["列名"] != 数値
```

<small>※　Pythonでは、イコール記号2つ`==`が "等しい" の意味で使われています。</small>

In [None]:
# 列データがある数値と同じ
df[df["N_REF"] == 0]

　列データが数値の場合、大小関係の条件式も作れます。
```python
# 列データがある数値より小さい
データフレーム["列名"] < 数値
# 列データがある数値より大きい
データフレーム["列名"] > 数値
# 列データがある数値以下
データフレーム["列名"] <= 数値
# 列データがある数値以上
データフレーム["列名"] >= 数値
```

In [None]:
# 列データがある数値より小さい
df[df["POS"] < 500000]

## 6. 列データの要素同士を計算する


### 6-1. 列データの要素同士の計算

　Pythonの基礎で習ったような`for`構文を使わずに、列データの要素同士の数値計算を簡単におこなえます。
 
```python
# 列データの要素同士の計算（足し算の場合）
データフレーム["列名1"] + データフレーム["列名2"]
```

<small>※ 取り出す列が数値データではなく、文字列データの場合、文字列の結合がおこなわれます。</small>

In [None]:
# 列データの要素同士の計算
df["N_REF"] + df["N_ALT"]

### 実習6-1

　実習用データフレーム`df2`について、次の2つの列データの要素同士を足し算してください。

- 足し算する列: `N_REF`列 と `N_ALT`列

#### 解答例

In [None]:
df2["N_REF"] + df2["N_ALT"]

### 6-2. 新しい列データの追加

　列データの数値計算の結果を新しい列データとして加えるには、次のように記述します。
 
```python
# 新しい列データの追加（足し算の結果を追加する場合）
データフレーム["新しい列名"] = データフレーム["列名1"] + データフレーム["列名2"]
```

In [None]:
# 新しい列データ "DEPTH" の追加
df["DEPTH"] = df["N_REF"] + df["N_ALT"]

# 表示
df

### 実習6-2.

　実習用データフレーム`df2`について、2つの列データの要素同士の引き算をおこない、その計算結果を`df2`の新しい列 `"DIFF"` として追加してください。

- 引き算: `N_REF`列 - `N_ALT`列
- 追加する列名: `"DIFF"`

#### 解答例

In [None]:
# 引き算の結果を新しい列データ "DIFF" として追加
df2["DIFF"] = df2["N_REF"] - df2["N_ALT"]

# 表示
df2

---
## まとめ

　Pythonの基礎では、`for`構文や`open()`、`close()`、`split()`といった関数を使用してテーブル状のデータを読み込んで処理しましたが、今回学んだ表計算ライブラリ「pandas」を使用すると、もっと簡単にデータ処理をおこなうことが可能です。

　pandasは、行データや列データ、セルデータの取り出しを1行のコードで行えます。また、「列の要素同士の計算」や「条件に合った行の取り出し」もたった1行でおこなえます。

　このpandasを使った処理は、このあとの実習でもよく使用します。ぜひ復習して慣れるようにしてください。