# 大規模データを扱う

1. [Pandasの基本](#link1)
1. [データの読み込み](#link2)
1. [特定のセルのデータを取り出す](#link3)
1. [特定の行を取り出す](#link4)
1. [特定の列を取り出す](#link5)
1. [列同士の計算をする](#link6)
1. [条件に合う行を取り出す](#link7)
1. [集計する](#link8)
1. [グラフを描く](#link9)
1. [二つのデータフレームを結合する](#link10)

---

前回までは、Pythonの基本を勉強しました。  
また、open関数、for文とif文などを使って、ファイル読み込みとデータ処理も実践しました。

今回からは、Pandasと呼ばれるPythonのパッケージ（追加機能のようなもの）を利用して、大規模データを取り扱っていきます。  
Pandasは、二次元データテーブルの取扱いを容易にするパッケージです。

以下に、前回までのデータ処理方法とPandasを使った方法を示しています。

In [None]:
# 前回までのデータ処理方法（簡易的な方法）
# 読み込みデータ: ./data/g1000_exp.txt
# Significant='yes' の行のみを表示するプログラム

f = open('./data/g1000_exp.txt', 'r')  # ファイル読み込み

# 一行ずつ処理していく
for line in f:
    
    # 一行のなかに'yes'の文字があれば、その行を表示
    if 'yes' in line: 
        print(line)

In [None]:
# 前回までのデータ処理方法（よりきっちりした方法）

f = open('./data/g1000_exp.txt', 'r')  # ファイル読み込み

for line in f:
    line = line.rstrip()     # 行末の改行コード(\n)を除去する
    item = line.split('\t')  # タブ(\t)文字で一行を分割する
    sig = item[3]            # 4列目のデータをsigに入れる
    
    # 4列目が'yes'なら、その行を表示
    if sig == 'yes': 
        print(line)

In [None]:
# Pandasを使った処理方法

import pandas as pd  # pandasの読み込み; pdという省略形で使用可能にする

# データの読み込み（区切り文字、ヘッダー行を指定）
# dfという変数に格納
df = pd.read_csv('./data/g1000_exp.txt', sep='\t', header=0)

# Significant列が'yes'の行のみ表示
print(df[df['Significant']=='yes'])

<a name="link1"></a>
## 1. Pandasの基本

- 図のようなデータを「データフレーム」といいます。
- 一番上の行はヘッダー行: カラム（列）名の行
- 一番左の列はインデックス列: インデックス（行）名の列
- 各列には、それぞれ同じ型のデータが入っています。
- 各行には、通常「1サンプル分のデータ」が入っています（図では、各行に1遺伝子のデータ）

![Pandasデータフレーム](pics/pandas_dataframe.png "Pandasデータフレーム")

<a name="link2"></a>
## 2. データの読み込み
RNA-seq解析で実際に出てくるデータを使っていきます。

使うデータファイルは、 
- ファイル名: `./data/DE_results.txt`
- 区切り文字: タブ区切り='\t'
- ヘッダー行: 0行目

各カラムの説明
- sampleA, sampleB: サンプル名
- logFC: sampleAとB間の発現量の差; log2(sampleA/sampleB)  
    - logFC>0の場合、sampleAの発現量の方が多い。  
    - logFC<0の場合、sampleBの発現量の方が多い。
- logCPM: sampleAとBの発現量の平均
    - 遺伝子発現量の大小を示す値
- PValue: フィッシャーの正確確率検定による確率
- FDR: False Discovery Rate
    - ふつう、この値が0.05より低い遺伝子を「発現変動遺伝子」とみなします。

![サンプルデータフレーム](pics/sample_dataframe.png "サンプルデータフレーム")

---

```python
# Pandasの読み込み
import pandas as pd

# データの読み込み。 タブ区切りを表す文字（\t）
df = pd.read_csv(ファイル名, sep=区切り文字, header=ヘッダー行の番号, index_col=インデックス列の番号)

# 表示
df
```


In [None]:
# データ（./data/DE_results.txt）を読み込む


<a name="link3"></a>
## 3. 特定のセルのデータを取り出す

行、列の指定方法
- loc: 行ラベル、 列ラベル
- iloc: 行の番号(0 ~ )、列の番号(0 ~ )

---

```python
# 行と列の番号を指定してデータを取り出す
データフレーム.iloc[行番号,列番号] 

# 行と列のラベル（名前）を指定してデータを取り出す
データフレーム.loc[行ラベル,列ラベル] 
```

In [None]:
# 3行目（TRINITY_DN10003_c0_g2）、4列目（PValue）のデータを取得


<a name="link4"></a>
## 4. 特定の行を取り出す

```python
データフレーム.iloc[行番号,:]
　または
データフレーム.loc[行ラベル,:]
```

In [None]:
# 3行目（TRINITY_DN10003_c0_g2）のデータを取得


<a name="link5"></a>
## 5. 特定の列を取り出す

```python
データフレーム.iloc[:,列番号]
　または
データフレーム.loc[:,列ラベル]
　または
データフレーム[列ラベル]
```

In [None]:
# 4列目（PValue）のデータを取得


<a name="link6"></a>
## 6. 列同士の計算をする

```python
# 足し算の場合
データフレーム[列ラベル] + データフレーム[列ラベル]
```

In [None]:
# 2列目（logFC）と3列目（logCPM）を掛け算


<a name="link7"></a>
## 7. 条件に合う行を取り出す

```python
データフレーム[条件文]

例えば、df[df['logFC']>0]
```

In [None]:
# FDRが0.05より小さいデータを取得


<a name="link8"></a>
## 8. 集計する

集約関数、統計関数
- count(): 個数を数える
- mean(): 平均値を求める
- sum(): 合計値を求める
- max(): 最大値を求める
- min(): 最小値を求める
- std(): 標準偏差を求める
- var(): 分散を求める

---

```python
# 平均値を求める場合
データフレーム.mean()
データフレーム[列ラベル].mean
```

In [None]:
# 各列の平均値を求める


<a name="link9"></a>
## 9. グラフを描く

```python
# 散布図を描く
データフレーム.plot(x=ラベル名, y=ラベル名, kind='scatter')
　または
データフレーム.plot.scatter(x=ラベル名, y=ラベル名)
```

---

グラフの種類
http://pandas.pydata.org/pandas-docs/stable/visualization.html#other-plots

In [None]:
%matplotlib inline
# この1行はJupyter Notebook上に図を表示するために必要
# （実行環境によっては不要な場合もある）

# x軸（横軸）にlogCPM、y軸（縦軸）にlogFCの散布図を作成する


#### 作図の仕組み
Pythonでは、複数のシート（レイヤー）が重なって、一つのグラフが作成されています。  
上で使った、plot関数は、複数のレイヤー（グラフ本体や軸、軸ラベル等）を重ねる作業を一つにまとめた関数です。

![作図の仕組み](pics/drawing_graph.png "作図の仕組み")


なお、グラフの上に、もう一つ別のグラフを重ねることも可能です。

In [None]:
# 同じく、x軸にlogCPM、y軸にlogFCの散布図
# FDR>=0.05の散布図の上に、FDR<0.05の散布図を重ねる


<a name="link10"></a>
## 10. 二つのデータフレームを結合する

二つのデータフレームは結合させることも可能です。

---

```python
import pandas as pd

# データの読み込み
#（データ1 -> df1; データ2 -> df2）
df1 = pd.read_csv(データ1)
df2 = pd.read_csv(データ2)

# データの結合
df = pd.merge(df1, df2, left_on=df1[カラム名], right_on=df2[カラム名], how=結合方法)

# left_on, right_on には紐付けさせたいカラム名を指定
# left_index=True, right_index=True でインデックスを紐付けに使用することも可能

# how='left'  <--- 左結合結合
# how='right' <--- 右外部結合
# how='outer' <--- 完全外部結合
# how='inner' <--- 内部結合
```

In [None]:
import pandas as pd

# データの読み込み
df1 = pd.read_csv('./data/DE_results.txt', sep='\t', header=0, index_col=0)
df2 = pd.read_csv('./data/go_annotations.txt', sep='\t', header=-1, index_col=0, names=['GO'])

df1.head()

In [None]:
df2.head()

In [None]:
# インデックス名で左外部結合
df = pd.merge(df1, df2, left_index=True, right_index=True, how='left')
df # 表示