# 表データを使いこなそう

今回は、データ分析と言えば、避けては通れないPandas の使い方を学び、
表データの操作を練習します。



## Pandas とは

Pandas とは、表データを扱うPython モジュールで、表計算ソフト (Excel)やリレーショナルデータベースの操作を Python から手軽に行えるようにしてくれます。 

次のように`pandas`モジュールをインポートして使います。


In [1]:
import pandas as pd

Pandas は、とても高機能です。

本講義では、Pandas でデータ分析をする必須の機能だけ紹介し、ハンズオン演習で体験します。

* 暗記するものではありません。
* どういうデータ処理や操作ができるか、覚えましょう。
* 使うときは、Google 等で調べながら使ってください。

### データの用意

Pandas の使い方に慣れるために、小さな練習用のデータを作成して、
そちらを使って演習していきます。

Colabのファイル書き込み機能(`%%file`)を使って、
演習用のCSVファイル `arashi.csv`を作ります。


In [2]:
%%file arashi.csv
名前,出身,生年,身長,血液型
相葉雅紀,千葉,1982,175,AB
松本潤,東京都,1983,172,A
二宮和也,東京都,1983,168,A
大野智,東京都,1980,166,A
櫻井翔,東京都,1983,171,A

Overwriting arashi.csv


あとから表データの結合で用いますので、もうひとつ `junk.csv` も作っておきましょう。

In [3]:
%%file junk.csv
name,height,weight
大野智,166,52.0
相葉雅紀,176,58.0
二宮和也,168,52.0
松本潤,173,62.0
カビゴン,210,460.0

Overwriting junk.csv


CSV ファイルは、表計算ソフト(Excel)のファイルをデータ処理しやすく、カンマ区切り形式のテキストで出力したものです。

当然、Excel 等の表計算ソフトで開いてみることができます。

<div class="alert alert-info">

Let's try

ちゃんと`arashi.csv`が作成されているか、`head`コマンドで確認してみよう。

</div>


## 基本操作

Pandas は、表データを効率よく操作できます。

Pandas 用語では、表データのことをデータフレーム(DataFrame)と呼びますが、本資料では表データと呼びます。

__用語の説明__

* カラム: 行方向のデータ
* インデックス: 列方向のデータ


### CSVファイルの読み込み

Pandas では、`pd.read_csv()`を用いると、CSVファイルから表データを読み込めます。


In [4]:
data = pd.read_csv('arashi.csv')
data.head()  # 最初の5行のみ表示

Unnamed: 0,名前,出身,生年,身長,血液型
0,相葉雅紀,千葉,1982,175,AB
1,松本潤,東京都,1983,172,A
2,二宮和也,東京都,1983,168,A
3,大野智,東京都,1980,166,A
4,櫻井翔,東京都,1983,171,A


読み込んで表データは、`data`という名前にしてあります。
表データへの操作は、`data.head()`のようにメソッドで行ます。

### 属性名からカラム(列)を取り出す

Pandas では、属性ごとのデータ処理が多くなります。
まず、属性名`'名前'`のデータを取り出してみましょう。


In [5]:
data['名前']

0    相葉雅紀
1     松本潤
2    二宮和也
3     大野智
4     櫻井翔
Name: 名前, dtype: object

取り出した属性データは、Pythonの列(シーケンス）として、`for`文などで処理できます。

In [6]:
for name in data['名前']:
  print(name)

相葉雅紀
松本潤
二宮和也
大野智
櫻井翔


### 属性(列データ）の追加

新しい属性、つまり列データを追加してみましょう。

表データ中には、５人分のデータがあるため、リストとして５人分のデータを代入すると、
新しい属性を追加することができます。

__例. 性別を追加する__


In [7]:
data['性別'] = ['男性', '男性', '男性', '男性', '男性']  # ['男性'] * 5 

data #表示

Unnamed: 0,名前,出身,生年,身長,血液型,性別
0,相葉雅紀,千葉,1982,175,AB,男性
1,松本潤,東京都,1983,172,A,男性
2,二宮和也,東京都,1983,168,A,男性
3,大野智,東京都,1980,166,A,男性
4,櫻井翔,東京都,1983,171,A,男性



<div class="alert alert-info">

上級者向け: 列に数式を適用する

`apply`を使えば、各列データに関数やラムダ式を適用した列がえられます。

```
data['年齢'] = data['生年'].apply(lambda x: 2021 - x)
```



</div>




### n行目のデータを取り出す

表データの列ごとへのアクセスは、`.iloc`プロパティを通して行ます。

In [8]:
data.iloc[0]

名前     相葉雅紀
出身       千葉
生年     1982
身長      175
血液型      AB
性別       男性
Name: 0, dtype: object

In [9]:
for values in data.iloc[0]:
  print(values)

相葉雅紀
千葉
1982
175
AB
男性


### セルの値
インデックスと属性の組み合わせで、表データをセルの値を指定して取り出すことができます。


In [10]:
data.iloc[0]['出身']

'千葉'

### 表データの出力

Pandas で操作した表データは、`.to_csv()`でCSVファイルに保存できます。


In [12]:
data.to_csv('arashi2.csv', index=False)  #インデックスなしで出力

In [13]:
!cat data.csv

名前,出身,生年,身長,血液型,性別
相葉雅紀,千葉,1982,175,AB,男性
松本潤,東京都,1983,172,A,男性
二宮和也,東京都,1983,168,A,男性
大野智,東京都,1980,166,A,男性
櫻井翔,東京都,1983,171,A,男性


## Pandas とリレーショナル代数

Pandas のリレーショナル代数の操作をみていきましょう。

データベース実習を履修している人は、SQLを思い出しながら試していきましょう。

### 選択(selection)

選択は、指定した条件に合う行を取り出します。データを抽出するフィルターの役割になります。

__例__
```sql
SELECT * FROM data WHERE '身長 >= 170'
```


In [14]:
data[data['身長'] >= 170]

Unnamed: 0,名前,出身,生年,身長,血液型,性別
0,相葉雅紀,千葉,1982,175,AB,男性
1,松本潤,東京都,1983,172,A,男性
4,櫻井翔,東京都,1983,171,A,男性


複雑な条件は、`.query()`メソッドを用いて与えることもできます。

In [16]:
data.query('身長 >= 170 and 血液型 == "A"')

Unnamed: 0,名前,出身,生年,身長,血液型,性別
1,松本潤,東京都,1983,172,A,男性
4,櫻井翔,東京都,1983,171,A,男性


### 射影(projection)

射影（projection）は、表データから属性を限定した表データを返します。
Pandasでは、抽出したい属性名をリストにして渡します。

__SQL例__

```sql
SELECT 名前,生年,血液型 FROM data
```


In [17]:
data[['名前', '生年', '血液型']]

Unnamed: 0,名前,生年,血液型
0,相葉雅紀,1982,AB
1,松本潤,1983,A
2,二宮和也,1983,A
3,大野智,1980,A
4,櫻井翔,1983,A


### 表の連結

複数のファイルに入っている表データをまとめてひとつにしたいことがあります。

単純に縦方向に連結したいときは、`pd.concat()`を使って連結します。



In [20]:
data2 = pd.read_csv('arashi.csv') #もう一度読む
pd.concat([data, data2])

Unnamed: 0,名前,出身,生年,身長,血液型,性別
0,相葉雅紀,千葉,1982,175,AB,男性
1,松本潤,東京都,1983,172,A,男性
2,二宮和也,東京都,1983,168,A,男性
3,大野智,東京都,1980,166,A,男性
4,櫻井翔,東京都,1983,171,A,男性
0,相葉雅紀,千葉,1982,175,AB,
1,松本潤,東京都,1983,172,A,
2,二宮和也,東京都,1983,168,A,
3,大野智,東京都,1980,166,A,
4,櫻井翔,東京都,1983,171,A,


今度は、最初に作ったもう一つのCSVファイル junk.csvを読み込んで、連結してみます。

In [25]:
data2 = pd.read_csv('junk.csv')
data2

Unnamed: 0,name,height,weight
0,大野智,166,52.0
1,相葉雅紀,176,58.0
2,二宮和也,168,52.0
3,松本潤,173,62.0
4,カビゴン,210,460.0


In [26]:
pd.concat([data, data2])  #縦方向に連結

Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,,,
1,松本潤,東京都,1983.0,172.0,A,男性,,,
2,二宮和也,東京都,1983.0,168.0,A,男性,,,
3,大野智,東京都,1980.0,166.0,A,男性,,,
4,櫻井翔,東京都,1983.0,171.0,A,男性,,,
0,,,,,,,大野智,166.0,52.0
1,,,,,,,相葉雅紀,176.0,58.0
2,,,,,,,二宮和也,168.0,52.0
3,,,,,,,松本潤,173.0,62.0
4,,,,,,,カビゴン,210.0,460.0


In [27]:
pd.concat([data, data2], axis=1)  #横方向に連結

Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982,175,AB,男性,大野智,166,52.0
1,松本潤,東京都,1983,172,A,男性,相葉雅紀,176,58.0
2,二宮和也,東京都,1983,168,A,男性,二宮和也,168,52.0
3,大野智,東京都,1980,166,A,男性,松本潤,173,62.0
4,櫻井翔,東京都,1983,171,A,男性,カビゴン,210,460.0


### 表データの結合(join)

表データの結合は、ふたつの表データのある属性をキーにして、キーが同じ値であれば一つの行にまとめる操作です。

`pd.merge()`で次のように結合します。

__`名前`と`name`をキーにする__


In [28]:
pd.merge(data, data2, left_on='名前', right_on='name')


Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982,175,AB,男性,相葉雅紀,176,58.0
1,松本潤,東京都,1983,172,A,男性,松本潤,173,62.0
2,二宮和也,東京都,1983,168,A,男性,二宮和也,168,52.0
3,大野智,東京都,1980,166,A,男性,大野智,166,52.0


ふたつの表データは結合されましたが、データが一部消えてしまいました。
これは、Pandas では何も指定しなければ、一番条件の厳しい内部結合が用いられるためです。

__結合の方法__
* 内部結合 `inner`: 両方にキーが存在するとき結合
* 外部結合 `outer`: どちらか一方にキーが存在するとき結合
* 左外部結合 `left`: 左側にキーが存在するとき 
* 右外部結合 `right`: 右側にキーが存在するとき

`left`が良さそうですが、`outer`で結合してみます。

In [35]:
pd.merge(data, data2, left_on='名前', right_on='name', how='outer')

Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,相葉雅紀,176.0,58.0
1,松本潤,東京都,1983.0,172.0,A,男性,松本潤,173.0,62.0
2,二宮和也,東京都,1983.0,168.0,A,男性,二宮和也,168.0,52.0
3,大野智,東京都,1980.0,166.0,A,男性,大野智,166.0,52.0
4,櫻井翔,東京都,1983.0,171.0,A,男性,,,
5,,,,,,,カビゴン,210.0,460.0


また、属性名が英語だったり、日本だったり不統一です。
少し整頓しておきましょう。


In [31]:
# data, data2を外部結合した表データを新しく ARASHI とする
ARASHI = pd.merge(data, data2, left_on='名前', right_on='name', how='outer')
ARASHI.drop('name', axis=1, inplace=True)
ARASHI.drop('height', axis=1, inplace=True)
ARASHI.drop(5, axis=0, inplace=True)  #index=5を消す
ARASHI.rename(columns={'weight': '体重'}, inplace=True)
ARASHI

Unnamed: 0,名前,出身,生年,身長,血液型,性別,体重
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,58.0
1,松本潤,東京都,1983.0,172.0,A,男性,62.0
2,二宮和也,東京都,1983.0,168.0,A,男性,52.0
3,大野智,東京都,1980.0,166.0,A,男性,52.0
4,櫻井翔,東京都,1983.0,171.0,A,男性,


## データ分析の準備

次回からPandas を用いて、より本格的なデータ分析を始めます。

### 欠損値のチェック

世の中のデータは、データ値が欠けていることがあります。
今回の練習データでは、`NaN`と表示されている値が、欠損値になります。
データ件数が少ない場合は、目視でみつかる場合がありますが、
データ件数が多くなると、手作業で探すのは無理です。

欠損値をチェックすることが必要になります。



In [32]:
ARASHI.isnull().sum()

名前     0
出身     0
生年     0
身長     0
血液型    0
性別     0
体重     1
dtype: int64


欠損値が見つかったときは、
欠損値を処理するアプローチとしては：

* `dropna()`：データが欠損している行や列を削除する
* `fillna()`：データが欠損している要素を別の値で穴埋めする

どのように処理するかは、データ分析の目的によって異なります。
今回は、メンバーを消してしまったら、大変なことになりますので、
__欠損値の値を平均値で補完する__ことで対応してみます。


In [33]:
ARASHI.fillna(ARASHI.mean(), inplace=True)
ARASHI

Unnamed: 0,名前,出身,生年,身長,血液型,性別,体重
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,58.0
1,松本潤,東京都,1983.0,172.0,A,男性,62.0
2,二宮和也,東京都,1983.0,168.0,A,男性,52.0
3,大野智,東京都,1980.0,166.0,A,男性,52.0
4,櫻井翔,東京都,1983.0,171.0,A,男性,56.0


メモ
```
data['Age'].fillna(20)                   # 列Ageの欠損値を20で穴埋め
data['Age'].fillna(data['Age'].mean())   # 列Ageの欠損値をAgeの平均値で穴埋め
data['Age'].fillna(data['Age'].median()) # 列Ageの欠損値をAgeの中央値で穴埋め
data['Age'].fillna(data['Age'].mode())   # 列Ageの欠損値をAgeの最頻値で穴埋め
```

### グループごとの集計

groupby は、同じ値を持つデータをまとめて、それぞれの塊に対して共通の操作を行いたい時に使う。例えば一番簡単な使い方として、city ごとの price の平均を求めるには次のようにする。groupby で出来た GroupBy オブジェクトに対して、平均をとる mean メソッドを呼ぶと良い。


In [None]:
ARASHI.groupby('血液型')

## コースワーク

コースワークは、次回までの演習課題です。
次回の授業でたぶん解説をします。

<div class="admonition tip">

**演習（BMI.CSV）**

指定された３つのCSVファイルをまとめてひとつのCSVファイルする。

1. 完成したファイルは `bmi.csv` として保存する
2. 体重を横軸にして、ヒストグラムを書いてみる
3. 身長と体重の分布図を描画する

</div>

__課題の進め方__

[ワークシート](https://colab.research.google.com/github/kkuramitsu/class2021/blob/master/notebooks/course04-pandas.ipynb)をColab上で開いて、自分のDriveにコピーする

