# Pandasデータフレームの用意

ここからは，本格的に記述統計を行うデータを使用していきます．
オリジナルデータは，CSVファイルで保管してあります．
そのデータを読み込んで，PythonのPandasのデータフレームにします．
そして，そのデータフレームに対して，クレンジングを行っていきます．

## 重要なライブラリー

データ分析において必需品と言えるライブラリーがあります．

| ライブラリー | 特徴 |
| :---:      |:---:|
| re         | 正規表現 |
| unicodedata| 全角半角文字の統一 |
| NumPy      | 高機能の多次元配列演算 |
| pandas     | データフレーム |
| matplotlib | グラフ描画 |

ここでは，これらのライブラリーを搬入して使用します．
ライブラリーを使用するには，それらを<font color=green>import</font>文によって明示的に指定しなければなりません．
import文の構文は次のようになります．

> <font color=green>import</font> ライブラリー名 <font color=green>as</font> 別名

コードセルの最初に次のように記載して実行します．
なお，ここで記載した別名の np, pd, plt はPythonのプログラムでは慣用的に使用される名前です．
正規表現のreライブラリーおよびunicodedataには別名は付けません．

```Python
import re
import unicodedata
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
```

In [1]:
import re
import unicodedata
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

ここで，最後の一文「%matplotlib inline」ですが，プログラムをJupyter notebookで実行する場合に記載します．
これはグラフをJupyter notebookの画面内に描画するための環境制御文です．

また，これらのライブラリーを全て一律に搬入する必要はありません．
必要な場合に対応するライブラリーのみを搬入してください．

## CSVファイルからデータフレームの生成

オリジナルのデータファイルは，original_body_data.csvというファイルにあります．
このファイルからデータフレームを生成するには，pandasの<font color=green>read_csv()</font>関数を使用します．

```Python
df = pd.read_csv('original_body_data.csv')

```

In [2]:
df = pd.read_csv('original_body_data.csv')

この命令文の実行結果で何もエラーが出ていないので，dfという変数名のデータフレームが生成されました．

## データの確認

まずはデータフレームの中身を確認します．
この段階では，データ量についても不明なので，データ全体を表示するのは無謀です．
データを確認するステップとして，最初はデータの形状と量を調べます．

```Python
df.shape
```

In [3]:
df.shape

(200, 6)

この出力を見るとデータフレームの構造は，200行×6列のデータであることが分かります．

### 行インデックスの確認

データの行のインデックスを確認します．
データフレーム内の行数は<font color=green>index</font>属性によって参照することができます．

```Python
df.index
```

In [4]:
df.index

RangeIndex(start=0, stop=200, step=1)

この出力を見ると，インデックスは自動附番で，0から始まって200の直前で止まっています． 
ここで200の直前で止まっているという事は最後のインデックスは199であることに注意してください． 
この出力により，行数は200行であることが分かりました．

### 列数とカラム名の確認

次に列の種類を確認します．
カラム名はcolumns属性によって参照することができます．

````Python
df.columns
```

In [5]:
df.columns

Index(['person', 'height', 'weight', 'age', 'gender', 'blood'], dtype='object')

この出力により，このデータフレームは6個の列で構成されていることが分かります．
それぞれの列は次の名前で参照することができます．

- person
- height
- weight
- age
- gender
- blood

### データの一瞥

ここで，データフレームの内容について，最初の3行だけ眺めて見ましょう．
インデックスは0から始まります．

```Python
df.head(3)
```

In [6]:
df.head(3)

Unnamed: 0,person,height,weight,age,gender,blood
0,p001,157.7,56.8,20,Male,B
1,p002,169.7,58.1,53,Female,A
2,p003,160.6,96.8,22,Male,O


念のために，最後の3行についても表示してみます．
一番最後のインデックスは199となっています．

```Python
df.tail(3)
```

In [7]:
df.tail(3)

Unnamed: 0,person,height,weight,age,gender,blood
197,p198,165.0,58.7,40,Female,O
198,p199,184.5,92.8,37,Male,B
199,p200,173.9,97.7,55,Male,O


このようにデータの一部を見ることによって，データの外観を掴むことができます．

### インデックスの設定

単純にCSVファイルを取り込んだデータフレームには自動でインデックスが付いています．
このインデックスは，0始まりの整数になっています．
データフレームの先頭および末尾の表示から，このインデックスの値は，0,1,2,…,199 となっていることが分かります．

しかし，このデータは変量personがキーになっている予定です．
このpersonが全ての行でユニークならばデータフレームのインデックスとして設定できます．
そこで，personの基本統計を確認します．

```Python
df.person.describe()
```

In [8]:
df.person.describe()

count      200
unique     200
top       p112
freq         1
Name: person, dtype: object

この出力結果を見ると，personは全体で200個のデータがあり，その200個に重複がないことが分かります．
また，データフレームの行数も200件でしたので，この値をインデックスとして設定できます．

データフレームに恣意的にインデックスとして設定するには<font color=green>set_index()</font>メソッドを使用します．
ここで，このデータフレーム自身を更新するためのオプションとして引数<font color=green>inplace=True</font>を記載します．
この引数が無い場合は，新しいデータフレームを生成することになります．

```Python
df.set_index('person',inplace=True)
```

In [9]:
df.set_index('person',inplace=True)

これによって変更されたデータフレームの先頭の数行を表示してみます．

```Python
df.head(3)
```

In [10]:
df.head(3)

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p001,157.7,56.8,20,Male,B
p002,169.7,58.1,53,Female,A
p003,160.6,96.8,22,Male,O


このように，インデックスがpersonに変更されていることが確認できます．
このようにインデックスを付けることによって，personに対する変量の値を明示的に指定することが可能となります．
例えば，person='p002'の血液型は次のように参照できます．

```Python
df.blood['p002']
```

In [11]:
df.blood['p002']

'A'

ここまでで，オリジナルデータのデータフレームが完了しました．

このあとは，ここを起点としてクレンジングを進めていきます．

***