# pandasデータフレーム

pandasによるデータフレームについて学習します．
データフレームとは表形式のデータセットで，それぞれの列に個別の変量を記載する形式となります．

まずは，サンプルデータを用いたデータフレームを構成します．
ここでは下表のデータフレームを生成します．

### データフレーム例

| |person|height|weight|age|gender|blood |
|:---:| :---: | :---: | :---:|:---:|:---:| :---:|
| **0** | p01 | 162.3 | 55.6 | 23  | Male   | A  |
| **1** | p02 | 173.1 | 62.0 | 35  | Male   | AB |
| **2** | p03 | 158.8 | 68.5 | 47  | Male   | B  |
| **3** | p04 | 120.8 | 24.3 |  8  | Female |None|  
| **4** | p05 | 145.7 | 37.8 | 11  | Female |None|
| **5** | p06 | 159.2 | 44.5 | 13  | Male   | O  |
| **6** | p07 | 157.5 | 49.0 | 18  | Female | B  |
| **7** | p08 | 158.9 | NaN  | NaN |        | A  |
| **8** | p09 | 160.4 | 48.5 | 30  |        | A  |
| **9** | p10 | 170.0 | 77.7 | 51  | Male   | O  |

- 左端の0～9の数字はインデックスです．このインデックスは自動附番されたものです．
- 「person, height, weight, age, gender, blood」は列名です．
- person列は本来のインデックスです．
- 列ごとに同じ種類のデータを保有します．
- blood列にある「None」は，Pythonにおいて何も値の無いことを示すキーワードです．
- インデックスが7のところにある「NaN」は，pandasにおける欠損値です．

*****
## pandasデータフレームの生成

まず最初にpandasのライブラリーを搬入します．

```Python
import pandas as pd
```

In [1]:
import pandas as pd

### DataFrame()関数

データフレームを作成するには，<font color='green'>DataFrame()</font>関数を使用します．
何もないところからデータフレームを作成する方法について確認します．
DataFrame()関数は，多彩な引数をとることができますが，ここでは，単純な方法について紹介します．
次のパラメータによる生成を行います．

> <font face='courier new' color='green'>DataFrame(*data*, columns=*columnNames*)</font>


ここで第1引数の data は，与えられたデータを2重リスト配列で設定します．

```Python
data = [
    ['p01', 162.3, 55.6,   23, 'Male'  , 'A' ],
    ['p02', 173.1, 62.0,   35, 'Male'  , 'AB'],
    ['p03', 158.8, 68.5,   47, 'Male'  , 'B' ],
    ['p04', 120.8, 24.3,    8, 'Female', None],  
    ['p05', 145.7, 37.8,   11, 'Female', None],
    ['p06', 159.2, 44.5,   13, 'Male'  , 'O' ],
    ['p07', 157.5, 49.0,   18, 'Female', 'B' ],
    ['p08', 158.9, None, None, ' '     , 'A' ],
    ['p09', 160.4, 48.5,   30, ''      , 'A' ],
    ['p10', 170.0, 77.7,   51, 'Male'  , 'O' ] ]
```

In [2]:
data = [
    ['p01', 162.3, 55.6,   23, 'Male'  , 'A' ],
    ['p02', 173.1, 62.0,   35, 'Male'  , 'AB'],
    ['p03', 158.8, 68.5,   47, 'Male'  , 'B' ],
    ['p04', 120.8, 24.3,    8, 'Female', None],  
    ['p05', 145.7, 37.8,   11, 'Female', None],
    ['p06', 159.2, 44.5,   13, 'Male'  , 'O' ],
    ['p07', 157.5, 49.0,   18, 'Female', 'B' ],
    ['p08', 158.9, None, None, ' '     , 'A' ],
    ['p09', 160.4, 48.5,   30, ''      , 'A' ],
    ['p10', 170.0, 77.7,   51, 'Male'  , 'O' ] ]

次に，列名を与える変数はリスト配列で各変量の名称を記載します．
列名は，プログラムの中で変数名と同様に参照して利用するので，空白や特殊文字を含まない英語表記を推奨します．

```Python
colmunNames = ['person','height','weight','age','gender','blood']
```

In [3]:
colmunNames = ['person','height','weight','age','gender','blood']

このように定義された引数を使って，DataFrame()関数を実行して，生成されたオブジェクトを変数 df に代入します．

```Python
df = pd.DataFrame(data,columns=colmunNames)
```

In [4]:
df = pd.DataFrame(data,columns=colmunNames)

生成されたデータフレームは変数dfに格納されています．
実際にデータフレームの中身を表示してみます．

```Python
df
```

In [5]:
df

Unnamed: 0,person,height,weight,age,gender,blood
0,p01,162.3,55.6,23.0,Male,A
1,p02,173.1,62.0,35.0,Male,AB
2,p03,158.8,68.5,47.0,Male,B
3,p04,120.8,24.3,8.0,Female,
4,p05,145.7,37.8,11.0,Female,
5,p06,159.2,44.5,13.0,Male,O
6,p07,157.5,49.0,18.0,Female,B
7,p08,158.9,,,,A
8,p09,160.4,48.5,30.0,,A
9,p10,170.0,77.7,51.0,Male,O


この表示内容から，作成されたデータフレームについて確認します．
入力データと見比べて，欠損値，空白が4種類「None, NaN, 空白文字, 空白」あることに注意してください．

### 欠損値，空白

4種類ある欠損値，空白文字および空白については，次のような違いがあります．

| 値 | データ型 | 特徴 |
|:---:|:---:|:---|
| NaN | numpy.float64 | 数値型であるが値が入っていない．pandasの統計関数ではNaNを考慮した計算を行ってくれる． |
| None| NoneType      | 配列の場所はあるが，値も無ければデータ型もない． |
| ' ' | str           | 文字列として定義されていて，空白文字が1文字入っている． |
| ''  | str           | 文字列としてブランクが定義されている．空白文字も入っていない． |

データクレンジングにおいて，これらの値の違いも考慮しなければなりません．

*****
## CSVファイルへの書き出し

データフレームのデータをCSVファイルに書き出すには，<font color='green'>to_csv()</font>メソッドを使用します．

```Python
df.to_csv('./sample_data.csv',index=False)
```

最初の引数が保管先のCSVファイル名です．
引数のindex=Falseは，インデックスを削除して保存します．
このデータフレームのインデックスは自動で付けられたものなので，保存は不要と判断します．

In [6]:
df.to_csv('./sample_data.csv',index=False)

生成されたCSVファイルの中身は次のようになっています．
このように変量名も保存されます．
欠損値およびブランクは値無しになっています．
空白文字は，そのまま残っています．

```
person,height,weight,age,gender,blood
p01,162.3,55.6,23.0,Male,A
p02,173.1,62.0,35.0,Male,AB
p03,158.8,68.5,47.0,Male,B
p04,120.8,24.3,8.0,Female,
p05,145.7,37.8,11.0,Female,
p06,159.2,44.5,13.0,Male,O
p07,157.5,49.0,18.0,Female,B
p08,158.9,,, ,A
p09,160.4,48.5,30.0,,A
p10,170.0,77.7,51.0,Male,O
```

この後，このCSVファイルを読み込んでデータフレーム生成するプロセスについても解説します．

*****