# pandasデータフレームの生成

私たちが分析するデータは，pandasのデータフレームに格納します．
データフレームとは，スプレッドシートに似た特性を持ったデータ構造です．

ここでは，簡単なデータフレームをプログラムの中で何もないところから作成します．
下表のデータを想定します．

|person|height|weight|age|gender|blood |
| :---: | :---: | :---:|:---:|:---:| :---:|
| p01 | 162.3 | 55.6 | 23  | Male   | A  |
| p02 | 173.1 | 62.0 | 35  | Male   | AB |
| p03 | 158.8 | 68.5 | 47  | Male   | B  |
| p04 | 120.8 | 24.3 |  8  | Female |None|  
| p05 | 145.7 | 37.8 | 11  | Female |None|
| p06 | 159.2 | 44.5 | 13  | Male   | O  |
| p07 | 157.5 | 49.0 | 18  | Female | B  |
| p08 | 158.9 | None |None |  ' '   | A  |
| p09 | 160.4 | 48.5 | 30  |  ''    | A  |
| p10 | 170.0 | 77.7 | 51  | Male   | O  |

まず最初にpandasのライブラリーを搬入します．

```Python
import pandas as pd
```

In [1]:
import pandas as pd

データフレームを何もないところから作成します．
データフレームを作成するには，<font color=green>pandas.DataFrame()</font>関数を使います．
その引数に構造化したデータを渡します．

```Python
df = pd.DataFrame(
    {
    'person':['p01','p02','p03','p04','p05','p06','p07','p08','p09','p10'],
    'height':[162.3,173.1,158.8,120.8,145.7,159.2,157.5,158.9,160.4,170.0],
    'weight':[55.6,62.0,68.5,24.3,37.8,44.5,49.0,None,48.5,77.7],
    'age':[23,35,47,8,11,13,18,None,30,51],
    'gender':['Male','Male','Male','Female','Female','Male','Female',' ','','Male'],
    'blood':['A','AB','B',None,None,'O','B','A','A','O']
    }, 
    columns=['person','height','weight','age','gender','blood']
)
```

In [2]:
df = pd.DataFrame(
    {
    'person':['p01','p02','p03','p04','p05','p06','p07','p08','p09','p10'],
    'height':[162.3,173.1,158.8,120.8,145.7,159.2,157.5,158.9,160.4,170.0],
    'weight':[55.6,62.0,68.5,24.3,37.8,44.5,49.0,None,48.5,77.7],
    'age':[23,35,47,8,11,13,18,None,30,51],
    'gender':['Male','Male','Male','Female','Female','Male','Female',' ','','Male'],
    'blood':['A','AB','B',None,None,'O','B','A','A','O']
    }, 
    columns=['person','height','weight','age','gender','blood']
)

生成されたデータフレームは変数dfに格納されています．
実際にデータフレームの中身を表示してみます．

```Python
df
```

In [3]:
df

Unnamed: 0,person,height,weight,age,gender,blood
0,p01,162.3,55.6,23.0,Male,A
1,p02,173.1,62.0,35.0,Male,AB
2,p03,158.8,68.5,47.0,Male,B
3,p04,120.8,24.3,8.0,Female,
4,p05,145.7,37.8,11.0,Female,
5,p06,159.2,44.5,13.0,Male,O
6,p07,157.5,49.0,18.0,Female,B
7,p08,158.9,,,,A
8,p09,160.4,48.5,30.0,,A
9,p10,170.0,77.7,51.0,Male,O


この表示内容から，作成されたデータフレームについて確認します．
手書きの表と見比べて，次の点に注目してください．

- 左端に通し番号がついている．
- 欠損値，空白が4種類「None, NaN, 空白文字, 空白」ある．

### インデックス

データフレームの左端に付けられた番号はインデックスです．
データフレーム生成時に明示的にインデックスを指定しない場合は，このようなインデックスが自動的に付けられます．

インデックスは，
- 全ての行に渡ってユニークな値になっていて，
- 行を指定するときの索引になっています．

### 欠損値，空白

4種類ある欠損値，空白文字および空白については，次のような違いがあります．

| 値 | データ型 | 特徴 |
|:---:|:---:|:---|
| NaN | numpy.float64 | 数値型であるが値が入っていない．pandasの統計関数ではNaNを考慮した計算を行ってくれる． |
| None| NoneType      | 配列の場所はあるが，値も無ければデータ型もない． |
| ' ' | str           | 文字列として定義されていて，空白文字が1文字入っている． |
| ''  | str           | 文字列としてブランクが定義されている．空白文字も入っていない． |

データクレンジングにおいて，これらの値の違いも考慮しなければなりません．

*****
## CSVファイルへの書き出し

データフレームのデータをCSVファイルに書き出すには，<font color=green>to_csv()</font>メソッドを使用します．

```Python
df.to_csv('./sample_data.csv',index=False)
```

最初の引数が保管先のCSVファイル名です．
引数のindex=Falseは，インデックスを削除して保存します．
このデータフレームのインデックスは自動で付けられたものなので，保存は不要と判断しました．

In [4]:
df.to_csv('./sample_data.csv',index=False)

生成されたCSVファイルの中身は次のようになっています．
このように変量名も保存されます．
欠損値および空白は値無しになっています．
空白文字は，そのまま残っています．

```
person,height,weight,age,gender,blood
p01,162.3,55.6,23.0,Male,A
p02,173.1,62.0,35.0,Male,AB
p03,158.8,68.5,47.0,Male,B
p04,120.8,24.3,8.0,Female,
p05,145.7,37.8,11.0,Female,
p06,159.2,44.5,13.0,Male,O
p07,157.5,49.0,18.0,Female,B
p08,158.9,,, ,A
p09,160.4,48.5,30.0,,A
p10,170.0,77.7,51.0,Male,O
```

この後，このCSVファイルを読み込んでデータフレーム生成するプロセスについても解説します．

*****