# pandasデータフレームをCSVファイルから生成

そのCSVファイルに格納されているデータを読み込んでデータフレームを作成します．
ここで使用するCSVファイルは，この前に作成してpandas.to_csv()関数によって保管したファイルを使用します．

先ずは，pandasライブラリーを搬入します．

```Python
import pandas as pd
```

In [1]:
import pandas as pd

そして，CSVファイルを読み込んで，データフレームを作成します．
これは，<font color=green>pandas.read_csv()</font>関数を使用します．

```Python
df = pd.read_csv('./sample_data.csv')
```

In [2]:
df = pd.read_csv('./sample_data.csv')

私たちは，このCSVファイルの中身について知っていますが，このファイルの中身を知らないと仮定すると，全てのデータを表示すると膨大な表示になってしまう危険があります．
そこで，生成されたデータフレームについて概要を確認します．

## インデックスの確認

最初にデータフレームのインデックスについて<font color=green>index</font>属性によって確認します．

```Python
df.index
```

In [3]:
df.index

RangeIndex(start=0, stop=10, step=1)

このデータフレームのインデックスは，0から始まって，1ずつ増えていき，10の手前で終わります．
すなわち0から9までのインデックスが付けられていて，全体が10行であることが分かります．

## カラム名

次にカラムについて<font color=green>columns</font>属性で確認します．

```Pthon
df.columns
```

In [4]:
df.columns

Index(['person', 'height', 'weight', 'age', 'gender', 'blood'], dtype='object')

この結果によって，データフレームには6個の列があり，各々の列名が判明しました．

## データフレームの表示

このデータフレームは行数が10行と少ないので，全てのデータを表示しても問題ありません．
データフレーム全体を表示するには，単に変数名 df を参照するだけです．
ただし，データ量が膨大な場合は，最初の数行を表示する head() メソッドを使用します．

```Python
df
```

In [5]:
df

Unnamed: 0,person,height,weight,age,gender,blood
0,p01,162.3,55.6,23.0,Male,A
1,p02,173.1,62.0,35.0,Male,AB
2,p03,158.8,68.5,47.0,Male,B
3,p04,120.8,24.3,8.0,Female,
4,p05,145.7,37.8,11.0,Female,
5,p06,159.2,44.5,13.0,Male,O
6,p07,157.5,49.0,18.0,Female,B
7,p08,158.9,,,,A
8,p09,160.4,48.5,30.0,,A
9,p10,170.0,77.7,51.0,Male,O


## CSVファイルを経由することの副作用

一から作成したデータフレームと一旦CSVファイルに保存したデータから再生したデータフレームを比較すると欠損値および空白について差があることが分かります．

前のデータフレームでは<font color=green>None</font>および<font color=green>空白</font>であった値が
全て<font color=green>NaN</font>になっています．  
前のデータフレームで1文字の空白文字については，そのまま残っています．

このように欠損値および空白については注意が必要です．

## インデックスの再設定

データフレームのperson列は全ての行を通してユニークに割り振られています．
インデックスが自動附番されていますが，その代わりにpersonをインデックスに設定します．
インデックスの再設定は<font color=green>set_index()</font>メソッドを使います．

```
df = df.set_index('person')
df
```

In [6]:
df = df.set_index('person')
df

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p01,162.3,55.6,23.0,Male,A
p02,173.1,62.0,35.0,Male,AB
p03,158.8,68.5,47.0,Male,B
p04,120.8,24.3,8.0,Female,
p05,145.7,37.8,11.0,Female,
p06,159.2,44.5,13.0,Male,O
p07,157.5,49.0,18.0,Female,B
p08,158.9,,,,A
p09,160.4,48.5,30.0,,A
p10,170.0,77.7,51.0,Male,O


この結果として，自動附番のインデックスが削除され，代わりにperson列がインデックスになったことが分かります．

## データフレームの一部を表示

データフレームの行数が多い場合，その一部だけを表示することが得策です．
データフレームの先頭の数行を表示するには<font color=green>head()</font>メソッドを使います．
```Python
df.head(3)
```

データフレームの末尾の数行を表示するには<font color=green>taild()</font>メソッドを使います．
```Python
df.tail(3)
```

In [7]:
df.head(3)

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p01,162.3,55.6,23.0,Male,A
p02,173.1,62.0,35.0,Male,AB
p03,158.8,68.5,47.0,Male,B


In [8]:
df.tail(3)

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p08,158.9,,,,A
p09,160.4,48.5,30.0,,A
p10,170.0,77.7,51.0,Male,O


## カラムごとの概要の確認

各列のデータについて概要を確認するにはデータフレームの<font color=green>describe()</font>メソッドを使用します．  
まずheight列について，その概要を表示してみます．

```Python
df.height.describe()
```

In [9]:
df.height.describe()

count     10.000000
mean     156.670000
std       14.593914
min      120.800000
25%      157.825000
50%      159.050000
75%      161.825000
max      173.100000
Name: height, dtype: float64

このようにカラムを指定してdescribe()メソッドを発行すると，様々な統計情報を得ることができます．
これらの情報は後々の統計分析によって利用します．
ここでは出力の最初の行と最後の行に注目してください．

> 
```
count     10.000000
Name: height, dtype: float64
```

最初の行は，count=10ということで，欠損値を除いたデータが10個あることが分かります．
データフレームの行数が10行なので，欠損値がないことが保証されます．
最後の行は，dtype:float64なので小数点付数であることが分かります．

describe()メソッドは，データフレームそのものに対して実行すると，数値型のカラムについての基礎統計を得ることができます．

```Python
df.describe()
```

In [10]:
df.describe()

Unnamed: 0,height,weight,age
count,10.0,9.0,9.0
mean,156.67,51.988889,26.222222
std,14.593914,16.17146,15.626722
min,120.8,24.3,8.0
25%,157.825,44.5,13.0
50%,159.05,49.0,23.0
75%,161.825,62.0,35.0
max,173.1,77.7,51.0


この出力には数値型以外のカラム情報は記載されません．
その他のデータ型については，個別にカラムを指定してdescribe()メソッドを発行します．

```Python
df.gender.describe()
```

In [11]:
df.gender.describe()

count        9
unique       3
top       Male
freq         5
Name: gender, dtype: object

このように数値型でない場合は，離散的な統計情報が表示されます．
この情報を読み解きます．
データ型は<font color=green>object</font>型となりますが，object型は様々なデータへのポインターです．
複数のデータ型が存在することもあり得ます．
個々の要素についての具体的なデータ型については後で確認します．

その他の情報は次のように解釈します．
> 
```
count        9   （欠損値以外の有効なデータの個数）
unique       3   （有効値の重複を除いた個数）
top       Male   （最頻値）
freq         5   （最頻値の度数）
```

重複を除いた有効値の個数が3個ですが，その具体的な値を求めるには<font color=green>set()</font>関数を使用します．

```Python
set(df.gender)
```

In [12]:
set(df.gender)

{nan, 'Female', 'Male', ' '}

df.genderの個別の要素のデータ型については，リスト内包表記とtype()関数の組み合わせによってデータ型のリストを作成し，set()関数によって重複を除けば求まります．

```Python
set([type(x) for x in df.gender])
```

In [13]:
set([type(x) for x in df.gender])

{str, float}

このように，df.genderの各要素のデータ型はstr型とfloat型があることが分かりました．
ちなみにfloat型になっている値は欠損値のnanです．

これで，CSVファイルを読み込んでデータフレームを作成し確認するプロセスについての説明を完了します．
*****