# pandas入門道場 by SIGNATE

> 【2021/03/31まで無料公開】データの分析をする上で必要となるライブラリpandasの基礎理解を目的とした初心者向けの講座です。
> 
> https://quest.signate.jp/quests/10013

## Mission 1 初めてのpandas

> 初めてpandasを学ぶ方を対象とした導入編です。
> pandasパッケージを使ったデータの読み込みやデータの表示などの方法から学んでいきましょう。

### 1-1. pandasパッケージの読み込み

Pythonでは様々なライブラリがあります。
ライブラリを読み込むことで、ライブラリ内に既に用意された便利な関数を使うことができます。<br>
今回は、データ分析をしていく中で必要不可欠なライブラリである`pandas`の扱い方を学んでいきましょう。

ライブラリの読み込み方には`import`を用いたライブラリの読み込み方と、`from`と`import`を用いた読み込み方の2種類が存在します。<br>
ライブラリを一括で読み込む際には`import`、ライブラリの中の一部のモジュールを読み込む際には`from`と`import`を用いります。
```
import ライブラリ名

from ライブラリ名　import モジュール名
```
ライブラリを読み込み際の末尾に`as`を付けることで、ライブラリやモジュールに対して別名を与えることができます。<br>
使用するライブラリ名やモジュール名が長すぎる場合や短縮名で呼び出したい時に用いります。<br>
pandasの場合は`pd`という別名をつけることが通例になっています。
```
import ライブラリ名 as 別名

from ライブラリ名 import モジュール名　as 別名
```

### 課 題

- 次の内、pandasのインポートの仕方として誤っているものを1つ選択してください。

    - [ ] import pandas as pd
    - [ ] import pandas
    - [ ] from pandas import pandas as pd
    - [ ] from pandas import * as pd


### 解 説

- 選択肢4の`from pandas import * as pd`では全てのモジュールを読み込むことになるので、プログラム的がどのモジュールに対しての別名なのか判断できずエラーとなります。
- `import pandas as pd`はPythonを使う際には不可欠なおまじないとして覚えておきましょう。

<br>

### 1-2. pandasを使ったデータ読み込み

pandasでは身近なcsv形式やExcel形式から普段あまり使用しないjson形式のデータまで様々なデータを読み込むことが可能です。<br>
今回は文京区の保育園の一覧データの一部を読み込んでみます。
データについては下記URLからダウンロードすることも可能です。<br>
（後半のMissionに出てくる、保育園の詳細データはダミーですのでダウンロードは不可となります。）
https://catalog.data.metro.tokyo.lg.jp/dataset/t131059d0206080001

別タブの`保育園データ`にて詳細を確認できますので、データの概要を確認しましょう。

csv形式のデータに関しては、カンマで区切られたデータの横一列を「行」と呼びます。先頭行はヘッダーと呼びます。<br>
`pandas.read_csv()`関数を使用して、データをDataFrameオブジェクトに読み込むことができます。
```
pandas.read_csv('データ名.csv')
```
`read_csv()`関数には様々に引数が存在し、読み込むデータの形式や形状により任意の引数を指定します。<br>
ここではデータ分析の際によく用いる引数をいくつか紹介します。

読み込むデータの文字コードが`shift_jis`を含むものであれば、読み込み時に適切な文字コードに対応させる必要があります。<br>
その場合は引数`encoding`に読み込むべき文字コードを指定することで、適切に読み込むことが可能となります。<br>
OSがWindowsの場合などで指定することが多い引数となっています。<br>
保育園のデータについても`shift_jis`の文字コードを含むデータなので、下記のようにデータを読み込みます。
```
In [1]: import pandas as pd
        hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis')
        hoikuen.head(3)

Out[1]:      No. 施設名    公私区分     認可区分    合計園児定員  0歳児定員 1歳児定員 2歳児定員 3歳児定員 4・5歳児定員
         0   1   藍染保育園 区立保育園   認可保育園   87          0.0     12.0     15.0     20.0    40.0
         1   2   久堅保育園 区立保育園   認可保育園   123         12.0    20.0     22.0     23.0    46.0
         2   3   青柳保育園 区立保育園   認可保育園   85          0.0     14.0     18.0     18.0    35.0
```
特定の列をインデックスとして読み込むためには、引数`index_col`に列名または列の位置番号を指定します。<br>
時系列のデータを扱う際に日付のデータをインデックスとして読み取る場合などがあります。<br>
列の位置番号は0始まりであることに注意してください。<br>
以下のコードでは保育園のデータの列`No.`をインデックスとして読み込みます。
```
In [2]: import pandas as pd
        hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis',index_col='No.')
        hoikuen.head(3)

Out[2]:      施設名    公私区分     認可区分    合計園児定員  0歳児定員 1歳児定員 2歳児定員 3歳児定員 4・5歳児定員
         No. 
         1   藍染保育園 区立保育園   認可保育園   87          0.0      12.0     15.0    20.0     40.0
         2   久堅保育園 区立保育園   認可保育園   123         12.0     20.0     22.0    23.0     46.0
         3   青柳保育園 区立保育園   認可保育園   85          0.0      14.0     18.0    18.0     35.0
```
引数`usecols`に列名のリストを指定することで列名を絞って読み込むことができます。
```
In [3]: import pandas as pd
        hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis',usecols=['施設名','公私区分','認可区分'])
        hoikuen.head(3)

Out[3]:      No. 施設名    公私区分     認可区分
         0   1   藍染保育園 区立保育園   認可保育園
         1   2   久堅保育園 区立保育園   認可保育園
         2   3   青柳保育園 区立保育園   認可保育園
```
また、pandasはデータ読み込み時に各列のデータ型を自動的に推測します。<br>
推測したデータ型は`dtypes`関数を用いることで確認できます。<br>
保育園のデータの各列のデータ型を確認してみましょう。
```
In [4]: import pandas as pd
        hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis',index_col='No.')
        hoikuen.dtypes

Out[4]: 施設名             object
        公私区分           object
        認可区分           object
        合計園児定員        int64
        0歳児定員          float64
        1歳児定員          float64
        2歳児定員          float64
        3歳児定員     　　　float64
        4・5歳児定員　　　   float64
        dtype: object
```
pandasが自動的に読み込んだ型が想定通りでない場合もあります。
その場合はデータを読み込む際に、引数`dtype`として対象の列名とデータ型の辞書を指定します。<br>
全ての列を同一のデータ型で読み込みたい場合は、引数`dtype`にデータ型を指定します。
`dtype`を適切に指定してデータを読み込むことで、メモリの節約にも繋がります。<br>
大きなデータをpandasで扱う際にはメモリエラーが起こり得るので用いる場合があります。<br>
保育園のデータの列`公私区分`をデータ型`category`として読み込み、データ型を確認してみましょう。
```
In [5]: import pandas as pd
        hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis',dtype={'公私区分': 'category'})
        hoikuen.dtypes

Out[5]: No.                   int64
          施設名               object
          公私区分             category
          認可区分             object
          合計園児定員          int64
          0歳児定員            float64
          1歳児定員            float64
          2歳児定員            float64
          3歳児定員            float64
          4・5歳児定員          float64
          dtype: object
```
Excel形式のデータも同様に`pandas.read_excel()`関数を使用して、データをDataFrameオブジェクトに読み込むことができます。

```
In [6]: import pandas as pd
        hoikuen = pd.read_excel('hoikuen.xlsx',encoding='shift_jis')
        hoikuen.head(3)

Out[6]:      No. 施設名    公私区分     認可区分    合計園児定員 0歳児定員 1歳児定員 2歳児定員 3歳児定員 4・5歳児定員
         0   1   藍染保育園 区立保育園   認可保育園   87         0.0      12.0    15.0     20.0     40.0
         1   2   久堅保育園 区立保育園   認可保育園   123        12.0     20.0    22.0     23.0     46.0
         2   3   青柳保育園 区立保育園   認可保育園   85         0.0      14.0    18.0     18.0     35.0
```
***
### 課 題

1. hoikuen.csvの全ての列の型をstr型に指定、かつ、インデックスを指定せず、df1に読み込んでください。

2. hoikuen.csvのインデックスを指定せず、列を施設名、0歳児定員、2歳児定員の3つに絞り込み、df2に読み込んでください。


In [None]:
# 1
import pandas as pd
df1 = pd.read_csv('hoikuen.csv', encoding='shift_jis', dtype='str')
df1.head(3)
# df1.dtypes

# 2
df2 = pd.read_csv('hoikuen.csv', encoding='shift_jis', 
        usecols=['施設名','0歳児定員','2歳児定員'])
df2.head(3)

### 1-3. データの表示

データ分析の第一歩は注意深くデータを確認することです。
実際に保育園のデータを出力し確認してみましょう。

`head`関数によりDataFrameオブジェクトの先頭n行を参照することができます。
また、nの値を指定せずに`head()`とした場合はn=5とした先頭5行を表示します。
```
In [1]: import pandas as pd
        hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis')
        hoikuen.head(3)

Out[1]:      No. 施設名    公私区分     認可区分    合計園児定員  0歳児定員 1歳児定員 2歳児定員 3歳児定員 4・5歳児定員
         0   1   藍染保育園 区立保育園   認可保育園   87          0.0      12.0    15.0     20.0    40.0
         1   2   久堅保育園 区立保育園   認可保育園   123         12.0     20.0    22.0     23.0    46.0
         2   3   青柳保育園 区立保育園   認可保育園   85          0.0      14.0    18.0     18.0    35.0
```
`tail`関数によりDataFrameオブジェクトの末尾n行を参照することができます。<br>
`head`関数と同様にnの値を指定せずに`tail()`とした場合はn=5として末尾5行を表示します。

また、下記の保育園のデータの末尾3行を見ると一部の保育園に関しては園児定員数に`NaN`が表記されてる箇所が確認できます。<br>
このようにデータの要素が空白の場合に、pandasが欠損値NaN（Not a Number）とみなし、`NaN`と表示します。
欠損値の検索の仕方や補完の仕方については、後半のMissionにて説明を行います。

```
In [2]: hoikuen.tail(3)

Out[2]:       No. 施設名             公私区分     認可区分     合計園児定員  0歳児定員 1歳児定員 2歳児定員 3歳児定員 4・5歳児定員
         55   56  ぽけっとランド本郷     私立保育園  認証保育所     32     6.0    14.0     12.0     NaN    NaN  
         56   57  モニカ茗荷谷            私立保育園  認証保育所    30     6.0     9.0      8.0     5.0    2.0  
         57   58  グローバルキッズ春日園  私立保育園  認証保育所    33     9.0     9.0     10.0     5.0    NaN 
```
全データを出力し、データを眺めてみましょう。
```
In [3]: hoikuen

Out[3]:     No.      施設名  公私区分    認可区分    合計園児定員  0歳児定員  1歳児定員  2歳児定員  3歳児定員 4・5歳児定員
        0   10    千石保育園  区立保育園  認可保育園      146        12.0       23.0    25.0     26.0     60.0
        1   11    向丘保育園  区立保育園  認可保育園      133        13.0       18.0    24.0     26.0     52.0
        2   4    さしがや保育園  区立保育園  認可保育園   128        12.0       21.0    23.0     24.0     48.0
        ...
        55  10    千石保育園  区立保育園  認可保育園      146        12.0       23.0    25.0     26.0     60.0
        56  11    向丘保育園  区立保育園  認可保育園      133        13.0       18.0    24.0     26.0     52.0
        57  4    さしがや保育園  区立保育園  認可保育園   128        12.0       21.0    23.0     24.0     48.0
```

各列のユニークな要素のリストを表示したい場合は、`unique` 関数を用います。<br>
ユニークな要素の値とその出現回数を表示したい場合は、`value_counts`関数で得ることができます。<br>
保育園のデータの列`公私区分`のユニークな要素の値と出現回数を見てみましょう。
```
In [4]: hoikuen['公私区分'].value_counts()

Out[4]: 私立保育園    38
        区立保育園    20
        Name: カテゴリ１, dtype: int64
```
出現回数を正規化し、割合として表示したい場合は`value_counts`関数の引数`normalize`に`True`を渡しましょう。
```
In [5]: hoikuen['公私区分'].value_counts(normalize=True)

Out[5]: 私立保育園    0.655172
          区立保育園    0.344828
          Name: カテゴリ１, dtype: float64
```
***

### 課 題

- 実際にhoikuen.csvを読み込み、プログラムでデータを確認した上で、次の内、誤っているものを全て選択してください。

    - [ ] データの先頭から7行目の保育園は本郷保育園である
    - [ ] データの末尾から7行目の保育園はモニカ茗荷谷である
    - [ ] 認証保育所は4ヶ所存在する
    - [ ] 合計で60名の園児を収容できる保育園は、全体の18パーセント以上を占める
 

In [None]:
# pandasのインポート
import pandas as pd
hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis')
count = 0
for i in range(58):

    if int(hoikuen['合計園児定員'][i]) >= 60:
        count += 1
        
print(count / len(hoikuen))

### 解 説
```
#選択肢3
hoikuen['認可区分'].value_counts()

#選択肢4
hoikuen['合計園児定員'].value_counts(normalize=True)
```