<a href="https://colab.research.google.com/github/hannari-python/tutorial/blob/master/library/Pandas_exp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pandas 

- Pandasは表データの読み込み・書き込み・加工を行うパッケージです。
- このノートでは次の順番でPandasの基本的な使い方を解説します。
  - データ構造    
    - Series
    - DataFrame
  - データ操作
    - loc属性
    - iloc属性
    - 名称
  - データの更新追加    
    - 更新
    - 追加

In [None]:
import pandas as pd

# データ構造
## Series
- Seriesは行ラベル付きの1次元のデータです。行ラベルはデータの左横に表示されます。行ラベルはindex属性、値はvalues属性となります。

In [None]:
label = ['a', 'b', 'c', 'd', 'e']
data = [1, 2, 3, 4, 5]
s = pd.Series(data, index=label)

In [None]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
s.values

array([1, 2, 3, 4, 5])

## DataFrame
- DataFrameはラベル付きの2次元のデータです。表示するとデータフレームの左横に行ラベル、上側に列ラベルが付きます。左横の行ラベルはindex属性、上側の列ラベルはcolumns属性、値はvalues属性となります。

In [None]:
data = {
'col1': [1,2,3,4,5],
'col2': [2,3,4,5,6],
'col3': [3,4,5,6,7]
}
index_name = ['zero', 'one', 'two', 'three', 'four']
df = pd.DataFrame(data, index=index_name)

In [None]:
df

Unnamed: 0,col1,col2,col3
zero,1,2,3
one,2,3,4
two,3,4,5
three,4,5,6
four,5,6,7


In [None]:
df.index

Index(['zero', 'one', 'two', 'three', 'four'], dtype='object')

In [None]:
df.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [None]:
df.values

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7]])

# データ操作
## loc属性
- loc属性を用いると、ラベル名でデータを選択できます。

In [None]:
# 1つのセルの選択
df.loc['one', 'col1']

2

In [None]:
# 連続したセルの選択
df.loc['one': 'three', :]

Unnamed: 0,col1,col2,col3
one,2,3,4
two,3,4,5
three,4,5,6


In [None]:
# 離れたセルの選択
df.loc[['one', 'four'], ['col1', 'col3']] 

Unnamed: 0,col1,col3
one,2,4
four,5,7


In [None]:
# 行名のみの指定で行すべてのデータを取得できます
df.loc['one']

col1    2
col2    3
col3    4
Name: one, dtype: int64

In [None]:
# 複数行を指定する場合、リストに格納します
df.loc[['one', 'three']]

Unnamed: 0,col1,col2,col3
one,2,3,4
three,4,5,6


In [None]:
# Seriesの場合
s.loc['b']

2

## iloc属性
- iloc属性を用いると、インデックスとコラムの位置番号を使ってデータを選択できます。0から行列番号を数えること、また終了を指定する場合、終了したい番号より1つ大きい数値で指定することに注意してください。

In [None]:
# 1つのセルの選択
df.iloc[1, 1] 

3

In [None]:
# 連続したセルの選択
df.iloc[1:4, :] 

Unnamed: 0,col1,col2,col3
one,2,3,4
two,3,4,5
three,4,5,6


In [None]:
# 離れたセルの選択
df.iloc[[1, 4], [0, 2]]

Unnamed: 0,col1,col3
one,2,4
four,5,7


In [None]:
# Seriesの場合
s.iloc[1]

2

## 列名によるデータ選択
- 列名を指定することにより、列全体を取得できます。


In [None]:
df['col2']

zero     2
one      3
two      4
three    5
four     6
Name: col2, dtype: int64

In [None]:
df[['col1', 'col3']]

Unnamed: 0,col1,col3
zero,1,3
one,2,4
two,3,5
three,4,6
four,5,7


In [None]:
s['b']

2

# データの更新・追加
## データの更新
- 範囲の選択と共に、テーブルのデータ更新・追加ができます。

In [None]:
# １マスのデータの更新
df.iloc[1, 1] = 111

In [None]:
df

Unnamed: 0,col1,col2,col3
zero,1,2,3
one,2,111,4
two,3,4,5
three,4,5,6
four,5,6,7


In [None]:
# 複数範囲のデータの更新
df.iloc[1:4, 0] = [13, 14, 15]

In [None]:
df

Unnamed: 0,col1,col2,col3
zero,1,2,3
one,13,111,4
two,14,4,5
three,15,5,6
four,5,6,7


In [None]:
# 複数範囲に同じデータを格納する
df.iloc[:, 2] = 0

In [None]:
df

Unnamed: 0,col1,col2,col3
zero,1,2,0
one,13,111,0
two,14,4,0
three,15,5,0
four,5,6,0


# 行列の追加
## 行の追加
- 行の追加は、loc属性を用いて対応する値をデータフレームに渡します。

In [None]:
df.loc[5] = 42


In [None]:
df

Unnamed: 0,col1,col2,col3
zero,1,2,0
one,13,111,0
two,14,4,0
three,15,5,0
four,5,6,0
5,42,42,42


## 列の追加
- 列の追加は、列名と対応する値をデータフレームに渡します。

In [None]:
df[4] = 4

In [None]:
df

Unnamed: 0,col1,col2,col3,4
zero,1,2,0,4
one,13,111,0,4
two,14,4,0,4
three,15,5,0,4
four,5,6,0,4
5,42,42,42,4


# データを読み込む
## csvファイルを読み込む
  - read_csv関数を用います

In [None]:
# データは福岡市の新型コロナウィルス感染　https://ckan.open-governmentdata.org/dataset/401307_covid19_patients
df_fukuoka_covid = pd.read_csv('https://ckan.open-governmentdata.org/dataset/6c9fc569-b523-4c56-828d-2ab3047df5a3/resource/c97a0ef7-8be9-4902-bf49-3fe5daf6d34c/download/401307_city_fukuoka_covid19_patients.csv')

In [None]:
df_fukuoka_covid

Unnamed: 0,No,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,発症_年月日,居住地,年代,性別,患者_属性,患者_状態,患者_症状,患者_渡航歴の有無フラグ,備考,退院済フラグ
0,1,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,男性,,,,,,
1,2,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,女性,,,,,,
2,3,401307,福岡県,福岡市,2020/3/17,火,,福岡市南区,30代,女性,,,,1.0,,
3,4,401307,福岡県,福岡市,2020/3/24,火,,福岡市早良区,40代,男性,,,,,,
4,5,401307,福岡県,福岡市,2020/3/26,木,,福岡市東区,50代,男性,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1975,1981,401307,福岡県,福岡市,2020/8/14,金,,福岡市中央区,50代,女性,,,,,,
1976,1982,401307,福岡県,福岡市,2020/8/14,金,,調査中,50代,男性,,,,,,
1977,1983,401307,福岡県,福岡市,2020/8/14,金,,調査中,30代,男性,,,,,,
1978,1984,401307,福岡県,福岡市,2020/8/14,金,,福岡市中央区,20代,女性,,,,,,


## Excelファイルを読み込む
- read_excel関数を用いる

In [None]:
# 福岡市給食献立　https://ckan.open-governmentdata.org/dataset/401307_syousaikonndate
df_fukuoka_kyushoku = pd.read_excel('https://ckan.open-governmentdata.org/dataset/8354be81-da59-42eb-b291-7cfdad3db9b6/resource/eb18252f-c00a-4219-b30f-b3986b0125f5/download/201912.xls')

In [None]:
df_fukuoka_kyushoku

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,2019-12-01 00:00:00,福岡市学校給食詳細献立表(小学校：イ)　１／２ﾍﾟｰｼﾞ,Unnamed: 7,Unnamed: 8
0,,,,,,,,,福岡市教育委員会
1,,,,,,,,,
2,記号,日,曜,献立名,,,,お　も　な　材　料,調　味　料
3,,,,パン\n又は\nごはん,牛乳,おかず,,,
4,,,,,,除去食対象献立,食品,,
...,...,...,...,...,...,...,...,...,...
61,,,,＊麦ご飯・パンにつきましては，「2019年４月～2020年３月分食材料名『主食』」一覧表を,,,,,
62,,,,参照してください。下線のパンは鶏卵を使用しています。,,,,,
63,,,,◎マークの物資につきましては，「2019年４月～2020年３月分食材料名」一覧表を参照してく...,,,,,
64,,,,※マークの物資につきましては，「2019年８月～１２月分食材料名」一覧表を参照してください。,,,,,


## HTMLのテーブルを読み込む
- read_html関数を使う

In [None]:
# yahoo_financeより 
year_high = pd.read_html("https://info.finance.yahoo.co.jp/ranking/?kd=29&tm=d&mk=1", parse_dates=[5])[0]

In [None]:
year_high

Unnamed: 0,コード,市場,名称,取引値,取引値.1,前営業日までの年初来高値,前営業日までの年初来高値.1,高値,掲示板
0,1407,東証JQS,(株)ウエストホールディングス,08/14,2598,2020/08/04,2582,2611,掲示板
1,1414,東証1部,ショーボンドホールディングス(株),08/14,5060,2020/06/01,5040,5130,掲示板
2,1545,東証ETF,(NEXT FUNDS)NASDAQ-100(R)連動型上場投信,08/14,12140,2020/08/07,12070,12160,掲示板
3,1726,東証1部,(株)ビーアールホールディングス,08/14,686,2020/08/12,687,696,掲示板
4,2121,東証1部,(株)ミクシィ,08/14,2335,2020/08/13,2367,2394,掲示板
5,2150,マザーズ,(株)ケアネット,08/14,2294,2020/08/13,2138,2327,掲示板
6,2178,マザーズ,(株)トライステージ,08/14,426,2020/07/21,417,427,掲示板
7,2281,東証1部,プリマハム(株),08/14,3050,2020/08/13,3020,3065,掲示板
8,2412,東証1部,(株)ベネフィット・ワン,08/14,2633,2020/08/06,2623,2657,掲示板
9,2413,東証1部,エムスリー(株),08/14,5950,2020/08/06,5920,6000,掲示板


# データを観察する

## 概要を観察する
- 先頭行を観察するheadメソッド
- 最終行を観察するtailメソッド
- データの大まかな統計値を観察するdescribeメソッド
- データのインデックスやコラムのデータ型や数値でないデータの情報を得られるinfoメソッド
- データの行列数を確認するshape属性

In [None]:
df_fukuoka_covid.head()

Unnamed: 0,No,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,発症_年月日,居住地,年代,性別,患者_属性,患者_状態,患者_症状,患者_渡航歴の有無フラグ,備考,退院済フラグ
0,1,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,男性,,,,,,
1,2,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,女性,,,,,,
2,3,401307,福岡県,福岡市,2020/3/17,火,,福岡市南区,30代,女性,,,,1.0,,
3,4,401307,福岡県,福岡市,2020/3/24,火,,福岡市早良区,40代,男性,,,,,,
4,5,401307,福岡県,福岡市,2020/3/26,木,,福岡市東区,50代,男性,,,,,,


In [None]:
df_fukuoka_covid.tail()

Unnamed: 0,No,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,発症_年月日,居住地,年代,性別,患者_属性,患者_状態,患者_症状,患者_渡航歴の有無フラグ,備考,退院済フラグ
1975,1981,401307,福岡県,福岡市,2020/8/14,金,,福岡市中央区,50代,女性,,,,,,
1976,1982,401307,福岡県,福岡市,2020/8/14,金,,調査中,50代,男性,,,,,,
1977,1983,401307,福岡県,福岡市,2020/8/14,金,,調査中,30代,男性,,,,,,
1978,1984,401307,福岡県,福岡市,2020/8/14,金,,福岡市中央区,20代,女性,,,,,,
1979,1985,401307,福岡県,福岡市,2020/8/14,金,,福岡市中央区,40代,女性,,,,,,


In [None]:
# 行数を変える場合引数nに値を渡す（初期値は5）
df_fukuoka_covid.head(15)

Unnamed: 0,No,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,発症_年月日,居住地,年代,性別,患者_属性,患者_状態,患者_症状,患者_渡航歴の有無フラグ,備考,退院済フラグ
0,1,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,男性,,,,,,
1,2,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,女性,,,,,,
2,3,401307,福岡県,福岡市,2020/3/17,火,,福岡市南区,30代,女性,,,,1.0,,
3,4,401307,福岡県,福岡市,2020/3/24,火,,福岡市早良区,40代,男性,,,,,,
4,5,401307,福岡県,福岡市,2020/3/26,木,,福岡市東区,50代,男性,,,,,,
5,6,401307,福岡県,福岡市,2020/3/26,木,,福岡市城南区,20代,男性,,,,,,
6,7,401307,福岡県,福岡市,2020/3/27,金,,福岡市博多区,20代,男性,,,,1.0,,
7,8,401307,福岡県,福岡市,2020/3/27,金,,福岡市南区,40代,男性,,,,,,
8,9,401307,福岡県,福岡市,2020/3/27,金,,福岡市城南区,20代,男性,,,,,,
9,10,401307,福岡県,福岡市,2020/3/28,土,,福岡市博多区,30代,男性,,,,,,


In [None]:
df_fukuoka_covid.describe()

Unnamed: 0,No,全国地方公共団体コード,発症_年月日,患者_属性,患者_状態,患者_症状,患者_渡航歴の有無フラグ,備考,退院済フラグ
count,1980.0,1980.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0
mean,992.657071,401307.0,,,,,1.0,,
std,573.723866,0.0,,,,,0.0,,
min,1.0,401307.0,,,,,1.0,,
25%,495.75,401307.0,,,,,1.0,,
50%,991.5,401307.0,,,,,1.0,,
75%,1490.25,401307.0,,,,,1.0,,
max,1985.0,401307.0,,,,,1.0,,


In [None]:
df_fukuoka_covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1980 entries, 0 to 1979
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   No            1980 non-null   int64  
 1   全国地方公共団体コード   1980 non-null   int64  
 2   都道府県名         1980 non-null   object 
 3   市区町村名         1980 non-null   object 
 4   公表_年月日        1980 non-null   object 
 5   曜日            1980 non-null   object 
 6   発症_年月日        0 non-null      float64
 7   居住地           1980 non-null   object 
 8   年代            1980 non-null   object 
 9   性別            1980 non-null   object 
 10  患者_属性         0 non-null      float64
 11  患者_状態         0 non-null      float64
 12  患者_症状         0 non-null      float64
 13  患者_渡航歴の有無フラグ  3 non-null      float64
 14  備考            0 non-null      float64
 15  退院済フラグ        0 non-null      float64
dtypes: float64(7), int64(2), object(7)
memory usage: 247.6+ KB


In [None]:
df_fukuoka_covid.shape

(1980, 16)

# 便利なメソッドなど
  - NaNを含む行列を削除するdropnaメソッド
  - 不要な行列を削除するdropメソッド
  - グループをまとめるgroupbyメソッド
  - indexを数値にするreset_indexメソッド
  - 文字列を置き換えるreplaceメソッド
  - map, applyメソッド

In [None]:
df_fukuoka_covid.head()

Unnamed: 0,No,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,発症_年月日,居住地,年代,性別,患者_属性,患者_状態,患者_症状,患者_渡航歴の有無フラグ,備考,退院済フラグ
0,1,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,男性,,,,,,
1,2,401307,福岡県,福岡市,2020/2/20,木,,福岡市中央区,60代,女性,,,,,,
2,3,401307,福岡県,福岡市,2020/3/17,火,,福岡市南区,30代,女性,,,,1.0,,
3,4,401307,福岡県,福岡市,2020/3/24,火,,福岡市早良区,40代,男性,,,,,,
4,5,401307,福岡県,福岡市,2020/3/26,木,,福岡市東区,50代,男性,,,,,,


In [None]:
# NaNを含む列を削除する
df_fukuoka_covid_dropna = df_fukuoka_covid.dropna(1)
df_fukuoka_covid_dropna.head()

Unnamed: 0,No,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,居住地,年代,性別
0,1,401307,福岡県,福岡市,2020/2/20,木,福岡市中央区,60代,男性
1,2,401307,福岡県,福岡市,2020/2/20,木,福岡市中央区,60代,女性
2,3,401307,福岡県,福岡市,2020/3/17,火,福岡市南区,30代,女性
3,4,401307,福岡県,福岡市,2020/3/24,火,福岡市早良区,40代,男性
4,5,401307,福岡県,福岡市,2020/3/26,木,福岡市東区,50代,男性


In [None]:
df_fukuoka_covid_dropna_num = df_fukuoka_covid_dropna.drop({"No"}, axis=1)
df_fukuoka_covid_dropna_num.head()

Unnamed: 0,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,居住地,年代,性別
0,401307,福岡県,福岡市,2020/2/20,木,福岡市中央区,60代,男性
1,401307,福岡県,福岡市,2020/2/20,木,福岡市中央区,60代,女性
2,401307,福岡県,福岡市,2020/3/17,火,福岡市南区,30代,女性
3,401307,福岡県,福岡市,2020/3/24,火,福岡市早良区,40代,男性
4,401307,福岡県,福岡市,2020/3/26,木,福岡市東区,50代,男性


In [None]:
fukuoka_dow = df_fukuoka_covid_dropna_num.groupby('曜日')

In [None]:
fukuoka_dow.count()

Unnamed: 0_level_0,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,居住地,年代,性別
曜日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
土,289,289,289,289,289,289,289
日,293,293,293,293,293,293,293
月,158,158,158,158,158,158,158
木,356,356,356,356,356,356,356
水,297,297,297,297,297,297,297
火,201,201,201,201,201,201,201
金,386,386,386,386,386,386,386


In [None]:
dow_fukuoka = fukuoka_dow.count()
dow_fukuoka = dow_fukuoka.reset_index()
dow_fukuoka

Unnamed: 0,曜日,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,居住地,年代,性別
0,土,289,289,289,289,289,289,289
1,日,293,293,293,293,293,293,293
2,月,158,158,158,158,158,158,158
3,木,356,356,356,356,356,356,356
4,水,297,297,297,297,297,297,297
5,火,201,201,201,201,201,201,201
6,金,386,386,386,386,386,386,386


In [None]:
# 感染の全体的な平均年齢を出すために年代を数値にする
covid_fukuoka = df_fukuoka_covid_dropna_num.copy()
covid_fukuoka

Unnamed: 0,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,曜日,居住地,年代,性別
0,401307,福岡県,福岡市,2020/2/20,木,福岡市中央区,60代,男性
1,401307,福岡県,福岡市,2020/2/20,木,福岡市中央区,60代,女性
2,401307,福岡県,福岡市,2020/3/17,火,福岡市南区,30代,女性
3,401307,福岡県,福岡市,2020/3/24,火,福岡市早良区,40代,男性
4,401307,福岡県,福岡市,2020/3/26,木,福岡市東区,50代,男性
...,...,...,...,...,...,...,...,...
1975,401307,福岡県,福岡市,2020/8/14,金,福岡市中央区,50代,女性
1976,401307,福岡県,福岡市,2020/8/14,金,調査中,50代,男性
1977,401307,福岡県,福岡市,2020/8/14,金,調査中,30代,男性
1978,401307,福岡県,福岡市,2020/8/14,金,福岡市中央区,20代,女性


In [None]:
covid_fukuoka['年代'].unique()

array(['60代', '30代', '40代', '50代', '20代', '70代', '1歳未満', '90歳以上', '80代',
       '10歳未満', '10代', '調査中'], dtype=object)

In [None]:
# 1歳未満は0,90歳以上は90,10歳未満は1、調査中は50に置き換える
age_replace = {'1歳未満': '0', '90歳以上': '90', '10歳未満':'1', '調査中': '50'}
for b, a in age_replace.items(): 

  covid_fukuoka['年代'] = covid_fukuoka['年代'].replace(b, a)

In [None]:
covid_fukuoka['年代'].unique()

array(['60代', '30代', '40代', '50代', '20代', '70代', '0', '90', '80代', '1',
       '10代', '50'], dtype=object)

In [None]:
# 例えば年代を数値にしたい場合、Seriesの値を用いて関数で処理するmapメソッドを使う
covid_fukuoka['年代'] = covid_fukuoka['年代'].map(lambda x: int(x.replace('代', '')))

In [None]:
covid_fukuoka['年代'].unique()

array([60, 30, 40, 50, 20, 70,  0, 90, 80,  1, 10])

In [None]:
covid_fukuoka['年代'].mean()

34.63636363636363

In [None]:
# 行全体のデータを使ってデータを作る際にはapplyメソッドを用いる
# 例えば日付、場所、年代、性別をすべて文字列で持つ列を作成する場合

# applyの事例を考える

SyntaxError: ignored

In [None]:
。ぉｃcovid_fukuoka['公表_年月日']

0       2020/2/20
1       2020/2/20
2       2020/3/17
3       2020/3/24
4       2020/3/26
          ...    
1975    2020/8/14
1976    2020/8/14
1977    2020/8/14
1978    2020/8/14
1979    2020/8/14
Name: 公表_年月日, Length: 1980, dtype: object