# CSV・Excelファイルの読み込み・書き出し、データベースとの接続方法
Pandasを使用したCSV・Excelファイルの操作について学ぶ

In [2]:
import pandas as pd

In [8]:
pd.set_option('display.max_rows', 10)

In [19]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv.head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
1,2,青森県,大正,9.0,1920.0,756454,381293,375161
2,3,岩手県,大正,9.0,1920.0,845540,421069,424471
3,4,宮城県,大正,9.0,1920.0,961768,485309,476459
4,5,秋田県,大正,9.0,1920.0,898537,453682,444855
5,6,山形県,大正,9.0,1920.0,968925,478328,490597
6,7,福島県,大正,9.0,1920.0,1362750,673525,689225
7,8,茨城県,大正,9.0,1920.0,1350400,662128,688272
8,9,栃木県,大正,9.0,1920.0,1046479,514255,532224
9,10,群馬県,大正,9.0,1920.0,1052610,514106,538504


In [20]:
# データがセミコロン区切り形式のcsvファイルを表示する
df_csv01 = pd.read_csv('csv_files/data01.csv', encoding = 'shift-jis', sep=';')
df_csv01.head(10)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
5,45,services,married,basic.9y,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
6,59,admin.,married,professional.course,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
7,41,blue-collar,married,unknown,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
8,24,technician,single,professional.course,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
9,25,services,single,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


In [29]:
# ヘッダー（データフレームにおけるカラム）がついていないcsvファイルがあります。以下カラムに指定して表示してください。
# 'area_code', 'area', 'GG', 'gg', 'yyyy', 'population', 'man', 'woman'
add_header_list = ['area_code', 'area', 'GG', 'gg', 'yyyy', 'population', 'man', 'woman']
df_csv = pd.read_csv('csv_files/data02.csv', names=add_header_list, encoding = 'shift-jis')
df_csv.head(10)

Unnamed: 0,area_code,area,GG,gg,yyyy,population,man,woman
0,1,北海道,大正,9,1920,2359183,1244322,1114861
1,2,青森県,大正,9,1920,756454,381293,375161
2,3,岩手県,大正,9,1920,845540,421069,424471
3,4,宮城県,大正,9,1920,961768,485309,476459
4,5,秋田県,大正,9,1920,898537,453682,444855
5,6,山形県,大正,9,1920,968925,478328,490597
6,7,福島県,大正,9,1920,1362750,673525,689225
7,8,茨城県,大正,9,1920,1350400,662128,688272
8,9,栃木県,大正,9,1920,1046479,514255,532224
9,10,群馬県,大正,9,1920,1052610,514106,538504


In [33]:
# 1920年から2015年までの各都道府県の人口推移データが含まれるcsvファイルがあります。
# このファイルの'都道府県名'列をデータフレームのインデックスに指定して表示すること
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis', index_col = '都道府県名')
# df_csv = df_csv.set_index('都道府県名')
df_csv.head(10)

Unnamed: 0_level_0,都道府県コード,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
都道府県名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
北海道,1,大正,9.0,1920.0,2359183,1244322,1114861
青森県,2,大正,9.0,1920.0,756454,381293,375161
岩手県,3,大正,9.0,1920.0,845540,421069,424471
宮城県,4,大正,9.0,1920.0,961768,485309,476459
秋田県,5,大正,9.0,1920.0,898537,453682,444855
山形県,6,大正,9.0,1920.0,968925,478328,490597
福島県,7,大正,9.0,1920.0,1362750,673525,689225
茨城県,8,大正,9.0,1920.0,1350400,662128,688272
栃木県,9,大正,9.0,1920.0,1046479,514255,532224
群馬県,10,大正,9.0,1920.0,1052610,514106,538504


In [40]:
add_header_list = ['年齢', '仕事', '婚姻', '教育水準', '債務不履行', '住宅ローン',
                   '個人ローン', '連絡方法', '最終接触月', '最終接触曜日', '最終接触時間(秒)',
                   '現キャンペーン参加回数', '前キャンペーン経過日数', '前キャンペーン接触回数', '前キャンペーン結果',
                   '雇用変動率(四半期)', '消費者物価指数(月次)', '消費者信頼感指数(月次)', '欧州銀行間取引金利(三ヶ月)',
                   '就業者数(四半期)', '定期預金申し込み有無']
df_csv = pd.read_csv('csv_files/data03.csv', names=add_header_list, index_col = 0, encoding = 'shift-jis')
df_csv.head(10)

Unnamed: 0_level_0,仕事,婚姻,教育水準,債務不履行,住宅ローン,個人ローン,連絡方法,最終接触月,最終接触曜日,最終接触時間(秒),現キャンペーン参加回数,前キャンペーン経過日数,前キャンペーン接触回数,前キャンペーン結果,雇用変動率(四半期),消費者物価指数(月次),消費者信頼感指数(月次),欧州銀行間取引金利(三ヶ月),就業者数(四半期),定期預金申し込み有無
年齢,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
45,services,married,basic.9y,unknown,no,no,telephone,may,mon,198,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
59,admin.,married,professional.course,no,no,no,telephone,may,mon,139,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
41,blue-collar,married,unknown,unknown,no,no,telephone,may,mon,217,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
24,technician,single,professional.course,no,yes,no,telephone,may,mon,380,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
25,services,single,high.school,no,yes,no,telephone,may,mon,50,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


In [9]:
add_header_list = ['年齢', '仕事', '婚姻', '教育水準', '債務不履行', '住宅ローン', 
                   '個人ローン', '連絡方法', '最終接触月', '最終接触曜日', '最終接触時間(秒)', 
                   '現キャンペーン参加回数', '前キャンペーン経過日数', '前キャンペーン接触回数', 
                   '前キャンペーン結果', '雇用変動率(四半期)', '消費者物価指数(月次)', '消費者信頼感指数(月次)',
                   '欧州銀行間取引金利(三ヶ月)', '就業者数(四半期)', '定期預金申し込み有無']
index_list = ['年齢', '仕事', '婚姻'] 
df_csv = pd.read_csv('csv_files/data03.csv', names=add_header_list, index_col=index_list, encoding = 'shift-jis')
df_csv.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,教育水準,債務不履行,住宅ローン,個人ローン,連絡方法,最終接触月,最終接触曜日,最終接触時間(秒),現キャンペーン参加回数,前キャンペーン経過日数,前キャンペーン接触回数,前キャンペーン結果,雇用変動率(四半期),消費者物価指数(月次),消費者信頼感指数(月次),欧州銀行間取引金利(三ヶ月),就業者数(四半期),定期預金申し込み有無
年齢,仕事,婚姻,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
45,services,married,basic.9y,unknown,no,no,telephone,may,mon,198,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
59,admin.,married,professional.course,no,no,no,telephone,may,mon,139,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
41,blue-collar,married,unknown,unknown,no,no,telephone,may,mon,217,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
24,technician,single,professional.course,no,yes,no,telephone,may,mon,380,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
25,services,single,high.school,no,yes,no,telephone,may,mon,50,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


## エクセルを読み取る

In [12]:
import pandas as pd

df_excel = pd.read_excel('xlsx_files/data.xlsx')
df_excel.head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9,1920,2359183,1244322,1114861
1,2,青森県,大正,9,1920,756454,381293,375161
2,3,岩手県,大正,9,1920,845540,421069,424471
3,4,宮城県,大正,9,1920,961768,485309,476459
4,5,秋田県,大正,9,1920,898537,453682,444855
5,6,山形県,大正,9,1920,968925,478328,490597
6,7,福島県,大正,9,1920,1362750,673525,689225
7,8,茨城県,大正,9,1920,1350400,662128,688272
8,9,栃木県,大正,9,1920,1046479,514255,532224
9,10,群馬県,大正,9,1920,1052610,514106,538504


### 最初の2行にデータが入っていないExcelファイルがある。<br>このファイルの最初の2行をスキップして、完成イメージの通りにデータフレームとして読み込む

data01.xlsx
![image.png](attachment:a2088f1e-956a-455a-b637-06a562eb9a13.png)

In [17]:
import pandas as pd

df_excel = pd.read_excel('xlsx_files/data01.xlsx', skiprows = 2)
df_excel.head(10)


Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9,1920,2359183,1244322,1114861
1,2,青森県,大正,9,1920,756454,381293,375161
2,3,岩手県,大正,9,1920,845540,421069,424471
3,4,宮城県,大正,9,1920,961768,485309,476459
4,5,秋田県,大正,9,1920,898537,453682,444855
5,6,山形県,大正,9,1920,968925,478328,490597
6,7,福島県,大正,9,1920,1362750,673525,689225
7,8,茨城県,大正,9,1920,1350400,662128,688272
8,9,栃木県,大正,9,1920,1046479,514255,532224
9,10,群馬県,大正,9,1920,1052610,514106,538504


### 最初の2行にデータが入っていないExcelファイルがあります。<br>このファイルの3行目のデータをカラムに指定して、完成イメージの通りにデータフレームとして読み込んでみましょう。
![image.png](attachment:f4bfa649-5881-4289-bab1-bf5f1f8c0cff.png)

In [25]:
import pandas as pd

df_excel = pd.read_excel('xlsx_files/data01.xlsx', header = [2])
df_excel.head(10)
## 引数headerにカラムに指定したい行番号をリストで渡すことで、任意の行をカラムに指定することができます。
## 今回は3行目をカラムに指定したいので、header = [2]と指定しています。
## なお、行番号は0からスタートします

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9,1920,2359183,1244322,1114861
1,2,青森県,大正,9,1920,756454,381293,375161
2,3,岩手県,大正,9,1920,845540,421069,424471
3,4,宮城県,大正,9,1920,961768,485309,476459
4,5,秋田県,大正,9,1920,898537,453682,444855
5,6,山形県,大正,9,1920,968925,478328,490597
6,7,福島県,大正,9,1920,1362750,673525,689225
7,8,茨城県,大正,9,1920,1350400,662128,688272
8,9,栃木県,大正,9,1920,1046479,514255,532224
9,10,群馬県,大正,9,1920,1052610,514106,538504


### ヘッダー（データフレームにおけるカラム）がついていないExcelファイルがあります。<br>カラムが自動的に連番で附番されるように、データフレームとしてファイルを読み込んでみましょう。
![image.png](attachment:2660bde2-cf81-44d9-92e4-d4a6e1d00c92.png)

In [32]:
import pandas as pd

df_excel = pd.read_excel('xlsx_files/data02.xlsx', header = None)
df_excel.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7
0,1,北海道,大正,9,1920,2359183,1244322,1114861
1,2,青森県,大正,9,1920,756454,381293,375161
2,3,岩手県,大正,9,1920,845540,421069,424471
3,4,宮城県,大正,9,1920,961768,485309,476459
4,5,秋田県,大正,9,1920,898537,453682,444855
5,6,山形県,大正,9,1920,968925,478328,490597
6,7,福島県,大正,9,1920,1362750,673525,689225
7,8,茨城県,大正,9,1920,1350400,662128,688272
8,9,栃木県,大正,9,1920,1046479,514255,532224
9,10,群馬県,大正,9,1920,1052610,514106,538504


### 1行目と2行目がヘッダー（データフレームにおけるカラム）となっているExcelファイルがあります。<br>この1行目と2行目をカラムに指定して、完成イメージのようにデータフレームとしてファイルを読み込んでみましょう。
![image.png](attachment:effcaea7-c133-42d9-960e-fdef250798eb.png)

In [36]:
import pandas as pd

df_excel = pd.read_excel('xlsx_files/data03.xlsx', header = [0, 1])
df_excel.head(10)

Unnamed: 0_level_0,地域,羽田,羽田,成田,成田,千歳,千歳
Unnamed: 0_level_1,年月日,平均気温(℃),降水量の合計(mm),平均気温(℃),降水量の合計(mm),平均気温(℃),降水量の合計(mm)
0,2019/1/1,6.8,0.0,2.0,0.0,-4.7,0.0
1,2019/1/2,7.3,0.0,3.9,0.0,-6.9,0.0
2,2019/1/3,6.1,0.0,2.3,0.0,-7.4,0.0
3,2019/1/4,6.5,0.0,2.2,0.0,-2.6,0.0
4,2019/1/5,8.3,0.0,6.2,0.0,-3.3,4.5
5,2019/1/6,6.0,0.0,2.4,0.0,-5.4,1.0
6,2019/1/7,7.3,0.0,3.6,0.0,-8.1,0.5
7,2019/1/8,6.5,0.0,3.1,0.0,-7.6,0.0
8,2019/1/9,5.6,0.0,3.2,0.0,-4.8,0.0
9,2019/1/10,3.9,0.0,0.6,0.0,-1.9,0.0


### 1920年から2015年までの各都道府県の人口推移データが含まれるExcelファイルがあります。<br>このファイルの1列目の'都道府県コード'をインデックスに指定して、データフレームとして読みこんでみましょう。

In [40]:
import pandas as pd

# df_excel = pd.read_excel('xlsx_files/data.xlsx', index_col = '都道府県コード')
df_excel = pd.read_excel('xlsx_files/data.xlsx', index_col = 0)
df_excel.head(10)

Unnamed: 0_level_0,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
都道府県コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,北海道,大正,9,1920,2359183,1244322,1114861
2,青森県,大正,9,1920,756454,381293,375161
3,岩手県,大正,9,1920,845540,421069,424471
4,宮城県,大正,9,1920,961768,485309,476459
5,秋田県,大正,9,1920,898537,453682,444855
6,山形県,大正,9,1920,968925,478328,490597
7,福島県,大正,9,1920,1362750,673525,689225
8,茨城県,大正,9,1920,1350400,662128,688272
9,栃木県,大正,9,1920,1046479,514255,532224
10,群馬県,大正,9,1920,1052610,514106,538504
