In [1]:
# Creates total consumption of agricultural and non-agricultural products
# Expressed in 1000 yen at 1934 to 1936 prices

In [2]:
import pandas as pd

In [3]:
url = "http://d-infra.ier.hit-u.ac.jp/Japanese/ltes/LTES_01.xlsx"

In [4]:
xl = pd.ExcelFile(url)

In [5]:
xl.sheet_names

['第1表',
 '第1-A表',
 '第2表',
 '第3表',
 '第4表',
 '第4-A表\u3000なし',
 '第5表',
 '第6表',
 '第6-A表',
 '第7表',
 '第7表（参考表）',
 '第7-A表\u3000なし',
 '第8表',
 '第8-A表',
 '第9表',
 '第9-A表',
 '第10表',
 '第11表',
 '第12表',
 '第13表',
 '第14表',
 '第15表',
 '第16表',
 '第17表',
 '第18表',
 '第18-A表',
 '第19表',
 '第20表',
 '第21表',
 '第21-A表\u3000なし',
 '第22表',
 '第23表',
 '第24表',
 '第25表',
 '第26表',
 '第27表',
 '第28表',
 '第29表',
 '第30表',
 '第30-A表\u3000なし',
 '第31表',
 '第32表～第42表\u3000なし']

In [6]:
df_original = xl.parse('第19表')

In [7]:
stat_name_jpn = df_original.iloc[0,2]

In [8]:
stat_name_jpn

'第19表\u3000個人消費支出（1934～1936年価格，1885～1940年）'

In [9]:
stat_name_eng = df_original.iloc[1,2]

In [10]:
stat_name_eng

'Table 19\u3000Personal Consumption Expenditures：1934～1936 Prices, 1885～1940'

In [11]:
# Remove columns and rows with too many nulls
df_dropped = df_original.loc[df_original.notnull().sum(axis=1) > 2, df_original.notnull().sum() > 2]

In [12]:
food_unit_jpn = df_dropped.iloc[8,2]

In [13]:
food_unit_eng = df_dropped.iloc[9,2]

In [14]:
total_unit_jpn = df_dropped.iloc[8, -1]
total_unit_eng = df_dropped.iloc[9, -1]

In [15]:
# Notice the difference
food_unit_jpn, total_unit_jpn

('1000円:R', '100万円:R')

In [16]:
# Pick food consumption and total consumption
df_picked = df_dropped.iloc[10:,[0, 1, -1]]

In [17]:
df_picked.columns = ['year_wst', 'food', 'total']

In [18]:
# Adjust the unit difference
# Both units are 1000 yen at the price of 1934-36 
df_picked['total'] = df_picked['total'] * 1000

In [19]:
df_picked['non_food'] = df_picked['total'] - df_picked['food']

In [21]:
df_picked.to_csv('../../Data/pre_tot_cns.csv', index = False)