In [103]:
import pandas as pd

In [104]:
url = "https://warp.da.ndl.go.jp/info:ndljp/pid/11423429/www.stat.go.jp/data/chouki/zuhyou/19-08-a.xls"
df_original = pd.read_excel(url, header=None, index_col=None)

In [105]:
xl = pd.ExcelFile(url)
xl.sheet_names

['19-8-a']

In [106]:
df_original

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,38,39,40,41,42,43,44,45,46,47
0,１９－８－ａ　産業，従業上の地位，男女別就業者数（昭和２８年～平成１４年）,,,,,,,,,,...,,,,,,,,,,
1,"19-8-a Employed Persons by Industry, Employmen...",,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,(単位　万人),,,,,,,,,,...,,,,,,,,,,
4,(In 10 thousands of persons),,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172,"3) Data is calculated, adding up ""Electricity...",,,,,,,,,,...,,,,,,,,,,
173,"""Wholesale and retail trade, restaurant, f...",,,,,,,,,,...,,,,,,,,,,
174,"classified elsewhere)"".",,,,,,,,,,...,,,,,,,,,,
175,〔資料〕 総務省統計局統計調査部国勢統計課労働力人口統計室「労働力調査年報」,,,,,,,,,,...,,,,,,,,,,


In [107]:
unit_of_obs = df_original.iloc[4,0]

In [108]:
stat_name_jpn = df_original.iloc[0,0]

In [109]:
stat_name_eng = df_original.iloc[1,0]

In [110]:
# remove columns and rows with too many nulls
df_dropped = df_original.loc[df_original.notnull().sum(axis=1) > 2, df_original.notnull().sum() > 2]

In [111]:
df_dropped

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,38,39,40,41,42,43,44,45,46,47
5,男女，年次,,総数,農林業,,,,漁業,,,...,,,第２次産業,,,,第３次産業,,,
6,,,,Agriculture and forestry,,,,Fishery,,,...,,,Secondary industry\n 2),,,,Tertiary industry\n 3),,,
8,,,,総数,自営業主,家族従業者,雇用者,総数,自営業主,家族従業者,...,家族従業者,雇用者,総数,自営業主,家族従業者,雇用者,総数,自営業主,家族従業者,雇用者
9,Sex and year,,Total,Total,Self-employed worker,Family worker,Employee,Total,Self-employed worker,Family worker,...,Family worker,Employee,Total,Self-employed worker,Family worker,Employee,Total,Self-employed worker,Family worker,Employee
11,昭和28年,1953,3913,1487,491,914,82,72,23,22,...,936,109,952,132,97,720,1402,345,228,831
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
158,10,1998,2656,151,29,107,15,7,0,5,...,112,17,598,40,43,513,1887,153,145,1588
159,11,1999,2632,143,26,102,15,8,0,6,...,108,16,574,39,42,494,1891,151,140,1598
160,12,2000,2629,137,24,98,15,8,0,6,...,104,17,560,33,41,485,1910,146,132,1631
161,13,2001,2629,131,24,91,17,7,0,5,...,96,19,540,26,39,473,1935,137,129,1668


In [112]:
# check large categories
df_dropped.iloc[0,:]

0                      男女，年次
1                           
2                         総数
3                        農林業
4                           
5                           
6                           
7                         漁業
8                           
9                           
10                          
11                        鉱業
12                          
13                          
14                          
15                       建設業
16                          
17                          
18                          
19                       製造業
20                          
21                          
22                          
23     電気・ガス・熱供給・水道業，運輸・通信業 
24                       NaN
25                       NaN
26                       NaN
27    卸売・小売業，飲食店，金融・保険業，不動産業
28                       NaN
29                       NaN
30                       NaN
31                     サービス業
32                       NaN
33                          
34            

In [113]:
# pick year and total employment of primary, secondary and tertiary industries
df_picked = df_dropped.iloc[:, [0, 1, 35, 36, 40, 44]]

In [114]:
# rename columns
df_picked.columns = ['year_jpn','year_wst', 'pub_emp', 'prm_emp', 'scn_emp', 'trt_emp']

In [115]:
df_picked

Unnamed: 0,year_jpn,year_wst,pub_emp,prm_emp,scn_emp,trt_emp
5,男女，年次,,公務(他に分類されないもの）,第１次産業,第２次産業,第３次産業
6,,,,Primary industry\n 1),Secondary industry\n 2),Tertiary industry\n 3)
8,,,,総数,総数,総数
9,Sex and year,,Government (not classified elsewhere),Total,Total,Total
11,昭和28年,1953,132,1559,952,1402
...,...,...,...,...,...,...
158,10,1998,46,158,598,1887
159,11,1999,46,151,574,1891
160,12,2000,47,145,560,1910
161,13,2001,46,138,540,1935


In [116]:
# drop rows that do not contain data
df_picked = df_picked.iloc[4:,]

In [117]:
# data includes total employment and employment by gender 
df_picked.loc[df_picked.year_wst == 1953,:]

Unnamed: 0,year_jpn,year_wst,pub_emp,prm_emp,scn_emp,trt_emp
11,昭和28年,1953,132,1559,952,1402
62,昭和28年,1953,109,799,659,871
113,昭和28年,1953,23,760,293,531


In [118]:
# keep data for total employment and drop male and female employment
df_tot = df_picked.loc[:61,]

In [119]:
df_tot['non_prm_emp'] = df_tot['scn_emp'] + df_tot['trt_emp'] - df_tot['pub_emp']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._set_item(key, value)


In [120]:
#df_tot.loc[11, 'year_jpn'] = 28

In [121]:
#df_tot.loc[47, 'year_jpn'] = 1

In [122]:
df_tot.year_jpn

11    昭和28年
12      29　
13      30　
14      31　
15      32　
16      33　
17      34　
18      35　
19      36　
20      37　
21      38　
22      39　
23      40　
24      41　
25      42　
26      43　
27      44　
28    　45  
29      46　
30      47　
31      48　
32      49　
33      50　
34      51　
35      52　
36      53　
37      54　
38      55　
39      56　
40      57　
41      58　
42      59　
43      60　
44      61　
45      62　
46      63　
47     平成元年
48       2　
49       3　
50      4  
51       5　
52       6　
53       7　
54       8　
55       9　
56     　10　
57      11　
58      12　
59      13　
60      14　
Name: year_jpn, dtype: object

In [135]:
df_tot['year_jpn'] = df_tot['year_jpn'].astype(str).map(lambda x: x.replace("平成元年", "1"))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._set_item(key, value)


In [139]:
import re
df_tot['year_jpn'] = df_tot['year_jpn'].astype(str).map(lambda x: re.sub('[一-龥]', "", x))

In [140]:
df_tot.year_jpn

11      28
12     29　
13     30　
14     31　
15     32　
16     33　
17     34　
18     35　
19     36　
20     37　
21     38　
22     39　
23     40　
24     41　
25     42　
26     43　
27     44　
28     　45
29     46　
30     47　
31     48　
32     49　
33     50　
34     51　
35     52　
36     53　
37     54　
38     55　
39     56　
40     57　
41     58　
42     59　
43     60　
44     61　
45     62　
46     63　
47       1
48      2　
49      3　
50       4
51      5　
52      6　
53      7　
54      8　
55      9　
56    　10　
57     11　
58     12　
59     13　
60     14　
Name: year_jpn, dtype: object

In [125]:
#df_tot['year_jpn'] = df_tot['year_jpn'].astype(str).map(lambda x: x.strip('\u3000'))

In [126]:
df_tot.year_jpn

11    昭和28年
12      29　
13      30　
14      31　
15      32　
16      33　
17      34　
18      35　
19      36　
20      37　
21      38　
22      39　
23      40　
24      41　
25      42　
26      43　
27      44　
28    　45  
29      46　
30      47　
31      48　
32      49　
33      50　
34      51　
35      52　
36      53　
37      54　
38      55　
39      56　
40      57　
41      58　
42      59　
43      60　
44      61　
45      62　
46      63　
47     平成元年
48       2　
49       3　
50      4  
51       5　
52       6　
53       7　
54       8　
55       9　
56     　10　
57      11　
58      12　
59      13　
60      14　
Name: year_jpn, dtype: object

In [127]:
#df_tot['year_jpn'] = df_tot['year_jpn'].astype(str).map(lambda x: x.strip('\u3000\u3000'))

In [128]:
df_tot.year_jpn

11    昭和28年
12      29　
13      30　
14      31　
15      32　
16      33　
17      34　
18      35　
19      36　
20      37　
21      38　
22      39　
23      40　
24      41　
25      42　
26      43　
27      44　
28    　45  
29      46　
30      47　
31      48　
32      49　
33      50　
34      51　
35      52　
36      53　
37      54　
38      55　
39      56　
40      57　
41      58　
42      59　
43      60　
44      61　
45      62　
46      63　
47     平成元年
48       2　
49       3　
50      4  
51       5　
52       6　
53       7　
54       8　
55       9　
56     　10　
57      11　
58      12　
59      13　
60      14　
Name: year_jpn, dtype: object

In [129]:
df_tot['year_jpn'] = df_tot['year_jpn'].astype(str).map(lambda x: x.rstrip('  '))

In [130]:
df_tot.year_jpn

11    昭和28年
12      29　
13      30　
14      31　
15      32　
16      33　
17      34　
18      35　
19      36　
20      37　
21      38　
22      39　
23      40　
24      41　
25      42　
26      43　
27      44　
28      　45
29      46　
30      47　
31      48　
32      49　
33      50　
34      51　
35      52　
36      53　
37      54　
38      55　
39      56　
40      57　
41      58　
42      59　
43      60　
44      61　
45      62　
46      63　
47     平成元年
48       2　
49       3　
50        4
51       5　
52       6　
53       7　
54       8　
55       9　
56     　10　
57      11　
58      12　
59      13　
60      14　
Name: year_jpn, dtype: object

In [131]:
#df_tot['year_jpn'] = df_tot['year_jpn'].astype(str).map(lambda x: x.lstrip('\u3000'))

In [132]:
df_tot.year_jpn

11    昭和28年
12      29　
13      30　
14      31　
15      32　
16      33　
17      34　
18      35　
19      36　
20      37　
21      38　
22      39　
23      40　
24      41　
25      42　
26      43　
27      44　
28      　45
29      46　
30      47　
31      48　
32      49　
33      50　
34      51　
35      52　
36      53　
37      54　
38      55　
39      56　
40      57　
41      58　
42      59　
43      60　
44      61　
45      62　
46      63　
47     平成元年
48       2　
49       3　
50        4
51       5　
52       6　
53       7　
54       8　
55       9　
56     　10　
57      11　
58      12　
59      13　
60      14　
Name: year_jpn, dtype: object

In [133]:
#df_tot.to_csv('../../Data/Downloaded/post_emp.csv', index = False)

In [134]:
df_tot

Unnamed: 0,year_jpn,year_wst,pub_emp,prm_emp,scn_emp,trt_emp,non_prm_emp
11,昭和28年,1953,132,1559,952,1402,2222
12,29,1954,144,1507,981,1475,2312
13,30,1955,131,1536,997,1557,2423
14,31,1956,132,1500,1041,1630,2539
15,32,1957,128,1467,1120,1694,2686
16,33,1958,134,1408,1166,1724,2756
17,34,1959,146,1348,1187,1800,2841
18,35,1960,142,1340,1242,1854,2954
19,36,1961,150,1303,1323,1871,3044
20,37,1962,152,1267,1397,1892,3137
