# データの加工

前節でWikipediaから取得した「国の人口順データを取得」をpandasを使って加工する

https://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E4%BA%BA%E5%8F%A3%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88

## 加工方針

- 世界人口を削除
- 複数の国の合計欄を削除
- 順位列を削除
- 多い順に並べ替える
- 20,000,000人以上(二千万人以上)の国のみを新たなデータとする
- 国名の角括弧を取り除く
- データをpickeで保存
- データをExcel形式で保存

In [21]:
import pandas as pd
url = "https://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E4%BA%BA%E5%8F%A3%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88"
tables = pd.read_html(url)
df = tables[1]
df.head()

Unnamed: 0,順位,国,2010年推計人口
0,－,世界 (人口),6945566097
1,1,中華人民共和国,1349335152
2,1,香港,8053189
3,1,マカオ,557972
4,1,合計,1357946313


In [22]:
df.dtypes

順位           object
国            object
2010年推計人口     int64
dtype: object

In [23]:
df.iloc[:, 1] != "世界 (人口)"

0      False
1       True
2       True
3       True
4       True
5       True
6       True
7       True
8       True
9       True
10      True
11      True
12      True
13      True
14      True
15      True
16      True
17      True
18      True
19      True
20      True
21      True
22      True
23      True
24      True
25      True
26      True
27      True
28      True
29      True
       ...  
208     True
209     True
210     True
211     True
212     True
213     True
214     True
215     True
216     True
217     True
218     True
219     True
220     True
221     True
222     True
223     True
224     True
225     True
226     True
227     True
228     True
229     True
230     True
231     True
232     True
233     True
234     True
235     True
236     True
237     True
Name: 国, Length: 238, dtype: bool

In [24]:
df2 = df[df.iloc[:, 1] != "世界 (人口)"]

In [25]:
df3 = df2[df2.iloc[:, 1] != "合計"]

In [26]:
df3.head()

Unnamed: 0,順位,国,2010年推計人口
1,1,中華人民共和国,1349335152
2,1,香港,8053189
3,1,マカオ,557972
5,2,インド,1224514327
6,3,アメリカ合衆国,310383948


In [27]:
df4 = df3.iloc[:, [1, 2]]
df4.head()

Unnamed: 0,国,2010年推計人口
1,中華人民共和国,1349335152
2,香港,8053189
3,マカオ,557972
5,インド,1224514327
6,アメリカ合衆国,310383948


In [30]:
df5 = df4.sort_values(by="2010年推計人口", ascending=False)
df5.head()

Unnamed: 0,国,2010年推計人口
1,中華人民共和国,1349335152
5,インド,1224514327
6,アメリカ合衆国,310383948
13,インドネシア,239870937
14,ブラジル,194946470


In [32]:
df6 = df5[df5.iloc[:, 1]>20_000_000]
df6.tail()

Unnamed: 0,国,2010年推計人口
83,オーストラリア[8],22268384
84,ルーマニア,21486371
85,スリランカ,20859949
86,マダガスカル,20713819
87,シリア,20410606


In [33]:
df7 = df6.copy()
df7.tail()

Unnamed: 0,国,2010年推計人口
83,オーストラリア[8],22268384
84,ルーマニア,21486371
85,スリランカ,20859949
86,マダガスカル,20713819
87,シリア,20410606


In [34]:
df7.iloc[:, 0] = df7.iloc[:, 0].apply(lambda x: x.split("[")[0])
df7.tail()

Unnamed: 0,国,2010年推計人口
83,オーストラリア,22268384
84,ルーマニア,21486371
85,スリランカ,20859949
86,マダガスカル,20713819
87,シリア,20410606


In [35]:
df7.to_pickle('../data/populations.pickle')

In [36]:
df7.to_excel('../data/populations.xlsx')