# データの加工

前節でWikipediaから取得した「国の人口順データを取得」をpandasを使って加工する

https://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E4%BA%BA%E5%8F%A3%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88

## 加工方針

- 1行目の「世界の総人口推計」を削除
- 順位列を削除
- 多い順に並べ替える
- 20,000,000人以上(二千万人以上)の国のみを新たなデータとする
- データをpickeで保存
- データをExcel形式で保存

In [1]:
import pandas as pd
url = "https://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E4%BA%BA%E5%8F%A3%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88"
tables = pd.read_html(url, header=0)
df = tables[1]
df.head()

Unnamed: 0,順位,国 (Region/Country/Area 国連での呼称),2019年推計人口
0,－,"世界の総人口推計 (Total, all countries or areas)",7713468100
1,1,中華人民共和国 (China),1412600000
2,2,インド (India),1386946912
3,3,アメリカ合衆国 (United States of America),329064900
4,4,インドネシア (Indonesia),270625600


In [2]:
df.dtypes

順位                                object
国 (Region/Country/Area 国連での呼称)    object
2019年推計人口                          int64
dtype: object

In [3]:
df.iloc[:, 1] != "世界の総人口推計 (Total, all countries or areas)"

0      False
1       True
2       True
3       True
4       True
       ...  
231     True
232     True
233     True
234     True
235     True
Name: 国 (Region/Country/Area 国連での呼称), Length: 236, dtype: bool

In [4]:
df2 = df[df.iloc[:, 1] != "世界の総人口推計 (Total, all countries or areas)"]

In [5]:
df2.head()

Unnamed: 0,順位,国 (Region/Country/Area 国連での呼称),2019年推計人口
1,1,中華人民共和国 (China),1412600000
2,2,インド (India),1386946912
3,3,アメリカ合衆国 (United States of America),329064900
4,4,インドネシア (Indonesia),270625600
5,5,パキスタン (Pakistan),216565300


In [6]:
df3 = df2.iloc[:, [1, 2]]
df3.columns = ["国", "2019年推計人口"]
df3.head()

Unnamed: 0,国,2019年推計人口
1,中華人民共和国 (China),1412600000
2,インド (India),1386946912
3,アメリカ合衆国 (United States of America),329064900
4,インドネシア (Indonesia),270625600
5,パキスタン (Pakistan),216565300


In [7]:
df3.tail()

Unnamed: 0,国,2019年推計人口
231,フォークランド諸島 (Falkland Islands (Malvinas)),3400
232,ニウエ (Niue),1600
233,トケラウ (Tokelau),1300
234,バチカン (Holy See),800
235,その他の地域 (Other non-specified areas),23773900


In [8]:
df4 = df3[df3.iloc[:, 1] > 20_000_000]
df4.tail()

Unnamed: 0,国,2019年推計人口
55,オーストラリア[8] (Australia),25203200
56,ニジェール (Niger),23310700
57,スリランカ (Sri Lanka),21323700
58,ブルキナファソ (Burkina Faso),20321400
235,その他の地域 (Other non-specified areas),23773900


In [9]:
df5 = df4.iloc[:-1, :]
df5.tail()

Unnamed: 0,国,2019年推計人口
54,北朝鮮[7] (Dem. People's Rep. Korea),25666200
55,オーストラリア[8] (Australia),25203200
56,ニジェール (Niger),23310700
57,スリランカ (Sri Lanka),21323700
58,ブルキナファソ (Burkina Faso),20321400


In [10]:
df6 = df5.copy()
df6.head()

Unnamed: 0,国,2019年推計人口
1,中華人民共和国 (China),1412600000
2,インド (India),1386946912
3,アメリカ合衆国 (United States of America),329064900
4,インドネシア (Indonesia),270625600
5,パキスタン (Pakistan),216565300


In [11]:
df6.tail()

Unnamed: 0,国,2019年推計人口
54,北朝鮮[7] (Dem. People's Rep. Korea),25666200
55,オーストラリア[8] (Australia),25203200
56,ニジェール (Niger),23310700
57,スリランカ (Sri Lanka),21323700
58,ブルキナファソ (Burkina Faso),20321400


In [12]:
df6.to_pickle('./data/populations.pickle')

In [13]:
df6.to_excel('./data/populations.xlsx')