# データサイエンス(Python)勉強会用 2021/09/03 (金)

## 国際連合の世界の推計人口データを読込

LocID: 地域を表す数値コード。国や地域の場合は、ISO3166-1の数値規格に準拠しています。<br>
Location: 地域、サブリージョン、国、またはエリアの名前<br>
VarID: Variantを示す、数値コード<br>
Variant: プロジェクションバリアント名（Medium が最も使用される）；詳細は、Definition of projection variants を参照。<br>
Time: 単一年（例：1950年）またはデータの期間（例：1950-1955年）を示すラベル<br>
MidPeriod: データの中間期を示す数値で、小数点以下は月を表す（例：1950年7月は1950.5）<br>
PopMale: 男性の人口 (千)<br>
PopFemale: 女性の人口 (千)<br>
PopTotal: 総人口 (千)<br>
PopDensity: 人口密度<br>

In [None]:
# hanaya-san/seed の feat/r4-workブランチをクローンしてくる
!git clone -b feat/r4-work https://github.com/hanaya-san/seed.git  

# 今回使用するデータを直下にコピーしてくる
!cp -r './seed/sandbox/r4-util/lecture-materials/data/' './data'

In [None]:
df_pop = pd.read_csv('./data/WPP2019_TotalPopulationBySex.csv')
df_pop

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 2019年の人口データを抽出

In [None]:
df_pop[df_pop['Time'] == 2019]
df_loc_2019 = df_pop[(df_pop['LocID'] < 900) & (df_pop['Time'] == 2019)].sort_values('PopTotal', ascending=False).reset_index(drop=True)[:205]
loc_2019_list = df_loc_2019['Location'].values
df_2019 = df_pop[df_pop['Location'].isin(loc_2019_list)]
df_2019 = df_2019[df_2019['Time'] == 2019].reset_index(drop=True)
df_2019

# 2019年の人口TOP11の国名を取得

In [None]:
df_pop[df_pop['Time'] == 2019]
df_loc_2019_top11 = df_pop[(df_pop['LocID'] < 900) & (df_pop['Time'] == 2019)].sort_values('PopTotal', ascending=False).reset_index(drop=True)[:11]
loc_2019_top11_list = df_loc_2019_top11['Location'].values
loc_2019_top11_list

# 2019年人口TOP11の国について人口データを抽出

In [None]:
df_top11 = df_pop[df_pop['Location'].isin(loc_2019_top11_list)]
df_top11_2019 = df_top11[df_top11['Time'] == 2019].reset_index(drop=True)
df_top11_2019

# 1992年 - 2019年の人口データを抽出
## ※2019年時点でTOP11の国のみを抽出
## ※時系列データ


In [None]:
df_top11 = df_top11[(df_top11['Time'] >= 1992) & (df_top11['Time'] <= 2019)].reset_index(drop=True)
df_top11

# 1992年 - 2019年の日本の人口データを抽出
## ※時系列データ

In [None]:
df_jp = df_top11[(df_top11['Time'] >= 1992) & (df_top11['Time'] <= 2019) & (df_top11['Location'] == 'Japan')].reset_index(drop=True)
df_jp

# ◆比較
## 2019年時点の人口を国別に比較したい。
- 時系列データが含まれるか：　No
- 変数の数: 1つ (PopTotal)

In [None]:
plt.figure(figsize=(10, 5))
plt.bar(np.arange(11), df_top11_2019['PopTotal'])
plt.xticks(np.arange(11), df_top11_2019['Location'].values, rotation=45)
plt.show()

## 2019年時点の人口を男女別に比較したい。
- 時系列データが含まれるか: No
- 変数の数: 2つ (PopMale, PopFemale)
- カテゴリ数: Location=11つ

In [None]:
plt.figure(figsize=(10, 5))
plt.bar(np.arange(11)-0.15, df_top11_2019['PopMale'], width=0.3)
plt.bar(np.arange(11)+0.15, df_top11_2019['PopFemale'], width=0.3)
plt.xticks(np.arange(11), df_top11_2019['Location'].values, rotation=45)
plt.legend(['PopMale', 'PopFemale'])
plt.show()

## 1992年 - 2019年の日本の人口を年別に比較したい。
- 時系列データが含まれるか: Yes
- 変数の数: 1つ (PopTotal)
- カテゴリ数: Location=1つ(日本のみ)

In [None]:
plt.figure(figsize=(10, 5))
plt.bar(np.arange(len(df_jp)), df_jp['PopTotal'])
plt.xticks(np.arange(len(df_jp)), df_jp['Time'].values, rotation=45)
plt.ylim(125000, 129000)
plt.show()

## 1992年 - 2019年の日本の人口を年別男女別に比較したい。
- 時系列データが含まれるか: Yes
- 変数の数: 2つ (PopMale, PopFemale)
- カテゴリ数: Location=1つ(日本のみ)

In [None]:
plt.figure(figsize=(10, 5))
plt.bar(np.arange(len(df_jp))-0.15, df_jp['PopMale'], width=0.3)
plt.bar(np.arange(len(df_jp))+0.15, df_jp['PopFemale'], width=0.3)
plt.xticks(np.arange(len(df_jp)), df_jp['Time'].values, rotation=45)
plt.ylim(61000, 66000)
plt.legend(['PopMale', 'PopFemale'])
plt.show()

## 1992年 - 2019年の人口を国別に比較したい。
- 時系列データが含まれるか: Yes
- 変数の数: 1つ (PopTotal)
- カテゴリ数: Location=11つ

In [None]:
plt.figure(figsize=(10, 5))
loc_list = df_top11['Location'].unique()

for loc in loc_list:
    plt.plot(df_top11[df_top11['Location'] == loc].reset_index(drop=True)['PopTotal'])

plt.xticks(np.arange(len(df_jp)), df_jp['Time'].values, rotation=45)
plt.legend(loc_list, bbox_to_anchor=(1.05, 1), loc='upper left')
#plt.ylim(100000, 350000)
#plt.ylim(1200000, 1450000)
plt.show()

# ◆分布
## 2019年の各国人口の分布が知りたい
- 変数の数: 1つ(PopTotal)
- データの粒度: 大きい

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))
ax.set_ylabel('Count')
ax.set_xlabel('PopCount')
ax.hist(df_2019['PopTotal'], bins=20, edgecolor="black");

# ◆構成
## 2019年人口TOP11の国について人数割合が知りたい
- 確認観点: 割合
- 時系列データが含まれるか: No

In [None]:
plt.figure(figsize=(10, 5))
sv = df_top11_2019.sort_values('PopTotal', ascending=False)
plt.pie(sv['PopTotal'], labels=sv['Location'], counterclock=False, startangle=90)
plt.show()

## 2019年人口TOP11の国について値が知りたい
- 確認観点: 値
- 時系列データが含まれるか: No

In [None]:
plt.figure(figsize=(10, 5))
plt.bar(np.arange(11), df_top11_2019['PopTotal'])
plt.xticks(np.arange(11), df_top11_2019['Location'].values, rotation=45)
plt.show()

## 1992年-2019年における国別人口の推移(割合と値)を確認したい
- 時系列データが含まれるか: Yes
- 確認観点: 割合+値
- ※６カ国を対象とする(バングラデシュ, ブラジル, 中国, インド, 日本, アメリカ)

In [None]:
plt.figure(figsize=(10, 5))

_df_bang = df_top11[df_top11['Location'] == 'Bangladesh'].reset_index(drop=True)['PopTotal']
_df_br = df_top11[df_top11['Location'] == 'Brazil'].reset_index(drop=True)['PopTotal']
_df_cn = df_top11[df_top11['Location'] == 'China'].reset_index(drop=True)['PopTotal']
_df_in = df_top11[df_top11['Location'] == 'India'].reset_index(drop=True)['PopTotal']
_df_jp = df_top11[df_top11['Location'] == 'Japan'].reset_index(drop=True)['PopTotal']
_df_usa = df_top11[df_top11['Location'] == 'United States of America'].reset_index(drop=True)['PopTotal']

plt.stackplot(np.arange(len(_df_jp)), _df_bang, _df_br, _df_cn, _df_in, _df_jp, _df_usa)
plt.xticks(np.arange(len(df_jp)), df_jp['Time'].values, rotation=45)

plt.legend(['Bangladesh', 'Brazil', 'China', 'India', 'Japan', 'United States of America'])

plt.show()

# ◆相関関係
## 2019年の各国総人口と人口密度の相関関係が知りたい
- 変数の数: 2つ(PopTotal, PopDensity)
- データの粒度: 大きい

In [None]:
plt.figure(figsize=(10, 10))
plt.scatter(df_2019['PopTotal'], df_2019['PopDensity'])
#plt.xlim(-1000, 40000)
#plt.ylim(-200, 3000)
plt.show()

# Appendix

# 棒グラフ サンプル

In [None]:
# Libraries
import numpy as np
import matplotlib.pyplot as plt

# Make a random dataset:
height = [3, 12, 5, 18, 45]
bars = ('A', 'B', 'C', 'D', 'E')
y_pos = np.arange(len(bars))

# Create bars
plt.bar(y_pos, height)

# Create names on the x-axis
plt.xticks(y_pos, bars)

# Show graphic
plt.show()

# ヒストグラム サンプル

In [None]:
# library & dataset
import seaborn as sns
df = sns.load_dataset('iris')

# Plot the histogram thanks to the distplot function
sns.distplot( a=df["sepal_length"], hist=True, kde=False, rug=False )

# バブルチャート サンプル

In [None]:
# libraries
!pip3 install gapminder
import matplotlib.pyplot as plt
import seaborn as sns
from gapminder import gapminder # data set

# data
data = gapminder.loc[gapminder.year == 2007]

# use the scatterplot function to build the bubble map
sns.scatterplot(data=data, x="gdpPercap", y="lifeExp", size="pop", legend=False, sizes=(20, 2000))

# show the graph
plt.show()

In [None]:
gapminder