# Pythonを使ったデータの整理と可視化（グラフ化）方法

In [2]:
# データを取り扱うためのライブラリ
import pandas as pd

# データを可視化するためのライブラリ
import plotly.express as px

In [3]:
# データの読み込み
raw_df = pd.read_csv('FEH_00200521_250124113527.csv', encoding='shift-jis')

# データのカラム確認
raw_df.info()

# データの表示
raw_df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4200 entries, 0 to 4199
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   tab_code    4200 non-null   int64 
 1   表章項目        4200 non-null   object
 2   cat01_code  4200 non-null   int64 
 3   男女_時系列      4200 non-null   object
 4   area_code   4200 non-null   int64 
 5   地域_時系列      4200 non-null   object
 6   time_code   4200 non-null   int64 
 7   時間軸（調査年）    4200 non-null   object
 8   unit        3150 non-null   object
 9   value       4200 non-null   object
dtypes: int64(4), object(6)
memory usage: 328.3+ KB


Unnamed: 0,tab_code,表章項目,cat01_code,男女_時系列,area_code,地域_時系列,time_code,時間軸（調査年）,unit,value
0,20,人口,100,総数,0,全国,1920000000,1920年,人,55963053
1,20,人口,100,総数,0,全国,1925000000,1925年,人,59736822
2,20,人口,100,総数,0,全国,1930000000,1930年,人,64450005
3,20,人口,100,総数,0,全国,1935000000,1935年,人,69254148
4,20,人口,100,総数,0,全国,1940000000,1940年,人,73114308
...,...,...,...,...,...,...,...,...,...,...
4195,1120,人口性比,100,総数,47000,沖縄県,2000000000,2000年,,96.6485813978
4196,1120,人口性比,100,総数,47000,沖縄県,2005000000,2005年,,96.4521304531
4197,1120,人口性比,100,総数,47000,沖縄県,2010000000,2010年,,96.3125625449
4198,1120,人口性比,100,総数,47000,沖縄県,2015000000,2015年,,96.6625831508


In [None]:
# データの前処理
df = raw_df[
    (raw_df['表章項目']=='人口') &
    (raw_df['男女_時系列']=='総数') &
    (~raw_df['地域_時系列'].isin(['人口集中地区', '人口集中地区以外の地区']))
]

df = df[['時間軸（調査年）', '地域_時系列', 'value']]
df = df.assign(value=df['value'].replace('-', 0))
df = df.assign(value=df['value'].astype('int64'))
df.columns = ['year', 'area', 'value']
df

Unnamed: 0,year,area,value
0,1920年,全国,55963053
1,1925年,全国,59736822
2,1930年,全国,64450005
3,1935年,全国,69254148
4,1940年,全国,73114308
...,...,...,...
1045,2000年,沖縄県,1318220
1046,2005年,沖縄県,1361594
1047,2010年,沖縄県,1392818
1048,2015年,沖縄県,1433566


## 棒グラフ

比較したい項目間の数値の大小を比較するのに適したグラフ

目的：2020年の人口が多い都道府県トップ3を特定したい

縦軸：2020年の人口の値（注目している数値）

横軸：都道府県（比較したい項目）

In [None]:
viz_df = df[
    (df['area']!='全国') &
    (df['year']=='2020年')
]

fig = px.bar(viz_df, x='area', y='value')
fig.update_layout(
    title='図. 2020年の各都道府県の人口',
    xaxis=dict(title='都道府県'),
    yaxis=dict(title='人口'),
)

In [6]:
sorted_viz_df = viz_df.sort_values('value', ascending=False)

fig = px.bar(sorted_viz_df, x='area', y='value')
fig.update_layout(
    title='図. 2020年の各都道府県の人口',
    xaxis=dict(title='都道府県'),
    yaxis=dict(title='人口'),
)

### 時系列データ

目的：全国の人口の推移を観察したい

縦軸：全国の人口の値（注目している数値）

横軸：調査年（比較したい項目）

In [7]:
viz_df = df[df['area']=='全国']

fig = px.bar(viz_df, x='year', y='value')
fig.update_layout(
    title='図. 調査年ごとの人口',
    xaxis=dict(title='調査年'),
    yaxis=dict(title='人口'),
)

棒グラフは「注目している数値」と「比較したい項目」を決めることで、「横断面データ」（一時点データ）と「時系列データ」のどちらにも対応できる可視化手法

## 折れ線グラフ

「注目している数値」が時間経過で変化する様子を可視化するのに適したグラフ

In [8]:
viz_df = df[df['area']=='全国']

fig = px.line(viz_df, x='year', y='value')
fig.update_layout(
    title='図. 全国人口の推移',
    xaxis=dict(title='調査年'),
    yaxis=dict(title='人口'),
)

In [9]:
check_df = df[df['year']=='1945年']
check_df

Unnamed: 0,year,area,value
5,1945年,全国,71998104
68,1945年,北海道,3518389
89,1945年,青森県,1083250
110,1945年,岩手県,1227789
131,1945年,宮城県,1462254
152,1945年,秋田県,1211871
173,1945年,山形県,1326350
194,1945年,福島県,1957356
215,1945年,茨城県,1944344
236,1945年,栃木県,1546355


### 棒グラフと折れ線グラフの使い分け

目的：四国4県の人口の推移を観察したい

縦軸：人口（注目している数値）

横軸：調査年（比較したい項目）

色：四国4県（比較したい項目）

In [10]:
viz_df = df[df['area'].isin(['香川県', '愛媛県', '高知県', '徳島県'])]
fig = px.bar(viz_df, x='year', y='value', color='area', barmode='group')
fig.update_layout(
    title='図. 四国4県の人口推移',
    xaxis=dict(title='都道府県'),
    yaxis=dict(title='人口'),
)

In [11]:
fig = px.line(viz_df, x='year', y='value', color='area')
fig.update_layout(
    title='図. 四国4県の人口推移',
    xaxis=dict(title='都道府県'),
    yaxis=dict(title='人口'),
)

時系列データを複数の項目で比較したい場合は、折れ線グラフを採用する

## 傾向線（回帰直線）

In [None]:
# 線形回帰を実施するためのライブラリ
from scipy.stats import linregress

viz_df = df[df['area']=='全国']
fig = px.line(viz_df, x='year', y='value')
slope, intercept, _, _, _ = linregress(viz_df.index, viz_df['value'])

# 最小二乗法による傾向線
a = slope
b = intercept
trendline = b + a * viz_df.index

fig.add_scatter(x=viz_df['year'], y=trendline, mode='lines', name='trendline')

fig.update_layout(
    title='図. 全国人口の推移（傾向線あり）',
    xaxis=dict(title='調査年'),
    yaxis=dict(title='人口'),
)