<a href="https://colab.research.google.com/github/umedadada/nikkei_software_202407/blob/master/2024_nikkei_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ライブラリの読み込み
import pandas as pd #データを取り扱うためのライブラリ
import plotly.express as px #データを可視化するためのライブラリ

In [None]:
# データの読み込み
raw_df=pd.read_csv('./FEH_00200521_240311192951.csv',encoding="shift-jis")
# データのカラム確認
raw_df.info()
# データの表示
raw_df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4200 entries, 0 to 4199
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   tab_code    4200 non-null   int64 
 1   表章項目        4200 non-null   object
 2   cat01_code  4200 non-null   int64 
 3   男女_時系列      4200 non-null   object
 4   area_code   4200 non-null   int64 
 5   地域_時系列      4200 non-null   object
 6   time_code   4200 non-null   int64 
 7   時間軸（調査年）    4200 non-null   object
 8   unit        3150 non-null   object
 9   value       4200 non-null   object
dtypes: int64(4), object(6)
memory usage: 328.2+ KB


Unnamed: 0,tab_code,表章項目,cat01_code,男女_時系列,area_code,地域_時系列,time_code,時間軸（調査年）,unit,value
0,20,人口,100,総数,0,全国,1920000000,1920年,人,55963053
1,20,人口,100,総数,0,全国,1925000000,1925年,人,59736822
2,20,人口,100,総数,0,全国,1930000000,1930年,人,64450005
3,20,人口,100,総数,0,全国,1935000000,1935年,人,69254148
4,20,人口,100,総数,0,全国,1940000000,1940年,人,73114308
...,...,...,...,...,...,...,...,...,...,...
4195,1120,人口性比,100,総数,47000,沖縄県,2000000000,2000年,,96.6485813978
4196,1120,人口性比,100,総数,47000,沖縄県,2005000000,2005年,,96.4521304531
4197,1120,人口性比,100,総数,47000,沖縄県,2010000000,2010年,,96.3125625449
4198,1120,人口性比,100,総数,47000,沖縄県,2015000000,2015年,,96.6625831508


In [None]:
# データの前処理
df = raw_df[(raw_df['表章項目']=='人口') & #指標を人口に絞る
            (raw_df['男女_時系列']=='総数') & #男女の区別をせず、「総数」を抽出する
            (~raw_df['地域_時系列'].isin(['人口集中地区', '人口集中地区以外の地区']))] #全国と各都道府県のデータのみを抽出する
df = df[['時間軸（調査年）','地域_時系列','value']] #カラムを絞る
df.columns = ['year','area','value'] #カラム名を変更する
df = df.assign(value=df['value'].replace('-',0))# 数値以外の値を除去
df = df.assign(value = df['value'].astype('int64')) #数値カラムの型変換をする
df

Unnamed: 0,year,area,value
0,1920年,全国,55963053
1,1925年,全国,59736822
2,1930年,全国,64450005
3,1935年,全国,69254148
4,1940年,全国,73114308
...,...,...,...
1045,2000年,沖縄県,1318220
1046,2005年,沖縄県,1361594
1047,2010年,沖縄県,1392818
1048,2015年,沖縄県,1433566


In [None]:
# 可視化のためのデータ加工
## 条件の絞り込み
viz_df = df[(df['area']!='全国')&
            (df['year']=='2020年')]
## 軸の名前を明示的に指定して可視化
fig=px.bar(viz_df, x='area', y='value')
fig.update_layout(
    title='図. 2020年の各都道府県の人口',
    xaxis=dict(title='都道府県'),
    yaxis=dict(title='人口'))

In [None]:
## ソート
sorted_viz_df = viz_df.sort_values(by='value',ascending=False)
## 軸の名前を明示的に指定して可視化
fig=px.bar(sorted_viz_df, x='area', y='value')
fig.update_layout(
    title='図. 2020年の各都道府県の人口',
    xaxis=dict(title='都道府県'),
    yaxis=dict(title='人口'))

In [None]:
## 条件の絞り込み
viz_df = df[df['area']=='全国']

## 軸の名前を明示的に指定して可視化
fig=px.bar(viz_df, x='year', y='value')
fig.update_layout(
    title='図. 調査年ごとの人口',
    xaxis=dict(title='調査年'),
    yaxis=dict(title='人口'))

In [None]:
# 可視化のためのデータ加工
## 条件の絞り込み
viz_df = df[df['area']=='全国']

## 軸の名前を明示的に指定して可視化
fig=px.line(viz_df, x='year', y='value')
fig.update_layout(
    title='図. 全国人口の推移',
    xaxis=dict(title='調査年'),
    yaxis=dict(title='人口'))

In [None]:
## 条件の絞り込み
check_df = df[df['year']=='1945年']
check_df

Unnamed: 0,year,area,value
5,1945年,全国,71998104
68,1945年,北海道,3518389
89,1945年,青森県,1083250
110,1945年,岩手県,1227789
131,1945年,宮城県,1462254
152,1945年,秋田県,1211871
173,1945年,山形県,1326350
194,1945年,福島県,1957356
215,1945年,茨城県,1944344
236,1945年,栃木県,1546355


In [None]:
# 可視化のためのデータ加工
## 条件の絞り込み
viz_df = df[df['area'].isin(['香川県','愛媛県','徳島県','高知県'])]

## 軸の名前を明示的に指定して可視化
fig=px.bar(viz_df, x='year', y='value', color='area',barmode='group')
fig.update_layout(
      title='図. 四国4県の人口推移',
      xaxis=dict(title='調査年'),
      yaxis=dict(title='人口'))

In [None]:
## 軸の名前を明示的に指定して可視化
fig=px.line(viz_df, x='year', y='value', color='area')
fig.update_layout(
    title='図. 四国4県の人口推移',
    xaxis=dict(title='調査年'),
    yaxis=dict(title='人口'))

In [None]:
#線形回帰を実施するためのライブラリ
from scipy.stats import linregress

# 可視化のためのデータ加工
viz_df = df[df['area']=='全国'] #条件の絞り込み

# 折れ線グラフを作成
fig = px.line(viz_df, x='year', y='value')

# 傾向線のために線形回帰を行う
slope, intercept, _, _, _ = linregress(viz_df.index, viz_df['value']) #回帰係数と切片を求める
a = slope #回帰係数
b = intercept #切片
trendline = b + a * viz_df.index #傾向線を定義する

# 傾向線を手動で追加
fig.add_scatter(x=viz_df['year'], y=trendline, mode='lines', name='Trendline')

fig.update_layout(
      title='図. 全国人口の推移（傾向線を添えて）',
      xaxis=dict(title='調査年'),
      yaxis=dict(title='人口'))

In [None]:
# #行の表示数の上限を撤廃
# pd.set_option('display.max_rows', None)
# #列の表示数の上限を撤廃
# pd.set_option('display.max_columns', None)

In [None]:
# fig = px.scatter(viz_df,x='year',y='value',trendline='ols',trendline_color_override='darkblue')
# fig.update_layout(
#       title='図. 全国人口の推移（傾向線を添えて）',
#       xaxis=dict(title='調査年'),
#       yaxis=dict(title='人口'))