In [1]:
# 読み込み
import pandas as pd
df_all = pd.read_csv("population_data.csv")

In [2]:
# 列名の確認
df_all.columns.tolist()

['時間軸（年次）',
 '全国，都道府県，市区町村（2000年市区町村含む） コード',
 '全国，都道府県，市区町村（2000年市区町村含む）',
 '総数',
 '男',
 '女']

In [3]:
# 使いやすい列名に変更
df_all = df_all.rename(columns={
    "時間軸（年次）": "year",
    "全国，都道府県，市区町村（2000年市区町村含む） コード": "code",
    "全国，都道府県，市区町村（2000年市区町村含む）": "area_name"
})

df_all.columns.tolist()

['year', 'code', 'area_name', '総数', '男', '女']

In [4]:
# 東京都全体、特別区部を除外する
df_tokyo = df_all[
    df_all["code"].str.startswith("13") &
    (df_all["code"] != "13000") &
    (df_all["code"] != "13100")
].copy()

# 数値型に変換
df_tokyo["総数"] = df_tokyo["総数"].astype(int)
df_tokyo["男"] = df_tokyo["男"].astype(int)
df_tokyo["女"] = df_tokyo["女"].astype(int)

# データの形状を確認
print(df_tokyo.shape)
df_tokyo.head()

(64, 6)


Unnamed: 0,year,code,area_name,総数,男,女
1213,2020年,13101,千代田区,66680,33637,33043
1214,2020年,13102,中央区,169179,80931,88248
1215,2020年,13103,港区,260486,123410,137076
1216,2020年,13104,新宿区,349385,174822,174563
1217,2020年,13105,文京区,240069,115483,124586


In [5]:
# 人口が多い街、少ない街を抽出
df_pop_ranking = df_tokyo.sort_values("総数", ascending=False)
df_pop_least = df_tokyo.sort_values("総数", ascending=True)

print("【東京全体：人口が多い街 TOP5】")
print(df_pop_ranking[["area_name", "総数"]].head())
print("")
print("【東京全体：人口が少ない街 TOP5】")
print(df_pop_least[["area_name", "総数"]].head())

【東京全体：人口が多い街 TOP5】
     area_name      総数
1224      世田谷区  943664
1232       練馬区  752608
1223       大田区  748081
1235      江戸川区  697932
1233       足立区  695043

【東京全体：人口が少ない街 TOP5】
     area_name    総数
1275      青ヶ島村   169
1273      御蔵島村   323
1269       利島村   327
1271      神津島村  1855
1266       檜原村  2003


In [6]:
# 昼夜人口のデータを読み込む
df_chuya = pd.read_csv("day_night.csv", skiprows=14)

In [7]:
df_chuya

Unnamed: 0,時間軸（年次） コード,時間軸（年次） 補助コード,時間軸（年次）,全国，都道府県，市区町村 コード,全国，都道府県，市区町村 補助コード,全国，都道府県，市区町村,男女 コード,男女 補助コード,男女,年齢 コード,...,他市区町村で従業・通学,自市内他区で従業・通学,県内他市町村で従業・通学,他県で従業・通学,従業地・通学地による人口（昼間人口）,うち他市区町村に常住,自市内他区に常住,県内他市町村に常住,他県に常住,うち従業地・通学地「不詳」又は従業・通学市区町村「不詳・外国」で当地に常住している者
0,2020000000,,2020年,0,,全国,0,,総数,0,...,28072270,6334035,15765312,5455865,126146099,27555212,6334035,15765312,5455865,17930853
1,2020000000,,2020年,0,,全国,0,,総数,1,...,269330,99292,124808,40103,14955692,264203,99292,124808,40103,1242496
2,2020000000,,2020年,0,,全国,0,,総数,2,...,2335803,472846,1485196,340433,5617440,2298475,472846,1485196,340433,762209
3,2020000000,,2020年,0,,全国,0,,総数,3,...,2343686,472138,1198424,623153,5931306,2293715,472138,1198424,623153,1081074
4,2020000000,,2020年,0,,全国,0,,総数,4,...,2202895,569972,1162077,439533,6031964,2171582,569972,1162077,439533,1195671
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1230,2020000000,,2020年,13421,,小笠原村,0,,総数,14,...,-,-,-,-,76,2,-,-,2,3
1231,2020000000,,2020年,13421,,小笠原村,0,,総数,15,...,-,-,-,-,34,-,-,-,-,-
1232,2020000000,,2020年,13421,,小笠原村,0,,総数,16,...,-,-,-,-,25,-,-,-,-,-
1233,2020000000,,2020年,13421,,小笠原村,0,,総数,17,...,-,-,-,-,16,-,-,-,-,-


In [8]:
# 列名の確認
df_chuya.columns.tolist()

['時間軸（年次） コード',
 '時間軸（年次） 補助コード',
 '時間軸（年次）',
 '全国，都道府県，市区町村 コード',
 '全国，都道府県，市区町村 補助コード',
 '全国，都道府県，市区町村',
 '男女 コード',
 '男女 補助コード',
 '男女',
 '年齢 コード',
 '年齢 補助コード',
 '年齢',
 '/常住地又は従業地・通学地',
 '常住地による人口（夜間人口）',
 '従業も通学もしていない',
 '自市区町村で従業・通学',
 '自宅で従業',
 '他市区町村で従業・通学',
 '自市内他区で従業・通学',
 '県内他市町村で従業・通学',
 '他県で従業・通学',
 '従業地・通学地による人口（昼間人口）',
 'うち他市区町村に常住',
 '自市内他区に常住',
 '県内他市町村に常住',
 '他県に常住',
 'うち従業地・通学地「不詳」又は従業・通学市区町村「不詳・外国」で当地に常住している者']

In [9]:
# 分析に必要な列だけに絞る
target_cols = [
    "全国，都道府県，市区町村",
    "常住地による人口（夜間人口）",
    "従業地・通学地による人口（昼間人口）"
]
# 総数のデータを抽出
df_chuya_total = df_chuya[df_chuya["年齢"] == "総数"].copy()
df_refined = df_chuya_total[target_cols].copy()
# 列名を変更
df_refined = df_refined.rename(columns={
    "全国，都道府県，市区町村": "area_name",
    "常住地による人口（夜間人口）": "night_pop",
    "従業地・通学地による人口（昼間人口）": "day_pop"
})
# 全国、東京都全体、特別区部を除外する
exclude_list = ["全国", "東京都", "特別区部"]
# 除外したデータを削除
df_refined = df_refined[~df_refined["area_name"].isin(exclude_list)]
# インデックスをリセット
df_refined = df_refined.reset_index(drop=True)


df_refined

Unnamed: 0,area_name,night_pop,day_pop
0,千代田区,66680,903780
1,中央区,169179,633390
2,港区,260486,972673
3,新宿区,349385,793528
4,文京区,240069,353648
...,...,...,...
57,三宅村,2273,2345
58,御蔵島村,323,330
59,八丈町,7042,7133
60,青ヶ島村,169,205


In [10]:
# 数値型に変換
for col in ["night_pop", "day_pop"]:
    s = df_refined[col].astype(str)
    s = s.str.replace(",", "", regex=False)
    s = s.str.replace("+", "", regex=False)

    df_refined[col] = pd.to_numeric(s, errors="coerce")

df_refined[["night_pop", "day_pop"]].dtypes

night_pop    int64
day_pop      int64
dtype: object

In [11]:
# 昼夜人口の比率を計算
df_refined["ratio"] = ((df_refined["day_pop"] / df_refined["night_pop"]) * 100).round(1)
# 昼夜人口の比率が高い順に並べる
df_home_rank = df_refined.sort_values("ratio", ascending=False).reset_index(drop=True)

df_home_rank

Unnamed: 0,area_name,night_pop,day_pop,ratio
0,千代田区,66680,903780,1355.4
1,中央区,169179,633390,374.4
2,港区,260486,972673,373.4
3,新宿区,349385,793528,227.1
4,渋谷区,243883,551344,226.1
...,...,...,...,...
57,西東京市,207388,167697,80.9
58,稲城市,93151,74976,80.5
59,東大和市,83901,67364,80.3
60,練馬区,752608,601359,79.9


In [12]:
setagaya_data = df_home_rank[df_home_rank["area_name"] == "世田谷区"]
setagaya_data

Unnamed: 0,area_name,night_pop,day_pop,ratio
38,世田谷区,943664,854838,90.6


In [14]:
# 1. 昼間人口（day_pop）が多い順に並べ替える
df_day_rank = df_refined.sort_values("day_pop", ascending=False).reset_index(drop=True)

df_day_rank.head(10)


Unnamed: 0,area_name,night_pop,day_pop,ratio
0,港区,260486,972673,373.4
1,千代田区,66680,903780,1355.4
2,世田谷区,943664,854838,90.6
3,新宿区,349385,793528,227.1
4,大田区,748081,722027,96.5
5,江東区,524310,633813,120.9
6,中央区,169179,633390,374.4
7,足立区,695043,619375,89.1
8,練馬区,752608,601359,79.9
9,品川区,422488,582156,137.8
