# Preparing Clean Municipality Names for Elementary School Enrollment Analysis
## This notebook cleans and formats municipality name data from Japanese elementary school statistics by removing leading ID numbers and combining prefecture and municipality names. The cleaned data can then be used for regional analysis of school enrollment trends.

## Data of 2013

In [1]:
import pandas as pd

# CSVファイルなどからデータを読み込む
df = pd.read_csv("/Users/yuta-uebayashi/Desktop/Lede課題一覧/Lede個人プロジェクト/project3/school_data/elementary_students_by_municipality_2013.csv")

# 「市区町村」列の先頭の数字とスペースを削除
df["市区町村名（数字を除去）"] = df["市区町村"].str.replace(r'^\d+\s*', '', regex=True)

# 結果を表示
print(df[["市区町村", "市区町村名（数字を除去）"]].head())

         市区町村 市区町村名（数字を除去）
0  101 札幌市中央区       札幌市中央区
1   102 札幌市北区        札幌市北区
2   103 札幌市東区        札幌市東区
3  104 札幌市白石区       札幌市白石区
4  105 札幌市豊平区       札幌市豊平区


In [2]:
# 「都道府県」列と「市区町村（フル）」列を結合して「都道府県＋市区町村」列を作成
df["市区町村名（フル）"] = df["都道府県"] + df["市区町村名（数字を除去）"]

# 結果を確認
print(df.head())

  都道府県        市区町村      人数 市区町村名（数字を除去）  市区町村名（フル）
0  北海道  101 札幌市中央区   9,265       札幌市中央区  北海道札幌市中央区
1  北海道   102 札幌市北区  14,470        札幌市北区   北海道札幌市北区
2  北海道   103 札幌市東区  12,035        札幌市東区   北海道札幌市東区
3  北海道  104 札幌市白石区   8,874       札幌市白石区  北海道札幌市白石区
4  北海道  105 札幌市豊平区   9,616       札幌市豊平区  北海道札幌市豊平区


In [3]:
# 「人数」のカンマを削ってint型に。欠損値は0として扱う
df["人数"] = (
    df["人数"]
    .str.replace(',', '', regex=False)
    .replace('-', '0')
    .astype(int)
)

In [4]:
print(df.dtypes)

都道府県            object
市区町村            object
人数               int64
市区町村名（数字を除去）    object
市区町村名（フル）       object
dtype: object


In [5]:
# 不要な列を除いて保存
df_cleaned = df[["都道府県", "市区町村名（フル）", "人数"]]

# CSVに保存
df_cleaned.to_csv("elementary_student_by_municipality_2013.csv", index=False, encoding='utf-8-sig')

## Data of 2023

In [19]:
# CSVファイルなどからデータを読み込む
df = pd.read_csv("/Users/yuta-uebayashi/Desktop/Lede課題一覧/Lede個人プロジェクト/project3/school_data/elementary_students_by_municipality_2023.csv")
df.head()

Unnamed: 0,都道府県,市区町村,市区町村名（フル）,人数
0,北海道,札幌市中央区,,9726
1,北海道,札幌市北区,,14474
2,北海道,札幌市東区,,11687
3,北海道,札幌市白石区,,8559
4,北海道,札幌市豊平区,,9735


In [20]:
# 「都道府県」列と「市区町村（フル）」列を結合して「都道府県＋市区町村」列を作成
df["市区町村名"] = df["都道府県"] + df["市区町村"]

# 結果を確認
print(df.head())

  都道府県    市区町村  市区町村名（フル）     人数      市区町村名
0  北海道  札幌市中央区        NaN   9726  北海道札幌市中央区
1  北海道   札幌市北区        NaN  14474   北海道札幌市北区
2  北海道   札幌市東区        NaN  11687   北海道札幌市東区
3  北海道  札幌市白石区        NaN   8559  北海道札幌市白石区
4  北海道  札幌市豊平区        NaN   9735  北海道札幌市豊平区


In [21]:
# 「人数」列を数値に変換（文字列から整数へ）
df["人数"] = pd.to_numeric(df["人数"], errors='coerce')

In [22]:
print(df.dtypes)

都道府県          object
市区町村          object
市区町村名（フル）    float64
人数           float64
市区町村名         object
dtype: object


In [23]:
# 不要な列を除いて保存
df_cleaned = df[["市区町村名",  "人数"]]

# CSVに保存
df_cleaned.to_csv("elementary_student_by_municipality_2023.csv", index=False, encoding='utf-8-sig')