
# 小地域の収入推定

```Data```フォルダには、小地域の収入データ(```income_district.csv```)と国勢調査の小地域集計データが格納されています。

国勢調査の小地域集計データ（人口構成、労働力構成、住宅形態など）から、その地域の収入を推定することが考えられます。推定のための機械学習・深層学習モデルを構築しなさい。


- データを観察・理解する上で、データの構造を説明しながら、適切なデータ整形を行いなさい
- データ構造や分析結果に対して、少なくとも二つの図で可視化を行いなさい
- モデルの精度を評価し、できるだけ精度が高いモデルを得るよう、適切な特徴量エンジニアリングやモデル選定の考えもまとめなさい


In [None]:
import pandas as pd
#CSVファイルの読み込み，中身の確認
file_paths = {
    'age': '/content/data/h27_age_df.csv',
    'family': '/content/data/h27_family_df.csv',
    'gender': '/content/data/h27_gender_df2.csv',
    'house': '/content/data/h27_house_df.csv',
    'house_info': '/content/data/h27_house_info_df.csv',
    'industory': '/content/data/h27_indusry_df.csv',
    'job': '/content/data/h27_job_df.csv',
    'labor': '/content/data/h27_labor_df.csv',
    'marriage': '/content/data/h27_marriage_df.csv',
    'work': '/content/data/h27_work_status_df.csv',
    'income': '/content/data/income_district.csv',
}

dfs = {key: pd.read_csv(path) for key, path in file_paths.items()}

for key, df in dfs.items():
    print(f"{key} DataFrame:")
    print(df.head(), "\n")


: 

In [None]:
import geopandas as gpd

#geojsonファイルの読み込み，中身の確認
gdf = gpd.read_file('/content/13-tokyo-all.geojson')

print(gdf.head())
print(gdf.crs)  

In [None]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import numpy as np


import pandas as pd
import numpy as np

# 各データフレームを読み込み
dfs = {key: pd.read_csv(path) for key, path in file_paths.items()}

# 前処理
def preprocess_age(df):
    df.replace({'-': np.nan, 'X': np.nan}, inplace=True)
    for col in df.columns[6:]: 
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0).astype(int)
    return df

def preprocess_family(df):
    df.replace({'-': np.nan, 'X': np.nan}, inplace=True)
    numeric_cols = df.columns[6:] 
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_gender(df):
    df.replace({'X': np.nan, '-': np.nan}, inplace=True)
    df['population'] = pd.to_numeric(df['population'], errors='coerce').fillna(0).astype(int)
    df['male_population'] = pd.to_numeric(df['male_population'], errors='coerce').fillna(0).astype(int)
    df['female_population'] = pd.to_numeric(df['female_population'], errors='coerce').fillna(0).astype(int)
    df['family_count'] = pd.to_numeric(df['family_count'], errors='coerce').fillna(0).astype(int)
    return df

def preprocess_house(df):
    df.replace({'-': np.nan}, inplace=True)
    numeric_cols = df.columns[6:]  
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_house_info(df):
    df.replace({'-': np.nan}, inplace=True)
    numeric_cols = df.columns[6:]  
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_industry(df):
    df.replace({'X': np.nan, '-': np.nan}, inplace=True)
    numeric_cols = df.columns[6:] 
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_job(df):
      df.replace({'X': np.nan, '-': np.nan}, inplace=True)
    numeric_cols = df.columns[6:] 
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_labor(df):
    df.replace({'-': np.nan, 'X': np.nan}, inplace=True)
    numeric_cols = df.columns[6:]  
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_marriage(df):
    df.replace({'-': np.nan, 'X': np.nan}, inplace=True)
    numeric_cols = df.columns[6:]  
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_work(df):
    df.replace({'-': np.nan}, inplace=True)
    numeric_cols = df.columns[6:]  
    df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
    return df

def preprocess_income(df):
    return df

dfs['age'] = preprocess_age(dfs['age'])
dfs['family'] = preprocess_family(dfs['family'])
dfs['gender'] = preprocess_gender(dfs['gender'])
dfs['house'] = preprocess_house(dfs['house'])
dfs['house_info'] = preprocess_house_info(dfs['house_info'])
dfs['industory'] = preprocess_industry(dfs['industory'])
dfs['job'] = preprocess_job(dfs['job'])
dfs['labor'] = preprocess_labor(dfs['labor'])
dfs['marriage'] = preprocess_marriage(dfs['marriage'])
dfs['work'] = preprocess_work(dfs['work'])
dfs['income'] = preprocess_income(dfs['income'])


In [None]:
import pandas as pd

#各データフレームの読み込み
file_paths = {
    'age': '/content/data/h27_age_df.csv',
    'family': '/content/data/h27_family_df.csv',
    'gender': '/content/data/h27_gender_df2.csv',
    'house': '/content/data/h27_house_df.csv',
    'house_info': '/content/data/h27_house_info_df.csv',
    'industory': '/content/data/h27_indusry_df.csv',
    'job': '/content/data/h27_job_df.csv',
    'labor': '/content/data/h27_labor_df.csv',
    'marriage': '/content/data/h27_marriage_df.csv',
    'work': '/content/data/h27_work_status_df.csv',
    'income': '/content/data/income_district.csv',
}

#データフレームを辞書に読み込む
dfs = {key: pd.read_csv(path) for key, path in file_paths.items()}

#incomeデータフレームを基にして他のすべてのデータフレームをマージ
final_df = dfs['income']

for key, df in dfs.items():
    if key != 'income':
        final_df = pd.merge(final_df, df, left_on='area_code', right_on='district_id', how='left')

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

#相関行列を計算
correlation_matrix = X.corr()

#ヒートマップで相関行列を可視化
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Feature Correlation Matrix')
plt.show()

In [None]:
#特徴量の分布の可視化
X.hist(bins=20, figsize=(20, 15))
plt.suptitle('Feature Distributions')
plt.show()


In [None]:
#特徴量とターゲット変数の分割
X = final_df.drop('income', axis=1)
y = final_df['income']


#欠損値処理
X = X.fillna(X.mean())

#特徴量のスケーリング
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

#モデルの作成・評価 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

#データセットの分割
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

#モデルの学習
model = LinearRegression()
model.fit(X_train, y_train)

#予測
y_pred = model.predict(X_test)

#評価
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R-squared: {r2}")

In [None]:
#そのほかのモデルを使用した場合
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

X = final_df.drop('income', axis=1)
y = final_df['income']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Random Forestの場合
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)

y_pred_rf = rf_model.predict(X_test)

rf_mse = mean_squared_error(y_test, y_pred_rf)
rf_r2 = r2_score(y_test, y_pred_rf)

print(f"Random Forest - Mean Squared Error: {rf_mse}")
print(f"Random Forest - R^2 Score: {rf_r2}")

#Gradient Boostingの場合
gb_model = GradientBoostingRegressor(random_state=42)

gb_model.fit(X_train, y_train)

y_pred_gb = gb_model.predict(X_test)

gb_mse = mean_squared_error(y_test, y_pred_gb)
gb_r2 = r2_score(y_test, y_pred_gb)

print(f"Gradient Boosting - Mean Squared Error: {gb_mse}")
print(f"Gradient Boosting - R^2 Score: {gb_r2}")


In [None]:
#今回の課題もGoogle colaboratoryで行ったが，incomeのデータを基にマージするところで，必ずクラッシュが起きてしまい，それに対応できなかった。
#そのため，それ以降のコマンドを実行できなかった。
#また，geojsonファイルを活用することができなかった(活用法がわからなかった)。
#本来であれば，いくつかの特徴量の組み合わせやモデルで試して（実行して）結果を評価し，最も適切なものを選ぶ必要があるが，今回はマージの時点で挫折してしまったため三つのモデルのコード入力にとどまった。