
# 小地域の収入推定

```Data```フォルダには、小地域の収入データ(```income_district.csv```)と国勢調査の小地域集計データが格納されています。

国勢調査の小地域集計データ（人口構成、労働力構成、住宅形態など）から、その地域の収入を推定することが考えられます。推定のための機械学習・深層学習モデルを構築しなさい。


- データを観察・理解する上で、データの構造を説明しながら、適切なデータ整形を行いなさい
- データ構造や分析結果に対して、少なくとも二つの図で可視化を行いなさい
- モデルの精度を評価し、できるだけ精度が高いモデルを得るよう、適切な特徴量エンジニアリングやモデル選定の考えもまとめなさい


In [156]:
#各小地域集計データを見ると、各地域にdistrict_idとdistrict2_idが付与されている。これに対し、今回の正解ラベルであるincome_district_idではincome_district2_idがない。
#つまり、2_idではなく_id単位ごとで集計する必要がある。ここで、小地域の各データには、地域ごとのデータをまとめた行（2_idの欠損した行）がある。これを活用する。

#また、各データには欠損値が含まれているので、その対処も必要である。

#それらの対処をしたうえで、すべてのデータファイルの列を独立変数としてそれぞれ単回帰させ適合度を出す。その中で高いものを最終的なモデルに組み込む


In [157]:
#インポートを済ませる
from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
import numpy as np

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [158]:
#データの読み込み
df_age=pd.read_csv("Data\h27_age_df.csv")
df_family=pd.read_csv("Data\h27_family_df.csv")
df_gender=pd.read_csv("Data\h27_gender_df2.csv")
df_house=pd.read_csv("Data\h27_house_df.csv")
df_house_info=pd.read_csv("Data\h27_house_info_df.csv")
df_industry=pd.read_csv("Data\h27_indusry_df.csv")
df_job=pd.read_csv("Data\h27_job_df.csv")
df_labor=pd.read_csv("Data\h27_labor_df.csv")
df_marriage=pd.read_csv("Data\h27_marriage_df.csv")
df_work_status=pd.read_csv("Data\h27_work_status_df.csv")
df_income_district=pd.read_csv("Data\income_district.csv")

In [159]:
#小地域の合計値の行だけ抽出する=district2_idの列が欠損している行だけを抽出
#しかし、抽出後のデータの行数が小地域各データとincome_districtで一致しない（それぞれ約1800と約1200）しかし、あとで合成したいので一致させる必要がある
#よって、正解データがないものを削除する（＝income_districtのarea_codeにないdistrict_idを削除する）

#前準備として、income_districtの列名area_codeをdistrict_idに変更
df_income_district.rename(columns={'area_code':'district_id'},inplace=True)

#age
#小地域の合計値の行だけ抽出する
df_age_2=df_age[df_age['district2_id'].isna()]
#正解データがない行を削除
df_age_2=df_age_2[df_age_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_age_2.to_csv('h27_age_2.csv',index=False)

#familiy
#小地域の合計値の行だけ抽出する
df_familiy_2=df_family[df_family['district2_id'].isna()]
#正解データがない行を削除
df_familiy_2=df_familiy_2[df_familiy_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_familiy_2.to_csv('h27_familiy_2.csv',index=False)

#gender
#小地域の合計値の行だけ抽出する
df_gender_2=df_gender[df_gender['district2_id'].isna()]
#正解データがない行を削除
df_gender_2=df_gender_2[df_gender_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_gender_2.to_csv('h27_gender_2.csv',index=False)

#house
#小地域の合計値の行だけ抽出する
df_house_2=df_house[df_house['district2_id'].isna()]
#正解データがない行を削除
df_house_2=df_house_2[df_house_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_house_2.to_csv('h27_house_2.csv',index=False)

#house_info
#小地域の合計値の行だけ抽出する
df_house_info_2=df_house_info[df_house_info['district2_id'].isna()]
#正解データがない行を削除
df_house_info_2=df_house_info_2[df_house_info_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_house_info_2.to_csv('h27_house_info_2.csv',index=False)

#industry
#小地域の合計値の行だけ抽出する
df_industry_2=df_industry[df_industry['district2_id'].isna()]
#正解データがない行を削除
df_industry_2=df_industry_2[df_industry_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_industry_2.to_csv('h27_industry_2.csv',index=False)

#job
#小地域の合計値の行だけ抽出する
df_job_2=df_job[df_job['district2_id'].isna()]
#正解データがない行を削除
df_job_2=df_job_2[df_job_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_job_2.to_csv('h27_job_2.csv',index=False)

#labor
#小地域の合計値の行だけ抽出する
df_labor_2=df_labor[df_labor['district2_id'].isna()]
#正解データがない行を削除
df_labor_2=df_labor_2[df_labor_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_labor_2.to_csv('h27_labor_2.csv',index=False)

#marriage
#小地域の合計値の行だけ抽出する
df_marriage_2=df_marriage[df_marriage['district2_id'].isna()]
#正解データがない行を削除
df_marriage_2=df_marriage_2[df_marriage_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_marriage_2.to_csv('h27_marriage_2.csv',index=False)

#work_status
#小地域の合計値の行だけ抽出する
df_work_status_2=df_work_status[df_work_status['district2_id'].isna()]
#正解データがない行を削除
df_work_status_2=df_work_status_2[df_work_status_2['district_id'].isin(df_income_district['district_id'])]
#csvとして保存
df_work_status_2.to_csv('h27_work_status_2.csv',index=False)

In [160]:
#income_districtにあるデータのうち、７つは小地域の各データにないものがあるので、これを削除し、データ数を一致させる(小地域の各データ数は一致している)
df_income_district_2=df_income_district[df_income_district['district_id'].isin(df_age_2['district_id'])]
#csvとして保存
df_income_district_2.to_csv('income_district_2.csv',index=False)

In [161]:
#欠損値の確認、各列の欠損値の数を表示
#income_district
print("欠損値の確認:")
print(df_income_district_2.isnull().sum()) 

#age
print("欠損値の確認:")
print(df_age_2.isnull().sum())

#familiy
print("欠損値の確認:")
print(df_familiy_2.isnull().sum()) 

#gender
print("欠損値の確認:")
print(df_gender_2.isnull().sum()) 

#house
print("欠損値の確認:")
print(df_house_2.isnull().sum()) 

#house_info
print("欠損値の確認:")
print(df_house_info_2.isnull().sum()) 

#industry
print("欠損値の確認:")
print(df_industry_2.isnull().sum()) 

#job
print("欠損値の確認:")
print(df_job_2.isnull().sum()) 

#labor
print("欠損値の確認:")
print(df_labor_2.isnull().sum()) 

#marriage
print("欠損値の確認:")
print(df_marriage_2.isnull().sum()) 

#work_status
print("欠損値の確認:")
print(df_work_status_2.isnull().sum()) 


欠損値の確認:
district_id    0
income_mean    0
dtype: int64
欠損値の確認:
district_id            0
district2_id        1238
level_identifier       0
state_name             0
city_name              0
                    ... 
80-84_female           0
85-89_female           0
90-94_female           0
95-99_female           0
100_female             0
Length: 68, dtype: int64
欠損値の確認:
district_id                0
district2_id            1238
level_identifier           0
state_name                 0
city_name                  0
district_name           1238
district2_name          1238
family_count               0
family_member_count        0
general_family_count       0
member_1                   0
member_2                   0
member_3                   0
member_4                   0
member_5                   0
member_6                   0
member_7                   0
dtype: int64
欠損値の確認:
district_id             0
district2_id         1238
level_identifier        0
state_name              0
city_name  

In [179]:
#結果として、_2に成形したデータフォルダのうち、各小地域データのdistrict2_idを除くと、ageデータの「100_female」でのみ欠損値(-)が見られた
#そこで、-をNaNに置き換えたうえで中央値を入れて置き換えることとする
#-をNaN に置き換える
df_age_2.iloc[:,-1].replace('-',np.nan,inplace=True) 
#列を数値型へ
df_age_2.iloc[:,-1]=pd.to_numeric(df_age_2.iloc[:, -1],errors='coerce')
#NaNを中央値で置き換え
median_value=df_age_2.iloc[:,-1].median()
df_age_2.iloc[:,-1].fillna(median_value,inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_age_2.iloc[:,-1].replace('-',np.nan,inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_age_2.iloc[:,-1].fillna(median_value,inplace=True)


In [194]:
#ここからは、各データフォルダ内の各変数で単回帰分析と行い、各モデルでの適合度を見る

#線形回帰モデルの導入とモデルの予測精度を評価する関数の導入
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
#小数表記になるように
pd.set_option('display.float_format', '{:.10f}'.format)

#結果の保存先(全ての変数で共通の格納先)
results=[]

#age
#income_disrtictから平均収入のデータを合体
df_merged_age=pd.merge(df_age_2,df_income_district,on="district_id")
df_merged_age.to_csv('merged_age.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_age.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_age.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_age.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_age.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_age=pd.DataFrame(results)
print(df_results_age)

    Feature Index  Feature Name  Mean Squared Error
0               7         10-14     3672.5631837564
1               8         15-19     3690.6577668957
2               9         20-24     3621.5434541663
3              10         25-29     3587.3254537394
4              11         30-34     3569.7930611645
..            ...           ...                 ...
57             64  85-89_female     3870.4474627780
58             65  90-94_female     3879.4243544419
59             66  95-99_female     3871.7235943244
60             67    100_female     3882.5275901640
61             68   income_mean        0.0000000000

[62 rows x 3 columns]


In [195]:
#familiy
#income_disrtictから平均収入のデータを合体
df_merged_familiy=pd.merge(df_familiy_2,df_income_district,on="district_id")
df_merged_familiy.to_csv('merged_familiy.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_familiy.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_familiy.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_familiy.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_familiy.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_familiy=pd.DataFrame(results)
print(df_results_familiy)

    Feature Index Feature Name  Mean Squared Error
0               7        10-14     3672.5631837564
1               8        15-19     3690.6577668957
2               9        20-24     3621.5434541663
3              10        25-29     3587.3254537394
4              11        30-34     3569.7930611645
..            ...          ...                 ...
68             13     member_4     3470.0176997684
69             14     member_5     3542.6818127332
70             15     member_6     3539.0545937558
71             16     member_7     3614.8750063988
72             17  income_mean        0.0000000000

[73 rows x 3 columns]


In [196]:
#gender
#income_disrtictから平均収入のデータを合体
df_merged_gender=pd.merge(df_gender_2,df_income_district,on="district_id")
df_merged_gender.to_csv('merged_familiy.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_gender.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_gender.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_gender.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_gender.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_gender=pd.DataFrame(results)
print(df_results_gender)

    Feature Index       Feature Name  Mean Squared Error
0               7              10-14     3672.5631837564
1               8              15-19     3690.6577668957
2               9              20-24     3621.5434541663
3              10              25-29     3587.3254537394
4              11              30-34     3569.7930611645
..            ...                ...                 ...
73              7         population     3788.0185695444
74              8    male_population     3766.2447679566
75              9  female_population     3808.1456197764
76             10       family_count     3804.4114959575
77             11        income_mean        0.0000000000

[78 rows x 3 columns]


In [198]:
#house
#income_disrtictから平均収入のデータを合体
df_merged_house=pd.merge(df_house_2,df_income_district,on="district_id")
df_merged_house.to_csv('merged_house.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_house.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_house.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_house.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_house.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_house=pd.DataFrame(results)
print(df_results_house)

     Feature Index             Feature Name  Mean Squared Error
0                7                    10-14     3672.5631837564
1                8                    15-19     3690.6577668957
2                9                    20-24     3621.5434541663
3               10                    25-29     3587.3254537394
4               11                    30-34     3569.7930611645
..             ...                      ...                 ...
101             16  private_rent_individual     3757.1124430510
102             17   salary_rent_individual     3596.7012276805
103             18     room_rent_individual     3825.1086690950
104             19   other_house_individual     3637.9725017219
105             20              income_mean        0.0000000000

[106 rows x 3 columns]


In [199]:
#house_info
#income_disrtictから平均収入のデータを合体
df_merged_house_info=pd.merge(df_house_info_2,df_income_district,on="district_id")
df_merged_house_info.to_csv('merged_house_info.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_house_info.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_house_info.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_house_info.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_house_info.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_house_info=pd.DataFrame(results)
print(df_results_house_info)

     Feature Index          Feature Name  Mean Squared Error
0                7                 10-14     3672.5631837564
1                8                 15-19     3690.6577668957
2                9                 20-24     3621.5434541663
3               10                 25-29     3587.3254537394
4               11                 30-34     3569.7930611645
..             ...                   ...                 ...
116             17   1-2floor_individual     3624.3043710459
117             18   3-5floor_individual     3514.0289815009
118             19  6-10floor_individual     3468.0534114009
119             20    11floor_individual     3508.9136206999
120             21           income_mean        0.0000000000

[121 rows x 3 columns]


In [200]:
#industry
#income_disrtictから平均収入のデータを合体
df_merged_industry=pd.merge(df_industry_2,df_income_district,on="district_id")
df_merged_industry.to_csv('merged_industry.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_industry.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_industry.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_industry.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_industry.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_industry=pd.DataFrame(results)
print(df_results_industry)

     Feature Index              Feature Name  Mean Squared Error
0                7                     10-14     3672.5631837564
1                8                     15-19     3690.6577668957
2                9                     20-24     3621.5434541663
3               10                     25-29     3587.3254537394
4               11                     30-34     3569.7930611645
..             ...                       ...                 ...
159             45          Q_service_female     3927.0680425709
160             46    R_other_service_female     3877.6029990729
161             47  S_public_services_female     3844.6938574251
162             48            T_other_female     3906.9478098675
163             49               income_mean        0.0000000000

[164 rows x 3 columns]


In [201]:
#job
#income_disrtictから平均収入のデータを合体
df_merged_job=pd.merge(df_job_2,df_income_district,on="district_id")
df_merged_job.to_csv('merged_job.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_job.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_job.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_job.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_job.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_job=pd.DataFrame(results)
print(df_results_job)

     Feature Index                   Feature Name  Mean Squared Error
0                7                          10-14     3672.5631837564
1                8                          15-19     3690.6577668957
2                9                          20-24     3621.5434541663
3               10                          25-29     3587.3254537394
4               11                          30-34     3569.7930611645
..             ...                            ...                 ...
184             27     I_transport_workers_female     3567.9377033845
185             28  J_construction_workers_female     3665.1808705081
186             29      K_cleaning_workers_female     3657.1962869536
187             30          L_other_wokers_female     3727.8453572439
188             31                    income_mean        0.0000000000

[189 rows x 3 columns]


In [202]:
#labor
#income_disrtictから平均収入のデータを合体
df_merged_labor=pd.merge(df_labor_2,df_income_district,on="district_id")
df_merged_labor.to_csv('merged_labor.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_labor.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_labor.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_labor.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_labor.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_labor=pd.DataFrame(results)
print(df_results_labor)

     Feature Index     Feature Name  Mean Squared Error
0                7            10-14     3672.5631837564
1                8            15-19     3690.6577668957
2                9            20-24     3621.5434541663
3               10            25-29     3587.3254537394
4               11            30-34     3569.7930611645
..             ...              ...                 ...
189              7       labor_male     3864.6266987301
190              8    no_labor_male     4033.3395801716
191              9     labor_female     3915.9042778366
192             10  no_labor_female     3999.1723567193
193             11      income_mean        0.0000000000

[194 rows x 3 columns]


In [203]:
#marriage
#income_disrtictから平均収入のデータを合体
df_merged_marriage=pd.merge(df_marriage_2,df_income_district,on="district_id")
df_merged_marriage.to_csv('merged_marriage.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_marriage.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_marriage.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_marriage.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_marriage.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_marriage=pd.DataFrame(results)
print(df_results_marriage)

     Feature Index      Feature Name  Mean Squared Error
0                7             10-14     3672.5631837564
1                8             15-19     3690.6577668957
2                9             20-24     3621.5434541663
3               10             25-29     3587.3254537394
4               11             30-34     3569.7930611645
..             ...               ...                 ...
199             12     divorced_male     4103.6496553290
200             13  unmarried_female     3930.6474266834
201             14    married_female     3860.8643636187
202             15   divorced_female     4132.9523774832
203             16       income_mean        0.0000000000

[204 rows x 3 columns]


In [204]:
#work_status
#income_disrtictから平均収入のデータを合体
df_merged_work_status=pd.merge(df_work_status_2,df_income_district,on="district_id")
df_merged_work_status.to_csv('merged_work_status.csv',index=False)

#列数を入手
howmany_columns=list(range(df_merged_work_status.shape[1]-7))
#各列の変数で線形回帰を実行
for i in howmany_columns:  
    X=df_merged_work_status.iloc[:,i+7:i+8] #各変数は共通して8列目から
    Y=df_merged_work_status.iloc[:,-1]#平均年収は列の中で最後
    X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.30,random_state=1) 
    #学習用と評価用にデータ分けたことで生じたNaNを、中央値で置き換え
    all_data=pd.concat([X_train, X_test])
    #数値型に
    all_data=all_data.apply(pd.to_numeric, errors='coerce')
    all_data.fillna(all_data.median(), inplace=True)
    X_train=all_data.loc[X_train.index]
    X_test=all_data.loc[X_test.index]
    model=LinearRegression()#線形回帰モデル
    model.fit(X_train,Y_train)#モデルを訓練データへ
    Y_predicted_i=model.predict(X_test)#テストデータで予測
    mse=mean_squared_error(Y_test,Y_predicted_i)#予測精度（平均二乗誤差）の評価
    results.append({'Feature Index': i+7,'Feature Name': df_merged_work_status.columns[i+7], 'Mean Squared Error':mse}) #結果を格納
#結果をデータフレームに変換して表示
df_results_work_status=pd.DataFrame(results)
print(df_results_work_status)

     Feature Index           Feature Name  Mean Squared Error
0                7                  10-14     3672.5631837564
1                8                  15-19     3690.6577668957
2                9                  20-24     3621.5434541663
3               10                  25-29     3587.3254537394
4               11                  30-34     3569.7930611645
..             ...                    ...                 ...
208             11        employer_female     3725.0036634954
209             12   self_employed_female     3822.5174639782
210             13     family_work_female     4009.7459778715
211             14  unkonwn_status_female     3896.2203294978
212             15            income_mean        0.0000000000

[213 rows x 3 columns]


In [211]:
#resultsの結果について、残差が小さい＝目的変数である平均年収の分散を説明できている
#昇順に並べることで、どの変数が説明できているかを見る

#小数表記になるように
pd.set_option('display.float_format', '{:.10f}'.format)

sorted_results=sorted(results,key=lambda x: x['Mean Squared Error'])
sorted_results=pd.DataFrame(sorted_results)
sorted_results.to_csv('sorted_results.csv',index=False)

#結果として、小さい順の上位10個は上から順に
#B_professional_workers_male,3279.7497184521203
#C_office_workers_male,3321.0251787642287
#E_manufacturing_male,3394.6784030606905
#share_house_individual,3406.278333377843
#share_house_family,3432.1089608170587
#A_administrative_male,3460.8821915507865
#6-10floor_individual,3468.053411400885
#member_4,3470.0176997684252
#D_sales_workers_male,3482.8913441418404
#G_information_male,3495.1103437601537

#このことから、職業や住居形態、また世帯人数が平均年収の分散をより説明する傾向が読み取れる
