
# 小地域の収入推定

```Data```フォルダには、小地域の収入データ(```income_district.csv```)と国勢調査の小地域集計データが格納されています。

国勢調査の小地域集計データ（人口構成、労働力構成、住宅形態など）から、その地域の収入を推定することが考えられます。推定のための機械学習・深層学習モデルを構築しなさい。


- データを観察・理解する上で、データの構造を説明しながら、適切なデータ整形を行いなさい
- データ構造や分析結果に対して、少なくとも二つの図で可視化を行いなさい
- モデルの精度を評価し、できるだけ精度が高いモデルを得るよう、適切な特徴量エンジニアリングやモデル選定の考えもまとめなさい


In [31]:
#教師あり学習・回帰
from sklearn.linear_model import LogisticRegression
model=LogisticRegression(solver='lbfgs', multi_class='auto')
#データの準備
import pandas as pd
from sklearn.model_selection import train_test_split 
inc = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/income_district.csv")
x = inc.area_code
y = inc.income_mean

assert len(x) == len(y)

#訓練データとテストデータに分割
x_train,x_test,y_train,y_test = inc.train_test_split(x,y,test_size=0.3,stratify=y)

#モデルを訓練データに適合
model.fit(x_train,y_train)
model.classes_

#未知のラベルの予測
y_predicted=model.predict(x_test)
#予測精度の評価
from sklearn.metrics import  assuracy_score
accuracy_score(y_test, y_predicted)

#教師あり学習の可視化
import proplot as pplt
fig, ax = pplt.subplots()



AttributeError: 'DataFrame' object has no attribute 'train_test_split'

In [3]:
#教師なし学習・クラスタリング
from sklearn.cluster import KMeans
#小地域の収入データを読み込む
import pandas as pd
inc = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/income_district.csv")
#特徴量データを読み込む
age = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_age_df.csv")
fam = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_family_df.csv")
gen = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_gender_df2.csv")
hus = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_house_df.csv")
inf = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_house_info_df.csv")
ind = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_indusry_df.csv")
job = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_job_df.csv")
lab = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_labor_df.csv")
mar = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_marriage_df.csv")
sta = pd.read_csv("C:/Users/aya-u/chss_2024_assignment/最終課題/Data/h27_work_status_df.csv")

#PCAモデルのインスタンス化とデータの変換
model = KMeans(n_clusters=11)
model.fit(inc)
y_km = model.predict(inc)


Exception in thread Thread-80 (_readerthread):
Traceback (most recent call last):
  File "c:\Users\aya-u\anaconda3\Lib\threading.py", line 1045, in _bootstrap_inner
    self.run()
  File "c:\Users\aya-u\anaconda3\Lib\threading.py", line 982, in run
    self._target(*self._args, **self._kwargs)
  File "c:\Users\aya-u\anaconda3\Lib\subprocess.py", line 1597, in _readerthread
    buffer.append(fh.read())
                  ^^^^^^^^^
  File "<frozen codecs>", line 322, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x95 in position 24: invalid start byte
'NoneType' object has no attribute 'splitlines'
  File "c:\Users\aya-u\anaconda3\Lib\site-packages\joblib\externals\loky\backend\context.py", line 202, in _count_physical_cores
    cpu_info = cpu_info.stdout.splitlines()
               ^^^^^^^^^^^^^^^^^^^^^^^^^^


In [32]:
#教師なし学習の可視化
import proplot as pplt
df = pd.DataFrame(data=inc)
df['cluster'] = y_km

#クラスタごとに色分けしてプロット
fig,ax = pplt.subplots()
ax.scatter(df['area_code'], df['income_mean'], c=df['cluster'], cmap='viridis')

#ラベルとタイトルの設定
ax.set_xlabel('area_code')
ax.set_ylabel('income_mean')

#グラフの表示
fig.show()

ModuleNotFoundError: No module named 'proplot'

1：教師あり学習について
　モデルのクラス・ハイパーパラメータ等モデルの準備、データの準備、train_test_split関数での分割、テスト用モデルをデータに当てはめる、モデルで未知のラベルを予測するという手段で行おうとしたが、データの準備段階でエラーが発生してしまい、それ以降の作業に移れなかった。可視化も同様に行うことが出来なかった。
2：教師なし学習について
　KMeanSをインポートし、特徴量データを用意したらn_clustersにハイパーパラメータとしてクラスタ数を設定、fit()によりモデルをデータに適合させてpredict()によりクラスタ情報取得、proplotで可視化の流れの予定であったが、proplotのインポートの際にエラーが発生してしまい、可視化を行うことができなかった。
3：モデルの精度の評価・特徴量エンジニアリング等について
　モデルの精度に関しては、教師ありの場合も教師なしの場合も途中でエラーが発生してしまったため比較することができない。ただ、今回用意されていたファイルの種類を多く使えば使うほど精度は上がるとみられる。特に、教師あり学習において用いたファイルの種類が少なかったため、効果的であると考える。ただし、その分過学習にもなりやすくなると考えられるため、データの選定には注意を払う必要がある。今回のデータにおいては、テキストが含まれるものがあったためテキスト処理を行ったり、特徴量スケーリングを行ったりする等の特徴量エンジニアリングを行うとより精度が高くなると考えられる。