# 列名とdtypeを確認する

In [1]:
import pandas as pd
import os

# 統合データのパス
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# データの確認
print(data.head())
print(data.dtypes)

# データの行数と列数をプリントする
print(f"データの行数: {data.shape[0]}")
print(f"データの列数: {data.shape[1]}")


        ID        種類  地域  市区町村コード 都道府県名   市区町村名     地区名      最寄駅：名称 最寄駅：距離（分）  \
0  1060685  中古マンション等 NaN     1108   北海道  札幌市厚別区    大谷地東         大谷地         8   
1  1005580  中古マンション等 NaN     1101   北海道  札幌市中央区    南９条西        中島公園         5   
2  1001363  中古マンション等 NaN     1101   北海道  札幌市中央区    北３条西       西１１丁目        11   
3  1052374  中古マンション等 NaN     1108   北海道  札幌市厚別区  厚別中央２条  ひばりが丘(北海道)         5   
4  1059107  中古マンション等 NaN     1108   北海道  札幌市厚別区   厚別東４条       新さっぽろ        12   

    間取り  ... 前面道路：方位  前面道路：種類  前面道路：幅員（ｍ）    都市計画 建ぺい率（％） 容積率（％）        取引時点  \
0  ３ＬＤＫ  ...     NaN      NaN         NaN   準工業地域    60.0  200.0  2009年第４四半期   
1   １ＤＫ  ...     NaN      NaN         NaN  近隣商業地域    80.0  300.0  2018年第３四半期   
2  ３ＬＤＫ  ...     NaN      NaN         NaN  近隣商業地域    80.0  300.0  2010年第２四半期   
3  ４ＬＤＫ  ...     NaN      NaN         NaN    商業地域    80.0  400.0  2015年第３四半期   
4  ４ＬＤＫ  ...     NaN      NaN         NaN   準工業地域    60.0  200.0  2012年第４四半期   

    改装  取引の事情等  取引価格（総額）_log  
0

# //後で予測のログと比較するため特定の行をいくつか削除する//

In [4]:
import pandas as pd

# 統合データのパス
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_train_data_08_09_10_11.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# 削除したいIDのリスト
ids_to_remove = [13193748, 13005155, 13056865]

# ID列が存在するか確認し、存在する場合に削除する
if 'ID' in data.columns:
    data = data[~data['ID'].isin(ids_to_remove)]

# 新しいファイルとして保存
new_data_path = '/Users/hayakawakazue/Downloads/data/train/combined_train_data_08_09_10_11.csv'
data.to_csv(new_data_path, index=False)

# データの確認
print(data.head())


        ID        種類  地域  市区町村コード 都道府県名 市区町村名 地区名 最寄駅：名称 最寄駅：距離（分）   間取り  ...  \
0  8066142  中古マンション等 NaN     8217   茨城県   取手市  白山    西取手         5  ３ＬＤＫ  ...   
1  8053652  中古マンション等 NaN     8208   茨城県  龍ケ崎市  佐貫     佐貫         6  ３ＬＤＫ  ...   
2  8004616  中古マンション等 NaN     8202   茨城県   日立市  幸町     日立         6  ３ＬＤＫ  ...   
3  8010906  中古マンション等 NaN     8208   茨城県  龍ケ崎市  佐貫     佐貫         5   ３ＤＫ  ...   
4  8020810  中古マンション等 NaN     8220   茨城県  つくば市  竹園    つくば        16  ３ＬＤＫ  ...   

  前面道路：方位  前面道路：種類  前面道路：幅員（ｍ）          都市計画 建ぺい率（％） 容積率（％）        取引時点   改装  \
0     NaN      NaN         NaN  第２種中高層住居専用地域    60.0  200.0  2013年第４四半期  NaN   
1     NaN      NaN         NaN       第２種住居地域    60.0  200.0  2008年第３四半期  未改装   
2     NaN      NaN         NaN          商業地域    80.0  400.0  2019年第３四半期  未改装   
3     NaN      NaN         NaN       第２種住居地域    60.0  200.0  2019年第４四半期  改装済   
4     NaN      NaN         NaN  第１種中高層住居専用地域    60.0  200.0  2018年第４四半期  未改装   

   取引の事情等  取引価格（総額）_log  
0     

# 不要な列を削除する

In [5]:
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

#2. 不要な列を削除する
columns_to_drop = ['ID','種類', '地域', '都道府県名', '市区町村名', '地区名', '最寄駅：名称', '土地の形状', 
                   '間口', '延床面積（㎡）', '用途', '今後の利用目的', '前面道路：方位', '前面道路：種類', 
                   '前面道路：幅員（ｍ）', '都市計画', '改装', '取引の事情等']
data_cleaned = data.drop(columns=columns_to_drop)

print(data_cleaned.head())


   市区町村コード 最寄駅：距離（分）   間取り 面積（㎡）    建築年 建物の構造  建ぺい率（％）  容積率（％）        取引時点  \
0     1108         8  ３ＬＤＫ    80   平成7年   ＳＲＣ     60.0   200.0  2009年第４四半期   
1     1101         5   １ＤＫ    30  昭和57年   ＳＲＣ     80.0   300.0  2018年第３四半期   
2     1101        11  ３ＬＤＫ    65   平成3年   ＳＲＣ     80.0   300.0  2010年第２四半期   
3     1108         5  ４ＬＤＫ    90  平成27年    ＲＣ     80.0   400.0  2015年第３四半期   
4     1108        12  ４ＬＤＫ    80  昭和57年    ＲＣ     60.0   200.0  2012年第４四半期   

   取引価格（総額）_log  
0      7.079181  
1      6.755875  
2      7.204120  
3      7.591065  
4      6.875061  


# 重複している行の削除

In [6]:
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'
# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

#3. 重複している行の削除
before_deduplication = len(data_cleaned)
data = data.drop_duplicates()
after_deduplication = len(data_cleaned)

print(f"重複行の削除: {before_deduplication - after_deduplication} 行削除されました。")


重複行の削除: 0 行削除されました。


In [7]:
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

#4. 各列の欠損値の数を表示
print(data_cleaned.isnull().sum())


市区町村コード             0
最寄駅：距離（分）       23045
間取り             21742
面積（㎡）               0
建築年             18234
建物の構造           13928
建ぺい率（％）         22503
容積率（％）          22503
取引時点                0
取引価格（総額）_log        0
dtype: int64


# 欠損値の処理

In [8]:
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

#5. '最寄駅：距離（分）'列の欠損値を最頻値で補完
data_cleaned['最寄駅：距離（分）'].fillna(data_cleaned['最寄駅：距離（分）'].mode()[0], inplace=True)

#6. '間取り'列の欠損値を最頻値で補完
data_cleaned['間取り'].fillna(data_cleaned['間取り'].mode()[0], inplace=True)

#7. '建築年'列の欠損値を最頻値で補完
data_cleaned['建築年'].fillna(data_cleaned['建築年'].mode()[0], inplace=True)

#8. '建ぺい率（％）'列の欠損値を最頻値で補完
data_cleaned['建ぺい率（％）'].fillna(data_cleaned['建ぺい率（％）'].mode()[0], inplace=True)

#9. '容積率（％）'列の欠損値を最頻値で補完
data_cleaned['容積率（％）'].fillna(data_cleaned['容積率（％）'].mode()[0], inplace=True)

#10. '建物の構造'列の欠損値を最頻値で補完
data_cleaned['建物の構造'].fillna(data_cleaned['建物の構造'].mode()[0], inplace=True)

#11. 欠損値の確認後に再度表示
print(data_cleaned.isnull().sum())


市区町村コード         0
最寄駅：距離（分）       0
間取り             0
面積（㎡）           0
建築年             0
建物の構造           0
建ぺい率（％）         0
容積率（％）          0
取引時点            0
取引価格（総額）_log    0
dtype: int64


In [9]:
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)


#12. データ型の確認
print(data_cleaned.dtypes)
print(f"データの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")


市区町村コード           int64
最寄駅：距離（分）        object
間取り              object
面積（㎡）            object
建築年              object
建物の構造            object
建ぺい率（％）         float64
容積率（％）          float64
取引時点             object
取引価格（総額）_log    float64
dtype: object
データの行数: 637351
データの列数: 10


In [10]:
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)


#13. 各列のすべてのユニークな値を表示
for column in data_cleaned.columns:
    unique_values = data_cleaned[column].unique()
    print(f"列 {column} のユニークな値: {unique_values}")
    print(f"列 {column} のユニークな値の数: {len(unique_values)}")


列 市区町村コード のユニークな値: [ 1108  1101  1102  1103  1105  1104  1217  1106  1213  1107  1204  1202
  1203  1206  1207  1109  1110  1208  2202  2201  2203  3201  3205  3215
  3209  4101  4102  4104  4103  4105  4215  4202  4203  4401  4207  4404
  4209  4301  4211  5201  5203  6203  6201  6204  7203  7201  7204  7202
  8217  8208  8202  8220  8201  8203  8224  8221  8219  8204  8235  8227
  9202  9201  9213  9208  9205  9204  9203 10201 10202 10203 10204 10205
 11203 11223 11208 11106 11222 11209 11108 11228 11221 11230 11301 11225
 11246 11324 11202 11237 11231 11214 11105 11107 11219 11232 11229 11102
 11224 11101 11233 11201 11110 11227 11235 11241 11215 11245 11243 11103
 11109 11217 11234 11104 11239 11464 11212 11210 11240 11216 11218 11327
 11442 11326 11238 11206 11242 12204 12216 12203 12207 12101 12231 12217
 12104 12103 12220 12222 12106 12105 12224 12232 12102 12227 12219 12208
 12212 12211 12221 12228 12226 12206 12233 12229 12322 12225 13120 13108
 13102 13204 13119 13107 13114 1

# 上記コードをまとめて実行して保存

In [12]:
import pandas as pd
import os

#1. データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/combined_all_train.csv'

# データを読み込み、適切なデータ型を指定
data = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

print(data.dtypes)
# データの行数と列数をプリントする
print(f"データの行数: {data.shape[0]}")
print(f"データの列数: {data.shape[1]}")

#2. 不要な列を削除する
columns_to_drop = ['ID','種類', '地域', '都道府県名', '市区町村名', '地区名', '最寄駅：名称', '土地の形状', 
                   '間口', '延床面積（㎡）', '用途', '今後の利用目的', '前面道路：方位', '前面道路：種類', 
                   '前面道路：幅員（ｍ）', '都市計画', '改装', '取引の事情等']

data_cleaned = data.drop(columns=columns_to_drop)

print(data_cleaned.head())

#3. 重複している行の削除
before_deduplication = len(data_cleaned)
data = data.drop_duplicates()
after_deduplication = len(data_cleaned)
print(f"重複行の削除: {before_deduplication - after_deduplication} 行削除されました。")

#4. 各列の欠損値の数を表示
print(data_cleaned.isnull().sum())

#5. '最寄駅：距離（分）'列の欠損値を最頻値で補完
data_cleaned['最寄駅：距離（分）'].fillna(data_cleaned['最寄駅：距離（分）'].mode()[0], inplace=True)

#6. '間取り'列の欠損値を最頻値で補完
data_cleaned['間取り'].fillna(data_cleaned['間取り'].mode()[0], inplace=True)

#7. '建築年'列の欠損値を最頻値で補完
data_cleaned['建築年'].fillna(data_cleaned['建築年'].mode()[0], inplace=True)

#8. '建ぺい率（％）'列の欠損値を最頻値で補完
data_cleaned['建ぺい率（％）'].fillna(data_cleaned['建ぺい率（％）'].mode()[0], inplace=True)

#9. '容積率（％）'列の欠損値を最頻値で補完
data_cleaned['容積率（％）'].fillna(data_cleaned['容積率（％）'].mode()[0], inplace=True)

#10. '建物の構造'列の欠損値を最頻値で補完
data_cleaned['建物の構造'].fillna(data_cleaned['建物の構造'].mode()[0], inplace=True)

#11. 欠損値の確認後に再度表示
print(data_cleaned.isnull().sum())

#12. データ型の確認
print(data_cleaned.dtypes)
print(f"データの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")

#13. 各列のすべてのユニークな値を表示
for column in data_cleaned.columns:
    unique_values = data_cleaned[column].unique()
    print(f"列 {column} のユニークな値: {unique_values}")
    print(f"列 {column} のユニークな値の数: {len(unique_values)}")

# クリーニング後のデータを保存
data_cleaned_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_all_train.csv'
data_cleaned.to_csv(data_cleaned_path, index=False)

# 保存されたデータを確認
print(f"データを保存しました: {data_cleaned_path}")

# データの行数と列数を確認
print(f"保存されたデータの行数: {data_cleaned.shape[0]}")
print(f"保存されたデータの列数: {data_cleaned.shape[1]}")


ID                int64
種類               object
地域              float64
市区町村コード           int64
都道府県名            object
市区町村名            object
地区名              object
最寄駅：名称           object
最寄駅：距離（分）        object
間取り              object
面積（㎡）            object
土地の形状           float64
間口              float64
延床面積（㎡）         float64
建築年              object
建物の構造            object
用途               object
今後の利用目的          object
前面道路：方位         float64
前面道路：種類         float64
前面道路：幅員（ｍ）      float64
都市計画             object
建ぺい率（％）         float64
容積率（％）          float64
取引時点             object
改装               object
取引の事情等           object
取引価格（総額）_log    float64
dtype: object
データの行数: 637351
データの列数: 28
   市区町村コード 最寄駅：距離（分）   間取り 面積（㎡）    建築年 建物の構造  建ぺい率（％）  容積率（％）        取引時点  \
0     1108         8  ３ＬＤＫ    80   平成7年   ＳＲＣ     60.0   200.0  2009年第４四半期   
1     1101         5   １ＤＫ    30  昭和57年   ＳＲＣ     80.0   300.0  2018年第３四半期   
2     1101        11  ３ＬＤＫ    65   平成3年   ＳＲＣ     80.0