# 列の確認

In [1]:
import pandas as pd
import numpy as np
import os

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_data_21_24_25_29_30_33.csv'
data_cleaned = pd.read_csv(data_path)

# データの先頭5行を表示
print("データの先頭5行:")
print(data_cleaned.head())

# データ型の確認
print("\nデータ型:")
print(data_cleaned.dtypes)

# 各列のユニークな値を表示
for column in data_cleaned.columns:
    unique_values = data_cleaned[column].unique()
    print(f"\n列 {column} のユニークな値 ({len(unique_values)}):\n", unique_values)

# データの行数と列数をプリントする
print(f"\nデータの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")



データの先頭5行:
   市区町村コード 最寄駅：距離（分）   間取り  面積（㎡）    建築年 建物の構造        取引時点  取引価格（総額）_log
0    21213         8  ２ＬＤＫ     50  昭和64年    ＲＣ  2009年第３四半期      6.518514
1    21201   30分?60分  ３ＬＤＫ     60   平成4年    ＲＣ  2011年第３四半期      6.913814
2    21201        15  ３ＬＤＫ    100  平成15年    ＲＣ  2010年第１四半期      7.342423
3    21201        29  ４ＬＤＫ     85  昭和52年   ＳＲＣ  2018年第１四半期      6.653213
4    21201        19  ４ＬＤＫ    100  昭和61年    ＲＣ  2019年第４四半期      7.113943

データ型:
市区町村コード           int64
最寄駅：距離（分）        object
間取り              object
面積（㎡）             int64
建築年              object
建物の構造            object
取引時点             object
取引価格（総額）_log    float64
dtype: object

列 市区町村コード のユニークな値 (49):
 [21213 21201 21212 21204 21202 21205 21203 21211 21208 21302 21214 24203
 24202 24207 24205 24201 24204 24344 24343 25201 25213 25206 25202 25203
 29209 29201 29205 29204 29343 29425 29206 29203 29202 29212 29344 29427
 29210 29211 29424 29363 29426 29441 30201 33102 33101 33202 33104 33203
 33103]

列 最寄駅：距離（分） 

# ステップ 1: '最寄駅：距離（分）'列のデータ型変換

In [2]:
import pandas as pd
import numpy as np
import os

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_data_21_24_25_29_30_33.csv'
data_cleaned = pd.read_csv(data_path)

# 特定の文字列を数値に変換する関数を定義
def convert_distance_to_minutes(distance):
    if isinstance(distance, str):
        if '30分?60分' in distance:
            return 45
        elif '1H?1H30' in distance:
            return 75
        elif '2H?' in distance:
            return 120
        elif '1H30?2H' in distance:
            return 105
        elif '分' in distance:
            return int(distance.replace('分', '').replace('?', ''))
        elif 'H' in distance:
            hours, minutes = 0, 0
            if 'H?' in distance:
                hours = int(distance.split('H')[0])
                return hours * 60
            elif 'H' in distance:
                hours, minutes = distance.split('H')
                minutes = minutes.replace('?', '')
                total_minutes = int(hours) * 60 + int(minutes) if minutes else int(hours) * 60
                return total_minutes
    return distance

# '最寄駅：距離（分）'列を変換
data_cleaned['最寄駅：距離（分）'] = data_cleaned['最寄駅：距離（分）'].apply(convert_distance_to_minutes)

# 数値データに変換
data_cleaned['最寄駅：距離（分）'] = pd.to_numeric(data_cleaned['最寄駅：距離（分）'], errors='coerce')

# 変換結果の確認
print(data_cleaned['最寄駅：距離（分）'].dtypes)
print(data_cleaned['最寄駅：距離（分）'].unique())



int64
[  8  45  15  29  19  10  14  16  24  23   6   3   5  75  12  11   7   4
  25 105  13  21   9  18  28   2  26 120  20   1   0  22  17  27]


# ステップ 2: '面積（㎡）'列のデータ型変換

In [3]:
import pandas as pd

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_data_21_24_25_29_30_33.csv'
data_cleaned = pd.read_csv(data_path)

# '2000㎡以上'のデータの数を確認
count_above_2000 = data_cleaned[data_cleaned['面積（㎡）'] == '2000㎡以上'].shape[0]
print(f"'2000㎡以上'のデータの数: {count_above_2000}")

# '2000㎡以上'のデータを削除
data_cleaned = data_cleaned[data_cleaned['面積（㎡）'] != '2000㎡以上']

# 面積列全体をint64に変換
data_cleaned['面積（㎡）'] = data_cleaned['面積（㎡）'].astype(int)

# 変換後のデータ型を確認
print(data_cleaned['面積（㎡）'].dtype)

# 変換結果の確認
print(data_cleaned['面積（㎡）'].dtypes)
print(data_cleaned['面積（㎡）'].unique())


'2000㎡以上'のデータの数: 0
int64
int64
[ 50  60 100  85  95  75  80  70  65  20  90  40  55  15  30 110  45 115
  25 105  35 185 170 350 130 120 135 610 155 145 125 160 165 340 210 680
  10 150]


# ステップ 3: '建築年'列のデータ型変換

In [4]:
import pandas as pd
import numpy as np
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_data_21_24_25_29_30_33.csv'
data_cleaned = pd.read_csv(data_path)

# ステップ 1: '平成', '昭和', '大正', '明治'を含まない、または欠損値を削除
def is_invalid_year_format(value):
    # '平成', '昭和', '大正', '明治' を含まない値、または欠損値は無効とみなす
    if pd.isna(value):
        return True
    if any(era in value for era in ['平成', '昭和', '大正', '明治']):
        return False
    return True

data_cleaned = data_cleaned[~data_cleaned['建築年'].apply(is_invalid_year_format)]

# ステップ 2: 年号を西暦に変換する関数を定義
def convert_japanese_era_to_ad(year):
    if isinstance(year, str):
        if '平成' in year:
            return int(year.replace('平成', '').replace('年', '')) + 1988
        elif '昭和' in year:
            return int(year.replace('昭和', '').replace('年', '')) + 1925
        elif '大正' in year:
            return int(year.replace('大正', '').replace('年', '')) + 1911
        elif '明治' in year:
            return int(year.replace('明治', '').replace('年', '')) + 1867
    return np.nan

# '建築年'列を変換
data_cleaned['建築年'] = data_cleaned['建築年'].apply(convert_japanese_era_to_ad)

# ステップ 3: 数値データに変換
data_cleaned['建築年'] = pd.to_numeric(data_cleaned['建築年'], errors='coerce')

# ステップ 4: 1956年以前および2019年よりも新しいデータを削除
data_cleaned = data_cleaned[(data_cleaned['建築年'] >= 1956) & (data_cleaned['建築年'] <= 2019)]

# 変換結果の確認
print(data_cleaned['建築年'].dtypes)
print(data_cleaned['建築年'].unique())


int64
[1989 1992 2003 1977 1986 2005 1999 2000 1993 2001 2009 1981 1995 2007
 1991 1984 1998 2011 2006 1987 1997 2004 2008 1994 1990 1996 2002 2010
 2012 2017 1982 2013 1980 1988 1985 2015 1975 2016 2014 2018 1971 1983
 1973 1974 1976 1979 1978 2019 1968 1972 1965]


# ステップ 4: '取引時点'列のデータ型変換

In [5]:
import pandas as pd
import numpy as np
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_data_21_24_25_29_30_33.csv'
data_cleaned = pd.read_csv(data_path)

# 確実に「取引時点」列が文字列型であることを確認
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype(str)

# 取引時点を西暦に変換する関数
def convert_quarter_to_date(quarter_str):
    try:
        year, q = quarter_str.split('年第')
        year = int(year)
        if q == '１四半期':
            month = 3
        elif q == '２四半期':
            month = 6
        elif q == '３四半期':
            month = 9
        elif q == '４四半期':
            month = 12
        else:
            raise ValueError(f"Unexpected quarter format: {quarter_str}")
        return year * 100 + month
    except ValueError as e:
        print(f"Error processing {quarter_str}: {e}")
        return None

# 取引時点を変換し、int64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(convert_quarter_to_date)

# None値を含む行を削除
data_cleaned = data_cleaned.dropna(subset=['取引時点'])

# 取引時点をint64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype('int64')

# ステップ 4: 2020年以降のデータを削除
data_cleaned = data_cleaned[data_cleaned['取引時点'] < 202000]

# 変換結果の確認
print(data_cleaned['取引時点'].dtypes)
print(data_cleaned['取引時点'].unique())



int64
[200909 201109 201003 201803 201912 201809 200809 201906 201306 201012
 201303 200603 201709 201703 201706 201509 201106 201309 200712 201412
 201103 200703 200812 201812 201312 200906 201909 201409 200803 201209
 201506 201603 201503 200606 201203 201006 201606 200509 200612 200709
 201712 201403 201212 200912 200609 201609 200806 201009 201206 200512
 201903 201512 201806 200903 201112 201406 200706 201612]


# すべてのデータ型を変換して保存する

In [6]:
import pandas as pd
import numpy as np
import os
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_data_21_24_25_29_30_33.csv'
data_cleaned = pd.read_csv(data_path)

# 特定の文字列を数値に変換する関数を定義
def convert_distance_to_minutes(distance):
    if isinstance(distance, str):
        if '30分?60分' in distance:
            return 45
        elif '1H?1H30' in distance:
            return 75
        elif '2H?' in distance:
            return 120
        elif '1H30?2H' in distance:
            return 105
        elif '分' in distance:
            return int(distance.replace('分', '').replace('?', ''))
        elif 'H' in distance:
            hours, minutes = 0, 0
            if 'H?' in distance:
                hours = int(distance.split('H')[0])
                return hours * 60
            elif 'H' in distance:
                hours, minutes = distance.split('H')
                minutes = minutes.replace('?', '')
                total_minutes = int(hours) * 60 + int(minutes) if minutes else int(hours) * 60
                return total_minutes
    return distance

# '最寄駅：距離（分）'列を変換
data_cleaned['最寄駅：距離（分）'] = data_cleaned['最寄駅：距離（分）'].apply(convert_distance_to_minutes)

# 数値データに変換
data_cleaned['最寄駅：距離（分）'] = pd.to_numeric(data_cleaned['最寄駅：距離（分）'], errors='coerce')

# 変換結果の確認
print(data_cleaned['最寄駅：距離（分）'].dtypes)
print(data_cleaned['最寄駅：距離（分）'].unique())

# '2000㎡以上'のデータの数を確認
count_above_2000 = data_cleaned[data_cleaned['面積（㎡）'] == '2000㎡以上'].shape[0]
print(f"'2000㎡以上'のデータの数: {count_above_2000}")

# '2000㎡以上'のデータを削除
data_cleaned = data_cleaned[data_cleaned['面積（㎡）'] != '2000㎡以上']

# 面積列全体をint64に変換
data_cleaned['面積（㎡）'] = data_cleaned['面積（㎡）'].astype(int)

# 変換後のデータ型を確認
print(data_cleaned['面積（㎡）'].dtype)

# 変換結果の確認
print(data_cleaned['面積（㎡）'].dtypes)
print(data_cleaned['面積（㎡）'].unique())

# ステップ 1: '平成', '昭和', '大正', '明治'を含まない、または欠損値を削除
def is_invalid_year_format(value):
    # '平成', '昭和', '大正', '明治' を含まない値、または欠損値は無効とみなす
    if pd.isna(value):
        return True
    if any(era in value for era in ['平成', '昭和', '大正', '明治']):
        return False
    return True

data_cleaned = data_cleaned[~data_cleaned['建築年'].apply(is_invalid_year_format)]

# ステップ 2: 年号を西暦に変換する関数を定義
def convert_japanese_era_to_ad(year):
    if isinstance(year, str):
        if '平成' in year:
            return int(year.replace('平成', '').replace('年', '')) + 1988
        elif '昭和' in year:
            return int(year.replace('昭和', '').replace('年', '')) + 1925
        elif '大正' in year:
            return int(year.replace('大正', '').replace('年', '')) + 1911
        elif '明治' in year:
            return int(year.replace('明治', '').replace('年', '')) + 1867
    return np.nan

# '建築年'列を変換
data_cleaned['建築年'] = data_cleaned['建築年'].apply(convert_japanese_era_to_ad)

# ステップ 3: 数値データに変換
data_cleaned['建築年'] = pd.to_numeric(data_cleaned['建築年'], errors='coerce')

# ステップ 4: 1956年以前および2019年よりも新しいデータを削除
data_cleaned = data_cleaned[(data_cleaned['建築年'] >= 1956) & (data_cleaned['建築年'] <= 2019)]

# 変換結果の確認
print(data_cleaned['建築年'].dtypes)
print(data_cleaned['建築年'].unique())

# 確実に「取引時点」列が文字列型であることを確認
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype(str)

# 取引時点を西暦に変換する関数
def convert_quarter_to_date(quarter_str):
    try:
        year, q = quarter_str.split('年第')
        year = int(year)
        if q == '１四半期':
            month = 3
        elif q == '２四半期':
            month = 6
        elif q == '３四半期':
            month = 9
        elif q == '４四半期':
            month = 12
        else:
            raise ValueError(f"Unexpected quarter format: {quarter_str}")
        return year * 100 + month
    except ValueError as e:
        print(f"Error processing {quarter_str}: {e}")
        return None

# 取引時点を変換し、int64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(convert_quarter_to_date)

# None値を含む行を削除
data_cleaned = data_cleaned.dropna(subset=['取引時点'])

# 取引時点をint64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype('int64')

# ステップ 4: 2020年以降のデータを削除
data_cleaned = data_cleaned[data_cleaned['取引時点'] < 202000]

# 変換結果の確認
print(data_cleaned['取引時点'].dtypes)
print(data_cleaned['取引時点'].unique())


# クリーニング後のデータを保存
data_cleaned_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned2/combined_data_21_24_25_29_30_33.csv'
data_cleaned.to_csv(data_cleaned_path, index=False)

print(data_cleaned.dtypes)

# データの行数と列数を確認
print(f"保存されたデータの行数: {data_cleaned.shape[0]}")
print(f"保存されたデータの列数: {data_cleaned.shape[1]}")

# 保存されたデータを確認
print(f"データを保存しました: {data_cleaned_path}")

int64
[  8  45  15  29  19  10  14  16  24  23   6   3   5  75  12  11   7   4
  25 105  13  21   9  18  28   2  26 120  20   1   0  22  17  27]
'2000㎡以上'のデータの数: 0
int64
int64
[ 50  60 100  85  95  75  80  70  65  20  90  40  55  15  30 110  45 115
  25 105  35 185 170 350 130 120 135 610 155 145 125 160 165 340 210 680
  10 150]
int64
[1989 1992 2003 1977 1986 2005 1999 2000 1993 2001 2009 1981 1995 2007
 1991 1984 1998 2011 2006 1987 1997 2004 2008 1994 1990 1996 2002 2010
 2012 2017 1982 2013 1980 1988 1985 2015 1975 2016 2014 2018 1971 1983
 1973 1974 1976 1979 1978 2019 1968 1972 1965]
int64
[200909 201109 201003 201803 201912 201809 200809 201906 201306 201012
 201303 200603 201709 201703 201706 201509 201106 201309 200712 201412
 201103 200703 200812 201812 201312 200906 201909 201409 200803 201209
 201506 201603 201503 200606 201203 201006 201606 200509 200612 200709
 201712 201403 201212 200912 200609 201609 200806 201009 201206 200512
 201903 201512 201806 200903 201112 20140