# 列の確認

In [1]:
import pandas as pd
import numpy as np
import os

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_all_train.csv'
data_cleaned = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# データの先頭5行を表示
print("データの先頭5行:")
print(data_cleaned.head())

# データ型の確認
print("\nデータ型:")
print(data_cleaned.dtypes)

# 各列のユニークな値を表示
for column in data_cleaned.columns:
    unique_values = data_cleaned[column].unique()
    print(f"\n列 {column} のユニークな値 ({len(unique_values)}):\n", unique_values)

# データの行数と列数をプリントする
print(f"\nデータの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")



データの先頭5行:
   市区町村コード 最寄駅：距離（分）   間取り 面積（㎡）    建築年 建物の構造  建ぺい率（％）  容積率（％）        取引時点  \
0     1108         8  ３ＬＤＫ    80   平成7年   ＳＲＣ     60.0   200.0  2009年第４四半期   
1     1101         5   １ＤＫ    30  昭和57年   ＳＲＣ     80.0   300.0  2018年第３四半期   
2     1101        11  ３ＬＤＫ    65   平成3年   ＳＲＣ     80.0   300.0  2010年第２四半期   
3     1108         5  ４ＬＤＫ    90  平成27年    ＲＣ     80.0   400.0  2015年第３四半期   
4     1108        12  ４ＬＤＫ    80  昭和57年    ＲＣ     60.0   200.0  2012年第４四半期   

   取引価格（総額）_log  
0      7.079181  
1      6.755875  
2      7.204120  
3      7.591065  
4      6.875061  

データ型:
市区町村コード           int64
最寄駅：距離（分）        object
間取り              object
面積（㎡）            object
建築年              object
建物の構造            object
建ぺい率（％）         float64
容積率（％）          float64
取引時点             object
取引価格（総額）_log    float64
dtype: object

列 市区町村コード のユニークな値 (618):
 [ 1108  1101  1102  1103  1105  1104  1217  1106  1213  1107  1204  1202
  1203  1206  1207  1109  1110  1208  2202  2201  22

# ステップ 1: '最寄駅：距離（分）'列のデータ型変換

In [2]:
import pandas as pd
import numpy as np
import os

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_all_train.csv'
data_cleaned = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# 特定の文字列を数値に変換する関数を定義
def convert_distance_to_minutes(distance):
    if isinstance(distance, str):
        if '30分?60分' in distance:
            return 45
        elif '1H?1H30' in distance:
            return 75
        elif '2H?' in distance:
            return 120
        elif '1H30?2H' in distance:
            return 105
        elif '分' in distance:
            return int(distance.replace('分', '').replace('?', ''))
        elif 'H' in distance:
            hours, minutes = 0, 0
            if 'H?' in distance:
                hours = int(distance.split('H')[0])
                return hours * 60
            elif 'H' in distance:
                hours, minutes = distance.split('H')
                minutes = minutes.replace('?', '')
                total_minutes = int(hours) * 60 + int(minutes) if minutes else int(hours) * 60
                return total_minutes
    return distance

# '最寄駅：距離（分）'列を変換
data_cleaned['最寄駅：距離（分）'] = data_cleaned['最寄駅：距離（分）'].apply(convert_distance_to_minutes)

# 数値データに変換
data_cleaned['最寄駅：距離（分）'] = pd.to_numeric(data_cleaned['最寄駅：距離（分）'], errors='coerce')

# 変換結果の確認
print(data_cleaned['最寄駅：距離（分）'].dtypes)
print(data_cleaned['最寄駅：距離（分）'].unique())



int64
[  8   5  11  12   6   4  14  45   7  19  16   1  10   3   9   2  21  13
  26  15  75  22  18  17   0  29  23  28  24  20 120  25 105  27]


# ステップ 2: '面積（㎡）'列のデータ型変換

In [3]:
import pandas as pd

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_all_train.csv'
data_cleaned = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# '2000㎡以上'のデータの数を確認
count_above_2000 = data_cleaned[data_cleaned['面積（㎡）'] == '2000㎡以上'].shape[0]
print(f"'2000㎡以上'のデータの数: {count_above_2000}")

# '2000㎡以上'のデータを削除
data_cleaned = data_cleaned[data_cleaned['面積（㎡）'] != '2000㎡以上']

# 面積列全体をint64に変換
data_cleaned['面積（㎡）'] = data_cleaned['面積（㎡）'].astype(int)

# 変換後のデータ型を確認
print(data_cleaned['面積（㎡）'].dtype)

# 変換結果の確認
print(data_cleaned['面積（㎡）'].dtypes)
print(data_cleaned['面積（㎡）'].unique())


'2000㎡以上'のデータの数: 7
int64
int64
[  80   30   65   90   40  120   95   60   25   70   75   15   55  125
   45  110   35   50   85   20  100  105  115  150  160  130  145  135
  165  210  710  155  190   10  185  360  170  260  140  180  200  250
  220  490  470  300  450  530  970  440  600  390  175  740  230  860
  460  240  270  290  330  195  320  420 1000  580  310  500  620  340
  400  520  350  990  630  280 1500  700  370  430  410  590  680  730
  380  820  720  480  560  690  770  890 1200 1300  550  540 1100  960
  660  940  900  780  650  760  670  790  610  800  510  830 1400  980
  570]


# ステップ 3: '建築年'列のデータ型変換

In [4]:
import pandas as pd
import numpy as np
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_all_train.csv'
data_cleaned = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# ステップ 1: '平成', '昭和', '大正', '明治'を含まない、または欠損値を削除
def is_invalid_year_format(value):
    # '平成', '昭和', '大正', '明治' を含まない値、または欠損値は無効とみなす
    if pd.isna(value):
        return True
    if any(era in value for era in ['平成', '昭和', '大正', '明治']):
        return False
    return True

data_cleaned = data_cleaned[~data_cleaned['建築年'].apply(is_invalid_year_format)]

# ステップ 2: 年号を西暦に変換する関数を定義
def convert_japanese_era_to_ad(year):
    if isinstance(year, str):
        if '平成' in year:
            return int(year.replace('平成', '').replace('年', '')) + 1988
        elif '昭和' in year:
            return int(year.replace('昭和', '').replace('年', '')) + 1925
        elif '大正' in year:
            return int(year.replace('大正', '').replace('年', '')) + 1911
        elif '明治' in year:
            return int(year.replace('明治', '').replace('年', '')) + 1867
    return np.nan

# '建築年'列を変換
data_cleaned['建築年'] = data_cleaned['建築年'].apply(convert_japanese_era_to_ad)

# ステップ 3: 数値データに変換
data_cleaned['建築年'] = pd.to_numeric(data_cleaned['建築年'], errors='coerce')

# ステップ 4: 1956年以前および2019年よりも新しいデータを削除
data_cleaned = data_cleaned[(data_cleaned['建築年'] >= 1956) & (data_cleaned['建築年'] <= 2019)]

# 変換結果の確認
print(data_cleaned['建築年'].dtypes)
print(data_cleaned['建築年'].unique())


int64
[1995 1982 1991 2015 1974 1985 1996 1998 1992 1993 1997 2019 1988 1999
 2007 1980 2011 2005 1981 1989 2003 1977 2002 1975 2008 1994 1979 2001
 1986 1990 2000 1983 2009 1984 2016 1978 2013 2004 1976 1973 1987 2006
 2014 2012 1970 2010 1971 2018 1969 2017 1972 1968 1964 1967 1966 1965
 1960 1963 1962 1956 1959 1958 1961 1957]


# ステップ 4: '取引時点'列のデータ型変換

In [5]:
import pandas as pd
import numpy as np
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_all_train.csv'
data_cleaned = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# 確実に「取引時点」列が文字列型であることを確認
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype(str)

# 取引時点を西暦に変換する関数
def convert_quarter_to_date(quarter_str):
    try:
        year, q = quarter_str.split('年第')
        year = int(year)
        if q == '１四半期':
            month = 3
        elif q == '２四半期':
            month = 6
        elif q == '３四半期':
            month = 9
        elif q == '４四半期':
            month = 12
        else:
            raise ValueError(f"Unexpected quarter format: {quarter_str}")
        return year * 100 + month
    except ValueError as e:
        print(f"Error processing {quarter_str}: {e}")
        return None

# 取引時点を変換し、int64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(convert_quarter_to_date)

# None値を含む行を削除
data_cleaned = data_cleaned.dropna(subset=['取引時点'])

# 取引時点をint64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype('int64')

# ステップ 4: 2020年以降のデータを削除
data_cleaned = data_cleaned[data_cleaned['取引時点'] < 202000]

# 変換結果の確認
print(data_cleaned['取引時点'].dtypes)
print(data_cleaned['取引時点'].unique())



int64
[200912 201809 201006 201509 201212 201703 201009 200606 201012 201903
 201409 201909 200809 201303 200806 200712 201506 201109 200909 201609
 201803 201503 200709 201309 201706 201209 200803 200812 201806 201512
 201106 201112 201412 201912 200612 201203 201406 200906 201709 200903
 201003 201206 200609 200706 201603 201103 201606 201403 201312 201812
 201712 200703 201612 201306 201906 200603 200509 200512]


# すべてのデータ型を変換して保存する

In [6]:
import pandas as pd
import numpy as np
import os
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned1/combined_all_train.csv'
data_cleaned = pd.read_csv(data_path, dtype={'面積（㎡）': str}, low_memory=False)

# 特定の文字列を数値に変換する関数を定義
def convert_distance_to_minutes(distance):
    if isinstance(distance, str):
        if '30分?60分' in distance:
            return 45
        elif '1H?1H30' in distance:
            return 75
        elif '2H?' in distance:
            return 120
        elif '1H30?2H' in distance:
            return 105
        elif '分' in distance:
            return int(distance.replace('分', '').replace('?', ''))
        elif 'H' in distance:
            hours, minutes = 0, 0
            if 'H?' in distance:
                hours = int(distance.split('H')[0])
                return hours * 60
            elif 'H' in distance:
                hours, minutes = distance.split('H')
                minutes = minutes.replace('?', '')
                total_minutes = int(hours) * 60 + int(minutes) if minutes else int(hours) * 60
                return total_minutes
    return distance

# '最寄駅：距離（分）'列を変換
data_cleaned['最寄駅：距離（分）'] = data_cleaned['最寄駅：距離（分）'].apply(convert_distance_to_minutes)

# 数値データに変換
data_cleaned['最寄駅：距離（分）'] = pd.to_numeric(data_cleaned['最寄駅：距離（分）'], errors='coerce')

# 変換結果の確認
print(data_cleaned['最寄駅：距離（分）'].dtypes)
print(data_cleaned['最寄駅：距離（分）'].unique())

# '2000㎡以上'のデータの数を確認
count_above_2000 = data_cleaned[data_cleaned['面積（㎡）'] == '2000㎡以上'].shape[0]
print(f"'2000㎡以上'のデータの数: {count_above_2000}")

# '2000㎡以上'のデータを削除
data_cleaned = data_cleaned[data_cleaned['面積（㎡）'] != '2000㎡以上']

# 面積列全体をint64に変換
data_cleaned['面積（㎡）'] = data_cleaned['面積（㎡）'].astype(int)

# 変換後のデータ型を確認
print(data_cleaned['面積（㎡）'].dtype)

# 変換結果の確認
print(data_cleaned['面積（㎡）'].dtypes)
print(data_cleaned['面積（㎡）'].unique())

# ステップ 1: '平成', '昭和', '大正', '明治'を含まない、または欠損値を削除
def is_invalid_year_format(value):
    # '平成', '昭和', '大正', '明治' を含まない値、または欠損値は無効とみなす
    if pd.isna(value):
        return True
    if any(era in value for era in ['平成', '昭和', '大正', '明治']):
        return False
    return True

data_cleaned = data_cleaned[~data_cleaned['建築年'].apply(is_invalid_year_format)]

# ステップ 2: 年号を西暦に変換する関数を定義
def convert_japanese_era_to_ad(year):
    if isinstance(year, str):
        if '平成' in year:
            return int(year.replace('平成', '').replace('年', '')) + 1988
        elif '昭和' in year:
            return int(year.replace('昭和', '').replace('年', '')) + 1925
        elif '大正' in year:
            return int(year.replace('大正', '').replace('年', '')) + 1911
        elif '明治' in year:
            return int(year.replace('明治', '').replace('年', '')) + 1867
    return np.nan

# '建築年'列を変換
data_cleaned['建築年'] = data_cleaned['建築年'].apply(convert_japanese_era_to_ad)

# ステップ 3: 数値データに変換
data_cleaned['建築年'] = pd.to_numeric(data_cleaned['建築年'], errors='coerce')

# ステップ 4: 1956年以前および2019年よりも新しいデータを削除
data_cleaned = data_cleaned[(data_cleaned['建築年'] >= 1956) & (data_cleaned['建築年'] <= 2019)]

# 変換結果の確認
print(data_cleaned['建築年'].dtypes)
print(data_cleaned['建築年'].unique())

# 確実に「取引時点」列が文字列型であることを確認
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype(str)

# 取引時点を西暦に変換する関数
def convert_quarter_to_date(quarter_str):
    try:
        year, q = quarter_str.split('年第')
        year = int(year)
        if q == '１四半期':
            month = 3
        elif q == '２四半期':
            month = 6
        elif q == '３四半期':
            month = 9
        elif q == '４四半期':
            month = 12
        else:
            raise ValueError(f"Unexpected quarter format: {quarter_str}")
        return year * 100 + month
    except ValueError as e:
        print(f"Error processing {quarter_str}: {e}")
        return None

# 取引時点を変換し、int64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(convert_quarter_to_date)

# None値を含む行を削除
data_cleaned = data_cleaned.dropna(subset=['取引時点'])

# 取引時点をint64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype('int64')

# ステップ 4: 2020年以降のデータを削除
data_cleaned = data_cleaned[data_cleaned['取引時点'] < 202000]

# 変換結果の確認
print(data_cleaned['取引時点'].dtypes)
print(data_cleaned['取引時点'].unique())

# クリーニング後のデータを保存
data_cleaned_path = '/Users/hayakawakazue/Downloads/data/train/train_cleaned2/combined_all_train.csv'
data_cleaned.to_csv(data_cleaned_path, index=False)

print(data_cleaned.dtypes)

# データの行数と列数を確認
print(f"保存されたデータの行数: {data_cleaned.shape[0]}")
print(f"保存されたデータの列数: {data_cleaned.shape[1]}")

# 保存されたデータを確認
print(f"データを保存しました: {data_cleaned_path}")

int64
[  8   5  11  12   6   4  14  45   7  19  16   1  10   3   9   2  21  13
  26  15  75  22  18  17   0  29  23  28  24  20 120  25 105  27]
'2000㎡以上'のデータの数: 7
int64
int64
[  80   30   65   90   40  120   95   60   25   70   75   15   55  125
   45  110   35   50   85   20  100  105  115  150  160  130  145  135
  165  210  710  155  190   10  185  360  170  260  140  180  200  250
  220  490  470  300  450  530  970  440  600  390  175  740  230  860
  460  240  270  290  330  195  320  420 1000  580  310  500  620  340
  400  520  350  990  630  280 1500  700  370  430  410  590  680  730
  380  820  720  480  560  690  770  890 1200 1300  550  540 1100  960
  660  940  900  780  650  760  670  790  610  800  510  830 1400  980
  570]
int64
[1995 1982 1991 2015 1974 1985 1996 1998 1992 1993 1997 2019 1988 1999
 2007 1980 2011 2005 1981 1989 2003 1977 2002 1975 2008 1994 1979 2001
 1986 1990 2000 1983 2009 1984 2016 1978 2013 2004 1976 1973 1987 2006
 2014 2012 1970 2010 1971 2018