# データの読み込み

In [1]:
import pandas as pd
import numpy as np
import os

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned1/test_33_cleaned.csv'
data_cleaned = pd.read_csv(data_path)

# データの先頭5行を表示
print("データの先頭5行:")
print(data_cleaned.head())

# データ型の確認
print("\nデータ型:")
print(data_cleaned.dtypes)

# 各列のユニークな値を表示
for column in data_cleaned.columns:
    unique_values = data_cleaned[column].unique()
    print(f"\n列 {column} のユニークな値 ({len(unique_values)}):\n", unique_values)

# データの行数と列数をプリントする
print(f"\nデータの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")



データの先頭5行:
         ID  市区町村コード 最寄駅：距離（分）   間取り  面積（㎡）    建築年 建物の構造        取引時点
0  33000189    33101        14  ２ＬＤＫ     65  平成19年    ＲＣ  2020年第２四半期
1  33000471    33101         1  ３ＬＤＫ     75  平成30年    ＲＣ  2020年第１四半期
2  33000579    33101        23   １ＤＫ     70  平成10年   ＳＲＣ  2020年第１四半期
3  33000984    33101        13  ３ＬＤＫ     80   令和2年    ＲＣ  2020年第１四半期
4  33001008    33101        18  ４ＬＤＫ     70  昭和55年   ＳＲＣ  2020年第１四半期

データ型:
ID            int64
市区町村コード       int64
最寄駅：距離（分）    object
間取り          object
面積（㎡）         int64
建築年          object
建物の構造        object
取引時点         object
dtype: object

列 ID のユニークな値 (66):
 [33000189 33000471 33000579 33000984 33001008 33001169 33001325 33001343
 33001344 33001345 33001492 33001515 33002496 33002521 33002592 33002593
 33002623 33002724 33002909 33002910 33002911 33002912 33002915 33002916
 33002917 33002918 33002919 33003193 33003219 33003510 33003645 33004336
 33004337 33004606 33004669 33004875 33004919 33004936 33004937 33006243
 33006889

# 最寄りの駅のデータの変換

In [2]:
import pandas as pd
import numpy as np
import os

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned1/test_33_cleaned.csv'
data_cleaned = pd.read_csv(data_path)

#ステップ1: 最寄駅の特定の文字列を数値に変換する関数を定義
def convert_distance_to_minutes(distance):
    if isinstance(distance, str):
        if '30分?60分' in distance:
            return 45
        elif '1H?1H30' in distance:
            return 75
        elif '2H?' in distance:
            return 120
        elif '1H30?2H' in distance:
            return 105
        elif '分' in distance:
            return int(distance.replace('分', '').replace('?', ''))
        elif 'H' in distance:
            hours, minutes = 0, 0
            if 'H?' in distance:
                hours = int(distance.split('H')[0])
                return hours * 60
            elif 'H' in distance:
                hours, minutes = distance.split('H')
                minutes = minutes.replace('?', '')
                total_minutes = int(hours) * 60 + int(minutes) if minutes else int(hours) * 60
                return total_minutes
    return distance

# '最寄駅：距離（分）'列を変換
data_cleaned['最寄駅：距離（分）'] = data_cleaned['最寄駅：距離（分）'].apply(convert_distance_to_minutes)

# 数値データに変換
data_cleaned['最寄駅：距離（分）'] = pd.to_numeric(data_cleaned['最寄駅：距離（分）'], errors='coerce')

# 変換結果の確認
print(data_cleaned['最寄駅：距離（分）'].dtypes)
print(data_cleaned['最寄駅：距離（分）'].unique())

# データの行数と列数をプリントする
print(f"\nデータの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")

int64
[ 14   1  23  13  18   4  26  15  20  17   6  11  10   9   5  12  45  19
   3 105  75   7  22  16]

データの行数: 66
データの列数: 8


# 建築年のデータの変換

In [3]:
import pandas as pd
import numpy as np
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned1/test_33_cleaned.csv'
data_cleaned = pd.read_csv(data_path)

# ステップ 1: '平成', '昭和', '大正', '明治'を含まない、または欠損値を処理
def is_invalid_year_format(value):
    # '平成', '昭和', '大正', '明治' を含まない値、または欠損値は無効とみなす
    if pd.isna(value):
        return True
    if any(era in value for era in ['平成', '昭和', '大正', '明治']):
        return False
    return True

# 無効な値をNaNに変換
data_cleaned.loc[data_cleaned['建築年'].apply(is_invalid_year_format), '建築年'] = np.nan

# ステップ 2: 年号を西暦に変換する関数を定義
def convert_japanese_era_to_ad(year):
    if isinstance(year, str):
        if '平成' in year:
            return int(year.replace('平成', '').replace('年', '')) + 1988
        elif '昭和' in year:
            return int(year.replace('昭和', '').replace('年', '')) + 1925
        elif '大正' in year:
            return int(year.replace('大正', '').replace('年', '')) + 1911
        elif '明治' in year:
            return int(year.replace('明治', '').replace('年', '')) + 1867
    return np.nan

# '建築年'列を変換
data_cleaned['建築年'] = data_cleaned['建築年'].apply(convert_japanese_era_to_ad)

# ステップ 3: 数値データに変換
data_cleaned['建築年'] = pd.to_numeric(data_cleaned['建築年'], errors='coerce')

# ステップ 4: 1956年以前および2020年以降のデータはNaNに設定
data_cleaned.loc[(data_cleaned['建築年'] < 1956) | (data_cleaned['建築年'] > 2020), '建築年'] = np.nan

# ステップ 5: 欠損値を最頻値で補完
data_cleaned['建築年'].fillna(data_cleaned['建築年'].mode()[0], inplace=True)

# 変換結果の確認
print(data_cleaned['建築年'].dtypes)
print(data_cleaned['建築年'].unique())

# データの行数と列数をプリントする
print(f"\nデータの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")


float64
[2007. 2018. 1998. 1995. 1980. 1973. 1999. 1986. 1990. 1982. 1996. 2012.
 2013. 2003. 2011. 2004. 2008. 2016. 1988. 1974. 1984. 1994. 2001. 2002.
 1991. 1997. 2006. 1992. 2014.]

データの行数: 66
データの列数: 8


# 取引時点のデータの変換

In [4]:
import pandas as pd
import numpy as np
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned1/test_33_cleaned.csv'
data_cleaned = pd.read_csv(data_path)

# 確実に「取引時点」列が文字列型であることを確認
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype(str)

# 取引時点を西暦に変換する関数
def convert_quarter_to_date(quarter_str):
    try:
        year, q = quarter_str.split('年第')
        year = int(year)
        if q == '１四半期':
            month = 3
        elif q == '２四半期':
            month = 6
        elif q == '３四半期':
            month = 9
        elif q == '４四半期':
            month = 12
        else:
            raise ValueError(f"Unexpected quarter format: {quarter_str}")
        return year * 100 + month
    except ValueError as e:
        print(f"Error processing {quarter_str}: {e}")
        return None

# 無効な取引時点をNaNに設定
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(lambda x: x if re.match(r'\d+年第[１-４]四半期', x) else np.nan)

# 取引時点を変換し、int64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(convert_quarter_to_date)

# 欠損値を最頻値で補完
data_cleaned['取引時点'].fillna(data_cleaned['取引時点'].mode()[0], inplace=True)

# 数値データに変換
data_cleaned['取引時点'] = pd.to_numeric(data_cleaned['取引時点'], errors='coerce')

# 変換結果の確認
print(data_cleaned['取引時点'].dtypes)
print(data_cleaned['取引時点'].unique())

# データの行数と列数をプリントする
print(f"\nデータの行数: {data_cleaned.shape[0]}")
print(f"データの列数: {data_cleaned.shape[1]}")


int64
[202006 202003]

データの行数: 66
データの列数: 8


# 上記の処理を一括で行い、ファイルをtest_cleaned2に保存する

In [5]:
import pandas as pd
import numpy as np
import os
import re

# データの読み込み
data_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned1/test_33_cleaned.csv'
data_cleaned = pd.read_csv(data_path)

#ステップ 1: 最寄駅にある特定の文字列を数値に変換する関数を定義
def convert_distance_to_minutes(distance):
    if isinstance(distance, str):
        if '30分?60分' in distance:
            return 45
        elif '1H?1H30' in distance:
            return 75
        elif '2H?' in distance:
            return 120
        elif '1H30?2H' in distance:
            return 105
        elif '分' in distance:
            return int(distance.replace('分', '').replace('?', ''))
        elif 'H' in distance:
            hours, minutes = 0, 0
            if 'H?' in distance:
                hours = int(distance.split('H')[0])
                return hours * 60
            elif 'H' in distance:
                hours, minutes = distance.split('H')
                minutes = minutes.replace('?', '')
                total_minutes = int(hours) * 60 + int(minutes) if minutes else int(hours) * 60
                return total_minutes
    return distance

# '最寄駅：距離（分）'列を変換
data_cleaned['最寄駅：距離（分）'] = data_cleaned['最寄駅：距離（分）'].apply(convert_distance_to_minutes)

# 数値データに変換
data_cleaned['最寄駅：距離（分）'] = pd.to_numeric(data_cleaned['最寄駅：距離（分）'], errors='coerce')

# 変換結果の確認
print(data_cleaned['最寄駅：距離（分）'].dtypes)
print(data_cleaned['最寄駅：距離（分）'].unique())

# ステップ 2: 建築年の '平成', '昭和', '大正', '明治'を含まない、または欠損値を処理
def is_invalid_year_format(value):
    # '平成', '昭和', '大正', '明治' を含まない値、または欠損値は無効とみなす
    if pd.isna(value):
        return True
    if any(era in value for era in ['平成', '昭和', '大正', '明治']):
        return False
    return True

# 無効な値をNaNに変換
data_cleaned.loc[data_cleaned['建築年'].apply(is_invalid_year_format), '建築年'] = np.nan

# 年号を西暦に変換する関数を定義
def convert_japanese_era_to_ad(year):
    if isinstance(year, str):
        if '平成' in year:
            return int(year.replace('平成', '').replace('年', '')) + 1988
        elif '昭和' in year:
            return int(year.replace('昭和', '').replace('年', '')) + 1925
        elif '大正' in year:
            return int(year.replace('大正', '').replace('年', '')) + 1911
        elif '明治' in year:
            return int(year.replace('明治', '').replace('年', '')) + 1867
    return np.nan

# '建築年'列を変換
data_cleaned['建築年'] = data_cleaned['建築年'].apply(convert_japanese_era_to_ad)

# 数値データに変換
data_cleaned['建築年'] = pd.to_numeric(data_cleaned['建築年'], errors='coerce')

# 1956年以前および2020年以降のデータはNaNに設定
data_cleaned.loc[(data_cleaned['建築年'] < 1956) | (data_cleaned['建築年'] > 2020), '建築年'] = np.nan

# 欠損値を最頻値で補完
data_cleaned['建築年'].fillna(data_cleaned['建築年'].mode()[0], inplace=True)

# 変換結果の確認
print(data_cleaned['建築年'].dtypes)
print(data_cleaned['建築年'].unique())


# ステップ3: 取引時点の処理：　確実に「取引時点」列が文字列型であることを確認
data_cleaned['取引時点'] = data_cleaned['取引時点'].astype(str)

# 取引時点を西暦に変換する関数
def convert_quarter_to_date(quarter_str):
    try:
        year, q = quarter_str.split('年第')
        year = int(year)
        if q == '１四半期':
            month = 3
        elif q == '２四半期':
            month = 6
        elif q == '３四半期':
            month = 9
        elif q == '４四半期':
            month = 12
        else:
            raise ValueError(f"Unexpected quarter format: {quarter_str}")
        return year * 100 + month
    except ValueError as e:
        print(f"Error processing {quarter_str}: {e}")
        return None

# 無効な取引時点をNaNに設定
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(lambda x: x if re.match(r'\d+年第[１-４]四半期', x) else np.nan)

# 取引時点を変換し、int64に変換
data_cleaned['取引時点'] = data_cleaned['取引時点'].apply(convert_quarter_to_date)

# 欠損値を最頻値で補完
data_cleaned['取引時点'].fillna(data_cleaned['取引時点'].mode()[0], inplace=True)

# 数値データに変換
data_cleaned['取引時点'] = pd.to_numeric(data_cleaned['取引時点'], errors='coerce')

# 変換結果の確認
print(data_cleaned['取引時点'].dtypes)
print(data_cleaned['取引時点'].unique())


# データの保存
data_cleaned_path = '/Users/hayakawakazue/Downloads/data/test/test_cleaned2/test_33_cleaned.csv'
data_cleaned.to_csv(data_cleaned_path, index=False)

print(data_cleaned.dtypes)

# データの行数と列数を確認
print(f"保存されたデータの行数: {data_cleaned.shape[0]}")
print(f"保存されたデータの列数: {data_cleaned.shape[1]}")

# 保存されたデータを確認
print(f"データを保存しました: {data_cleaned_path}")

int64
[ 14   1  23  13  18   4  26  15  20  17   6  11  10   9   5  12  45  19
   3 105  75   7  22  16]
float64
[2007. 2018. 1998. 1995. 1980. 1973. 1999. 1986. 1990. 1982. 1996. 2012.
 2013. 2003. 2011. 2004. 2008. 2016. 1988. 1974. 1984. 1994. 2001. 2002.
 1991. 1997. 2006. 1992. 2014.]
int64
[202006 202003]
ID             int64
市区町村コード        int64
最寄駅：距離（分）      int64
間取り           object
面積（㎡）          int64
建築年          float64
建物の構造         object
取引時点           int64
dtype: object
保存されたデータの行数: 66
保存されたデータの列数: 8
データを保存しました: /Users/hayakawakazue/Downloads/data/test/test_cleaned2/test_33_cleaned.csv
