## 使用データを読み込む

In [41]:
import pandas as pd

In [42]:
df_house = pd.read_csv('house_data.csv', encoding='utf-8')
df_house.head(10)

Unnamed: 0,種類,地区名,最寄駅,最寄駅からの距離（分）,取引価格（総額）,面積（㎡）,建築年
0,宅地(土地と建物),池袋,池袋,8,1200000000,440,1997.0
1,中古マンション等,池袋,池袋,11,18000000,15,1991.0
2,中古マンション等,池袋,池袋,11,24000000,20,2011.0
3,中古マンション等,池袋,池袋,11,25000000,30,1991.0
4,中古マンション等,池袋,池袋,11,24000000,20,2011.0
5,中古マンション等,池袋,池袋,11,22000000,20,2010.0
6,宅地(土地と建物),池袋,池袋,10,32000000,40,1996.0
7,宅地(土地と建物),池袋,池袋,9,40000000,110,1980.0
8,宅地(土地),池袋,池袋,15,290000000,145,
9,中古マンション等,池袋,池袋,10,10000000,15,1986.0


## 欠損値の確認

In [43]:
df_house.isnull().sum()

種類               0
地区名              0
最寄駅              0
最寄駅からの距離（分）      1
取引価格（総額）         0
面積（㎡）            0
建築年            106
dtype: int64

## 欠損値を含むレコードを削除

In [44]:
df_house = df_house.dropna()
df_house.isnull().sum()

種類             0
地区名            0
最寄駅            0
最寄駅からの距離（分）    0
取引価格（総額）       0
面積（㎡）          0
建築年            0
dtype: int64

In [45]:
df_house.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 683 entries, 0 to 789
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   種類           683 non-null    object 
 1   地区名          683 non-null    object 
 2   最寄駅          683 non-null    object 
 3   最寄駅からの距離（分）  683 non-null    object 
 4   取引価格（総額）     683 non-null    int64  
 5   面積（㎡）        683 non-null    int64  
 6   建築年          683 non-null    float64
dtypes: float64(1), int64(2), object(4)
memory usage: 42.7+ KB


## 最寄駅からの距離（分）のデータ型をint型にする

In [49]:
df_house = df_house.astype({'最寄駅からの距離（分）': 'int64'})
df_house.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 683 entries, 0 to 789
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   種類           683 non-null    object 
 1   地区名          683 non-null    object 
 2   最寄駅          683 non-null    object 
 3   最寄駅からの距離（分）  683 non-null    int64  
 4   取引価格（総額）     683 non-null    int64  
 5   面積（㎡）        683 non-null    int64  
 6   建築年          683 non-null    float64
dtypes: float64(1), int64(3), object(3)
memory usage: 42.7+ KB


In [50]:
df_house.head(10)

Unnamed: 0,種類,地区名,最寄駅,最寄駅からの距離（分）,取引価格（総額）,面積（㎡）,建築年
0,宅地(土地と建物),池袋,池袋,8,1200000000,440,1997.0
1,中古マンション等,池袋,池袋,11,18000000,15,1991.0
2,中古マンション等,池袋,池袋,11,24000000,20,2011.0
3,中古マンション等,池袋,池袋,11,25000000,30,1991.0
4,中古マンション等,池袋,池袋,11,24000000,20,2011.0
5,中古マンション等,池袋,池袋,11,22000000,20,2010.0
6,宅地(土地と建物),池袋,池袋,10,32000000,40,1996.0
7,宅地(土地と建物),池袋,池袋,9,40000000,110,1980.0
9,中古マンション等,池袋,池袋,10,10000000,15,1986.0
10,中古マンション等,池袋,池袋,9,21000000,20,2007.0


## CSV出力する

In [55]:
df_house.to_csv('data2.csv', encoding='utf-8')

In [57]:
pd.read_csv('data2.csv', encoding='utf-8', index_col=0)

Unnamed: 0,種類,地区名,最寄駅,最寄駅からの距離（分）,取引価格（総額）,面積（㎡）,建築年
0,宅地(土地と建物),池袋,池袋,8,1200000000,440,1997.0
1,中古マンション等,池袋,池袋,11,18000000,15,1991.0
2,中古マンション等,池袋,池袋,11,24000000,20,2011.0
3,中古マンション等,池袋,池袋,11,25000000,30,1991.0
4,中古マンション等,池袋,池袋,11,24000000,20,2011.0
...,...,...,...,...,...,...,...
784,中古マンション等,目白,椎名町,5,22000000,20,2004.0
785,中古マンション等,目白,椎名町,10,20000000,20,1998.0
786,中古マンション等,目白,雑司が谷(東京メトロ),5,51000000,50,2000.0
787,中古マンション等,目白,目白,9,69000000,70,1999.0
