!start .

In [43]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 파일 읽어 오기

In [44]:
data = pd.read_csv('주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20220131.csv', encoding='cp949')
apt_price = pd.DataFrame(data)
apt_price[:2]

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015.0,10.0,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652


# 정보 확인

In [45]:
apt_price.describe()

Unnamed: 0,연도,월
count,6460.0,6460.0
mean,2018.407895,6.605263
std,1.843892,3.536101
min,2015.0,1.0
25%,2017.0,3.75
50%,2018.0,7.0
75%,2020.0,10.0
max,2022.0,12.0


In [46]:
apt_price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7140 entries, 0 to 7139
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6460 non-null   object 
 1   규모구분        6460 non-null   object 
 2   연도          6460 non-null   float64
 3   월           6460 non-null   float64
 4   분양가격(제곱미터)  5976 non-null   object 
dtypes: float64(2), object(3)
memory usage: 279.0+ KB


# 모든 값이 결측치 확인 및 제거

In [47]:
apt_price.isnull().sum()

지역명            680
규모구분           680
연도             680
월              680
분양가격(제곱미터)    1164
dtype: int64

## 모든 결측치 확인

In [48]:
apt_price.isnull().value_counts()[1:3].sum()

1164

In [49]:
apt_price[apt_price['분양가격(제곱미터)'].isnull()]

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
368,광주,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
369,광주,전용면적 102제곱미터초과,2016.0,2.0,
374,대전,전용면적 102제곱미터초과,2016.0,2.0,
388,강원,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
421,제주,전용면적 60제곱미터이하,2016.0,2.0,
...,...,...,...,...,...
7135,,,,,
7136,,,,,
7137,,,,,
7138,,,,,


# 전처리 작업

## 컬럼명 변경
    - 분양 가격(제곱미터) =>분양가격
    - 규모구분 -> 전용 면적

In [50]:
apt_price.rename(columns={'분양가격(제곱미터)': '분양가격','규모구분':'전용면적'}, 
                 inplace=True)

In [51]:
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격'], dtype='object')

## 결측치 처리

In [52]:
apt_price.dropna(axis=0,how='all',inplace=True)

In [53]:
##결측치 개수 확인
apt_price.isnull().sum()

지역명       0
전용면적      0
연도        0
월         0
분양가격    484
dtype: int64

In [54]:
#결측치 제외한 개수 확인
apt_price.notnull().sum()

지역명     6460
전용면적    6460
연도      6460
월       6460
분양가격    5976
dtype: int64

### 변경할 컬럼을 복사 컬럼을 만든다.

In [55]:
apt_price['분양가격_복사'] = apt_price['분양가격']

In [56]:
apt_price

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015.0,10.0,5841,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015.0,10.0,5882,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015.0,10.0,5721,5721
4,서울,전용면적 102제곱미터초과,2015.0,10.0,5879,5879
...,...,...,...,...,...,...
6455,제주,모든면적,2022.0,1.0,6574,6574
6456,제주,전용면적 60제곱미터이하,2022.0,1.0,2862,2862
6457,제주,전용면적 60제곱미터초과 85제곱미터이하,2022.0,1.0,6516,6516
6458,제주,전용면적 85제곱미터초과 102제곱미터이하,2022.0,1.0,5924,5924


### 분양가격_복사 컬럼 : 결측치 0으로 변경

In [57]:
apt_price['분양가격_복사'].isnull().value_counts()[1]

484

In [58]:
apt_price['분양가격_복사'].str.strip()

0       5841
1       5652
2       5882
3       5721
4       5879
        ... 
6455    6574
6456    2862
6457    6516
6458    5924
6459    6493
Name: 분양가격_복사, Length: 6460, dtype: object

In [59]:
apt_price['분양가격_복사'].isnull().sum()

484

In [60]:
#0값이 있는지 부터 확인
apt_price[apt_price['분양가격'] == 0]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사


In [61]:
#공백 보기 
apt_price.분양가격_복사.str.contains(' ').sum()

36

In [62]:
#마스크를 보고 싶어요 로우에 결측치가 있기에 실행 안되기에 결측치를 보지 않고 나타내줘
apt_price[apt_price.분양가격_복사.str.contains(' ',na=False)]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
28,광주,전용면적 85제곱미터초과 102제곱미터이하,2015.0,10.0,,
29,광주,전용면적 102제곱미터초과,2015.0,10.0,,
34,대전,전용면적 102제곱미터초과,2015.0,10.0,,
81,제주,전용면적 60제곱미터이하,2015.0,10.0,,
113,광주,전용면적 85제곱미터초과 102제곱미터이하,2015.0,11.0,,
114,광주,전용면적 102제곱미터초과,2015.0,11.0,,
119,대전,전용면적 102제곱미터초과,2015.0,11.0,,
166,제주,전용면적 60제곱미터이하,2015.0,11.0,,
198,광주,전용면적 85제곱미터초과 102제곱미터이하,2015.0,12.0,,
199,광주,전용면적 102제곱미터초과,2015.0,12.0,,


In [63]:
apt_price['분양가격_복사']= apt_price['분양가격_복사'].replace(np.nan, float(0)).replace(' ','').replace('  ','').replace('','0')

In [64]:
apt_price['분양가격_복사'].isnull().sum()

0

In [65]:
apt_price[apt_price['분양가격'].isnull()]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
368,광주,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,,0.0
369,광주,전용면적 102제곱미터초과,2016.0,2.0,,0.0
374,대전,전용면적 102제곱미터초과,2016.0,2.0,,0.0
388,강원,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,,0.0
421,제주,전용면적 60제곱미터이하,2016.0,2.0,,0.0
...,...,...,...,...,...,...
6318,광주,전용면적 85제곱미터초과 102제곱미터이하,2021.0,12.0,,0.0
6323,대전,전용면적 85제곱미터초과 102제곱미터이하,2021.0,12.0,,0.0
6324,대전,전용면적 102제곱미터초과,2021.0,12.0,,0.0
6329,울산,전용면적 102제곱미터초과,2021.0,12.0,,0.0


### 타입 변경
- 연도, 월 , 분양가격 복사 -> int

In [66]:
apt_price.dtypes

지역명         object
전용면적        object
연도         float64
월          float64
분양가격        object
분양가격_복사     object
dtype: object

In [67]:
apt_price= apt_price.astype({'연도':int,'월':int})

In [68]:
apt_price.dtypes

지역명        object
전용면적       object
연도          int32
월           int32
분양가격       object
분양가격_복사    object
dtype: object

In [69]:
apt_price['분양가격_복사'].info()

<class 'pandas.core.series.Series'>
Index: 6460 entries, 0 to 6459
Series name: 분양가격_복사
Non-Null Count  Dtype 
--------------  ----- 
6460 non-null   object
dtypes: object(1)
memory usage: 100.9+ KB


In [70]:
apt_price['분양가격_복사'].describe()

count     6460.0
unique    2315.0
top          0.0
freq       484.0
Name: 분양가격_복사, dtype: float64

In [71]:
#공백 보기 
apt_price.분양가격_복사.str.contains(' ').sum()

0

In [72]:
#마스크를 보고 싶어요 로우에 결측치가 있기에 실행 안되기에 결측치를 보지 않고 나타내줘
apt_price[apt_price.분양가격_복사.str.contains(' ',na=False)]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사


In [73]:
apt_price= apt_price.astype({'분양가격_복사':int})

In [74]:
apt_price['분양가격_복사'].info()

<class 'pandas.core.series.Series'>
Index: 6460 entries, 0 to 6459
Series name: 분양가격_복사
Non-Null Count  Dtype
--------------  -----
6460 non-null   int32
dtypes: int32(1)
memory usage: 75.7 KB


## 전용면적 컬럼 데이터 변경

- 변경 전 : 변경 후
- 모든 면적 : 모든 면적
- 전용면적 60제곱미터이하 : 60
- 전용면적 60초과 85이하 : 60~80
- 전용면적 85초과 102이하 : 85~102
- 전용면적 102초과        : 102

In [75]:
#다른 방법
apt_price.전용면적 = apt_price.전용면적.str.replace('전용면적','').str.replace('제곱미터이하','').str.replace('제곱미터초과','~').str.replace(' ','')

In [76]:
# apt_price.loc[apt_price['전용면적'] == '전용면적 60제곱미터이하', '전용면적'] = 60
# apt_price.loc[apt_price['전용면적'] == '전용면적 60제곱미터초과 85제곱미터이하', '전용면적'] = '60~80'
# apt_price.loc[apt_price['전용면적'] == '전용면적 85제곱미터초과 102제곱미터이하', '전용면적'] = '85~102'
# apt_price.loc[apt_price['전용면적'] == '전용면적 102제곱미터초과', '전용면적'] = 102~

In [77]:
apt_price[:6]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10,5841,5841
1,서울,60,2015,10,5652,5652
2,서울,60~85,2015,10,5882,5882
3,서울,85~102,2015,10,5721,5721
4,서울,102~,2015,10,5879,5879
5,인천,모든면적,2015,10,3163,3163


### 컬럼 정리 
- 삭제 : 분양가격
- 분양가격_복사 : 컬럼명 변경(분양가격)

In [78]:
#분양가격 복사 확인
apt_price[apt_price.분양가격_복사 == 0].count()

지역명        520
전용면적       520
연도         520
월          520
분양가격        36
분양가격_복사    520
dtype: int64

In [79]:
#삭제 분양가격
apt_price.drop(columns=('분양가격'),inplace=True)

In [80]:
#컬럼명 변경
apt_price.rename(columns={'분양가격_복사':'분양가격'},inplace=True)

In [81]:
apt_price

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015,10,5841
1,서울,60,2015,10,5652
2,서울,60~85,2015,10,5882
3,서울,85~102,2015,10,5721
4,서울,102~,2015,10,5879
...,...,...,...,...,...
6455,제주,모든면적,2022,1,6574
6456,제주,60,2022,1,2862
6457,제주,60~85,2022,1,6516
6458,제주,85~102,2022,1,5924


### csv 파일 저장
- 파일명 : apt_price.csv
- 인덱스 삭제
- 인코딩 utf- 8

In [82]:
apt_price.to_csv('apt_price.csv',index=False,encoding='UTF-8')

In [83]:
apt_price.to_csv('apt_price_1.csv',index=False,encoding='EUC-kr')