In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# # 위치에서 탐색기 실행 - cmd 명령어
# !start .

# csv 파일 읽어오기

In [9]:
apt_price = pd.read_csv('주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20220131.csv', encoding='cp949')

In [10]:
apt_price.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015.0,10.0,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015.0,10.0,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015.0,10.0,5721
4,서울,전용면적 102제곱미터초과,2015.0,10.0,5879


# 분석

In [11]:
# 1. 결측치 확인
# 2. 연도, 월 Dtype 변경
# 3. 분양가격(제곱미터) -> 분양가격 으로 변경
apt_price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7140 entries, 0 to 7139
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6460 non-null   object 
 1   규모구분        6460 non-null   object 
 2   연도          6460 non-null   float64
 3   월           6460 non-null   float64
 4   분양가격(제곱미터)  5976 non-null   object 
dtypes: float64(2), object(3)
memory usage: 279.0+ KB


# 전처리

In [12]:
# 전처리
# 1. 결측치 개수 확인
apt_price.isna().sum()

지역명            680
규모구분           680
연도             680
월              680
분양가격(제곱미터)    1164
dtype: int64

In [13]:
# 결측치 데이터 추출
apt_price[apt_price['분양가격(제곱미터)'].isna()]

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
368,광주,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
369,광주,전용면적 102제곱미터초과,2016.0,2.0,
374,대전,전용면적 102제곱미터초과,2016.0,2.0,
388,강원,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
421,제주,전용면적 60제곱미터이하,2016.0,2.0,
...,...,...,...,...,...
7135,,,,,
7136,,,,,
7137,,,,,
7138,,,,,


## 컬럼명 변경
- 분양가격(제곱미터) -> 분양가격
- 규모구분 -> 전용면적

In [14]:
apt_price.rename(columns={'규모구분' : '전용면적', '분양가격(제곱미터)' : '분양가격'})

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015.0,10.0,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015.0,10.0,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015.0,10.0,5721
4,서울,전용면적 102제곱미터초과,2015.0,10.0,5879
...,...,...,...,...,...
7135,,,,,
7136,,,,,
7137,,,,,
7138,,,,,


In [15]:
apt_price.rename(columns={'규모구분' : '전용면적', '분양가격(제곱미터)' : '분양가격'}, inplace=True)

In [16]:
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격'], dtype='object')

## 결측치 처리
- 관측치가 모두 결측치인 행 삭제
- 결측치인 데이터 변경
- Dtype 변경

### 관측치가 모두 결측치인 행 삭제

In [17]:
# 모든 행이 결측치인 행 삭제
apt_price.dropna(how='all', inplace=True)

In [18]:
# 행의 수와 컬럼 변수의 수 비교
apt_price.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6460 entries, 0 to 6459
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     6460 non-null   object 
 1   전용면적    6460 non-null   object 
 2   연도      6460 non-null   float64
 3   월       6460 non-null   float64
 4   분양가격    5976 non-null   object 
dtypes: float64(2), object(3)
memory usage: 302.8+ KB


In [19]:
# 결측치 개수 확인
apt_price.isna().sum()

지역명       0
전용면적      0
연도        0
월         0
분양가격    484
dtype: int64

In [24]:
# 결측치가 아닌 데이터 
apt_price.notna()

# 결측치가 아닌 데이터의 수 
apt_price.notna().sum() # count() 함수와 같음

지역명     6460
전용면적    6460
연도      6460
월       6460
분양가격    5976
dtype: int64

In [26]:
apt_price.count()

지역명     6460
전용면적    6460
연도      6460
월       6460
분양가격    5976
dtype: int64

### 분양가격 컬럼 복사
- 컬럼명 : 분양가격_복사

In [28]:
apt_price['분양가격_복사'] = apt_price.분양가격
apt_price.head()

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015.0,10.0,5841,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015.0,10.0,5882,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015.0,10.0,5721,5721
4,서울,전용면적 102제곱미터초과,2015.0,10.0,5879,5879


### 분양가격_복사 컬럼 : 결측치 0으로 변경
- 결측치에 값을 넣어주면 바꾸면 평균이나 다른 계산을 할 때 영향을 줄 수 있어 생각을 해봐야 함
- 결측치에 값을 넣어줄 때 해당하는 값이 있는지 확인

In [29]:
apt_price.분양가격_복사.fillna(0, inplace=True)

In [None]:
# 결측치 처리 여부 확인
apt_price.분양가격_복사.isna().sum()
apt_price[apt_price.분양가격.isna()]

In [34]:
# 결측치를 변경할 0이 컬럼에 있는지 확인
apt_price[apt_price.분양가격==0]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사


In [38]:
apt_price[apt_price.분양가격_복사==0].count()

지역명        484
전용면적       484
연도         484
월          484
분양가격         0
분양가격_복사    484
dtype: int64

## Dtype 변경
- 연도 : float -> int
- 월 : float -> int
- 분양가격_복사 : object -> int

In [39]:
apt_price.연도 = apt_price.연도.astype(int)

In [40]:
apt_price.dtypes

지역명         object
전용면적        object
연도           int32
월          float64
분양가격        object
분양가격_복사     object
dtype: object

In [41]:
apt_price[:2]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10.0,5841,5841
1,서울,전용면적 60제곱미터이하,2015,10.0,5652,5652


In [43]:
apt_price['월'] = apt_price.월.astype(int)

In [45]:
apt_price.dtypes

지역명        object
전용면적       object
연도          int32
월           int32
분양가격       object
분양가격_복사    object
dtype: object

In [46]:
apt_price[:2]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10,5841,5841
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652


In [47]:
apt_price.분양가격_복사.astype(int) # 공백 때문에 Error 발생

ValueError: invalid literal for int() with base 10: '  '

In [49]:
apt_price[apt_price.분양가격_복사==' ']

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
6403,광주,전용면적 85제곱미터초과 102제곱미터이하,2022,1,,
6408,대전,전용면적 85제곱미터초과 102제곱미터이하,2022,1,,
6409,대전,전용면적 102제곱미터초과,2022,1,,
6414,울산,전용면적 102제곱미터초과,2022,1,,
6443,전남,전용면적 85제곱미터초과 102제곱미터이하,2022,1,,


In [50]:
apt_price[apt_price.분양가격_복사=='  ']

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
28,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,10,,
29,광주,전용면적 102제곱미터초과,2015,10,,
34,대전,전용면적 102제곱미터초과,2015,10,,
81,제주,전용면적 60제곱미터이하,2015,10,,
113,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,11,,
114,광주,전용면적 102제곱미터초과,2015,11,,
119,대전,전용면적 102제곱미터초과,2015,11,,
166,제주,전용면적 60제곱미터이하,2015,11,,
198,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,12,,
199,광주,전용면적 102제곱미터초과,2015,12,,


In [57]:
# 공백을 포함한 데이터 추출
apt_price.분양가격_복사.str.contains(' ').sum()

# 마스크할 데이터에 결측치가 있으면 마스크 불가능 - 결측치는 논리값이 없기 때문에
# apt_price.분양가격_복사[apt_price.분양가격_복사.str.contains(' ')]

# contains는 결측치를 그냥 리턴
# contains의 매개변수 na값을 False로 설정해 결측치를 False로 처리
apt_price[apt_price.분양가격_복사.str.contains(' ', na=False)]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
28,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,10,,
29,광주,전용면적 102제곱미터초과,2015,10,,
34,대전,전용면적 102제곱미터초과,2015,10,,
81,제주,전용면적 60제곱미터이하,2015,10,,
113,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,11,,
114,광주,전용면적 102제곱미터초과,2015,11,,
119,대전,전용면적 102제곱미터초과,2015,11,,
166,제주,전용면적 60제곱미터이하,2015,11,,
198,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,12,,
199,광주,전용면적 102제곱미터초과,2015,12,,


In [61]:
apt_price['분양가격_복사'] = apt_price.분양가격_복사.str.replace(' ', '')

In [62]:
apt_price['분양가격_복사'].str.contains(' ').sum()

0

In [66]:
apt_price[apt_price.분양가격_복사==''].count()

지역명        36
전용면적       36
연도         36
월          36
분양가격       36
분양가격_복사    36
dtype: int64

In [67]:
apt_price.분양가격_복사.astype(int) # '' 때문에 Error 발생

ValueError: invalid literal for int() with base 10: ''

In [73]:
import numpy as np

# to_numeric : 데이터를 정수 or 실수로 변경
apt_price.분양가격_복사 = pd.to_numeric(apt_price.분양가격_복사).fillna(0).astype(int)
apt_price

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10,5841,5841
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721,5721
4,서울,전용면적 102제곱미터초과,2015,10,5879,5879
...,...,...,...,...,...,...
6455,제주,모든면적,2022,1,6574,6574
6456,제주,전용면적 60제곱미터이하,2022,1,2862,2862
6457,제주,전용면적 60제곱미터초과 85제곱미터이하,2022,1,6516,6516
6458,제주,전용면적 85제곱미터초과 102제곱미터이하,2022,1,5924,5924


In [77]:
# 0으로 된 데이터가 520개인 이유
apt_price[apt_price.분양가격_복사 == 0]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
28,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,10,,0
29,광주,전용면적 102제곱미터초과,2015,10,,0
34,대전,전용면적 102제곱미터초과,2015,10,,0
81,제주,전용면적 60제곱미터이하,2015,10,,0
113,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,11,,0
...,...,...,...,...,...,...
6403,광주,전용면적 85제곱미터초과 102제곱미터이하,2022,1,,0
6408,대전,전용면적 85제곱미터초과 102제곱미터이하,2022,1,,0
6409,대전,전용면적 102제곱미터초과,2022,1,,0
6414,울산,전용면적 102제곱미터초과,2022,1,,0


In [76]:
apt_price[apt_price.분양가격.str.contains(' ', na=False)]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
28,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,10,,0
29,광주,전용면적 102제곱미터초과,2015,10,,0
34,대전,전용면적 102제곱미터초과,2015,10,,0
81,제주,전용면적 60제곱미터이하,2015,10,,0
113,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,11,,0
114,광주,전용면적 102제곱미터초과,2015,11,,0
119,대전,전용면적 102제곱미터초과,2015,11,,0
166,제주,전용면적 60제곱미터이하,2015,11,,0
198,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,12,,0
199,광주,전용면적 102제곱미터초과,2015,12,,0


## 전용면적 : 데이터 변경
[변경 전] | [변경 후]
- | -
모든면적 | 모든면적
전용면적 60제곱미터이하 | 60
전용면적 60제곱미터초과 85제곱미터이하 | 60~85
전용면적 85제곱미터초과 102제곱미터이하	| 85~102
전용면적 102제곱미터초과 | 102~

In [87]:
apt_price.전용면적 = apt_price.전용면적.str.replace('전용면적', '').str.replace('제곱미터이하', '').str.replace('제곱미터초과', '~').str.replace(' ', '')

In [88]:
apt_price

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10,5841,5841
1,서울,60,2015,10,5652,5652
2,서울,60~85,2015,10,5882,5882
3,서울,85~102,2015,10,5721,5721
4,서울,102~,2015,10,5879,5879
...,...,...,...,...,...,...
6455,제주,모든면적,2022,1,6574,6574
6456,제주,60,2022,1,2862,2862
6457,제주,60~85,2022,1,6516,6516
6458,제주,85~102,2022,1,5924,5924


## 컬럼정리
- 분양가격 컬럼 삭제
- 분양가격_복사 -> 분양가격

In [89]:
apt_price.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6460 entries, 0 to 6459
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      6460 non-null   object
 1   전용면적     6460 non-null   object
 2   연도       6460 non-null   int32 
 3   월        6460 non-null   int32 
 4   분양가격     5976 non-null   object
 5   분양가격_복사  6460 non-null   int32 
dtypes: int32(3), object(3)
memory usage: 277.6+ KB


In [90]:
# 분양가격_복사 : 0개수
(apt_price.분양가격_복사==0).sum()

520

In [92]:
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격', '분양가격_복사'], dtype='object')

In [93]:
# 컬럼 삭제
# del apt_price['분양가격']
apt_price.drop(columns='분양가격', inplace=True)

In [94]:
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격_복사'], dtype='object')

In [96]:
apt_price.rename(columns={'분양가격_복사' : '분양가격'}, inplace=True)
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격'], dtype='object')

In [98]:
apt_price

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015,10,5841
1,서울,60,2015,10,5652
2,서울,60~85,2015,10,5882
3,서울,85~102,2015,10,5721
4,서울,102~,2015,10,5879
...,...,...,...,...,...
6455,제주,모든면적,2022,1,6574
6456,제주,60,2022,1,2862
6457,제주,60~85,2022,1,6516
6458,제주,85~102,2022,1,5924


# csv 파일 저장
- 파일명 : apt_price.csv
- 인덱스 삭제
- 인코딩 : utf-8

In [101]:
apt_price.to_csv('apt_price.csv', encoding='utf-8', index=False)
print('<< 파일 저장 완료 >>')

<< 파일 저장 완료 >>


In [102]:
df = pd.read_csv('apt_price.csv')
df.head()

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015,10,5841
1,서울,60,2015,10,5652
2,서울,60~85,2015,10,5882
3,서울,85~102,2015,10,5721
4,서울,102~,2015,10,5879
