In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# # 위치에서 탐색기 실행 - cmd 명령어
# !start .

# csv 파일 읽어오기

In [3]:
apt_price = pd.read_csv('주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20220131.csv', encoding='cp949')

In [4]:
apt_price.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015.0,10.0,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015.0,10.0,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015.0,10.0,5721
4,서울,전용면적 102제곱미터초과,2015.0,10.0,5879


# 분석

In [5]:
# 1. 결측치 확인
# 2. 연도, 월 Dtype 변경
# 3. 분양가격(제곱미터) -> 분양가격 으로 변경
apt_price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7140 entries, 0 to 7139
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6460 non-null   object 
 1   규모구분        6460 non-null   object 
 2   연도          6460 non-null   float64
 3   월           6460 non-null   float64
 4   분양가격(제곱미터)  5976 non-null   object 
dtypes: float64(2), object(3)
memory usage: 279.0+ KB


# 전처리

In [6]:
# 전처리
# 1. 결측치 개수 확인
apt_price.isna().sum()

지역명            680
규모구분           680
연도             680
월              680
분양가격(제곱미터)    1164
dtype: int64

In [7]:
# 결측치 데이터 추출
apt_price[apt_price['분양가격(제곱미터)'].isna()]

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
368,광주,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
369,광주,전용면적 102제곱미터초과,2016.0,2.0,
374,대전,전용면적 102제곱미터초과,2016.0,2.0,
388,강원,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
421,제주,전용면적 60제곱미터이하,2016.0,2.0,
...,...,...,...,...,...
7135,,,,,
7136,,,,,
7137,,,,,
7138,,,,,


## 컬럼명 변경
- 분양가격(제곱미터) -> 분양가격
- 규모구분 -> 전용면적

In [8]:
apt_price.rename(columns={'규모구분' : '전용면적', '분양가격(제곱미터)' : '분양가격'})

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015.0,10.0,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015.0,10.0,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015.0,10.0,5721
4,서울,전용면적 102제곱미터초과,2015.0,10.0,5879
...,...,...,...,...,...
7135,,,,,
7136,,,,,
7137,,,,,
7138,,,,,


In [9]:
apt_price.rename(columns={'규모구분' : '전용면적', '분양가격(제곱미터)' : '분양가격'}, inplace=True)

In [10]:
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격'], dtype='object')

## 결측치 처리
- 관측치가 모두 결측치인 행 삭제
- 결측치인 데이터 변경
- Dtype 변경

### 관측치가 모두 결측치인 행 삭제

In [11]:
# 모든 행이 결측치인 행 삭제
apt_price.dropna(how='all', inplace=True)

### 분양가격 컬럼 복사
- 컬럼명 : 분양가격_복사

In [12]:
apt_price['분양가격_복사'] =  apt_price.분양가격
(apt_price.분양가격 == apt_price.분양가격_복사).tail()

6455    True
6456    True
6457    True
6458    True
6459    True
dtype: bool

### 분양가격_복사 컬럼 : 결측치 0으로 변경

In [13]:
# 분양가격_복사의 결측치 개수 확인
apt_price.분양가격_복사.isna().sum()

484

In [14]:
# 분양가격_복사 컬럼의 복사본으로 결측치 변경 확인
apt_fillna = apt_price.분양가격_복사.fillna(0)
apt_fillna[apt_fillna==0].value_counts()

분양가격_복사
0    484
Name: count, dtype: int64

In [15]:
# 분양가격_복사 컬럼의 결측치를 0으로 변경
apt_price.분양가격_복사.fillna(0, inplace=True)
apt_price.isna().sum()

지역명          0
전용면적         0
연도           0
월            0
분양가격       484
분양가격_복사      0
dtype: int64

## Dtype 변경
- 연도 : float -> int
- 월 : float -> int
- 분양가격_복사 : object -> int

In [16]:
# 연도에 실수가 존재하는지 확인
for num in apt_price.연도:
    if (num - int(num)) > 0:
        print(num)

print('출력 종료')

출력 종료


In [17]:
# 월에 실수가 존재하는지 확인
for num in apt_price.월:
    if (num - int(num)) > 0:
        print(num)

print('출력 종료')

출력 종료


In [18]:
# 분양가격_복사에 int가 아닌 데이터가 존재하는지 확인
count = 0
for num in apt_price.분양가격_복사:
    if type(num) != int:
        count += 1
print(count)
print('출력 종료')

5976
출력 종료


In [19]:
# 분양가격_복사에 문제 데이터 확인
apt_price.분양가격_복사.value_counts()

분양가격_복사
0       484
         31
3395     18
2221     17
2667     17
       ... 
3704      1
3853      1
4517      1
3436      1
2997      1
Name: count, Length: 2316, dtype: int64

In [20]:
apt_price.분양가격_복사[apt_price.분양가격_복사==' '].count()

5

In [21]:
apt_price.분양가격_복사[apt_price.분양가격_복사=='  '].count()

31

In [22]:
apt_price.분양가격_복사[apt_price.분양가격_복사=='   '].count()

0

In [23]:
# 분양가격_복사에 '  ', ' '데이터를 0으로 변경
apt_price.분양가격_복사[apt_price.분양가격_복사=='  '] = 0
apt_price.분양가격_복사[apt_price.분양가격_복사==' '] = 0
apt_price.분양가격_복사.value_counts()

분양가격_복사
0       520
3395     18
2667     17
2221     17
2729     16
       ... 
3704      1
3853      1
4517      1
3436      1
2997      1
Name: count, Length: 2314, dtype: int64

In [24]:
# 타입 변경
apt_price.astype({'연도' : 'int16', '월' : 'int8', '분양가격_복사' : int})

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10,5841,5841
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721,5721
4,서울,전용면적 102제곱미터초과,2015,10,5879,5879
...,...,...,...,...,...,...
6455,제주,모든면적,2022,1,6574,6574
6456,제주,전용면적 60제곱미터이하,2022,1,2862,2862
6457,제주,전용면적 60제곱미터초과 85제곱미터이하,2022,1,6516,6516
6458,제주,전용면적 85제곱미터초과 102제곱미터이하,2022,1,5924,5924


In [25]:
apt_price = apt_price.astype({'연도' : 'int16', '월' : 'int8', '분양가격_복사' : int})

## 전용면적 : 데이터 변경
[변경 전] | [변경 후]
- | -
모든면적 | 모든면적
전용면적 60제곱미터이하 | 60
전용면적 60제곱미터초과 85제곱미터이하 | 60~85
전용면적 85제곱미터초과 102제곱미터이하	| 85~102
전용면적 102제곱미터초과 | 102~

In [26]:
chage_values = ['60', '60~85', '85~102', '102~']
for idx in range(0,4):
    apt_price.loc[apt_price.전용면적==apt_price.iloc[idx+1, 1], '전용면적'] = chage_values[idx]
apt_price.전용면적.value_counts()

전용면적
모든면적      1292
60        1292
60~85     1292
85~102    1292
102~      1292
Name: count, dtype: int64

## 컬럼정리
- 분양가격 컬럼 삭제
- 분양가격_복사 -> 분양가격

In [27]:
# 분양가격 컬럼 삭제
del apt_price['분양가격']
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격_복사'], dtype='object')

In [28]:
apt_price.rename(columns={'분양가격_복사' : '분양가격'}, inplace=True)
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격'], dtype='object')

# csv 파일 저장
- 파일명 : apt_price.csv
- 인덱스 삭제
- 인코딩 : utf-8

In [29]:
apt_price

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015,10,5841
1,서울,60,2015,10,5652
2,서울,60~85,2015,10,5882
3,서울,85~102,2015,10,5721
4,서울,102~,2015,10,5879
...,...,...,...,...,...
6455,제주,모든면적,2022,1,6574
6456,제주,60,2022,1,2862
6457,제주,60~85,2022,1,6516
6458,제주,85~102,2022,1,5924


In [30]:
apt_price.to_csv('apt_price.csv', index=False, encoding='utf-8')