In [1]:
# 현재 폴더 열기
!start .

In [1]:
import pandas as pd

# csv 파일 읽어오기

In [2]:
apt_price = pd.read_csv('주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20220131.csv', encoding='CP949')
apt_price[:2]

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015.0,10.0,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652


In [3]:
apt_price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7140 entries, 0 to 7139
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6460 non-null   object 
 1   규모구분        6460 non-null   object 
 2   연도          6460 non-null   float64
 3   월           6460 non-null   float64
 4   분양가격(제곱미터)  5976 non-null   object 
dtypes: float64(2), object(3)
memory usage: 279.0+ KB


In [4]:
# 결측치 수 확인
apt_price.isna().sum()

지역명            680
규모구분           680
연도             680
월              680
분양가격(제곱미터)    1164
dtype: int64

In [5]:
# 결측치 데이터 추출
apt_price[apt_price['분양가격(제곱미터)'].isna()]

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
368,광주,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
369,광주,전용면적 102제곱미터초과,2016.0,2.0,
374,대전,전용면적 102제곱미터초과,2016.0,2.0,
388,강원,전용면적 85제곱미터초과 102제곱미터이하,2016.0,2.0,
421,제주,전용면적 60제곱미터이하,2016.0,2.0,
...,...,...,...,...,...
7135,,,,,
7136,,,,,
7137,,,,,
7138,,,,,


# 전처리

## 컬럼명 변경
- 분양가격(제곱미터) -> 분양가격
- 규모구분 -> 전용면적

In [6]:
apt_price.rename(columns={'분양가격(제곱미터)':'분양가격', '규모구분':'전용면적'}, inplace=True)
apt_price[:2]

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015.0,10.0,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652


## 결측치 처리

### 모든 값이 결측치(결측값) 행 삭제

In [7]:
apt_price.dropna(how='all', inplace=True)

In [8]:
# 결측치 개수 확인
apt_price.isna().sum()

지역명       0
전용면적      0
연도        0
월         0
분양가격    484
dtype: int64

In [9]:
# 결측치 제외한 개수 확인
apt_price.notna().sum()

지역명     6460
전용면적    6460
연도      6460
월       6460
분양가격    5976
dtype: int64

### 분양가격 컬럼 복사
- 컬럼명 : 분양가격_복사

In [10]:
apt_price['분양가격_복사'] = apt_price['분양가격']
apt_price[:2]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015.0,10.0,5841,5841
1,서울,전용면적 60제곱미터이하,2015.0,10.0,5652,5652


### 분양가격_복사 컬럼 : 결측치 0으로 변경

In [11]:
apt_price['분양가격_복사'].fillna(0, inplace=True)

In [14]:
# 결측치 처리 여부 확인
apt_price.분양가격_복사.isna().sum()
apt_price[apt_price.분양가격.isna()]

apt_price[apt_price.분양가격_복사 == 0].count()

지역명        484
전용면적       484
연도         484
월          484
분양가격         0
분양가격_복사    484
dtype: int64

### 타입 변경

In [12]:
apt_price.dtypes

지역명         object
전용면적        object
연도         float64
월          float64
분양가격        object
분양가격_복사    float64
dtype: object

#### 연도 : int

In [15]:
apt_price['연도'] = apt_price.연도.astype(int)

In [16]:
apt_price[:2]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10.0,5841,5841
1,서울,전용면적 60제곱미터이하,2015,10.0,5652,5652


#### 월 : int

In [17]:
apt_price['월'] = apt_price.월.astype(int)

In [18]:
apt_price[:2]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10,5841,5841
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652


#### 분양가격_복사 : int

In [21]:
apt_price.분양가격_복사.str.contains(' ').sum()  # 36개

apt_price[apt_price.분양가격_복사.str.contains(' ', na=False)]  
# contains는 결측치가 들어가 있으면 결측치로 반환을 함
# 조건으로 쓰려면 결측치는 false로 처리해야 함

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
28,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,10,,
29,광주,전용면적 102제곱미터초과,2015,10,,
34,대전,전용면적 102제곱미터초과,2015,10,,
81,제주,전용면적 60제곱미터이하,2015,10,,
113,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,11,,
114,광주,전용면적 102제곱미터초과,2015,11,,
119,대전,전용면적 102제곱미터초과,2015,11,,
166,제주,전용면적 60제곱미터이하,2015,11,,
198,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,12,,
199,광주,전용면적 102제곱미터초과,2015,12,,


In [23]:
apt_price['분양가격_복사'] = apt_price.분양가격_복사.str.replace(' ', '')

In [24]:
apt_price.분양가격_복사.str.contains(' ').sum()

0

In [25]:
apt_price[apt_price.분양가격_복사==''].count()

지역명        36
전용면적       36
연도         36
월          36
분양가격       36
분양가격_복사    36
dtype: int64

In [None]:
# Error 빈문자열 때문에 발생
# apt_price.분양가격_복사.astype(int)

In [31]:
apt_price.분양가격_복사 = pd.to_numeric(apt_price.분양가격_복사).fillna(0).astype(int)

In [32]:
apt_price[apt_price.분양가격.str.contains(' ', na=False)]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
28,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,10,,0
29,광주,전용면적 102제곱미터초과,2015,10,,0
34,대전,전용면적 102제곱미터초과,2015,10,,0
81,제주,전용면적 60제곱미터이하,2015,10,,0
113,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,11,,0
114,광주,전용면적 102제곱미터초과,2015,11,,0
119,대전,전용면적 102제곱미터초과,2015,11,,0
166,제주,전용면적 60제곱미터이하,2015,11,,0
198,광주,전용면적 85제곱미터초과 102제곱미터이하,2015,12,,0
199,광주,전용면적 102제곱미터초과,2015,12,,0


### 전용면적 : 데이터 변경

[변경 전] | [변경 후]
- | -
모든면적 | 모든면적
전용면적 60제곱미터이하 | 60
전용면적 60제곱미터초과 85제곱미터이하 | 60~85
전용면적 85제곱미터초과 102제곱미터이하 | 85~102
전용면적 102제곱미터초과 | 102~

In [40]:
apt_price['전용면적'] = apt_price.전용면적.str.replace('전용면적', '').str.replace('제곱미터이하', '').str.replace('제곱미터초과', '~').str.replace(' ', '')

In [41]:
apt_price[:5]

Unnamed: 0,지역명,전용면적,연도,월,분양가격,분양가격_복사
0,서울,모든면적,2015,10,5841,5841
1,서울,60,2015,10,5652,5652
2,서울,60~85,2015,10,5882,5882
3,서울,85~102,2015,10,5721,5721
4,서울,102~,2015,10,5879,5879


### 컬럼 정리
- 삭제 : 분양가격 
- 컬럼명 변경 : 분양가격_복사 -> 분양가격

In [42]:
apt_price.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6460 entries, 0 to 6459
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      6460 non-null   object
 1   전용면적     6460 non-null   object
 2   연도       6460 non-null   int32 
 3   월        6460 non-null   int32 
 4   분양가격     5976 non-null   object
 5   분양가격_복사  6460 non-null   int32 
dtypes: int32(3), object(3)
memory usage: 277.6+ KB


In [43]:
# 분양가격_복사 : 0의 개수
apt_price[apt_price.분양가격_복사 == 0].count()

지역명        520
전용면적       520
연도         520
월          520
분양가격        36
분양가격_복사    520
dtype: int64

In [44]:
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격', '분양가격_복사'], dtype='object')

In [45]:
# 컬럼 삭제
apt_price.drop(columns='분양가격', inplace=True)

In [46]:
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격_복사'], dtype='object')

In [47]:
# 컬럼명 변경
apt_price.rename(columns={'분양가격_복사':'분양가격'}, inplace=True)
apt_price.columns

Index(['지역명', '전용면적', '연도', '월', '분양가격'], dtype='object')

In [48]:
apt_price.head()

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015,10,5841
1,서울,60,2015,10,5652
2,서울,60~85,2015,10,5882
3,서울,85~102,2015,10,5721
4,서울,102~,2015,10,5879


# csv 파일 저장
- 파일명 : apt_price.csv
- 인덱스 삭제
- 인코딩 : utf-8

In [49]:
apt_price.to_csv('apt_price.csv', index=False, encoding='utf-8')
print('저장 완료')

저장 완료


In [50]:
read_csv = pd.read_csv('apt_price.csv')
read_csv

Unnamed: 0,지역명,전용면적,연도,월,분양가격
0,서울,모든면적,2015,10,5841
1,서울,60,2015,10,5652
2,서울,60~85,2015,10,5882
3,서울,85~102,2015,10,5721
4,서울,102~,2015,10,5879
...,...,...,...,...,...
6455,제주,모든면적,2022,1,6574
6456,제주,60,2022,1,2862
6457,제주,60~85,2022,1,6516
6458,제주,85~102,2022,1,5924
