## 데이터 전처리

### 관련 라이브러리 호출

In [1]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

### 작업 경로 확인 및 변경

In [2]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

'/Users/hdsceokevin/Documents/Lectures/PythonBasic/code'

In [3]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [4]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['APT_List_Seoul_2021.csv',
 'Naver_APT_Detail_Seoul.xlsx',
 'Naver_APT_Detail_Seoul.csv',
 'APT_Price_Seoul_2021.csv',
 'APT_List_Seoul_2021.xlsx',
 'KBO_Hitters_2021.xlsx',
 'KBO_Hitters_2021.csv',
 'APT_Price_Seoul_2021.xlsx',
 'APT_List_Seoul_2021.z',
 'APT_Mean_Price_Dong_2021.xlsx']

###  실습 데이터셋 준비

In [5]:
# 가격 xlsx 파일을 읽고 데이터프레임을 생성합니다.
%time price = pd.read_excel(io = 'APT_Price_Seoul_2021.xlsx')

CPU times: user 4.43 s, sys: 38.1 ms, total: 4.47 s
Wall time: 4.48 s


In [6]:
# price의 정보를 출력합니다.
price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43447 entries, 0 to 43446
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   지역코드    43447 non-null  int64         
 1   아파트     43447 non-null  object        
 2   시도명     43447 non-null  object        
 3   시군구     43447 non-null  object        
 4   법정동     43447 non-null  object        
 5   지번      43433 non-null  object        
 6   거래일     43447 non-null  datetime64[ns]
 7   전용면적    43447 non-null  float64       
 8   층       43447 non-null  int64         
 9   거래금액    43447 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(6)
memory usage: 3.3+ MB


In [7]:
# price의 처음 5행을 출력합니다.
price.head()

Unnamed: 0,지역코드,아파트,시도명,시군구,법정동,지번,거래일,전용면적,층,거래금액
0,11170,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,87500
1,11305,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,24300
2,11380,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,77000
3,11380,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
4,11380,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000


### csv 파일 인코딩 방식 확인

In [8]:
# 가격 csv 파일명을 재사용할 수 있도록 변수에 할당합니다.
file = 'APT_Price_Seoul_2021.csv'

In [9]:
# csv 파일을 바이너리 모드로 읽습니다.
text = open(file = file, mode = 'rb').read()
text[:100]

b'\xec\xa7\x80\xec\x97\xad\xec\xbd\x94\xeb\x93\x9c,\xec\x95\x84\xed\x8c\x8c\xed\x8a\xb8,\xec\x8b\x9c\xeb\x8f\x84\xeb\xaa\x85,\xec\x8b\x9c\xea\xb5\xb0\xea\xb5\xac,\xeb\xb2\x95\xec\xa0\x95\xeb\x8f\x99,\xec\xa7\x80\xeb\xb2\x88,\xea\xb1\xb0\xeb\x9e\x98\xec\x9d\xbc,\xec\xa0\x84\xec\x9a\xa9\xeb\xa9\xb4\xec\xa0\x81,\xec\xb8\xb5,\xea\xb1\xb0\xeb\x9e\x98\xea\xb8\x88\xec\x95\xa1\n'

In [10]:
# csv 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(text[:100])

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

### csv 파일 읽을 때 날짜형으로 생성

In [11]:
# 가격 csv 파일을 읽고 데이터프레임을 생성합니다.
%time price = pd.read_csv(filepath_or_buffer = file, encoding = 'UTF-8')

CPU times: user 59.9 ms, sys: 13.2 ms, total: 73.1 ms
Wall time: 73.7 ms


In [12]:
# price의 열별 자료형을 확인합니다.
price.dtypes

지역코드      int64
아파트      object
시도명      object
시군구      object
법정동      object
지번       object
거래일      object
전용면적    float64
층         int64
거래금액     object
dtype: object

In [13]:
# 날짜 데이터는 날짜형, 콤마를 포함하는 숫자는 정수형으로 읽습니다.
df = pd.read_csv(filepath_or_buffer = file, 
                 parse_dates = ['거래일'], 
                 thousands = ',')

In [14]:
# df의 열별 자료형을 확인합니다.
df.dtypes

지역코드             int64
아파트             object
시도명             object
시군구             object
법정동             object
지번              object
거래일     datetime64[ns]
전용면적           float64
층                int64
거래금액             int64
dtype: object

### 열 선택

In [15]:
# 열이름을 문자열 스칼라로 지정하면 시리즈로 반환합니다.
price['지역코드']

0        11170
1        11305
2        11380
3        11380
4        11380
         ...  
43442    11590
43443    11650
43444    11680
43445    11680
43446    11740
Name: 지역코드, Length: 43447, dtype: int64

In [16]:
# 열이름을 리스트로 지정하면 데이터프레임으로 반환합니다.
# [참고] 2개 이상의 열을 선택하려면 리스트로 지정합니다.
price[['지역코드']]

Unnamed: 0,지역코드
0,11170
1,11305
2,11380
3,11380
4,11380
...,...
43442,11590
43443,11650
43444,11680
43445,11680


In [17]:
# 열이름 순서를 변경하면 위치를 바꿔서 반환합니다.
price[['아파트', '지역코드']]

Unnamed: 0,아파트,지역코드
0,동아그린,11170
1,한원힐트리움수유,11305
2,대림한숲(DMC이편한세상),11380
3,동광갈현베르빌,11380
4,동광갈현베르빌,11380
...,...,...
43442,흑석동양아파트,11590
43443,삼풍아파트,11650
43444,래미안블레스티지,11680
43445,현대비젼21,11680


In [18]:
# 슬라이스로 연속된 열을 선택하려면 loc 인덱서를 추가합니다.(배열 인덱싱)
# [주의] loc 인덱서를 생략하면 에러가 발생합니다.
price.loc[:, '거래일':'거래금액']

Unnamed: 0,거래일,전용면적,층,거래금액
0,2021-01-01,43.020,11,87500
1,2021-01-01,27.390,5,24300
2,2021-01-01,84.951,3,77000
3,2021-01-01,84.997,8,68000
4,2021-01-01,84.997,8,68000
...,...,...,...,...
43442,2021-12-31,84.991,1,105000
43443,2021-12-31,79.470,9,280000
43444,2021-12-31,84.940,16,316000
43445,2021-12-31,32.650,18,45000


In [19]:
# 조건을 만족하는 열을 선택합니다.(불리언 인덱싱)
price.loc[:, price.dtypes == int]

Unnamed: 0,지역코드,층
0,11170,11
1,11305,5
2,11380,3
3,11380,8
4,11380,8
...,...,...
43442,11590,1
43443,11650,9
43444,11680,16
43445,11680,18


### 열 삭제

In [20]:
# 삭제할 열이름을 drop() 함수의 columns 매개변수에 리스트로 지정합니다.
price.drop(columns = ['지역코드'])

Unnamed: 0,아파트,시도명,시군구,법정동,지번,거래일,전용면적,층,거래금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.020,11,87500
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.390,5,24300
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,77000
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
...,...,...,...,...,...,...,...,...,...
43442,흑석동양아파트,서울특별시,동작구,흑석동,328,2021-12-31,84.991,1,105000
43443,삼풍아파트,서울특별시,서초구,서초동,1685,2021-12-31,79.470,9,280000
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,16,316000
43445,현대비젼21,서울특별시,강남구,도곡동,467-19,2021-12-31,32.650,18,45000


In [21]:
# price의 처음 5행을 출력하빈다. price는 여전히 지역코드를 포함하고 있습니다.
price.head()

Unnamed: 0,지역코드,아파트,시도명,시군구,법정동,지번,거래일,전용면적,층,거래금액
0,11170,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,87500
1,11305,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,24300
2,11380,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,77000
3,11380,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
4,11380,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000


In [22]:
# 열을 삭제하고 재할당하면 데이터프레임에서 해당 열을 삭제합니다.
price = price.drop(columns = ['지역코드'])
price.head()

Unnamed: 0,아파트,시도명,시군구,법정동,지번,거래일,전용면적,층,거래금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,87500
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,24300
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,77000
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000


### 열이름 변경

In [23]:
# 일부 열이름을 변경한 결과를 출력합니다.
# [주의] columns 매개변수를 생략하면 안됩니다!
price.rename(columns = {'시도명': '시도', '시군구': '자치구'})

Unnamed: 0,아파트,시도,자치구,법정동,지번,거래일,전용면적,층,거래금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.020,11,87500
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.390,5,24300
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,77000
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
...,...,...,...,...,...,...,...,...,...
43442,흑석동양아파트,서울특별시,동작구,흑석동,328,2021-12-31,84.991,1,105000
43443,삼풍아파트,서울특별시,서초구,서초동,1685,2021-12-31,79.470,9,280000
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,16,316000
43445,현대비젼21,서울특별시,강남구,도곡동,467-19,2021-12-31,32.650,18,45000


In [24]:
# price의 열이름을 출력합니다.
price.columns

Index(['아파트', '시도명', '시군구', '법정동', '지번', '거래일', '전용면적', '층', '거래금액'], dtype='object')

In [25]:
# 전체 열이름을 변경합니다.
# [주의] 데이터프레임의 열이름과 원소 개수가 같은 리스트를 지정해야 합니다.
price.columns = ['아파트', '시도', '자치구', '읍면동', '지번', 
                 '거래일', '전용면적', '층', '거래금액']
price.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,87500
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,24300
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,77000
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000


### 열별 자료형 변환

In [26]:
# 거래금액 원소에 있는 콤마를 삭제합니다.
price['거래금액'] = price['거래금액'].str.replace(pat = ',', repl = '')

In [27]:
# 시리즈의 원소 자료형을 변환하고 재할당합니다.
price['거래금액'] = price['거래금액'].astype(dtype = float)

In [28]:
# price의 열별 자료형을 확인합니다.
price.dtypes

아파트      object
시도       object
자치구      object
읍면동      object
지번       object
거래일      object
전용면적    float64
층         int64
거래금액    float64
dtype: object

In [29]:
# 데이터프레임의 열별로 자료형 변환 방법을 딕셔너리로 지정합니다.
price = price.astype(dtype = {'거래일': 'datetime64', '층': float})
price.dtypes

아파트             object
시도              object
자치구             object
읍면동             object
지번              object
거래일     datetime64[ns]
전용면적           float64
층              float64
거래금액           float64
dtype: object

In [30]:
# 정수형으로 변환할 열이름으로 리스트를 생성합니다.
cols = ['층', '거래금액']

In [31]:
# 선택한 열의 자료형을 일괄 변환합니다.
price[cols] = price[cols].astype(dtype = int)
price.dtypes

아파트             object
시도              object
자치구             object
읍면동             object
지번              object
거래일     datetime64[ns]
전용면적           float64
층                int64
거래금액             int64
dtype: object

### [참고] 문자열을 날짜형으로 변환

In [32]:
# 날짜 기본형이 아닌 문자열 리스트로 시리즈를 생성합니다.
birth = pd.Series(data = ['2001년 2월 3일'])
birth

0    2001년 2월 3일
dtype: object

In [33]:
# to_datetime() 함수는 문자열을 날짜형으로 변환합니다.
birth = pd.to_datetime(arg = birth, format = '%Y년 %m월 %d일')
birth.iloc[0]

Timestamp('2001-02-03 00:00:00')

### [참고] 날짜 시간 데이터 연산

In [34]:
# 현재 날짜 시간 데이터를 생성합니다.
today = pd.Timestamp.today()
today

Timestamp('2022-08-17 16:30:15.628831')

In [35]:
# 태어나서 현재까지 살아온 기간을 dtGap에 할당합니다.
dtGap = today - birth.iloc[0]

In [36]:
# dtGap에서 경과일수를 출력합니다.
dtGap.days

7865

### [참고] 날짜 분해 함수

In [37]:
# 거래일에서 년(year)을 정수형 시리즈로 반환합니다.
price['거래일'].dt.year

0        2021
1        2021
2        2021
3        2021
4        2021
         ... 
43442    2021
43443    2021
43444    2021
43445    2021
43446    2021
Name: 거래일, Length: 43447, dtype: int64

In [38]:
# 거래일에서 월(month)을 정수형 시리즈로 반환합니다.
price['거래일'].dt.month

0         1
1         1
2         1
3         1
4         1
         ..
43442    12
43443    12
43444    12
43445    12
43446    12
Name: 거래일, Length: 43447, dtype: int64

In [39]:
# 거래일에서 일(day)을 정수형 시리즈로 반환합니다.
price['거래일'].dt.day

0         1
1         1
2         1
3         1
4         1
         ..
43442    31
43443    31
43444    31
43445    31
43446    31
Name: 거래일, Length: 43447, dtype: int64

In [40]:
# 거래일에서 영문 요일을 문자형 시리즈로 반환합니다.
price['거래일'].dt.day_name()

0        Friday
1        Friday
2        Friday
3        Friday
4        Friday
          ...  
43442    Friday
43443    Friday
43444    Friday
43445    Friday
43446    Friday
Name: 거래일, Length: 43447, dtype: object

In [41]:
# 거래일에서 한글 요일을 문자형 시리즈로 반환합니다.
price['거래일'].dt.day_name(locale = 'ko_KR')

0        금요일
1        금요일
2        금요일
3        금요일
4        금요일
        ... 
43442    금요일
43443    금요일
43444    금요일
43445    금요일
43446    금요일
Name: 거래일, Length: 43447, dtype: object

### 조건에 맞는 행 선택: 연속형 변수

In [42]:
# 거래금액이 100억 이상인 행을 선택하여 df1에 할당합니다.
df1 = price[price['거래금액'] >= 1000000]
df1.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
10512,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
10513,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
27790,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
31863,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
36848,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000


In [43]:
# 거래금액이 100억 미만이고 60층 이상인 행을 선택하여 df2에 할당합니다.
df2 = price[(price['거래금액'] < 1000000) & (price['층'] >= 60)]
df2.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
507,현대하이페리온,서울특별시,양천구,목동,916,2021-01-05,154.05,61,285000
7859,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,460000
16466,타워팰리스1,서울특별시,강남구,도곡동,467,2021-04-22,137.24,61,314000
18269,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-05-04,244.224,63,535000
19706,타워팰리스1,서울특별시,강남구,도곡동,467,2021-05-13,244.66,61,540000


### [참고] 시리즈의 비교 연산 함수

In [44]:
# 층이 60 초과면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].gt(60).sum()

11

In [45]:
# 층이 60 이상이면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].ge(60).sum()

13

In [46]:
# 층이 60 미만이면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].lt(60).sum()

43434

In [47]:
# 층이 60 이하이면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].le(60).sum()

43436

In [48]:
# 층이 60이면 True, 60이 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].eq(60).sum()

2

In [49]:
# 층이 60이 아니면 True, 60이면 False인 부울형 시리즈를 반환합니다.
price['층'].ne(60).sum()

43445

In [50]:
# 비교 연산 함수는 시리즈이므로 소괄호로 감싸지 않아도 됩니다.
price['거래금액'].lt(1000000) & price['층'].ge(60)

0        False
1        False
2        False
3        False
4        False
         ...  
43442    False
43443    False
43444    False
43445    False
43446    False
Length: 43447, dtype: bool

### 조건에 맞는 행 선택: 범주형 변수

In [51]:
# 자치구가 '강남구'인 행을 선택합니다.
price[price['자치구'].eq('강남구')]

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
22,개포주공6단지,서울특별시,강남구,개포동,185,2021-01-01,53.060,3,178000
23,삼성,서울특별시,강남구,수서동,747,2021-01-01,84.970,8,176000
24,현대1차101동~106동,서울특별시,강남구,개포동,653,2021-01-01,95.400,9,215000
165,SK허브프리모,서울특별시,강남구,도곡동,953-1,2021-01-02,67.570,11,91000
166,개포우성1,서울특별시,강남구,대치동,503,2021-01-02,84.810,12,285000
...,...,...,...,...,...,...,...,...,...
43403,푸른마을아파트101동~111동,서울특별시,강남구,일원동,719,2021-12-29,59.760,10,165000
43404,현대힐스테이트2단지,서울특별시,강남구,삼성동,50,2021-12-29,84.236,16,299000
43426,프리마빌,서울특별시,강남구,역삼동,727-11,2021-12-30,140.730,5,120000
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,16,316000


In [52]:
# 자치구가 '강남구' 또는 '서초구'인 행을 선택합니다.
price[price['자치구'].eq('강남구') | price['자치구'].eq('서초구')]

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
20,삼풍아파트,서울특별시,서초구,서초동,1685,2021-01-01,130.730,3,275000
21,엘에이치서초4단지,서울특별시,서초구,우면동,788,2021-01-01,59.930,25,120000
22,개포주공6단지,서울특별시,강남구,개포동,185,2021-01-01,53.060,3,178000
23,삼성,서울특별시,강남구,수서동,747,2021-01-01,84.970,8,176000
24,현대1차101동~106동,서울특별시,강남구,개포동,653,2021-01-01,95.400,9,215000
...,...,...,...,...,...,...,...,...,...
43404,현대힐스테이트2단지,서울특별시,강남구,삼성동,50,2021-12-29,84.236,16,299000
43426,프리마빌,서울특별시,강남구,역삼동,727-11,2021-12-30,140.730,5,120000
43443,삼풍아파트,서울특별시,서초구,서초동,1685,2021-12-31,79.470,9,280000
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,16,316000


In [53]:
# isin() 함수는 시리즈 원소가 리스트에 있으면 True, 없으면 False를 반환합니다.
price[price['자치구'].isin(values = ['강남구', '서초구'])]

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
20,삼풍아파트,서울특별시,서초구,서초동,1685,2021-01-01,130.730,3,275000
21,엘에이치서초4단지,서울특별시,서초구,우면동,788,2021-01-01,59.930,25,120000
22,개포주공6단지,서울특별시,강남구,개포동,185,2021-01-01,53.060,3,178000
23,삼성,서울특별시,강남구,수서동,747,2021-01-01,84.970,8,176000
24,현대1차101동~106동,서울특별시,강남구,개포동,653,2021-01-01,95.400,9,215000
...,...,...,...,...,...,...,...,...,...
43404,현대힐스테이트2단지,서울특별시,강남구,삼성동,50,2021-12-29,84.236,16,299000
43426,프리마빌,서울특별시,강남구,역삼동,727-11,2021-12-30,140.730,5,120000
43443,삼풍아파트,서울특별시,서초구,서초동,1685,2021-12-31,79.470,9,280000
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,16,316000


In [54]:
# str.contains() 함수는 원소에 패턴이 있으면 True, 없으면 False를 반환합니다.
price[price['자치구'].str.contains(pat = '강남|서초')]

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
20,삼풍아파트,서울특별시,서초구,서초동,1685,2021-01-01,130.730,3,275000
21,엘에이치서초4단지,서울특별시,서초구,우면동,788,2021-01-01,59.930,25,120000
22,개포주공6단지,서울특별시,강남구,개포동,185,2021-01-01,53.060,3,178000
23,삼성,서울특별시,강남구,수서동,747,2021-01-01,84.970,8,176000
24,현대1차101동~106동,서울특별시,강남구,개포동,653,2021-01-01,95.400,9,215000
...,...,...,...,...,...,...,...,...,...
43404,현대힐스테이트2단지,서울특별시,강남구,삼성동,50,2021-12-29,84.236,16,299000
43426,프리마빌,서울특별시,강남구,역삼동,727-11,2021-12-30,140.730,5,120000
43443,삼풍아파트,서울특별시,서초구,서초동,1685,2021-12-31,79.470,9,280000
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,16,316000


### [참고] 시리즈를 문자열로 처리하는 주요 함수

In [55]:
# 실습용 시리즈를 생성합니다.
drID = pd.Series(data = ['서울 00-123456-01', '경기 01-654321-02'])

In [56]:
# 문자열(원소)을 지정한 패턴으로 분리하고 결과를 데이터프레임으로 반환합니다.
drID.str.split(pat = ' |-', expand = True)

Unnamed: 0,0,1,2,3
0,서울,0,123456,1
1,경기,1,654321,2


In [57]:
# 문자열(원소)마다 지정한 패턴이 있으면 시작 인덱스를 반환합니다.
# [참고] 지정한 패턴이 없으면 -1을 반환합니다.
drID.str.find(sub = '서울')

0    0
1   -1
dtype: int64

In [58]:
# 문자열(원소)마다 지정한 패턴을 교체할 문자열로 변경합니다.
drID.str.replace(pat = ' ', repl = '')

0    서울00-123456-01
1    경기01-654321-02
dtype: object

In [59]:
# 문자열(원소)을 지정한 인덱스로 자릅니다.
drID.str.slice(start = 0, stop = 2)

0    서울
1    경기
dtype: object

In [60]:
# 문자열(원소)마다 지정한 패턴에 해당하는 문자열을 추출합니다.
# [주의] 패턴을 소괄호로 감싸야 합니다.
drID.str.extract(pat = r'([가-힣]+)')

Unnamed: 0,0
0,서울
1,경기


### 행 삭제

In [61]:
# df1의 처음 5행을 출력합니다.
df1.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
10512,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
10513,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
27790,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
31863,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
36848,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000


In [62]:
# 삭제할 행이름을 drop() 함수의 index 매개변수에 리스트로 지정합니다.
# [주의] 행이름에 없는 값을 지정하면 에러가 발생합니다.
df1.drop(index = [10512, 10513])

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
27790,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
31863,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
36848,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000
42130,파르크한남,서울특별시,용산구,한남동,410,2021-11-24,268.95,3,1150000
42234,파르크한남,서울특별시,용산구,한남동,410,2021-11-26,268.67,4,1170000
42889,파르크한남,서울특별시,용산구,한남동,410,2021-12-13,268.95,2,1200000


In [63]:
# 행이름 리스트 대신 인덱스를 사용할 수 있습니다.
df1.drop(index = df1.index[0:2])

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
27790,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
31863,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
36848,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000
42130,파르크한남,서울특별시,용산구,한남동,410,2021-11-24,268.95,3,1150000
42234,파르크한남,서울특별시,용산구,한남동,410,2021-11-26,268.67,4,1170000
42889,파르크한남,서울특별시,용산구,한남동,410,2021-12-13,268.95,2,1200000


### 행이름 초기화

In [64]:
# 행이름을 초기화합니다.
# [참고] drop = True를 추가하지 않으면 기존 행이름을 열로 추가합니다.
df1.reset_index(drop = True)

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
0,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
1,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
2,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
3,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
4,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000
5,파르크한남,서울특별시,용산구,한남동,410,2021-11-24,268.95,3,1150000
6,파르크한남,서울특별시,용산구,한남동,410,2021-11-26,268.67,4,1170000
7,파르크한남,서울특별시,용산구,한남동,410,2021-12-13,268.95,2,1200000


In [65]:
# 열을 행이름으로 지정합니다. 아파트를 행이름으로 설정하고 열에서 삭제합니다.
df1 = df1.set_index(keys = '아파트')
df1.head()

Unnamed: 0_level_0,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
아파트,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000


In [66]:
# 행이름을 초기화하면서 기존 행이름을 열로 추가합니다.
df1 = df1.reset_index()
df1.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
0,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
1,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
2,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
3,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
4,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000


### 결측값 처리: 단순대체

In [67]:
# 데이터프레임의 셀 값별 결측값 여부를 확인합니다.
price.isna()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
43442,False,False,False,False,False,False,False,False,False
43443,False,False,False,False,False,False,False,False,False
43444,False,False,False,False,False,False,False,False,False
43445,False,False,False,False,False,False,False,False,False


In [68]:
# 데이터프레임의 열별 결측값 개수를 확인합니다.
price.isna().sum()

아파트      0
시도       0
자치구      0
읍면동      0
지번      14
거래일      0
전용면적     0
층        0
거래금액     0
dtype: int64

In [69]:
# 지번이 결측값인 행을 선택합니다.
price[price['지번'].isna()]

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
1900,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-01-12,84.48,8,160000
10266,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-03-02,84.48,11,159000
11456,힐스테이트 서초 젠트리스,서울특별시,서초구,신원동,,2021-03-11,84.95,2,163000
14474,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-04-06,84.48,21,154500
14989,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-04-10,59.21,2,135000
15516,힐스테이트 서초 젠트리스,서울특별시,서초구,신원동,,2021-04-15,101.9,4,187500
16181,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-04-20,84.87,14,155000
17240,힐스테이트 서초 젠트리스,서울특별시,서초구,신원동,,2021-04-27,101.9,3,184500
20261,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-05-16,59.21,8,131000
20533,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-05-18,84.87,1,151000


In [70]:
# 지번이 결측값인 행에서 결측값을 빈 문자열로 대체한 결과를 반환합니다.
price[price['지번'].isna()].fillna(value = '')

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
1900,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-01-12,84.48,8,160000
10266,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-03-02,84.48,11,159000
11456,힐스테이트 서초 젠트리스,서울특별시,서초구,신원동,,2021-03-11,84.95,2,163000
14474,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-04-06,84.48,21,154500
14989,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-04-10,59.21,2,135000
15516,힐스테이트 서초 젠트리스,서울특별시,서초구,신원동,,2021-04-15,101.9,4,187500
16181,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-04-20,84.87,14,155000
17240,힐스테이트 서초 젠트리스,서울특별시,서초구,신원동,,2021-04-27,101.9,3,184500
20261,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-05-16,59.21,8,131000
20533,서초포레스타2단지,서울특별시,서초구,내곡동,,2021-05-18,84.87,1,151000


### [참고] 결측값을 이전 셀 값으로 채우기

In [71]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['APT_List_Seoul_2021.csv',
 'Naver_APT_Detail_Seoul.xlsx',
 'Naver_APT_Detail_Seoul.csv',
 'APT_Price_Seoul_2021.csv',
 'APT_List_Seoul_2021.xlsx',
 'KBO_Hitters_2021.xlsx',
 'KBO_Hitters_2021.csv',
 'APT_Price_Seoul_2021.xlsx',
 'APT_List_Seoul_2021.z',
 'APT_Mean_Price_Dong_2021.xlsx']

In [72]:
# 법정동별 평균 거래금액 데이터를 읽고 데이터프레임을 생성합니다.
meanPrice = pd.read_excel(io = 'APT_Mean_Price_Dong_2021.xlsx')

In [73]:
# meanPrice를 출력합니다.
# [참고] xlsx에서 병합한 셀은 처음 값만 제대로 읽고 나머지는 결측값으로 대체합니다.
meanPrice

Unnamed: 0,자치구,읍면동,거래금액
0,강남구,개포동,211467
1,,논현동,123896
2,,대치동,235221
3,,도곡동,249234
4,,삼성동,189397
...,...,...,...
309,,면목동,64122
310,,묵동,70601
311,,상봉동,71782
312,,신내동,62586


In [74]:
# 자치구에 있는 결측값을 이전 셀 값으로 채웁니다.
meanPrice.fillna(method = 'ffill')

Unnamed: 0,자치구,읍면동,거래금액
0,강남구,개포동,211467
1,강남구,논현동,123896
2,강남구,대치동,235221
3,강남구,도곡동,249234
4,강남구,삼성동,189397
...,...,...,...
309,중랑구,면목동,64122
310,중랑구,묵동,70601
311,중랑구,상봉동,71782
312,중랑구,신내동,62586


In [75]:
# 자치구에 있는 결측값을 이후 셀 값으로 채웁니다.
meanPrice.fillna(method = 'bfill')

Unnamed: 0,자치구,읍면동,거래금액
0,강남구,개포동,211467
1,강동구,논현동,123896
2,강동구,대치동,235221
3,강동구,도곡동,249234
4,강동구,삼성동,189397
...,...,...,...
309,,면목동,64122
310,,묵동,70601
311,,상봉동,71782
312,,신내동,62586


### 결측값 처리: 행 삭제

In [76]:
# 데이터프레임에서 결측값이 있는 모든 행을 삭제하고 행 개수를 확인합니다.
price.dropna().shape[0]

43433

In [77]:
# 지번에서 결측값이 있는 행을 선택하고 행 개수를 확인합니다.
price[price['지번'].isna()].shape[0]

14

In [78]:
# 지번에서 결측값이 없는 행을 선택하고 행 개수를 확인합니다.
price[price['지번'].notna()].shape[0]

43433

In [79]:
# 지번에서 결측값이 아닌 행을 선택하고 price에 재할당합니다.
price = price[price['지번'].notna()]

### 파생변수 생성 : 연속형 변수

In [80]:
# 거래금액을 전용면적으로 나누고 3.3을 곱한 평당금액을 생성합니다.
price['평당금액'] = price['거래금액'] / price['전용면적'] * 3.3
price.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,87500,6711.994421
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,24300,2927.710843
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,77000,2991.136067
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000,2640.09318
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,68000,2640.09318


In [81]:
# 거래금액의 단위를 만원에서 억원으로 변경합니다.
price['거래금액'] = price['거래금액'] / 10000

In [82]:
# [참고] pandas 옵션 중 실수를 출력하는 소수점 자리수를 3으로 설정합니다.
pd.options.display.precision = 3
price.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,8.75,6711.994
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,2.43,2927.711
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,7.7,2991.136
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,6.8,2640.093
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,6.8,2640.093


### [참고] 데이터프레임에 열 추가 및 삽입

In [83]:
# price에서 일부 열을 삭제한 데이터프레임 imsi를 생성합니다.
imsi = price.drop(columns = ['층', '평당금액'])
imsi

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,거래금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.020,8.75
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.390,2.43
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,7.70
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.80
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.80
...,...,...,...,...,...,...,...,...
43442,흑석동양아파트,서울특별시,동작구,흑석동,328,2021-12-31,84.991,10.50
43443,삼풍아파트,서울특별시,서초구,서초동,1685,2021-12-31,79.470,28.00
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,31.60
43445,현대비젼21,서울특별시,강남구,도곡동,467-19,2021-12-31,32.650,4.50


In [84]:
# imsi에 여러 시리즈를 추가한 결과를 출력합니다.
imsi.assign(층 = price['층'], 평당금액 = price['평당금액'])

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,거래금액,층,평당금액
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.020,8.75,11,6711.994
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.390,2.43,5,2927.711
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,7.70,3,2991.136
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.80,8,2640.093
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.80,8,2640.093
...,...,...,...,...,...,...,...,...,...,...
43442,흑석동양아파트,서울특별시,동작구,흑석동,328,2021-12-31,84.991,10.50,1,4076.902
43443,삼풍아파트,서울특별시,서초구,서초동,1685,2021-12-31,79.470,28.00,9,11627.029
43444,래미안블레스티지,서울특별시,강남구,개포동,1280,2021-12-31,84.940,31.60,16,12276.901
43445,현대비젼21,서울특별시,강남구,도곡동,467-19,2021-12-31,32.650,4.50,18,4548.239


In [85]:
# imsi의 원하는 위치에 시리즈를 지정한 열이름으로 삽입합니다.
imsi.insert(loc = 0, value = price['평당금액'], column = '평당금액')
imsi.head()

Unnamed: 0,평당금액,아파트,시도,자치구,읍면동,지번,거래일,전용면적,거래금액
0,6711.994,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,8.75
1,2927.711,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,2.43
2,2991.136,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,7.7
3,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8
4,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8


### [참고] 시리즈 데이터 지연

In [86]:
# imsi의 거래금액을 1번 지연한 시리즈를 반환합니다.
imsi['거래금액'].shift(1)

0          NaN
1         8.75
2         2.43
3         7.70
4         6.80
         ...  
43442     1.50
43443    10.50
43444    28.00
43445    31.60
43446     4.50
Name: 거래금액, Length: 43433, dtype: float64

In [87]:
# imsi의 거래금액을 1~2번 지연한 파생변수를 추가합니다.
imsi['거래금액1'] = imsi['거래금액'].shift(1)
imsi['거래금액2'] = imsi['거래금액'].shift(2)
imsi.head()

Unnamed: 0,평당금액,아파트,시도,자치구,읍면동,지번,거래일,전용면적,거래금액,거래금액1,거래금액2
0,6711.994,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,8.75,,
1,2927.711,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,2.43,8.75,
2,2991.136,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,7.7,2.43,8.75
3,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8,7.7,2.43
4,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8,6.8,7.7


### [참고] 시리즈 이동평균

In [88]:
# 정수 1~5를 원소로 갖는 시리즈를 생성합니다.(시계열 데이터로 가정합니다.)
nums = pd.Series(data = np.arange(1, 6))
nums

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [89]:
# nums로 3일 이동평균을 계산합니다.
nums.rolling(window = 3).mean()

0    NaN
1    NaN
2    2.0
3    3.0
4    4.0
dtype: float64

In [90]:
# nums로 3일 이동평균을 계산할 때 최소 원소 개수를 1로 지정합니다.
nums.rolling(window = 3, min_periods = 1).mean()

0    1.0
1    1.5
2    2.0
3    3.0
4    4.0
dtype: float64

### 파생변수 생성 : 범주형 변수

In [91]:
# 평당금액을 '5천 이상', '5천 미만'으로 구분한 금액구분을 생성합니다.
price['금액구분'] = np.where(price['평당금액'].ge(5000), '5천 이상', '5천 미만')
price.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액,금액구분
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,8.75,6711.994,5천 이상
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,2.43,2927.711,5천 미만
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,7.7,2991.136,5천 미만
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,6.8,2640.093,5천 미만
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,6.8,2640.093,5천 미만


### [참고] pandas에서 추천하는 코딩 방식

In [92]:
# 평당금액이 5000 이상인 행의 새 변수(금액구분)에 '5천 이상'을 할당합니다.
imsi.loc[imsi['평당금액'].ge(5000), '금액구분'] = '5천 이상'
imsi.head()

Unnamed: 0,평당금액,아파트,시도,자치구,읍면동,지번,거래일,전용면적,거래금액,거래금액1,거래금액2,금액구분
0,6711.994,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,8.75,,,5천 이상
1,2927.711,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,2.43,8.75,,
2,2991.136,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,7.7,2.43,8.75,
3,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8,7.7,2.43,
4,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8,6.8,7.7,


In [93]:
# 평당금액이 5000 미만인 행의 새 변수(금액구분)에 '5천 미만'을 할당합니다.
imsi.loc[imsi['평당금액'].lt(5000), '금액구분'] = '5천 미만'
imsi.head()

Unnamed: 0,평당금액,아파트,시도,자치구,읍면동,지번,거래일,전용면적,거래금액,거래금액1,거래금액2,금액구분
0,6711.994,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,8.75,,,5천 이상
1,2927.711,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,2.43,8.75,,5천 미만
2,2991.136,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,7.7,2.43,8.75,5천 미만
3,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8,7.7,2.43,5천 미만
4,2640.093,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,6.8,6.8,7.7,5천 미만


### [참고] 구간화 함수

In [94]:
# 연속형 변수를 세 개 이상으로 분리할 때 np.where() 함수를 중첩합니다.
np.where(price['평당금액'].ge(10000), 
         '1억 이상', 
         np.where(price['평당금액'].ge(5000), 
                  '5천 이상', 
                  '5천 미만'))

array(['5천 이상', '5천 미만', '5천 미만', ..., '1억 이상', '5천 미만', '5천 미만'],
      dtype='<U5')

In [95]:
# 연속형 변수를 세 개 이상으로 분리할 때 np.select() 함수를 사용합니다.
np.select(condlist = [price['평당금액'].ge(10000),
                      price['평당금액'].ge(5000),
                      price['평당금액'].lt(5000)], 
          choicelist = ['1억 이상', '5천 이상', '5천 미만'])

array(['5천 이상', '5천 미만', '5천 미만', ..., '1억 이상', '5천 미만', '5천 미만'],
      dtype='<U5')

### 파생변수 생성: 문자형 변수 결합

In [96]:
# 여러 문자형 변수를 + 연산자로 결합합니다.
price['시도'] + ' ' + price['자치구'] + ' ' + \
price['읍면동'] + ' ' + price['지번']

0           서울특별시 용산구 이촌동 411
1           서울특별시 강북구 수유동 738
2         서울특별시 은평구 수색동 415-1
3        서울특별시 은평구 갈현동 465-12
4        서울특별시 은평구 갈현동 465-12
                 ...         
43442       서울특별시 동작구 흑석동 328
43443      서울특별시 서초구 서초동 1685
43444      서울특별시 강남구 개포동 1280
43445    서울특별시 강남구 도곡동 467-19
43446     서울특별시 강동구 성내동 196-8
Length: 43433, dtype: object

In [97]:
# 여러 문자형 열이름으로 리스트를 생성합니다.
cols = ['시도', '자치구', '읍면동', '지번']

In [98]:
# 데이터프레임의 행(시리즈)별로 문자열을 결합하는 함수를 반복 실행합니다.
price['주소'] = price[cols].apply(func = lambda x: ' '.join(x), axis = 1)
price.head()

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액,금액구분,주소
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.02,11,8.75,6711.994,5천 이상,서울특별시 용산구 이촌동 411
1,한원힐트리움수유,서울특별시,강북구,수유동,738,2021-01-01,27.39,5,2.43,2927.711,5천 미만,서울특별시 강북구 수유동 738
2,대림한숲(DMC이편한세상),서울특별시,은평구,수색동,415-1,2021-01-01,84.951,3,7.7,2991.136,5천 미만,서울특별시 은평구 수색동 415-1
3,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,6.8,2640.093,5천 미만,서울특별시 은평구 갈현동 465-12
4,동광갈현베르빌,서울특별시,은평구,갈현동,465-12,2021-01-01,84.997,8,6.8,2640.093,5천 미만,서울특별시 은평구 갈현동 465-12


### [참고] 같은 함수 반복 실행 실습

In [99]:
# 아파트(시리즈)의 원소(문자열)별 글자수를 반환합니다.
price['아파트'].map(arg = len)

0         4
1         8
2        14
3         7
4         7
         ..
43442     7
43443     5
43444     8
43445     6
43446     7
Name: 아파트, Length: 43433, dtype: int64

In [100]:
# 데이터프레임의 열(시리즈)별 원소 개수를 반환합니다.
price[cols].apply(func = len, axis = 0)

시도     43433
자치구    43433
읍면동    43433
지번     43433
dtype: int64

In [101]:
# 데이터프레임의 행(시리즈)별 원소 개수를 반환합니다.
price[cols].apply(func = len, axis = 1)

0        4
1        4
2        4
3        4
4        4
        ..
43442    4
43443    4
43444    4
43445    4
43446    4
Length: 43433, dtype: int64

In [102]:
# 데이터프레임의 셀 값(문자열)별 글자수를 반환합니다.
price[cols].applymap(func = len)

Unnamed: 0,시도,자치구,읍면동,지번
0,5,3,3,3
1,5,3,3,3
2,5,3,3,5
3,5,3,3,6
4,5,3,3,6
...,...,...,...,...
43442,5,3,3,3
43443,5,3,3,4
43444,5,3,3,4
43445,5,3,3,6


### 데이터프레임 정렬

In [103]:
# 층을 오름차순 정렬합니다.
# [참고] ascending 매개변수에 전달하는 인수의 기본값은 True입니다.
price['층'].sort_values()

19075    -3
19074    -3
11369    -1
41073    -1
5036     -1
         ..
25446    63
18269    63
7859     64
38720    64
25949    66
Name: 층, Length: 43433, dtype: int64

In [104]:
# 층을 내림차순 정렬합니다.
price['층'].sort_values(ascending = False)

25949    66
7859     64
38720    64
25446    63
18269    63
         ..
37547    -1
36628    -1
15493    -1
19075    -3
19074    -3
Name: 층, Length: 43433, dtype: int64

In [105]:
# price를 층으로 오름차순 정렬합니다.
price.sort_values(by = ['층'])

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액,금액구분,주소
19075,아크로리버하임,서울특별시,동작구,흑석동,341,2021-05-09,84.911,-3,20.80,8083.777,5천 이상,서울특별시 동작구 흑석동 341
19074,아크로리버하임,서울특별시,동작구,흑석동,341,2021-05-09,84.911,-3,20.40,7928.320,5천 이상,서울특별시 동작구 흑석동 341
11369,수산타운(2차),서울특별시,중구,신당동,432-2006,2021-03-11,32.860,-1,0.95,954.047,5천 미만,서울특별시 중구 신당동 432-2006
41073,은평뉴타운우물골(두산위브7단지),서울특별시,은평구,진관동,84,2021-11-02,134.750,-1,14.80,3624.490,5천 미만,서울특별시 은평구 진관동 84
5036,상지리츠빌카일룸,서울특별시,강남구,도곡동,202,2021-01-27,213.940,-1,53.70,8283.164,5천 이상,서울특별시 강남구 도곡동 202
...,...,...,...,...,...,...,...,...,...,...,...,...
25446,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-20,214.967,63,45.00,6908.037,5천 이상,서울특별시 강남구 도곡동 467-29
18269,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-05-04,244.224,63,53.50,7229.019,5천 이상,서울특별시 강남구 도곡동 467-29
7859,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,46.00,7061.549,5천 이상,서울특별시 강남구 도곡동 467-29
38720,타워팰리스1,서울특별시,강남구,도곡동,467,2021-09-30,222.480,64,48.25,7156.823,5천 이상,서울특별시 강남구 도곡동 467


In [106]:
# price를 층으로 내림차순 정렬합니다.
price.sort_values(by = ['층'], ascending = False)

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액,금액구분,주소
25949,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-24,214.967,66,45.80,7030.847,5천 이상,서울특별시 강남구 도곡동 467-29
7859,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,46.00,7061.549,5천 이상,서울특별시 강남구 도곡동 467-29
38720,타워팰리스1,서울특별시,강남구,도곡동,467,2021-09-30,222.480,64,48.25,7156.823,5천 이상,서울특별시 강남구 도곡동 467
25446,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-20,214.967,63,45.00,6908.037,5천 이상,서울특별시 강남구 도곡동 467-29
18269,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-05-04,244.224,63,53.50,7229.019,5천 이상,서울특별시 강남구 도곡동 467-29
...,...,...,...,...,...,...,...,...,...,...,...,...
37547,강변,서울특별시,용산구,이촌동,193-3,2021-09-15,66.080,-1,10.30,5143.765,5천 이상,서울특별시 용산구 이촌동 193-3
36628,연합파크빌,서울특별시,중랑구,중화동,331-64,2021-09-07,80.010,-1,7.65,3155.231,5천 미만,서울특별시 중랑구 중화동 331-64
15493,삼성그린101동,서울특별시,동작구,사당동,180-26,2021-04-15,67.150,-1,3.47,1705.287,5천 미만,서울특별시 동작구 사당동 180-26
19075,아크로리버하임,서울특별시,동작구,흑석동,341,2021-05-09,84.911,-3,20.80,8083.777,5천 이상,서울특별시 동작구 흑석동 341


In [107]:
# price를 층과 거래금액으로 내림차순 정렬합니다.
price.sort_values(by = ['층', '거래금액'], ascending = False)

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액,금액구분,주소
25949,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-24,214.967,66,45.80,7030.847,5천 이상,서울특별시 강남구 도곡동 467-29
38720,타워팰리스1,서울특별시,강남구,도곡동,467,2021-09-30,222.480,64,48.25,7156.823,5천 이상,서울특별시 강남구 도곡동 467
7859,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,46.00,7061.549,5천 이상,서울특별시 강남구 도곡동 467-29
18269,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-05-04,244.224,63,53.50,7229.019,5천 이상,서울특별시 강남구 도곡동 467-29
25446,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-20,214.967,63,45.00,6908.037,5천 이상,서울특별시 강남구 도곡동 467-29
...,...,...,...,...,...,...,...,...,...,...,...,...
15493,삼성그린101동,서울특별시,동작구,사당동,180-26,2021-04-15,67.150,-1,3.47,1705.287,5천 미만,서울특별시 동작구 사당동 180-26
16073,옥수,서울특별시,성동구,옥수동,306,2021-04-20,55.470,-1,2.90,1725.257,5천 미만,서울특별시 성동구 옥수동 306
11369,수산타운(2차),서울특별시,중구,신당동,432-2006,2021-03-11,32.860,-1,0.95,954.047,5천 미만,서울특별시 중구 신당동 432-2006
19075,아크로리버하임,서울특별시,동작구,흑석동,341,2021-05-09,84.911,-3,20.80,8083.777,5천 이상,서울특별시 동작구 흑석동 341


In [108]:
# price를 층은 내림차순, 거래금액은 오름차순 정렬합니다.
price.sort_values(by = ['층', '거래금액'], ascending = [False, True])

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액,금액구분,주소
25949,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-24,214.967,66,45.80,7030.847,5천 이상,서울특별시 강남구 도곡동 467-29
7859,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,46.00,7061.549,5천 이상,서울특별시 강남구 도곡동 467-29
38720,타워팰리스1,서울특별시,강남구,도곡동,467,2021-09-30,222.480,64,48.25,7156.823,5천 이상,서울특별시 강남구 도곡동 467
25446,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-20,214.967,63,45.00,6908.037,5천 이상,서울특별시 강남구 도곡동 467-29
18269,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-05-04,244.224,63,53.50,7229.019,5천 이상,서울특별시 강남구 도곡동 467-29
...,...,...,...,...,...,...,...,...,...,...,...,...
41073,은평뉴타운우물골(두산위브7단지),서울특별시,은평구,진관동,84,2021-11-02,134.750,-1,14.80,3624.490,5천 미만,서울특별시 은평구 진관동 84
7340,아크로리버하임,서울특별시,동작구,흑석동,341,2021-02-07,84.911,-1,20.90,8122.642,5천 이상,서울특별시 동작구 흑석동 341
5036,상지리츠빌카일룸,서울특별시,강남구,도곡동,202,2021-01-27,213.940,-1,53.70,8283.164,5천 이상,서울특별시 강남구 도곡동 202
19074,아크로리버하임,서울특별시,동작구,흑석동,341,2021-05-09,84.911,-3,20.40,7928.320,5천 이상,서울특별시 동작구 흑석동 341


### 집계함수로 데이터 요약

In [109]:
# 거래금액에서 결측값을 제외한 빈도수를 반환합니다.
price['거래금액'].count()

43433

In [110]:
# 거래금액의 평균을 반환합니다.
price['거래금액'].mean()

10.244029829852877

In [111]:
# 거래금액의 표준편차를 반환합니다.
price['거래금액'].std()

7.474083182589728

In [112]:
# 거래금액의 최솟값을 반환합니다.
price['거래금액'].min()

0.66

In [113]:
# 거래금액의 최댓값을 반환합니다.
price['거래금액'].max()

120.0

In [114]:
# 거래금액의 다양한 기술통계량을 반환합니다.
price['거래금액'].describe()

count    43433.000
mean        10.244
std          7.474
min          0.660
25%          5.900
50%          8.450
75%         12.660
max        120.000
Name: 거래금액, dtype: float64

### 범주별 집계함수로 데이터 요약

In [115]:
# 자치구별 거래금액에서 결측값을 제외한 빈도수를 반환합니다.
price.groupby(by = ['자치구']).count()['거래금액']

자치구
강남구     2523
강동구     2038
강북구      930
강서구     2852
관악구     1484
광진구      746
구로구     2636
금천구      987
노원구     3963
도봉구     1894
동대문구    1708
동작구     1531
마포구     1544
서대문구    1439
서초구     2154
성동구     1510
성북구     2351
송파구     2116
양천구     1881
영등포구    1881
용산구      902
은평구     1683
종로구      450
중구       608
중랑구     1622
Name: 거래금액, dtype: int64

In [116]:
# 자치구별 거래금액의 평균을 반환합니다.
price.groupby(by = ['자치구']).mean()['거래금액']

자치구
강남구     19.244
강동구      9.362
강북구      6.693
강서구      7.912
관악구      7.288
광진구     11.982
구로구      6.200
금천구      5.953
노원구      6.725
도봉구      5.849
동대문구     7.759
동작구     11.178
마포구     11.655
서대문구     9.090
서초구     20.506
성동구     14.457
성북구      8.418
송파구     15.431
양천구     10.307
영등포구    10.179
용산구     19.953
은평구      7.308
종로구      9.332
중구       8.996
중랑구      6.426
Name: 거래금액, dtype: float64

In [117]:
# 자치구별 거래금액의 표준편차를 반환합니다.
price.groupby(by = ['자치구']).std()['거래금액']

자치구
강남구     12.712
강동구      5.063
강북구      2.266
강서구      3.497
관악구      2.904
광진구      5.231
구로구      3.202
금천구      2.878
노원구      2.183
도봉구      2.236
동대문구     3.752
동작구      4.330
마포구      4.859
서대문구     3.713
서초구     11.474
성동구      7.173
성북구      2.492
송파구      7.073
양천구      5.522
영등포구     6.251
용산구     14.644
은평구      3.056
종로구      6.017
중구       5.593
중랑구      2.459
Name: 거래금액, dtype: float64

In [118]:
# 자치구별 거래금액의 최솟값을 반환합니다.
price.groupby(by = ['자치구']).min()['거래금액']

자치구
강남구     1.420
강동구     0.780
강북구     0.888
강서구     0.780
관악구     0.980
광진구     0.750
구로구     0.660
금천구     0.850
노원구     0.675
도봉구     0.770
동대문구    0.850
동작구     1.100
마포구     1.240
서대문구    1.200
서초구     1.800
성동구     1.270
성북구     1.000
송파구     1.395
양천구     1.190
영등포구    0.950
용산구     1.500
은평구     0.900
종로구     0.750
중구      0.950
중랑구     0.770
Name: 거래금액, dtype: float64

In [119]:
# 자치구별 거래금액의 최댓값을 반환합니다.
price.groupby(by = ['자치구']).max()['거래금액']

자치구
강남구     115.00
강동구      40.00
강북구      14.95
강서구      20.00
관악구      16.00
광진구      28.90
구로구      20.50
금천구      14.75
노원구      18.00
도봉구      15.00
동대문구     18.20
동작구      43.00
마포구      47.00
서대문구     21.50
서초구      72.90
성동구      84.50
성북구      20.00
송파구      46.60
양천구      34.15
영등포구     45.00
용산구     120.00
은평구      17.00
종로구      37.50
중구       37.00
중랑구      22.00
Name: 거래금액, dtype: float64

In [120]:
# 자치구별 거래금액의 다양한 기술통계량을 반환합니다.
price.groupby(by = ['자치구']).describe()['거래금액']

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강남구,2523.0,19.244,12.712,1.42,8.825,17.9,26.2,115.0
강동구,2038.0,9.362,5.063,0.78,5.647,9.675,13.25,40.0
강북구,930.0,6.693,2.266,0.888,5.5,6.94,8.1,14.95
강서구,2852.0,7.912,3.497,0.78,5.75,7.6,9.9,20.0
관악구,1484.0,7.288,2.904,0.98,5.6,7.665,9.113,16.0
광진구,746.0,11.982,5.231,0.75,8.732,12.325,15.1,28.9
구로구,2636.0,6.2,3.202,0.66,3.49,6.3,8.1,20.5
금천구,987.0,5.953,2.878,0.85,4.293,5.95,7.415,14.75
노원구,3963.0,6.725,2.183,0.675,5.3,6.35,7.85,18.0
도봉구,1894.0,5.849,2.236,0.77,4.4,5.75,6.98,15.0


### [참고] agg() 함수 활용법

In [121]:
# 데이터프레임의 열별 집계 결과를 시리즈로 반환합니다.
price.agg(func = 'mean', numeric_only = True)

전용면적      73.469
층          9.131
거래금액      10.244
평당금액    4535.887
dtype: float64

In [122]:
# 데이터프레임에서 특정 열의 집계 결과에 행이름을 지정할 수 있습니다.
price.agg(건수 = ('아파트', 'count'), 평균 = ('거래금액', 'mean'))

Unnamed: 0,아파트,거래금액
건수,43433.0,
평균,,10.244


In [123]:
# 범주형 변수로 그룹을 묶을 수 있습니다.
# [참고] 여러 줄로 작성하려면 마지막에 \ 기호를 추가합니다.
# [주의] \ 기호 뒤에 공백 포함 아무것도 입력하면 안됩니다!
price.groupby(by = ['자치구']) \
     .agg(건수 = ('아파트', 'count'), 평균 = ('거래금액', 'mean')) \
     .sort_values(by = ['평균'], ascending = False)

Unnamed: 0_level_0,건수,평균
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
서초구,2154,20.506
용산구,902,19.953
강남구,2523,19.244
송파구,2116,15.431
성동구,1510,14.457
광진구,746,11.982
마포구,1544,11.655
동작구,1531,11.178
양천구,1881,10.307
영등포구,1881,10.179


### [참고] 범주형 변수의 빈도수/상대도수 확인

In [124]:
# 자치구별 빈도수를 내림차순 정렬한 결과를 반환합니다.
price['자치구'].value_counts()

노원구     3963
강서구     2852
구로구     2636
강남구     2523
성북구     2351
서초구     2154
송파구     2116
강동구     2038
도봉구     1894
양천구     1881
영등포구    1881
동대문구    1708
은평구     1683
중랑구     1622
마포구     1544
동작구     1531
성동구     1510
관악구     1484
서대문구    1439
금천구      987
강북구      930
용산구      902
광진구      746
중구       608
종로구      450
Name: 자치구, dtype: int64

In [125]:
# 자치구별 빈도수를 오름차순 정렬한 결과를 반환합니다.
price['자치구'].value_counts(ascending = True)

종로구      450
중구       608
광진구      746
용산구      902
강북구      930
금천구      987
서대문구    1439
관악구     1484
성동구     1510
동작구     1531
마포구     1544
중랑구     1622
은평구     1683
동대문구    1708
영등포구    1881
양천구     1881
도봉구     1894
강동구     2038
송파구     2116
서초구     2154
성북구     2351
강남구     2523
구로구     2636
강서구     2852
노원구     3963
Name: 자치구, dtype: int64

In [126]:
# 자치구별 빈도수를 시리즈 인덱스로 오름차순 정렬한 결과를 반환합니다.
price['자치구'].value_counts().sort_index()

강남구     2523
강동구     2038
강북구      930
강서구     2852
관악구     1484
광진구      746
구로구     2636
금천구      987
노원구     3963
도봉구     1894
동대문구    1708
동작구     1531
마포구     1544
서대문구    1439
서초구     2154
성동구     1510
성북구     2351
송파구     2116
양천구     1881
영등포구    1881
용산구      902
은평구     1683
종로구      450
중구       608
중랑구     1622
Name: 자치구, dtype: int64

In [127]:
# 자치구별 상대도수를 내림차순 정렬한 결과를 반환합니다.
price['자치구'].value_counts(normalize = True)

노원구     0.091
강서구     0.066
구로구     0.061
강남구     0.058
성북구     0.054
서초구     0.050
송파구     0.049
강동구     0.047
도봉구     0.044
양천구     0.043
영등포구    0.043
동대문구    0.039
은평구     0.039
중랑구     0.037
마포구     0.036
동작구     0.035
성동구     0.035
관악구     0.034
서대문구    0.033
금천구     0.023
강북구     0.021
용산구     0.021
광진구     0.017
중구      0.014
종로구     0.010
Name: 자치구, dtype: float64

In [128]:
# 소수점 넷째 자리까지 남도록 반올림한 결과에 100을 곱하면 백분율이 됩니다.
price['자치구'].value_counts(normalize = True).round(4) * 100

노원구     9.12
강서구     6.57
구로구     6.07
강남구     5.81
성북구     5.41
서초구     4.96
송파구     4.87
강동구     4.69
도봉구     4.36
양천구     4.33
영등포구    4.33
동대문구    3.93
은평구     3.87
중랑구     3.73
마포구     3.55
동작구     3.52
성동구     3.48
관악구     3.42
서대문구    3.31
금천구     2.27
강북구     2.14
용산구     2.08
광진구     1.72
중구      1.40
종로구     1.04
Name: 자치구, dtype: float64

### Long type 데이터프레임 생성

In [129]:
# 두 범주형 변수명으로 리스트를 생성합니다.
cols = ['자치구', '금액구분']

In [130]:
# 두 범주형 변수의 빈도수로 Long type 데이터프레임을 생성합니다.
elong = price.groupby(by = cols).count()[['평당금액']]
elong.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,평당금액
자치구,금액구분,Unnamed: 2_level_1
강남구,5천 미만,806
강남구,5천 이상,1717
강동구,5천 미만,1103
강동구,5천 이상,935
강북구,5천 미만,921


In [131]:
# elong의 행이름을 초기화하고 기존 행이름을 열로 추가합니다.
elong = elong.reset_index()
elong.head()

Unnamed: 0,자치구,금액구분,평당금액
0,강남구,5천 미만,806
1,강남구,5천 이상,1717
2,강동구,5천 미만,1103
3,강동구,5천 이상,935
4,강북구,5천 미만,921


In [132]:
# elong의 일부 열이름을 변경합니다.
elong = elong.rename(columns = {'평당금액': '매매건수'})

### Long type을 Wide type으로 변환

In [133]:
# Long type을 Wide type으로 변환합니다.
widen = elong.pivot(index = '자치구', 
                    columns = '금액구분', 
                    values = '매매건수')
widen.head()

금액구분,5천 미만,5천 이상
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,806,1717
강동구,1103,935
강북구,921,9
강서구,2312,540
관악구,1391,93


In [134]:
# widen의 행이름을 출력합니다.
# [참고] 인덱스(행이름)에 name 속성이 있고, 속성값은 '자치구'입니다.
widen.index

Index(['강남구', '강동구', '강북구', '강서구', '관악구', '광진구', '구로구', '금천구', '노원구', '도봉구',
       '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구', '양천구', '영등포구',
       '용산구', '은평구', '종로구', '중구', '중랑구'],
      dtype='object', name='자치구')

In [135]:
# 인덱스(행이름)의 name을 출력합니다.
widen.index.name

'자치구'

### widen 행이름 초기화

In [136]:
# widen의 행이름을 초기화하고 기존 행이름을 열로 추가합니다.
widen = widen.reset_index()
widen.head()

금액구분,자치구,5천 미만,5천 이상
0,강남구,806,1717
1,강동구,1103,935
2,강북구,921,9
3,강서구,2312,540
4,관악구,1391,93


In [137]:
# widen의 열이름을 출력합니다.
# [참고] 컬럼명(열이름)에 name 속성이 있고, 속성값은 '금액구분'입니다.
widen.columns

Index(['자치구', '5천 미만', '5천 이상'], dtype='object', name='금액구분')

In [138]:
# 컬럼명(열이름)의 name을 출력합니다.
widen.columns.name

'금액구분'

In [139]:
# 컬럼명(열이름)의 name에 빈 문자열을 할당합니다.
widen.columns.name = ''
widen.head()

Unnamed: 0,자치구,5천 미만,5천 이상
0,강남구,806,1717
1,강동구,1103,935
2,강북구,921,9
3,강서구,2312,540
4,관악구,1391,93


### Wide type을 Long type으로 변환

In [140]:
# Wide type을 Long type으로 변환합니다.
widen.melt(id_vars = '자치구', 
           value_vars = ['5천 미만', '5천 이상'], 
           var_name = '금액종류',
           value_name = '거래건수') \
     .sort_values(by = ['자치구', '금액종류']) \
     .reset_index(drop = True) \
     .head()

Unnamed: 0,자치구,금액종류,거래건수
0,강남구,5천 미만,806
1,강남구,5천 이상,1717
2,강동구,5천 미만,1103
3,강동구,5천 이상,935
4,강북구,5천 미만,921


### 피벗 테이블 생성

In [141]:
# 두 범주형 변수로 연속형 변수를 요약한 피벗 테이블을 생성합니다.
pd.pivot_table(data = price, 
               values = '평당금액', 
               index = '자치구', 
               columns = '금액구분', 
               aggfunc = np.mean)

금액구분,5천 미만,5천 이상
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,3843.93,8912.347
강동구,3502.362,6213.353
강북구,3085.085,5171.643
강서구,3474.128,5623.411
관악구,3472.958,5372.44
광진구,3634.935,6132.464
구로구,2987.797,5485.809
금천구,2814.226,5409.458
노원구,3567.634,5694.76
도봉구,2933.621,5236.902


### 교차 테이블 생성

In [142]:
# 두 범주형 변수의 빈도수/상대도수를 원소로 갖는 교차 테이블을 생성합니다.
pd.crosstab(index = price['자치구'],
            columns = price['금액구분'], 
            normalize = 'index',
            margins = True, 
            margins_name = '합계')

금액구분,5천 미만,5천 이상
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,0.319,0.681
강동구,0.541,0.459
강북구,0.99,0.01
강서구,0.811,0.189
관악구,0.937,0.063
광진구,0.45,0.55
구로구,0.948,0.052
금천구,0.923,0.077
노원구,0.945,0.055
도봉구,0.985,0.015


### 데이터프레임 결합

In [143]:
# 두 데이터프레임의 열이름이 순서까지 정확하게 같은지 확인합니다.
# [참고] 순서만 달라도 False를 반환합니다.
df1.columns.equals(other = df2.columns)

True

In [144]:
# 열이름이 같은 두 데이터프레임을 행(세로) 방향으로 결합합니다.
# [참고] 두 데이터프레임의 기존 행이름을 유지합니다.
pd.concat(objs = [df1, df2])

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
0,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
1,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
2,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
3,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
4,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000
5,파르크한남,서울특별시,용산구,한남동,410,2021-11-24,268.95,3,1150000
6,파르크한남,서울특별시,용산구,한남동,410,2021-11-26,268.67,4,1170000
7,파르크한남,서울특별시,용산구,한남동,410,2021-12-13,268.95,2,1200000
507,현대하이페리온,서울특별시,양천구,목동,916,2021-01-05,154.05,61,285000
7859,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,460000


In [145]:
# 두 데이터프레임을 세로로 결합하고 행이름을 초기화합니다.
pd.concat(objs = [df1, df2], ignore_index = True)

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액
0,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
1,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000
2,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000
3,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000
4,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000
5,파르크한남,서울특별시,용산구,한남동,410,2021-11-24,268.95,3,1150000
6,파르크한남,서울특별시,용산구,한남동,410,2021-11-26,268.67,4,1170000
7,파르크한남,서울특별시,용산구,한남동,410,2021-12-13,268.95,2,1200000
8,현대하이페리온,서울특별시,양천구,목동,916,2021-01-05,154.05,61,285000
9,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,460000


In [146]:
# df2의 일부 열이름을 변경합니다.
df2 = df2.rename(columns = {'아파트': '아파트명'})

In [147]:
# 두 데이터프레임의 열이름이 같은지 확인합니다.
df1.columns.equals(other = df2.columns)

False

In [148]:
# 열이름이 다른 두 데이터프레임을 행(세로) 방향으로 결합합니다.
pd.concat(objs = [df1, df2], ignore_index = True)

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,아파트명
0,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000,
1,PH129,서울특별시,강남구,청담동,129,2021-03-04,273.96,14,1150000,
2,PH129,서울특별시,강남구,청담동,129,2021-07-07,273.96,6,1000000,
3,파르크한남,서울특별시,용산구,한남동,410,2021-08-04,268.67,3,1000000,
4,파르크한남,서울특별시,용산구,한남동,410,2021-09-09,268.67,2,1080000,
5,파르크한남,서울특별시,용산구,한남동,410,2021-11-24,268.95,3,1150000,
6,파르크한남,서울특별시,용산구,한남동,410,2021-11-26,268.67,4,1170000,
7,파르크한남,서울특별시,용산구,한남동,410,2021-12-13,268.95,2,1200000,
8,,서울특별시,양천구,목동,916,2021-01-05,154.05,61,285000,현대하이페리온
9,,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,460000,타워팰리스3


In [149]:
# 두 데이터프레임을 열(가로) 방향으로 결합합니다.
pd.concat(objs = [df1, df2], axis = 1)

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,아파트명,시도.1,자치구.1,읍면동.1,지번.1,거래일.1,전용면적.1,층.1,거래금액.1
0,PH129,서울특별시,강남구,청담동,129.0,2021-03-04,273.96,14.0,1150000.0,,,,,,NaT,,,
1,PH129,서울특별시,강남구,청담동,129.0,2021-03-04,273.96,14.0,1150000.0,,,,,,NaT,,,
2,PH129,서울특별시,강남구,청담동,129.0,2021-07-07,273.96,6.0,1000000.0,,,,,,NaT,,,
3,파르크한남,서울특별시,용산구,한남동,410.0,2021-08-04,268.67,3.0,1000000.0,,,,,,NaT,,,
4,파르크한남,서울특별시,용산구,한남동,410.0,2021-09-09,268.67,2.0,1080000.0,,,,,,NaT,,,
5,파르크한남,서울특별시,용산구,한남동,410.0,2021-11-24,268.95,3.0,1150000.0,,,,,,NaT,,,
6,파르크한남,서울특별시,용산구,한남동,410.0,2021-11-26,268.67,4.0,1170000.0,,,,,,NaT,,,
7,파르크한남,서울특별시,용산구,한남동,410.0,2021-12-13,268.95,2.0,1200000.0,,,,,,NaT,,,
507,,,,,,NaT,,,,현대하이페리온,서울특별시,양천구,목동,916,2021-01-05,154.05,61.0,285000.0
7859,,,,,,NaT,,,,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64.0,460000.0


In [150]:
# df2의 행이름을 초기화합니다.
df2 = df2.reset_index(drop = True)

In [151]:
# 행이름을 초기화한 두 데이터프레임을 열(가로) 방향으로 결합합니다.
pd.concat(objs = [df1, df2], axis = 1)

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,아파트명,시도.1,자치구.1,읍면동.1,지번.1,거래일.1,전용면적.1,층.1,거래금액.1
0,PH129,서울특별시,강남구,청담동,129.0,2021-03-04,273.96,14.0,1150000.0,현대하이페리온,서울특별시,양천구,목동,916,2021-01-05,154.05,61,285000
1,PH129,서울특별시,강남구,청담동,129.0,2021-03-04,273.96,14.0,1150000.0,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-02-10,214.967,64,460000
2,PH129,서울특별시,강남구,청담동,129.0,2021-07-07,273.96,6.0,1000000.0,타워팰리스1,서울특별시,강남구,도곡동,467,2021-04-22,137.24,61,314000
3,파르크한남,서울특별시,용산구,한남동,410.0,2021-08-04,268.67,3.0,1000000.0,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-05-04,244.224,63,535000
4,파르크한남,서울특별시,용산구,한남동,410.0,2021-09-09,268.67,2.0,1080000.0,타워팰리스1,서울특별시,강남구,도곡동,467,2021-05-13,244.66,61,540000
5,파르크한남,서울특별시,용산구,한남동,410.0,2021-11-24,268.95,3.0,1150000.0,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-05-24,214.967,62,455000
6,파르크한남,서울특별시,용산구,한남동,410.0,2021-11-26,268.67,4.0,1170000.0,현대하이페리온,서울특별시,양천구,목동,916,2021-05-28,154.05,61,285000
7,파르크한남,서울특별시,용산구,한남동,410.0,2021-12-13,268.95,2.0,1200000.0,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-10,214.967,60,478000
8,,,,,,NaT,,,,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-20,214.967,63,450000
9,,,,,,NaT,,,,타워팰리스3,서울특별시,강남구,도곡동,467-29,2021-06-24,214.967,66,458000


### 병합 데이터셋 준비

In [152]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['APT_List_Seoul_2021.csv',
 'Naver_APT_Detail_Seoul.xlsx',
 'Naver_APT_Detail_Seoul.csv',
 'APT_Price_Seoul_2021.csv',
 'APT_List_Seoul_2021.xlsx',
 'KBO_Hitters_2021.xlsx',
 'KBO_Hitters_2021.csv',
 'APT_Price_Seoul_2021.xlsx',
 'APT_List_Seoul_2021.z',
 'APT_Mean_Price_Dong_2021.xlsx']

In [153]:
# 상세정보 xlsx 파일을 읽고 데이터프레임을 생성합니다.
detail = pd.read_excel(io = 'Naver_APT_Detail_Seoul.xlsx')

In [154]:
# detail의 정보를 확인합니다.
detail.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9668 entries, 0 to 9667
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   아파트ID   9668 non-null   int64  
 1   아파트명    9668 non-null   object 
 2   지번주소    9668 non-null   object 
 3   위도      9668 non-null   float64
 4   경도      9668 non-null   float64
 5   세대수     9668 non-null   int64  
 6   임대수     9668 non-null   int64  
 7   동수      9668 non-null   int64  
 8   주차대수    9668 non-null   int64  
 9   용적률     9668 non-null   int64  
 10  건폐율     9668 non-null   int64  
 11  건설사     9128 non-null   object 
dtypes: float64(2), int64(7), object(3)
memory usage: 906.5+ KB


In [155]:
# detail의 처음 5행을 출력합니다.
detail.head()

Unnamed: 0,아파트ID,아파트명,지번주소,위도,경도,세대수,임대수,동수,주차대수,용적률,건폐율,건설사
0,145017,개포자이르네,서울시 강남구 개포동 656-3,37.479,127.055,28,0,1,38,199,57,자이에스앤디
1,1298,개포주공5단지,서울시 강남구 개포동 187,37.488,127.068,940,0,6,912,151,12,대한주택공사
2,1303,개포주공6단지,서울시 강남구 개포동 185,37.489,127.07,1060,0,9,300,0,0,대한주택공사
3,1307,개포주공7단지,서울시 강남구 개포동 185,37.49,127.072,900,0,8,400,0,0,대한주택공사
4,128527,개포프레지던스자이,서울시 강남구 개포동 189번지 일원,37.485,127.072,3375,220,35,5881,249,18,㈜GS건설


### 외래키 확인 및 전처리

In [156]:
# 두 데이터프레임의 외래키에서 일치하는 원소 개수를 확인합니다.
len(set(price['주소']) & set(detail['지번주소']))

0

In [157]:
# price의 주소를 출력합니다.
price['주소'].head()

0       서울특별시 용산구 이촌동 411
1       서울특별시 강북구 수유동 738
2     서울특별시 은평구 수색동 415-1
3    서울특별시 은평구 갈현동 465-12
4    서울특별시 은평구 갈현동 465-12
Name: 주소, dtype: object

In [158]:
# detail의 지번주소를 출력합니다.
detail['지번주소'].head()

0       서울시 강남구 개포동 656-3
1         서울시 강남구 개포동 187
2         서울시 강남구 개포동 185
3         서울시 강남구 개포동 185
4    서울시 강남구 개포동 189번지 일원
Name: 지번주소, dtype: object

In [159]:
# price의 주소에서 '특별'을 삭제합니다.
price['주소'] = price['주소'].str.replace(pat = '특별', repl = '')

In [160]:
# 외래키에서 일치하는 원소 개수를 다시 확인합니다.
len(set(price['주소']) & set(detail['지번주소']))

5204

### [참고] 표본 추출 및 시드 고정

In [161]:
# 이번 주 로또 번호를 출력합니다. 마음에 들 때까지 여러 번 반복해보세요.
np.random.choice(a = range(1, 46), size = 6, replace = False)

array([ 2, 19, 15, 27, 39, 37])

In [162]:
# 시드를 고정하면 항상 재현 가능한reproducible 결과를 얻습니다.
np.random.seed(seed = 1)
np.random.choice(a = range(1, 46), size = 6, replace = False)

array([ 4,  3, 31, 22, 23, 42])

In [163]:
# 모집단(1~45의 정수)에서 6개 표본을 비복원추출하는 코드를 10번 반복합니다.
for i in range(10):
    np.random.seed(seed = 1)
    lotto = np.random.choice(a = range(1, 46), size = 6, replace = False)
    lotto.sort()
    print(lotto)

[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]
[ 3  4 22 23 31 42]


### [참고] 중복 원소 확인 함수

In [164]:
# 시드를 고정합니다.
np.random.seed(seed = 2)

In [165]:
# 1~5의 정수에서 3개를 복원추출합니다.
nums = np.random.choice(a = range(1, 6), size = 3)

In [166]:
# nums를 시리즈로 변환합니다.
nums = pd.Series(data = nums)
nums

0    1
1    1
2    4
dtype: int64

In [167]:
# 순방향으로 원소 중복 여부를 True/False로 반환합니다.
nums.duplicated()

0    False
1     True
2    False
dtype: bool

In [168]:
# 역방향으로 원소 중복 여부를 True/False로 반환합니다.
nums.duplicated(keep = 'last')

0     True
1    False
2    False
dtype: bool

In [169]:
# 모든 중복 원소를 True로 반환합니다.(탐색 방향과 상관 없음)
nums.duplicated(keep = False)

0     True
1     True
2    False
dtype: bool

### 데이터프레임 중복 확인 및 제거

In [170]:
# detail의 지번주소가 중복이면 True, 아니면 False인 시리즈를 생성합니다.
dup = detail['지번주소'].duplicated(keep = False)

In [171]:
# detail에서 dup이 True인 행을 선택하고 지번주소로 오름차순 정렬합니다.
detail[dup].sort_values(by = ['지번주소'])

Unnamed: 0,아파트ID,아파트명,지번주소,위도,경도,세대수,임대수,동수,주차대수,용적률,건폐율,건설사
2,1303,개포주공6단지,서울시 강남구 개포동 185,37.489,127.07,1060,0,9,300,0,0,대한주택공사
3,1307,개포주공7단지,서울시 강남구 개포동 185,37.49,127.072,900,0,8,400,0,0,대한주택공사
424,724,"현대6,7차",서울시 강남구 압구정동 456,37.53,127.029,1288,0,15,1120,210,16,
425,27498,현대65동(대림아크로빌),서울시 강남구 압구정동 456,37.532,127.032,56,0,1,89,240,20,
896,902,주공고층3단지,서울시 강동구 둔촌동 174-1,37.524,127.139,1480,0,25,1468,0,0,대한주택공사
899,901,주공저층2단지,서울시 강동구 둔촌동 174-1,37.523,127.136,900,0,36,630,0,0,대한주택공사
1253,133402,미사아름채,서울시 강동구 천호동 452-15,37.538,127.128,1,0,1,0,553,59,주식회사미사종합건설
1254,133403,미사아름채(도시형),서울시 강동구 천호동 452-15,37.538,127.128,130,0,1,65,553,59,주식회사미사종합건설
1446,145240,에피소드수유838(민간임대),서울시 강북구 수유동 230-4,37.637,127.023,265,265,1,0,699,59,
1447,145243,"에피소드수유838(민간임대,도시형)",서울시 강북구 수유동 230-4,37.637,127.023,293,293,1,0,699,59,


In [172]:
# detail의 지번주소에서 순방향으로 중복인 행을 제거하고 detail에 재할당합니다.
# [참고] ~ 연산자는 진리값을 반전합니다.
detail = detail[~ detail['지번주소'].duplicated()]

In [173]:
# detail의 행 개수를 확인합니다. 행 개수가 감소했습니다.(9668 -> 9640)
detail.shape[0]

9640

### 데이터프레임 병합

In [174]:
# price와 detail에서 일치하는 열이름을 확인합니다.
set(price.columns) & set(detail.columns)

set()

In [175]:
# 두 데이터프레임으로 내부 병합을 실행합니다.
pd.merge(left = price, 
         right = detail, 
         how = 'inner', 
         left_on = '주소', 
         right_on = '지번주소')

Unnamed: 0,아파트,시도,자치구,읍면동,지번,거래일,전용면적,층,거래금액,평당금액,...,지번주소,위도,경도,세대수,임대수,동수,주차대수,용적률,건폐율,건설사
0,동아그린,서울특별시,용산구,이촌동,411,2021-01-01,43.020,11,8.75,6711.994,...,서울시 용산구 이촌동 411,37.524,126.958,499,0,6,539,384,23,동아건설(주)
1,동아그린,서울특별시,용산구,이촌동,411,2021-01-05,59.580,15,11.80,6535.750,...,서울시 용산구 이촌동 411,37.524,126.958,499,0,6,539,384,23,동아건설(주)
2,동아그린,서울특별시,용산구,이촌동,411,2021-01-19,84.820,18,13.00,5057.769,...,서울시 용산구 이촌동 411,37.524,126.958,499,0,6,539,384,23,동아건설(주)
3,동아그린,서울특별시,용산구,이촌동,411,2021-01-19,114.960,19,14.95,4291.493,...,서울시 용산구 이촌동 411,37.524,126.958,499,0,6,539,384,23,동아건설(주)
4,동아그린,서울특별시,용산구,이촌동,411,2021-01-23,43.020,3,8.15,6251.743,...,서울시 용산구 이촌동 411,37.524,126.958,499,0,6,539,384,23,동아건설(주)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41259,휴먼씨티,서울특별시,서초구,양재동,402-15,2021-12-29,79.540,3,7.00,2904.199,...,서울시 서초구 양재동 402-15,37.471,127.049,16,0,1,16,298,59,휴먼라이프건설
41260,브라운스톤암사아파트,서울특별시,강동구,천호동,288-29,2021-12-29,84.970,9,11.80,4582.794,...,서울시 강동구 천호동 288-29,37.549,127.129,125,0,2,153,199,28,이수건설㈜
41261,프리마빌,서울특별시,강남구,역삼동,727-11,2021-12-30,140.730,5,12.00,2813.899,...,서울시 강남구 역삼동 727-11,37.497,127.039,19,0,1,29,287,58,백두건설산업(주)
41262,해오름2차,서울특별시,마포구,망원동,382-3,2021-12-31,93.990,3,5.70,2001.277,...,서울시 마포구 망원동 382-3,37.554,126.908,14,0,1,19,199,42,(주)지노씨엠


In [176]:
# detail의 외래키 이름을 '주소'로 변경합니다.
detail = detail.rename(columns = {'지번주소': '주소'})

In [177]:
# price와 detail에서 일치하는 열이름을 확인합니다.
set(price.columns) & set(detail.columns)

{'주소'}

In [178]:
# 외래키 이름이 같으면 on 매개변수를 사용합니다.
apt = pd.merge(left = price, right = detail, how = 'inner', on = '주소')

In [179]:
# apt의 정보를 확인합니다.
apt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 41264 entries, 0 to 41263
Data columns (total 23 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   아파트     41264 non-null  object        
 1   시도      41264 non-null  object        
 2   자치구     41264 non-null  object        
 3   읍면동     41264 non-null  object        
 4   지번      41264 non-null  object        
 5   거래일     41264 non-null  datetime64[ns]
 6   전용면적    41264 non-null  float64       
 7   층       41264 non-null  int64         
 8   거래금액    41264 non-null  float64       
 9   평당금액    41264 non-null  float64       
 10  금액구분    41264 non-null  object        
 11  주소      41264 non-null  object        
 12  아파트ID   41264 non-null  int64         
 13  아파트명    41264 non-null  object        
 14  위도      41264 non-null  float64       
 15  경도      41264 non-null  float64       
 16  세대수     41264 non-null  int64         
 17  임대수     41264 non-null  int64         
 18  동수    

### 외부 파일로 저장

In [180]:
# apt를 xlsx 파일로 저장합니다.
%time apt.to_excel(excel_writer = 'APT_List_Seoul_2021.xlsx', index = None)

CPU times: user 15.7 s, sys: 263 ms, total: 15.9 s
Wall time: 16.1 s


In [181]:
# apt를 csv 파일로 저장합니다.
%time apt.to_csv(path_or_buf = 'APT_List_Seoul_2021.csv', index = None)

CPU times: user 610 ms, sys: 16.9 ms, total: 627 ms
Wall time: 631 ms


In [182]:
# apt를 z 파일로 저장합니다.
%time joblib.dump(value = apt, filename = 'APT_List_Seoul_2021.z')

CPU times: user 113 ms, sys: 8.16 ms, total: 121 ms
Wall time: 121 ms


['APT_List_Seoul_2021.z']

## End of Document