# [FAQ] DataFrame 행(row) 정보를 추출하여 컬럼으로 합치기
크롤링 데이터 가공과 결측치 처리 예제 (Daum 부동산 예제)

* Q: DataFrame의 두 행(row)이 하나의 데이터를 이룹니다. 짝수 행의 데이터를 추출하여 컬럼으로 만드려면 어떻게 하나요?
* A: DataFrame.ix[] 인덱싱을 사용하여 짝수행 전체를 얻어 가공하고, pd.concat()을 이용여 합칠 수 있습니다.

<img width="320" src="http://i.imgur.com/9WYp6pK.png" >

#### http://fb.com/financedata
<!-- TEASER_END -->

In [1]:
import pandas as pd

url = "http://realestate.daum.net/iframe/maemul/maemulList.daum?areaCode=2130010&mcateCode=A1&saleTypeCode=S&tabName=maemulList&isExpanded=false&page=1"
dfs = pd.read_html(url)

<img src="http://i.imgur.com/kFxXIcw.png" >
    

In [2]:
# 2개의 DataFrame을 읽었다

len(dfs)

2

두번째 DataFrame을 얻는다.

총 60 행(row)이지만, 2개의 행(row)가 하나의 데이터를 이루고 있다. 짝수번째 행(row)는 부가적인 설명이 있다.

In [3]:
df = dfs[1] 
print(len(df), 'rows')

df.head(10)

60 rows


Unnamed: 0,최초게재일,종류/소재지,단지명,공급/전용(㎡),매매가(만원),동,층,문의처
0,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,85A/59 공급면적 85.28㎡ 전용면적 59.99㎡,54000.0,308.0,저/14,황금단지내공인중개. . 02-2246-5252
1,급매물 확장형 25 ㅇ 확장형 쾌적한 주거환경,,,,,,,
2,매매 17.03.01,아파트이문동,쌍용 쌍용,81/59 공급면적 81.19㎡ 전용면적 59.99㎡,35000.0,110.0,중/25,쌍용공인중개사사무. . 02-962-2244
3,"대단지 무융자 일조권좋은집 ,거실및 방확장 ,",,,,,,,
4,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,111A/84 공급면적 111.47㎡ 전용면적 84.99㎡,62000.0,310.0,중/15,황금단지내부동산공. . 02-2247-5252
5,확장형 신축 착한가격,,,,,,,
6,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150B/114 공급면적 150.19㎡ 전용면적 114.96㎡,71000.0,107.0,8/20,미래공인중개사사무. . 02-960-6800
7,역세권 확장형,,,,,,,
8,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59500.0,106.0,5/20,미래공인중개사사무. . 02-960-6800
9,전월세끼고 확장형 전세 안고 저렴한 매매,,,,,,,


짝수번째 행(인덱스가 1,3,5,7..)은 NaN을 포함하고 있다. 

가장 간단한 방법은  NaN을 가지고 있는 행을 제거(drop)하는 것이다. (DataFrame.dropna)

In [4]:
df = df.dropna()
print(len(df), 'rows')

df.head(10)

30 rows


Unnamed: 0,최초게재일,종류/소재지,단지명,공급/전용(㎡),매매가(만원),동,층,문의처
0,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,85A/59 공급면적 85.28㎡ 전용면적 59.99㎡,54000,308,저/14,황금단지내공인중개. . 02-2246-5252
2,매매 17.03.01,아파트이문동,쌍용 쌍용,81/59 공급면적 81.19㎡ 전용면적 59.99㎡,35000,110,중/25,쌍용공인중개사사무. . 02-962-2244
4,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,111A/84 공급면적 111.47㎡ 전용면적 84.99㎡,62000,310,중/15,황금단지내부동산공. . 02-2247-5252
6,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150B/114 공급면적 150.19㎡ 전용면적 114.96㎡,71000,107,8/20,미래공인중개사사무. . 02-960-6800
8,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59500,106,5/20,미래공인중개사사무. . 02-960-6800
10,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,112A/84 공급면적 112.33㎡ 전용면적 84.97㎡,61000,104,고/20,백산 공인중개사 02-3291-0088
12,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59000,108,저/20,백산 공인중개사 02-3291-0088
14,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150A/114 공급면적 150.53㎡ 전용면적 114.98㎡,71000,105,5/20,백산 공인중개사 02-3291-0088
16,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150A/114 공급면적 150.53㎡ 전용면적 114.98㎡,70000,107,중/20,백산 공인중개사 02-3291-0088
18,매매 17.03.01,아파트이문동,현대 현대,107N/84 공급면적 107.94㎡ 전용면적 84.56㎡,40000,103,중/21,쌍용공인중개사사무. . 02-962-2244


# DataFrame의 행,열 조작

In [5]:
# ix[] 인덱싱을 사용하여 짝수번째 행(row)만 추출한다.

df1 = df.ix[::2,:]

print(len(df1), 'rows')
df1.head(10)

15 rows


Unnamed: 0,최초게재일,종류/소재지,단지명,공급/전용(㎡),매매가(만원),동,층,문의처
0,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,85A/59 공급면적 85.28㎡ 전용면적 59.99㎡,54000,308,저/14,황금단지내공인중개. . 02-2246-5252
4,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,111A/84 공급면적 111.47㎡ 전용면적 84.99㎡,62000,310,중/15,황금단지내부동산공. . 02-2247-5252
8,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59500,106,5/20,미래공인중개사사무. . 02-960-6800
12,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59000,108,저/20,백산 공인중개사 02-3291-0088
16,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150A/114 공급면적 150.53㎡ 전용면적 114.98㎡,70000,107,중/20,백산 공인중개사 02-3291-0088
20,매매 17.03.01,아파트답십리동,답십리대우 답십리대우,89/59 공급면적 89.12㎡ 전용면적 59.76㎡,39000,101,중/22,금강부동산공인중개. . 02-2245-0006
24,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,80B/59 공급면적 80.37㎡ 전용면적 59.9㎡,54000,103,중/20,백산 공인중개사 02-3291-0088
28,매매 17.03.01,아파트이문동,쌍용 쌍용,81/59 공급면적 81.19㎡ 전용면적 59.99㎡,34000,115,25/25,쌍용공인중개사사무. . 02-962-2244
32,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,55000,101,13/20,미래공인중개사사무. . 02-960-6800
36,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,54000,102,11/19,미래공인중개사사무. . 02-960-6800


In [6]:
# 이번에는 홀수번째 행(row)만 추출한다.

df2 = df.ix[1::2, 0]
df2.name = '비고'
df2.head(10)

2     매매  17.03.01
6     매매  17.03.01
10    매매  17.03.01
14    매매  17.03.01
18    매매  17.03.01
22    매매  17.03.01
26    매매  17.03.01
30    매매  17.03.01
34    매매  17.03.01
38    매매  17.03.01
Name: 비고, dtype: object

In [7]:
# df1과 df2를 합치기(concat)위해 위해 index를 동일하게 초기화 한다.
df1.reset_index(drop=True , inplace=True)
df2.reset_index(drop=True , inplace=True)

# df1 과  df2 를 컬럼으로 합치기
result = pd.concat([df1, df2], axis=1)
result.head(10)

Unnamed: 0,최초게재일,종류/소재지,단지명,공급/전용(㎡),매매가(만원),동,층,문의처,비고
0,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,85A/59 공급면적 85.28㎡ 전용면적 59.99㎡,54000,308,저/14,황금단지내공인중개. . 02-2246-5252,매매 17.03.01
1,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,111A/84 공급면적 111.47㎡ 전용면적 84.99㎡,62000,310,중/15,황금단지내부동산공. . 02-2247-5252,매매 17.03.01
2,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59500,106,5/20,미래공인중개사사무. . 02-960-6800,매매 17.03.01
3,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59000,108,저/20,백산 공인중개사 02-3291-0088,매매 17.03.01
4,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150A/114 공급면적 150.53㎡ 전용면적 114.98㎡,70000,107,중/20,백산 공인중개사 02-3291-0088,매매 17.03.01
5,매매 17.03.01,아파트답십리동,답십리대우 답십리대우,89/59 공급면적 89.12㎡ 전용면적 59.76㎡,39000,101,중/22,금강부동산공인중개. . 02-2245-0006,매매 17.03.01
6,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,80B/59 공급면적 80.37㎡ 전용면적 59.9㎡,54000,103,중/20,백산 공인중개사 02-3291-0088,매매 17.03.01
7,매매 17.03.01,아파트이문동,쌍용 쌍용,81/59 공급면적 81.19㎡ 전용면적 59.99㎡,34000,115,25/25,쌍용공인중개사사무. . 02-962-2244,매매 17.03.01
8,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,55000,101,13/20,미래공인중개사사무. . 02-960-6800,매매 17.03.01
9,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,54000,102,11/19,미래공인중개사사무. . 02-960-6800,매매 17.03.01


# 컬럼 다듬기


'최초게재일' 컬럼에 거래종류와 날짜가 함께 있다. 거래종류는 매매, 전세, 월세 등이 있다. 
이 데이터를 둘로 나누어 각각 '거래종류'를 추출하고, '최초게제일'에는 날짜만 남도록 해보자.

Series.str.extract() 에 정규식을 사용하여 매치되는 문자열을 추출할 수 있다.

In [8]:
# '매매 17.03.01' 데이터에 대해,
# 정규식 '(.*) '을 적용하면 '매매'만 추출

result['거래종류'] = result['최초게재일'].str.extract('(.*) ')
result.head(10)

Unnamed: 0,최초게재일,종류/소재지,단지명,공급/전용(㎡),매매가(만원),동,층,문의처,비고,거래종류
0,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,85A/59 공급면적 85.28㎡ 전용면적 59.99㎡,54000,308,저/14,황금단지내공인중개. . 02-2246-5252,매매 17.03.01,매매
1,매매 17.03.01,아파트답십리동,래미안위브 래미안위브,111A/84 공급면적 111.47㎡ 전용면적 84.99㎡,62000,310,중/15,황금단지내부동산공. . 02-2247-5252,매매 17.03.01,매매
2,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59500,106,5/20,미래공인중개사사무. . 02-960-6800,매매 17.03.01,매매
3,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59000,108,저/20,백산 공인중개사 02-3291-0088,매매 17.03.01,매매
4,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150A/114 공급면적 150.53㎡ 전용면적 114.98㎡,70000,107,중/20,백산 공인중개사 02-3291-0088,매매 17.03.01,매매
5,매매 17.03.01,아파트답십리동,답십리대우 답십리대우,89/59 공급면적 89.12㎡ 전용면적 59.76㎡,39000,101,중/22,금강부동산공인중개. . 02-2245-0006,매매 17.03.01,매매
6,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,80B/59 공급면적 80.37㎡ 전용면적 59.9㎡,54000,103,중/20,백산 공인중개사 02-3291-0088,매매 17.03.01,매매
7,매매 17.03.01,아파트이문동,쌍용 쌍용,81/59 공급면적 81.19㎡ 전용면적 59.99㎡,34000,115,25/25,쌍용공인중개사사무. . 02-962-2244,매매 17.03.01,매매
8,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,55000,101,13/20,미래공인중개사사무. . 02-960-6800,매매 17.03.01,매매
9,매매 17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,54000,102,11/19,미래공인중개사사무. . 02-960-6800,매매 17.03.01,매매


In [9]:
# '매매 17.03.01' 데이터에 대해, 
# 정규식 '(\d+.\d+.\d+)'을 적용하여 추출하면 '17.03.01'만 추출

result['최초게재일'] = result['최초게재일'].str.extract('(\d+.\d+.\d+)')
result.head(10)

Unnamed: 0,최초게재일,종류/소재지,단지명,공급/전용(㎡),매매가(만원),동,층,문의처,비고,거래종류
0,17.03.01,아파트답십리동,래미안위브 래미안위브,85A/59 공급면적 85.28㎡ 전용면적 59.99㎡,54000,308,저/14,황금단지내공인중개. . 02-2246-5252,매매 17.03.01,매매
1,17.03.01,아파트답십리동,래미안위브 래미안위브,111A/84 공급면적 111.47㎡ 전용면적 84.99㎡,62000,310,중/15,황금단지내부동산공. . 02-2247-5252,매매 17.03.01,매매
2,17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59500,106,5/20,미래공인중개사사무. . 02-960-6800,매매 17.03.01,매매
3,17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,111B/84 공급면적 111.82㎡ 전용면적 84.96㎡,59000,108,저/20,백산 공인중개사 02-3291-0088,매매 17.03.01,매매
4,17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,150A/114 공급면적 150.53㎡ 전용면적 114.98㎡,70000,107,중/20,백산 공인중개사 02-3291-0088,매매 17.03.01,매매
5,17.03.01,아파트답십리동,답십리대우 답십리대우,89/59 공급면적 89.12㎡ 전용면적 59.76㎡,39000,101,중/22,금강부동산공인중개. . 02-2245-0006,매매 17.03.01,매매
6,17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,80B/59 공급면적 80.37㎡ 전용면적 59.9㎡,54000,103,중/20,백산 공인중개사 02-3291-0088,매매 17.03.01,매매
7,17.03.01,아파트이문동,쌍용 쌍용,81/59 공급면적 81.19㎡ 전용면적 59.99㎡,34000,115,25/25,쌍용공인중개사사무. . 02-962-2244,매매 17.03.01,매매
8,17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,55000,101,13/20,미래공인중개사사무. . 02-960-6800,매매 17.03.01,매매
9,17.03.01,아파트용두동,래미안허브리츠 래미안허브리츠,79A/59 공급면적 79.7㎡ 전용면적 59.98㎡,54000,102,11/19,미래공인중개사사무. . 02-960-6800,매매 17.03.01,매매


#### 2017 http://fb.com/financedata