In [1]:
## https://github.com/teddylee777/machine-learning/tree/master/05-Pandas

import warnings
warnings.filterwarnings('ignore')

# pandas 모듈 import

In [2]:
import pandas as pd
import numpy as np

## csv파일을 불러오기
- [주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20200430.csv](https://www.data.go.kr/tcs/dss/selectDataSetList.do?dType=FILE&keyword=%22%EB%B6%84%EC%96%91%EA%B0%80+2019%EB%85%84+3%EC%9B%94%22)


In [3]:
# TODO: encoding='utf-8'로 에러 없이 하는 방법 구현 필요
# UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 0: invalid start byte
df = pd.read_csv('../_data/01_house_price_20200430.csv', encoding='CP949')

## 살펴보기

In [4]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [5]:
df['test'] = True

In [6]:
df.tail()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡),test
4670,제주,전체,2020,4,4085.0,True
4671,제주,전용면적 60㎡이하,2020,4,4039.0,True
4672,제주,전용면적 60㎡초과 85㎡이하,2020,4,4091.0,True
4673,제주,전용면적 85㎡초과 102㎡이하,2020,4,,True
4674,제주,전용면적 102㎡초과,2020,4,,True


## 열의 이름 바꾸기

In [7]:
df=df.rename(columns={'분양가격(㎡)':'분양가'})

In [8]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841,True
1,서울,전용면적 60㎡이하,2015,10,5652,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721,True
4,서울,전용면적 102㎡초과,2015,10,5879,True


## data type 보기

In [9]:
df.dtypes

지역명     object
규모구분    object
연도       int64
월        int64
분양가     object
test      bool
dtype: object

In [10]:
# BUG: 'Series' object has no attribute 'convert_objects'
# SOL: https://stackoverflow.com/questions/58211251/attributeerror-series-object-has-no-attribute-to-numeric
# ren[3] = pd.to_numeric(ren[3], errors='coerce')
# df['분양가'] = df['분양가'].convert_objects(convert_numeric=True)

df['분양가'] = pd.to_numeric(df['분양가'], errors='coerce')

In [11]:
df.dtypes

지역명      object
규모구분     object
연도        int64
월         int64
분양가     float64
test       bool
dtype: object

In [12]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


## numpy array로 변환하기

In [13]:
# BUG: AttributeError: 'DataFrame' object has no attribute 'to_numpy'
# SOL: https://stackoverflow.com/questions/54424818/10-minutes-to-pandas-tutorial-to-numpy-does-not-exist
# pip install --upgrade pandas (pandas 0.23.4 -> 1.15.0)
# pandas 업그레이드 적용 안되면: python -m ipykernel install --user --name mai --display-name MAI
arr = df.to_numpy()

In [14]:
arr

array([['서울', '전체', 2015, 10, 5841.0, True],
       ['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True],
       ['서울', '전용면적 60㎡초과 85㎡이하', 2015, 10, 5882.0, True],
       ...,
       ['제주', '전용면적 60㎡초과 85㎡이하', 2020, 4, 4091.0, True],
       ['제주', '전용면적 85㎡초과 102㎡이하', 2020, 4, nan, True],
       ['제주', '전용면적 102㎡초과', 2020, 4, nan, True]], dtype=object)

In [15]:
len(arr)

4675

In [16]:
arr[0], arr[1]

(array(['서울', '전체', 2015, 10, 5841.0, True], dtype=object),
 array(['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True], dtype=object))

## 간단한 통계 보기

In [17]:
df.describe()

Unnamed: 0,연도,월,분양가
count,4675.0,4675.0,4330.0
mean,2017.545455,6.454545,3280.755889
std,1.372844,3.577167,1313.776665
min,2015.0,1.0,1868.0
25%,2016.0,3.0,2461.0
50%,2018.0,6.0,2897.0
75%,2019.0,10.0,3616.75
max,2020.0,12.0,13835.0


## Transposing 하기 (축 변환하기)

In [20]:
# 갯수를 지정하여 출력
df.head(3)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True


In [21]:
df.T.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,4665,4666,4667,4668,4669,4670,4671,4672,4673,4674
지역명,서울,서울,서울,서울,서울,인천,인천,인천,인천,인천,...,경남,경남,경남,경남,경남,제주,제주,제주,제주,제주
규모구분,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,...,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과
연도,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,...,2020,2020,2020,2020,2020,2020,2020,2020,2020,2020
월,10,10,10,10,10,10,10,10,10,10,...,4,4,4,4,4,4,4,4,4,4
분양가,5841.0,5652.0,5882.0,5721.0,5879.0,3163.0,3488.0,3119.0,3545.0,3408.0,...,3153.0,2857.0,3159.0,3246.0,,4085.0,4039.0,4091.0,,


## 정렬

In [22]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


### 1. Index 정렬

In [23]:
# 내림차순 정렬
df.sort_index(axis=0, ascending=False)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
4674,제주,전용면적 102㎡초과,2020,4,,True
4673,제주,전용면적 85㎡초과 102㎡이하,2020,4,,True
4672,제주,전용면적 60㎡초과 85㎡이하,2020,4,4091.0,True
4671,제주,전용면적 60㎡이하,2020,4,4039.0,True
4670,제주,전체,2020,4,4085.0,True


In [24]:
# 오름차순 정렬
df.sort_index(axis=0, ascending=True)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


### 2. Value 정렬

In [25]:
# 지역명 별로 정렬
df.sort_values(by='지역명')[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
2595,강원,전체,2018,4,2277.0,True
3959,강원,전용면적 102㎡초과,2019,8,2823.0,True
3958,강원,전용면적 85㎡초과 102㎡이하,2019,8,3329.0,True
3957,강원,전용면적 60㎡초과 85㎡이하,2019,8,2476.0,True
3956,강원,전용면적 60㎡이하,2019,8,2574.0,True


In [26]:
# 연도 별로 정렬
df.sort_values(by='연도')[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
162,경남,전용면적 60㎡초과 85㎡이하,2015,11,2322.0,True
163,경남,전용면적 85㎡초과 102㎡이하,2015,11,2980.0,True
164,경남,전용면적 102㎡초과,2015,11,3043.0,True
165,제주,전체,2015,11,2232.0,True


## 선택 (Selection)

### 1. Column 이름으로 선택

In [27]:
df['지역명'][:5]

0    서울
1    서울
2    서울
3    서울
4    서울
Name: 지역명, dtype: object

In [28]:
df['연도'][:5]

0    2015
1    2015
2    2015
3    2015
4    2015
Name: 연도, dtype: int64

### 2. Index 선택

In [29]:
# index 0 부터 5 미만까지 선택
# index 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df[0:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [30]:
# 끝에 5개 출력
df[-5:]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
4670,제주,전체,2020,4,4085.0,True
4671,제주,전용면적 60㎡이하,2020,4,4039.0,True
4672,제주,전용면적 60㎡초과 85㎡이하,2020,4,4091.0,True
4673,제주,전용면적 85㎡초과 102㎡이하,2020,4,,True
4674,제주,전용면적 102㎡초과,2020,4,,True


### 3. label로 선택

In [31]:
df.loc[:, ['지역명', '연도']][:5]

Unnamed: 0,지역명,연도
0,서울,2015
1,서울,2015
2,서울,2015
3,서울,2015
4,서울,2015


In [32]:
# (주의) 여기서는 :를 기준으로 우측에 있는 범위인 6을 포함하여 출력
df.loc[:6,['지역명', '연도']]

Unnamed: 0,지역명,연도
0,서울,2015
1,서울,2015
2,서울,2015
3,서울,2015
4,서울,2015
5,인천,2015
6,인천,2015


In [33]:
# 조건을 삽입 가능
df.loc[df.index > 5, ['지역명', '연도']][:10]

Unnamed: 0,지역명,연도
6,인천,2015
7,인천,2015
8,인천,2015
9,인천,2015
10,경기,2015
11,경기,2015
12,경기,2015
13,경기,2015
14,경기,2015
15,부산,2015


In [34]:
# 지역명 column의 값이 '인천'인 행의 '지역명', '연도' 출력
df.loc[df['지역명']=='인천',['지역명', '연도']][:10]

Unnamed: 0,지역명,연도
5,인천,2015
6,인천,2015
7,인천,2015
8,인천,2015
9,인천,2015
90,인천,2015
91,인천,2015
92,인천,2015
93,인천,2015
94,인천,2015


### 4. iloc을 활용한 인덱스 지정 선택

In [35]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [36]:
df.iloc[2, 1]

'전용면적 60㎡초과 85㎡이하'

In [37]:
# df.iloc과 동작방식은 동일하지만, 범위 지정은 불가
df.iat[2, 1]

'전용면적 60㎡초과 85㎡이하'

In [38]:
df.iloc[2, :]

지역명                   서울
규모구분    전용면적 60㎡초과 85㎡이하
연도                  2015
월                     10
분양가               5882.0
test                True
Name: 2, dtype: object

In [39]:
df.iloc[:5, 1]

0                   전체
1           전용면적 60㎡이하
2     전용면적 60㎡초과 85㎡이하
3    전용면적 85㎡초과 102㎡이하
4          전용면적 102㎡초과
Name: 규모구분, dtype: object

In [40]:
# iloc으로 인덱스 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df.iloc[:5, 1:3]

Unnamed: 0,규모구분,연도
0,전체,2015
1,전용면적 60㎡이하,2015
2,전용면적 60㎡초과 85㎡이하,2015
3,전용면적 85㎡초과 102㎡이하,2015
4,전용면적 102㎡초과,2015


### 5. 범위 조건 지정 선택

In [41]:
df[df.index > 4668]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
4669,경남,전용면적 102㎡초과,2020,4,,True
4670,제주,전체,2020,4,4085.0,True
4671,제주,전용면적 60㎡이하,2020,4,4039.0,True
4672,제주,전용면적 60㎡초과 85㎡이하,2020,4,4091.0,True
4673,제주,전용면적 85㎡초과 102㎡이하,2020,4,,True
4674,제주,전용면적 102㎡초과,2020,4,,True


#### 5-a. df.연도 와 df['연도'] 의 column 지정방식은 동일하다

In [42]:
df[df.연도 == 2019][:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3315,서울,전체,2019,1,7600.0,True
3316,서울,전용면적 60㎡이하,2019,1,7400.0,True
3317,서울,전용면적 60㎡초과 85㎡이하,2019,1,8105.0,True
3318,서울,전용면적 85㎡초과 102㎡이하,2019,1,6842.0,True
3319,서울,전용면적 102㎡초과,2019,1,7787.0,True


In [43]:
df[df['연도'] == 2019][:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3315,서울,전체,2019,1,7600.0,True
3316,서울,전용면적 60㎡이하,2019,1,7400.0,True
3317,서울,전용면적 60㎡초과 85㎡이하,2019,1,8105.0,True
3318,서울,전용면적 85㎡초과 102㎡이하,2019,1,6842.0,True
3319,서울,전용면적 102㎡초과,2019,1,7787.0,True


## Copy로 복사

In [44]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [45]:
copy = df.copy()

In [46]:
copy.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


## 값 지정

In [47]:
# 지역명 == 서울 인 지역만 선택
df.loc[df['지역명']=='서울','지역명'][:10]

0     서울
1     서울
2     서울
3     서울
4     서울
85    서울
86    서울
87    서울
88    서울
89    서울
Name: 지역명, dtype: object

In [49]:
# 지역명 == 서울 인 지역을 Seoul로 변경(값을 set)
df.loc[df['지역명']=='서울','지역명'] = 'Seoul'

In [50]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


## reindex를 통한 지정 행과 새로운 열을 추가하여 새로운 dataframe으로 생성

In [54]:
df1 = df.reindex(index=df.index[:7], columns=list(df.columns) + ['extra'])

In [55]:
df1.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,


In [57]:
df1.loc[:4, 'extra'] = False

In [58]:
df1

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


## 빈 데이터 처리

In [59]:
df2 = df1.copy()

In [60]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


### 1. NaN 값이 있는 행을 제거

In [61]:
df2.dropna(how='any')

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False


#### 1-a 하지만 원본 데이터에는 반영이 안되어 있음

In [62]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


#### 1-b 원본 데이터에 반영을 시키기 위해서는 inplace=True를 적용

In [63]:
df2.dropna(how='any', inplace=True)

In [64]:
# NaN 값이 있는 행이 제거됨
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False


### 2. NaN 값이 있는 행에 값을 채움

In [66]:
df2 = df1.copy()

In [67]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


In [68]:
df2.fillna(value=True)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,True
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,True


### 3. NaN 값이 있는 데이터를 Boolean 값으로 출력

In [69]:
pd.isna(df2)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True
6,False,False,False,False,False,False,True


## 연산 (Operation)

In [70]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


### 열(column) 기준 평균

In [71]:
df.mean()

연도      2017.545455
월          6.454545
분양가     3280.755889
test       1.000000
dtype: float64

### 행(row) 기준 평균

In [72]:
df.mean(1)[:5]

0    1966.75
1    1919.50
2    1977.00
3    1936.75
4    1976.25
dtype: float64

In [73]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


### 행을 2칸 뒤로 밀기

In [74]:
df.shift(2)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,,,,,,
1,,,,,,
2,Seoul,전체,2015.0,10.0,5841.0,True
3,Seoul,전용면적 60㎡이하,2015.0,10.0,5652.0,True
4,Seoul,전용면적 60㎡초과 85㎡이하,2015.0,10.0,5882.0,True


### 행을 2칸 당기기

In [76]:
df.shift(-2)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전용면적 60㎡초과 85㎡이하,2015.0,10.0,5882.0,True
1,Seoul,전용면적 85㎡초과 102㎡이하,2015.0,10.0,5721.0,True
2,Seoul,전용면적 102㎡초과,2015.0,10.0,5879.0,True
3,인천,전체,2015.0,10.0,3163.0,True
4,인천,전용면적 60㎡이하,2015.0,10.0,3488.0,True


## Broadcasting을 이용한 subtract (빼기)

In [77]:
df1 = df[['연도', '월']]

In [78]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [79]:
df1.shape

(4675, 2)

In [80]:
s = np.ones(df.shape[0])

In [81]:
s.shape

(4675,)

In [82]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [83]:
s

array([1., 1., 1., ..., 1., 1., 1.])

In [84]:
df1.sub(s, axis=0).head()

Unnamed: 0,연도,월
0,2014.0,9.0
1,2014.0,9.0
2,2014.0,9.0
3,2014.0,9.0
4,2014.0,9.0


In [85]:
s = np.ones(df1.shape[1])

In [86]:
s

array([1., 1.])

In [87]:
df1.sub(s, axis=1).head()

Unnamed: 0,연도,월
0,2014.0,9.0
1,2014.0,9.0
2,2014.0,9.0
3,2014.0,9.0
4,2014.0,9.0


## Apply
### np.cumsum : cumulative sum의 함수형으로 누적 합을 구하는 함수

In [88]:
df1.apply(np.cumsum)[:10]

Unnamed: 0,연도,월
0,2015,10
1,4030,20
2,6045,30
3,8060,40
4,10075,50
5,12090,60
6,14105,70
7,16120,80
8,18135,90
9,20150,100


In [None]:
### 연도 column
x.max() 는 최대값인 2019년도의 2019, x.min() 은 최소값인 2015년도의 2015, 2019 - 2015 = 4가 출력

### 월 column
x.max() 는 최대값인 12, x.min() 은 최소값인 1, 12 - 1 = 11이 출력

In [89]:
df1.apply(lambda x: x.max() - x.min())

연도     5
월     11
dtype: int64

In [90]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


## 값들의 종류별 출력

In [91]:
df1['연도'].value_counts()

2016    1020
2017    1020
2018    1020
2019    1020
2020     340
2015     255
Name: 연도, dtype: int64

## 데이터 합치기 (Data Merge)

In [92]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


In [93]:
left = df[['연도', '월']]

In [94]:
left.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [95]:
right = df[['지역명']]

In [96]:
right.head()

Unnamed: 0,지역명
0,Seoul
1,Seoul
2,Seoul
3,Seoul
4,Seoul


### 1. Concat

In [97]:
part_1 = pd.DataFrame(np.random.randn(3, 4))
part_2 = pd.DataFrame(np.random.randn(4, 4))
part_3 = pd.DataFrame(np.random.randn(5, 4))

In [98]:
part_1

Unnamed: 0,0,1,2,3
0,-1.713796,0.581369,-0.108629,0.008893
1,1.959174,0.435146,-0.793802,0.733808
2,0.203433,-1.428651,-1.059747,-0.649609


In [99]:
part_2

Unnamed: 0,0,1,2,3
0,0.290917,1.254315,1.535894,0.390315
1,-0.67285,0.349708,0.710221,0.949373
2,-0.976402,-0.49159,-0.424164,-1.728044
3,-0.488052,1.934471,1.173666,0.237201


In [100]:
part_3

Unnamed: 0,0,1,2,3
0,0.082582,0.525782,0.015173,-2.456376
1,0.522407,0.962161,1.09967,1.23368
2,0.160765,-0.4685,-0.06099,-0.629939
3,-0.965527,0.080757,-1.013469,-1.887357
4,1.6129,-0.466155,0.408373,1.658174


In [101]:
part = [part_1, part_2, part_3]

In [102]:
part

[          0         1         2         3
 0 -1.713796  0.581369 -0.108629  0.008893
 1  1.959174  0.435146 -0.793802  0.733808
 2  0.203433 -1.428651 -1.059747 -0.649609,
           0         1         2         3
 0  0.290917  1.254315  1.535894  0.390315
 1 -0.672850  0.349708  0.710221  0.949373
 2 -0.976402 -0.491590 -0.424164 -1.728044
 3 -0.488052  1.934471  1.173666  0.237201,
           0         1         2         3
 0  0.082582  0.525782  0.015173 -2.456376
 1  0.522407  0.962161  1.099670  1.233680
 2  0.160765 -0.468500 -0.060990 -0.629939
 3 -0.965527  0.080757 -1.013469 -1.887357
 4  1.612900 -0.466155  0.408373  1.658174]

In [103]:
pd.concat(part)

Unnamed: 0,0,1,2,3
0,-1.713796,0.581369,-0.108629,0.008893
1,1.959174,0.435146,-0.793802,0.733808
2,0.203433,-1.428651,-1.059747,-0.649609
0,0.290917,1.254315,1.535894,0.390315
1,-0.67285,0.349708,0.710221,0.949373
2,-0.976402,-0.49159,-0.424164,-1.728044
3,-0.488052,1.934471,1.173666,0.237201
0,0.082582,0.525782,0.015173,-2.456376
1,0.522407,0.962161,1.09967,1.23368
2,0.160765,-0.4685,-0.06099,-0.629939


### 2. Join
Join을 Column(열)을 기준으로 합칠 경우에 on='합치고자하는 열의 이름'를 자주 사용하게 되는데, 값이 고유하지 않다면, 매우 혼란스러울 수 있다