# 판다스 기본
* [해당 데이데 출처- 공공데이터 포탈](https://www.data.go.kr/tcs/opd/ndm/view.do)

In [12]:
import warnings
warnings.simplefilter(action = 'ignore', category=FutureWarning)

### pandas 모듈 임포트 

In [13]:
import pandas as pd
import numpy as np
import os

In [14]:
pd.__version__

'1.1.5'

### csv파일 불러오기

In [15]:
# 파이썬의 기본 인코딩 : utf-8이므로 에러가 남 UnicodeDecodeError 
# 이런 경우엔 cpc949
df = pd.read_csv("./data/민간 아파트 분양가격 동향_20200331.csv", encoding = 'CP949')

#### 살펴보기 

In [16]:
df.head(n = 5)

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [17]:
# 컬럼 추가 
df['test'] = True

In [18]:
df.tail(n = 5)

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡),test
4585,제주,전체,2020,3,3955.0,True
4586,제주,전용면적 60㎡이하,2020,3,4039.0,True
4587,제주,전용면적 60㎡초과 85㎡이하,2020,3,3962.0,True
4588,제주,전용면적 85㎡초과 102㎡이하,2020,3,,True
4589,제주,전용면적 102㎡초과,2020,3,3601.0,True


### 열의 이름 바꾸기

In [19]:
df.rename(columns = {'분양가격(㎡)': '분양가'}, inplace = True)

In [20]:
df = df.rename(columns = {'분양가격(㎡)': '분양가'})

In [21]:
df.columns = ['지역명', '규모구분', '연도', '월', '분양가']

ValueError: Length mismatch: Expected axis has 6 elements, new values have 5 elements

In [22]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841,True
1,서울,전용면적 60㎡이하,2015,10,5652,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721,True
4,서울,전용면적 102㎡초과,2015,10,5879,True


### data type보기

In [23]:
df.dtypes

지역명     object
규모구분    object
연도       int64
월        int64
분양가     object
test      bool
dtype: object

In [24]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841,True
1,서울,전용면적 60㎡이하,2015,10,5652,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721,True
4,서울,전용면적 102㎡초과,2015,10,5879,True


#### 아래 데이터 변경 메소드는 `1.0.3`에서는 지원하지 않음.
* [스택오버플로우](https://stackoverflow.com/questions/33126477/pandas-convert-objectsconvert-numeric-true-deprecated)

In [25]:
# 해당 메소드는 1.0.3에서는 지원하지 않음.
df['분양가'] = df['분양가'].convert_objects(convert_numeric=True)

AttributeError: 'Series' object has no attribute 'convert_objects'

In [26]:
# 그래서 이렇게 했더니 다음과 같은 에러가 나옴
pd.to_numeric(df['분양가'])

ValueError: Unable to parse string "  " at position 28

스택오버플로우에서 검색해보면, 이런 경우는 바꿀려고 하는 데이터타입에 변환할수 없는 널값이나 빈 문자열이 들어가있어서 그렇다. 
이런 경우엔 이렇게 변환해보자.
[관련 스택오버플로우](
https://stackoverflow.com/questions/40790031/pandas-to-numeric-find-out-which-string-it-was-unable-to-parse)

* `errors = 'coerce'` 옵션은 변환할수 없는 데이터타입은 NaN으로 처리.

In [27]:
df['분양가'] = pd.to_numeric(df['분양가'],errors = 'coerce')

In [28]:
df.dtypes

지역명      object
규모구분     object
연도        int64
월         int64
분양가     float64
test       bool
dtype: object

In [29]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


### numpy array로 변환하기

In [30]:
arr = df.to_numpy()

In [31]:
arr

array([['서울', '전체', 2015, 10, 5841.0, True],
       ['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True],
       ['서울', '전용면적 60㎡초과 85㎡이하', 2015, 10, 5882.0, True],
       ...,
       ['제주', '전용면적 60㎡초과 85㎡이하', 2020, 3, 3962.0, True],
       ['제주', '전용면적 85㎡초과 102㎡이하', 2020, 3, nan, True],
       ['제주', '전용면적 102㎡초과', 2020, 3, 3601.0, True]], dtype=object)

In [32]:
len(arr)

4590

In [33]:
arr[0], arr[1],arr[0][4]

(array(['서울', '전체', 2015, 10, 5841.0, True], dtype=object),
 array(['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True], dtype=object),
 5841.0)

### 간단한 통계보기

In [34]:
df.describe()

Unnamed: 0,연도,월,분양가
count,4590.0,4590.0,4260.0
mean,2017.5,6.5,3270.160798
std,1.343856,3.594368,1300.362742
min,2015.0,1.0,1868.0
25%,2016.0,3.0,2454.75
50%,2017.5,6.5,2890.0
75%,2019.0,10.0,3601.0
max,2020.0,12.0,13835.0


### Transposing하기(축변환)

In [35]:
df.head(n = 3)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True


In [36]:
df.T.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,4580,4581,4582,4583,4584,4585,4586,4587,4588,4589
지역명,서울,서울,서울,서울,서울,인천,인천,인천,인천,인천,...,경남,경남,경남,경남,경남,제주,제주,제주,제주,제주
규모구분,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,...,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과,전체,전용면적 60㎡이하,전용면적 60㎡초과 85㎡이하,전용면적 85㎡초과 102㎡이하,전용면적 102㎡초과
연도,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,...,2020,2020,2020,2020,2020,2020,2020,2020,2020,2020
월,10,10,10,10,10,10,10,10,10,10,...,3,3,3,3,3,3,3,3,3,3
분양가,5841,5652,5882,5721,5879,3163,3488,3119,3545,3408,...,2968,2780,2971,3247,,3955,4039,3962,,3601


### 정렬

In [37]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


#### 1.index정렬

In [38]:
df.sort_index(axis = 0, ascending = False)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
4589,제주,전용면적 102㎡초과,2020,3,3601.0,True
4588,제주,전용면적 85㎡초과 102㎡이하,2020,3,,True
4587,제주,전용면적 60㎡초과 85㎡이하,2020,3,3962.0,True
4586,제주,전용면적 60㎡이하,2020,3,4039.0,True
4585,제주,전체,2020,3,3955.0,True
...,...,...,...,...,...,...
4,서울,전용면적 102㎡초과,2015,10,5879.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True


* 내림차순 정렬(인덱스)

In [39]:
df.sort_index(axis = 0, ascending = False)[:5]  # 5개의 행까지 출력

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
4589,제주,전용면적 102㎡초과,2020,3,3601.0,True
4588,제주,전용면적 85㎡초과 102㎡이하,2020,3,,True
4587,제주,전용면적 60㎡초과 85㎡이하,2020,3,3962.0,True
4586,제주,전용면적 60㎡이하,2020,3,4039.0,True
4585,제주,전체,2020,3,3955.0,True


* 올림차순 정렬(인덱스)

In [40]:
df.sort_index(axis = 0, ascending = True)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True
...,...,...,...,...,...,...
4585,제주,전체,2020,3,3955.0,True
4586,제주,전용면적 60㎡이하,2020,3,4039.0,True
4587,제주,전용면적 60㎡초과 85㎡이하,2020,3,3962.0,True
4588,제주,전용면적 85㎡초과 102㎡이하,2020,3,,True


In [41]:
df.sort_index(axis = 0, ascending = True)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


#### 2. Value정렬

* 지역명 별로 정렬

In [42]:
df.sort_values(by= '지역명')[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
2684,강원,전용면적 102㎡초과,2018,5,2631.0,True
389,강원,전용면적 102㎡초과,2016,2,2350.0,True
388,강원,전용면적 85㎡초과 102㎡이하,2016,2,,True
387,강원,전용면적 60㎡초과 85㎡이하,2016,2,2200.0,True
386,강원,전용면적 60㎡이하,2016,2,2290.0,True


* 연도별로 정렬

In [None]:
df.sort_values(by = '연도')[:5]

### Selection

#### 1. Column 이름으로 선택¶

In [43]:
df['지역명'][:5] # 5개의 행 - 지역명만 가져옴

0    서울
1    서울
2    서울
3    서울
4    서울
Name: 지역명, dtype: object

In [None]:
df['연도'][:5]

#### 2.Index선택

In [44]:
# index 0 부터 5 미만까지 선택
# index 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df[0:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [None]:
# 끝에서 5개 출력
df[-5:]

#### 3. Label로 선택

In [45]:
df.loc[:, ['지역명', '연도']][:5]

Unnamed: 0,지역명,연도
0,서울,2015
1,서울,2015
2,서울,2015
3,서울,2015
4,서울,2015


In [None]:
# 행(로우) , 6이 포함됨을 주의.
# # (주의) 여기서는 :를 기준으로 우측에 있는 범위인 6을 포함하여 출력
df.loc[:6, ['지역명', '연도']] 

In [46]:
# 인덱스가 5보다 큰것을 가져오는데
df.loc[df.index > 5, ['지역명', '연도']][:10]

Unnamed: 0,지역명,연도
6,인천,2015
7,인천,2015
8,인천,2015
9,인천,2015
10,경기,2015
11,경기,2015
12,경기,2015
13,경기,2015
14,경기,2015
15,부산,2015


In [None]:
 #지역명 column의 값이 '인천'인 행의 '지역명', '연도' 출력
df.loc[df['지역명']== '인천', ['지역명', '연도']][:10]

#### 4. iloc을 활용한 인덱스 지정 선택
* 위치기반 인덱싱

In [47]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [None]:
df.iloc[2, 1]  # 인덱스가 2인 행과 인덱스가 1인 컬럼의 값.- 규모구분

In [48]:
# df.iloc과 동작방식은 동일하지만, 범위 지정은 불가
df.iat[2, 1]

'전용면적 60㎡초과 85㎡이하'

In [49]:
df.iloc[2, :]

지역명                   서울
규모구분    전용면적 60㎡초과 85㎡이하
연도                  2015
월                     10
분양가                 5882
test                True
Name: 2, dtype: object

In [None]:
# iloc는 마지막 인덱스는 항상 포함되지 않는다.
# iloc으로 인덱스 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df.iloc[:4, 1:3]

In [50]:
df.iloc[:5, 1: 3]

Unnamed: 0,규모구분,연도
0,전체,2015
1,전용면적 60㎡이하,2015
2,전용면적 60㎡초과 85㎡이하,2015
3,전용면적 85㎡초과 102㎡이하,2015
4,전용면적 102㎡초과,2015


#### 5. 범위 조건 지정 선택

In [51]:
df[df.index > 3565]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3566,제주,전용면적 60㎡이하,2019,3,3804.0,True
3567,제주,전용면적 60㎡초과 85㎡이하,2019,3,3504.0,True
3568,제주,전용면적 85㎡초과 102㎡이하,2019,3,3226.0,True
3569,제주,전용면적 102㎡초과,2019,3,2952.0,True
3570,서울,전체,2019,4,7784.0,True
...,...,...,...,...,...,...
4585,제주,전체,2020,3,3955.0,True
4586,제주,전용면적 60㎡이하,2020,3,4039.0,True
4587,제주,전용면적 60㎡초과 85㎡이하,2020,3,3962.0,True
4588,제주,전용면적 85㎡초과 102㎡이하,2020,3,,True


#### 5-a. df.연도  와  df['연도'] 의 column 지정방식은 동일하다

In [52]:
df[df.연도 == 2019][:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3315,서울,전체,2019,1,7600.0,True
3316,서울,전용면적 60㎡이하,2019,1,7400.0,True
3317,서울,전용면적 60㎡초과 85㎡이하,2019,1,8105.0,True
3318,서울,전용면적 85㎡초과 102㎡이하,2019,1,6842.0,True
3319,서울,전용면적 102㎡초과,2019,1,7787.0,True


In [53]:
df[df['연도'] == 2019][:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
3315,서울,전체,2019,1,7600.0,True
3316,서울,전용면적 60㎡이하,2019,1,7400.0,True
3317,서울,전용면적 60㎡초과 85㎡이하,2019,1,8105.0,True
3318,서울,전용면적 85㎡초과 102㎡이하,2019,1,6842.0,True
3319,서울,전용면적 102㎡초과,2019,1,7787.0,True


### Copy로 복사
* 데이터프레임을 할당연산자로 복사하게되면, 원치않는 결과가 만들어지니 ***반드시 `.copy()`명령어를 사용***해라

In [54]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


In [55]:
copy_df = df.copy()

In [56]:
copy_df

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True
...,...,...,...,...,...,...
4585,제주,전체,2020,3,3955.0,True
4586,제주,전용면적 60㎡이하,2020,3,4039.0,True
4587,제주,전용면적 60㎡초과 85㎡이하,2020,3,3962.0,True
4588,제주,전용면적 85㎡초과 102㎡이하,2020,3,,True


### 값 지정

In [57]:
df.loc[df.지역명 == '서울', '지역명'][:10]

0     서울
1     서울
2     서울
3     서울
4     서울
85    서울
86    서울
87    서울
88    서울
89    서울
Name: 지역명, dtype: object

In [58]:
# 지역명이 `서울` 인 지역을 `Seoul`로 변경
df.loc[df.지역명 == '서울', '지역명'] = 'Seoul'

In [59]:
df.loc[df.지역명 == 'Seoul', '지역명'][:10]

0     Seoul
1     Seoul
2     Seoul
3     Seoul
4     Seoul
85    Seoul
86    Seoul
87    Seoul
88    Seoul
89    Seoul
Name: 지역명, dtype: object

### reindex를 통한 지정 행과 새로운 열을 추가하여 새로운 dataframe으로 생성

In [60]:
df.index,df.columns

(RangeIndex(start=0, stop=4590, step=1),
 Index(['지역명', '규모구분', '연도', '월', '분양가', 'test'], dtype='object'))

In [61]:
df1 = df.reindex(index = df.index[:7], columns = list(df.columns) + ['extra'])

In [62]:
df1

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


In [63]:
df1.loc[:4, 'extra'] = False

In [None]:
df1

### 빈 데이터 처리

In [64]:
df2 = df1.copy()

In [65]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


#### 1.NaN이 있는 값 처리

In [66]:
df2.isna()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True
6,False,False,False,False,False,False,True


* `how='any'` 옵션은 NaN값이 하나라도 있으면 해당 컬럼혹은 로우를 삭제함.
* 로우 혹은 컬럼의 삭제는 `axis= 0 | 1` 값이 무엇이냐에 따라 다르다.

In [67]:
df2.dropna(how='any')

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False


#### 1.a 하지만 원본 데이터에는 반영이 되어있지 않음.

In [68]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


In [None]:
df2.dropna(how='any', inplace = True)

In [69]:
# axis옵션은 기본값이 0이므로 dropna하면 NaN값이 있는 해당 로우가 삭제됨.
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


#### 2. NaN 값이 있는 행에 값을 채움

In [70]:
df2 = df1.copy()

In [71]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


In [None]:
df2.fillna(value = True)

In [72]:
df2

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,Seoul,전체,2015,10,5841.0,True,False
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,False
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,False
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,False
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,False
5,인천,전체,2015,10,3163.0,True,
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,


In [None]:
df2.fillna(value = True, inplace = True)  # 혹은 df2['extra'] = df2.fillna(value = True, inplace = True) 

In [None]:
df2

#### 3. NaN 값이 있는 데이터를 Boolean 값으로 출력

In [73]:
pd.isna(df2)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True
6,False,False,False,False,False,False,True


In [74]:
df2.isna()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,extra
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True
6,False,False,False,False,False,False,True


### 연산 (Operation)

In [75]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


* 열(column) 기준 평균

In [76]:
df.mean()

연도      2017.500000
월          6.500000
분양가     3270.160798
test       1.000000
dtype: float64

* 열(column) 기준 평균

In [77]:
df.mean(axis = 1)[:5]

0    1966.75
1    1919.50
2    1977.00
3    1936.75
4    1976.25
dtype: float64

In [None]:
df.head()

행을 2칸 뒤로 밀기
  -  **기본값 : axis=0 ( 행기준)**
  - 기본값 : `fill_value=None`

In [78]:
df.shift(2)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,,,,,,
1,,,,,,
2,Seoul,전체,2015.0,10.0,5841.0,True
3,Seoul,전용면적 60㎡이하,2015.0,10.0,5652.0,True
4,Seoul,전용면적 60㎡초과 85㎡이하,2015.0,10.0,5882.0,True


행을 2칸 앞당기기
* 앞의 두 로우가 삭제됨

In [79]:
df.shift(-2)[:5]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전용면적 60㎡초과 85㎡이하,2015.0,10.0,5882.0,True
1,Seoul,전용면적 85㎡초과 102㎡이하,2015.0,10.0,5721.0,True
2,Seoul,전용면적 102㎡초과,2015.0,10.0,5879.0,True
3,인천,전체,2015.0,10.0,3163.0,True
4,인천,전용면적 60㎡이하,2015.0,10.0,3488.0,True


### Broadcasting을 이용한 subtract (빼기)
* `mul`, `add`, `mod`, `div`, `pow`도 지원.

In [81]:
df1 = df[['연도', '월']]

In [82]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [84]:
df1.shape

(4590, 2)

In [83]:
s = np.ones(df1.shape[0])
s.shape

(4590,)

In [85]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [87]:
s

array([1., 1., 1., ..., 1., 1., 1.])

In [86]:
# 전체 로우에 걸쳐서 1씩 빼기연산이 됨.
df1.sub(s, axis = 0).head(n = 5)

Unnamed: 0,연도,월
0,2014.0,9.0
1,2014.0,9.0
2,2014.0,9.0
3,2014.0,9.0
4,2014.0,9.0


### Apply
* np.cumsum : cumulative sum의 함수형으로 누적 합을 구하는 함수
* `apply`함수의 axis기본값은 0 즉, 로우 기준

In [88]:
df1.apply(np.cumsum, axis = 0).head(n = 3)

Unnamed: 0,연도,월
0,2015,10
1,4030,20
2,6045,30


In [89]:
df1.apply(np.cumsum, axis = 0)[:3]

Unnamed: 0,연도,월
0,2015,10
1,4030,20
2,6045,30


* 연도 column<br>
x.max() 는 최대값인 2019년도의 2019 x.min() 은 최소값인 2015년도의 2015 2019 - 2015 = 4가 출력

* 월 column<br>
x.max() 는 최대값인 12 x.min() 은 최소값인 1 12 - 1 = 11이 출력

In [90]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [91]:
df1.apply(lambda x: x.max() - x.min())

연도     5
월     11
dtype: int64

### 값들의 종류별 출력
    * 컬럼의 값에 대한 분포표라고 보면 됨.`R`의 `table`명령어와 동일.

In [92]:
df1['연도'].value_counts()

2019    1020
2018    1020
2017    1020
2016    1020
2015     255
2020     255
Name: 연도, dtype: int64

In [93]:
df1['월'].value_counts()

11    425
3     425
10    425
2     425
1     425
12    425
7     340
6     340
9     340
5     340
8     340
4     340
Name: 월, dtype: int64

In [94]:
df.규모구분.value_counts()

전용면적 102㎡초과          918
전체                   918
전용면적 60㎡이하           918
전용면적 85㎡초과 102㎡이하    918
전용면적 60㎡초과 85㎡이하     918
Name: 규모구분, dtype: int64

### 데이터 합치기 (Data Merge)

In [95]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


In [96]:
left = df[['연도', '월']]
left.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [97]:
right = df['지역명']
right.head()

0    Seoul
1    Seoul
2    Seoul
3    Seoul
4    Seoul
Name: 지역명, dtype: object

#### 1. Concat

In [98]:
part1 = pd.DataFrame(np.random.randn(3, 4))
part2 = pd.DataFrame(np.random.randn(4, 4))
part3 = pd.DataFrame(np.random.randn(5, 4))

In [99]:
part1

Unnamed: 0,0,1,2,3
0,0.718886,1.439813,-0.522928,0.223221
1,1.036001,-1.734816,-1.122911,-0.760653
2,-0.868806,-2.186286,-0.238595,-0.798057


In [100]:
part2

Unnamed: 0,0,1,2,3
0,0.446632,-2.110045,0.450804,-1.083432
1,0.973514,0.014879,0.369877,-0.453209
2,0.471444,0.781129,-0.053646,0.779481
3,-1.898705,-0.878792,0.263364,0.898706


In [101]:
part3

Unnamed: 0,0,1,2,3
0,-0.310594,-1.048387,0.386335,-0.961689
1,-1.336722,-0.735096,0.213894,0.110025
2,1.206073,0.949281,0.242805,-0.615707
3,-1.237184,0.321891,-0.42594,0.511013
4,-0.03202,1.017657,-0.631199,0.525989


In [102]:
part = [part1, part2, part3]

In [103]:
part

[          0         1         2         3
 0  0.718886  1.439813 -0.522928  0.223221
 1  1.036001 -1.734816 -1.122911 -0.760653
 2 -0.868806 -2.186286 -0.238595 -0.798057,
           0         1         2         3
 0  0.446632 -2.110045  0.450804 -1.083432
 1  0.973514  0.014879  0.369877 -0.453209
 2  0.471444  0.781129 -0.053646  0.779481
 3 -1.898705 -0.878792  0.263364  0.898706,
           0         1         2         3
 0 -0.310594 -1.048387  0.386335 -0.961689
 1 -1.336722 -0.735096  0.213894  0.110025
 2  1.206073  0.949281  0.242805 -0.615707
 3 -1.237184  0.321891 -0.425940  0.511013
 4 -0.032020  1.017657 -0.631199  0.525989]

In [104]:
concat_part = pd.concat(part)

In [105]:
concat_part.reset_index(), concat_part.shape

(    index         0         1         2         3
 0       0  0.718886  1.439813 -0.522928  0.223221
 1       1  1.036001 -1.734816 -1.122911 -0.760653
 2       2 -0.868806 -2.186286 -0.238595 -0.798057
 3       0  0.446632 -2.110045  0.450804 -1.083432
 4       1  0.973514  0.014879  0.369877 -0.453209
 5       2  0.471444  0.781129 -0.053646  0.779481
 6       3 -1.898705 -0.878792  0.263364  0.898706
 7       0 -0.310594 -1.048387  0.386335 -0.961689
 8       1 -1.336722 -0.735096  0.213894  0.110025
 9       2  1.206073  0.949281  0.242805 -0.615707
 10      3 -1.237184  0.321891 -0.425940  0.511013
 11      4 -0.032020  1.017657 -0.631199  0.525989,
 (12, 4))

### 2.Join
* `Join`은 컬럼을 기주능로 합칠 경우에 `on`=`합치고자 하는 열의 이름`을 자주 사용하게 되는데 , 값이 고유하지 않다면 문제.

###### **예시1 : Key가 고유한 경우**

In [106]:
left = pd.DataFrame({'연도':  ['2015', '2016', '2017', '2018', '2019'],
                    '월': ['1', '2', '3', '4', '5']
                    })
left

Unnamed: 0,연도,월
0,2015,1
1,2016,2
2,2017,3
3,2018,4
4,2019,5


In [108]:
right = pd.DataFrame({'이름':  ['홍길동', '김영희', '이철수', '방탄소면단', '홍준표'],
                    '월': ['1', '2', '3', '4', '5']
                    })
right

Unnamed: 0,이름,월
0,홍길동,1
1,김영희,2
2,이철수,3
3,방탄소면단,4
4,홍준표,5


In [107]:
left.shape, right.shape

((5, 2), (4590,))

- 매우 깔끔하게 머지가 되었다.

In [109]:
pd.merge(left, right, on = '월')

Unnamed: 0,연도,월,이름
0,2015,1,홍길동
1,2016,2,김영희
2,2017,3,이철수
3,2018,4,방탄소면단
4,2019,5,홍준표


##### 예시2 : 중복되는 키가 존재하는 경우 머지시.

In [110]:
left = pd.DataFrame({'연도':  ['2015', '2016', '2017', '2018', '2019'],
                    '월': ['1', '1', '3', '4', '5']
                    })
left

Unnamed: 0,연도,월
0,2015,1
1,2016,1
2,2017,3
3,2018,4
4,2019,5


In [111]:
right = pd.DataFrame({'이름':  ['홍길동', '김영희', '이철수', '방탄소면단', '홍준표'],
                    '월': ['1', '1', '3', '4', '5']
                    })
right

Unnamed: 0,이름,월
0,홍길동,1
1,김영희,1
2,이철수,3
3,방탄소면단,4
4,홍준표,5


* 행이 동일한 이름으로 2개가 생긴 것을 알수 있다.

In [112]:
pd.merge(left, right, on = '월')

Unnamed: 0,연도,월,이름
0,2015,1,홍길동
1,2015,1,김영희
2,2016,1,홍길동
3,2016,1,김영희
4,2017,3,이철수
5,2018,4,방탄소면단
6,2019,5,홍준표


### 3.Append

In [113]:
test = np.arange(0, 50)
test

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])

In [114]:
# 1d -> 2D로 변환
test = test.reshape(10, 5)
test

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49]])

In [115]:
test_1 = test[:3]

In [116]:
test_1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [117]:
test_2 = test[3:7]

In [118]:
test_2

array([[15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34]])

In [119]:
test_3 = test[7: 10]

In [None]:
test_3

In [120]:
df1 = pd.DataFrame(test_1)
df1

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14


In [121]:
df2 = pd.DataFrame(test_2)
df2

Unnamed: 0,0,1,2,3,4
0,15,16,17,18,19
1,20,21,22,23,24
2,25,26,27,28,29
3,30,31,32,33,34


In [122]:
df3 = pd.DataFrame(test_3)
df3

Unnamed: 0,0,1,2,3,4
0,35,36,37,38,39
1,40,41,42,43,44
2,45,46,47,48,49


In [123]:
df1.append(df2)

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
0,15,16,17,18,19
1,20,21,22,23,24
2,25,26,27,28,29
3,30,31,32,33,34


* index가 중구난방으로 되어있는데 ignore_index = <font color= red>True</font>로 해결할 수 있다.(기존 인덱스를 무시하고 새로 생성)

In [124]:
df1.append(df2, ignore_index = True)

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24
5,25,26,27,28,29
6,30,31,32,33,34


### 그룹화(Grouping)

In [125]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


In [126]:
df.shape

(4590, 6)

In [127]:
df.groupby(['지역명', '연도', '월'])['분양가'].agg('sum')

지역명    연도    월 
Seoul  2015  10    28975.0
             11    31977.0
             12    31392.0
       2016  1     31635.0
             2     31559.0
                    ...   
충북     2019  11    12086.0
             12    12092.0
       2020  1     12092.0
             2     12365.0
             3     12600.0
Name: 분양가, Length: 918, dtype: float64

In [128]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4590 entries, 0 to 4589
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4590 non-null   object 
 1   규모구분    4590 non-null   object 
 2   연도      4590 non-null   int64  
 3   월       4590 non-null   int64  
 4   분양가     4260 non-null   float64
 5   test    4590 non-null   bool   
dtypes: bool(1), float64(1), int64(2), object(2)
memory usage: 183.9+ KB


In [129]:
grouped = df.groupby(['지역명', '연도', '월']).sum()
grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,분양가,test
지역명,연도,월,Unnamed: 3_level_1,Unnamed: 4_level_1
Seoul,2015,10,28975.0,5
Seoul,2015,11,31977.0,5
Seoul,2015,12,31392.0,5
Seoul,2016,1,31635.0,5
Seoul,2016,2,31559.0,5
...,...,...,...,...
충북,2019,11,12086.0,5
충북,2019,12,12092.0,5
충북,2020,1,12092.0,5
충북,2020,2,12365.0,5


In [130]:
grouped.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,분양가,test
지역명,연도,월,Unnamed: 3_level_1,Unnamed: 4_level_1
Seoul,2015,10,28975.0,5
Seoul,2015,11,31977.0,5
Seoul,2015,12,31392.0,5
Seoul,2016,1,31635.0,5
Seoul,2016,2,31559.0,5


* 차이점을 눈으로 확인하자.
* group이 되어있는 DataFrame을 unstack의 `레벨`을 조정하여 보여줄 수 있다.위의 grouped에서 `도시` = level1, `'연도'`=level 2, '월'

In [131]:
grouped.stack()

지역명    연도    월       
Seoul  2015  10  분양가     28975.0
                 test        5.0
             11  분양가     31977.0
                 test        5.0
             12  분양가     31392.0
                          ...   
충북     2020  1   test        5.0
             2   분양가     12365.0
                 test        5.0
             3   분양가     12600.0
                 test        5.0
Length: 1836, dtype: float64

#### **stack & unstack을 활용한 column별 데이터 그룹핑**

In [132]:
# level0: 열을 지역명별로 출력
grouped.unstack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,...,test,test,test,test,test,test,test,test,test,test
Unnamed: 0_level_1,지역명,Seoul,강원,경기,경남,경북,광주,대구,대전,부산,세종,...,대전,부산,세종,울산,인천,전남,전북,제주,충남,충북
연도,월,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
2015,10,28975.0,10897.0,16679.0,12739.0,11027.0,7112.0,13147.0,9928.0,15518.0,13207.0,...,5,5,5,5,5,5,5,5,5,5
2015,11,31977.0,10888.0,16494.0,12843.0,11472.0,7119.0,13358.0,9928.0,15846.0,13279.0,...,5,5,5,5,5,5,5,5,5,5
2015,12,31392.0,10888.0,17104.0,12869.0,11429.0,7360.0,14490.0,9928.0,15806.0,13355.0,...,5,5,5,5,5,5,5,5,5,5
2016,1,31635.0,10894.0,17104.0,12698.0,11406.0,7546.0,14805.0,9928.0,15929.0,13355.0,...,5,5,5,5,5,5,5,5,5,5
2016,2,31559.0,9013.0,16831.0,12692.0,11420.0,7546.0,14759.0,9928.0,15982.0,13355.0,...,5,5,5,5,5,5,5,5,5,5
2016,3,32400.0,9014.0,16958.0,12839.0,11532.0,7661.0,14896.0,9928.0,15915.0,13374.0,...,5,5,5,5,5,5,5,5,5,5
2016,4,33504.0,8816.0,16848.0,13029.0,11526.0,14268.0,14923.0,7403.0,15886.0,13403.0,...,5,5,5,5,5,5,5,5,5,5
2016,5,33185.0,8669.0,17932.0,13203.0,11534.0,14284.0,14965.0,7474.0,15828.0,13403.0,...,5,5,5,5,5,5,5,5,5,5
2016,6,33085.0,8678.0,18269.0,13026.0,11828.0,14319.0,15266.0,7757.0,16167.0,13372.0,...,5,5,5,5,5,5,5,5,5,5
2016,7,33369.0,8648.0,18315.0,12969.0,11828.0,14329.0,15295.0,7757.0,16409.0,13368.0,...,5,5,5,5,5,5,5,5,5,5


In [133]:
# level1: 열을 연도별로 출력
grouped.unstack(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가,분양가,분양가,분양가,분양가,분양가,test,test,test,test,test,test
Unnamed: 0_level_1,연도,2015,2016,2017,2018,2019,2020,2015,2016,2017,2018,2019,2020
지역명,월,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
Seoul,1,,31635.0,33413.0,33772.0,37734.0,46093.0,,5.0,5.0,5.0,5.0,5.0
Seoul,2,,31559.0,33202.0,34315.0,37592.0,47179.0,,5.0,5.0,5.0,5.0,5.0
Seoul,3,,32400.0,32526.0,35647.0,37761.0,47592.0,,5.0,5.0,5.0,5.0,5.0
Seoul,4,,33504.0,32519.0,35662.0,38475.0,,,5.0,5.0,5.0,5.0,
Seoul,5,,33185.0,32536.0,36217.0,38899.0,,,5.0,5.0,5.0,5.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
충북,8,,10881.0,11323.0,12506.0,11732.0,,,5.0,5.0,5.0,5.0,
충북,9,,10886.0,11332.0,12494.0,11958.0,,,5.0,5.0,5.0,5.0,
충북,10,10455.0,11276.0,11343.0,12494.0,12016.0,,5.0,5.0,5.0,5.0,5.0,
충북,11,10085.0,11283.0,11131.0,12425.0,12086.0,,5.0,5.0,5.0,5.0,5.0,


In [134]:
# level2: 열을 월별로 출력
grouped.unstack(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,분양가,...,test,test,test,test,test,test,test,test,test,test
Unnamed: 0_level_1,월,1,2,3,4,5,6,7,8,9,10,...,3,4,5,6,7,8,9,10,11,12
지역명,연도,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
Seoul,2015,,,,,,,,,,28975.0,...,,,,,,,,5.0,5.0,5.0
Seoul,2016,31635.0,31559.0,32400.0,33504.0,33185.0,33085.0,33369.0,33174.0,33246.0,34239.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
Seoul,2017,33413.0,33202.0,32526.0,32519.0,32536.0,33637.0,33285.0,31812.0,33788.0,33160.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
Seoul,2018,33772.0,34315.0,35647.0,35662.0,36217.0,35161.0,35595.0,33783.0,32407.0,36028.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
Seoul,2019,37734.0,37592.0,37761.0,38475.0,38899.0,46127.0,45962.0,46472.0,46562.0,46526.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
충북,2016,10518.0,10518.0,10463.0,10430.0,10476.0,10681.0,10788.0,10881.0,10886.0,11276.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
충북,2017,11588.0,11367.0,11327.0,11136.0,11387.0,11309.0,11309.0,11323.0,11332.0,11343.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
충북,2018,11131.0,11435.0,12212.0,12961.0,13028.0,12552.0,12506.0,12506.0,12494.0,12494.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0
충북,2019,12425.0,12158.0,12235.0,12258.0,12018.0,12084.0,11863.0,11732.0,11958.0,12016.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0


### Pivot_table
* **pivot Table이란**
다시 말해,피벗 테이블이란 데이터 중에서 자신이 원하는 데이터만을 가지고 원하는 행과 열에 데이터를 배치하여 새로운 보고서를 만드는 기능

In [137]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True


In [138]:
pd.pivot_table(df, values = '분양가', index = ['연도', '지역명'], columns = '월')

Unnamed: 0_level_0,월,1,2,3,4,5,6,7,8,9,10,11,12
연도,지역명,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2015,Seoul,,,,,,,,,,5795.0,6395.4,6278.4
2015,강원,,,,,,,,,,2179.4,2177.6,2177.6
2015,경기,,,,,,,,,,3335.8,3298.8,3420.8
2015,경남,,,,,,,,,,2547.8,2568.6,2573.8
2015,경북,,,,,,,,,,2205.4,2294.4,2285.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2020,전남,2638.25,2648.75,2906.20,,,,,,,,,
2020,전북,2576.60,2576.60,2576.60,,,,,,,,,
2020,제주,3889.25,3889.25,3889.25,,,,,,,,,
2020,충남,2744.80,2730.20,2733.00,,,,,,,,,


In [139]:
df.loc[(df.지역명=='강원') & (df.연도==2015)].groupby(['연도', '지역명'])['분양가'].mean()

연도    지역명
2015  강원     2178.2
Name: 분양가, dtype: float64

* 월별로 보이는 가격은 분양가의 평균임을 알수있음.

### 범주형(Categoricals)

In [140]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,Seoul,전체,2015,10,5841.0,True
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True
5,인천,전체,2015,10,3163.0,True
6,인천,전용면적 60㎡이하,2015,10,3488.0,True
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True
9,인천,전용면적 102㎡초과,2015,10,3408.0,True


**분양가**에 대한 기술통계(Descritibe Statistics)를 본다면?

In [141]:
df['분양가'].describe()

count     4260.000000
mean      3270.160798
std       1300.362742
min       1868.000000
25%       2454.750000
50%       2890.000000
75%       3601.000000
max      13835.000000
Name: 분양가, dtype: float64

In [142]:
df['평가'] = 0

In [143]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
0,Seoul,전체,2015,10,5841.0,True,0
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,0
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,0
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,0
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,0
5,인천,전체,2015,10,3163.0,True,0
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,0
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True,0
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True,0
9,인천,전용면적 102㎡초과,2015,10,3408.0,True,0


가격대 별 평가

low: 25% = 2454 보다 싼 분양가

mid: 50% = 2454 ~ 3270

high: 75% = 3270 ~ 3601

very high: 75% ~ 100% = 3601 보다 비싼 분양가

### np.select를 활용하여 조건에 맞는 값을 대입하기 

In [172]:
conditions = [
    (df['분양가'] < 2454),
    (df['분양가'] >= 2454) & (df['분양가'] < 3270),
    (df['분양가'] >= 3270) & (df['분양가'] < 3601),
    (df['분양가'] >= 3601),
    (df['분양가'] == np.nan)
]
choices = ['저렴', '보통', '비쌈', '매우 비쌈', '-']

In [173]:
df['평가'] = np.select(conditions, choices, default = 0)

In [174]:
df.head(20)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
0,Seoul,전체,2015,10,5841.0,True,매우 비쌈
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,매우 비쌈
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,매우 비쌈
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,매우 비쌈
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,매우 비쌈
5,인천,전체,2015,10,3163.0,True,보통
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,비쌈
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True,보통
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True,비쌈
9,인천,전용면적 102㎡초과,2015,10,3408.0,True,비쌈


In [176]:
df.groupby(by = '평가').count()

Unnamed: 0_level_0,지역명,규모구분,연도,월,분양가,test
평가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,330,330,330,330,0,330
매우 비쌈,1074,1074,1074,1074,1074,1074
보통,1708,1708,1708,1708,1708,1708
비쌈,419,419,419,419,419,419
저렴,1059,1059,1059,1059,1059,1059


* 분양가 비싼 순으로 보기

In [177]:
df.sort_values(by= '분양가', ascending = False)[:10]

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
4508,Seoul,전용면적 85㎡초과 102㎡이하,2020,3,13835.0,True,매우 비쌈
4423,Seoul,전용면적 85㎡초과 102㎡이하,2020,2,13835.0,True,매우 비쌈
4253,Seoul,전용면적 85㎡초과 102㎡이하,2019,12,12728.0,True,매우 비쌈
3998,Seoul,전용면적 85㎡초과 102㎡이하,2019,9,12728.0,True,매우 비쌈
4083,Seoul,전용면적 85㎡초과 102㎡이하,2019,10,12728.0,True,매우 비쌈
4168,Seoul,전용면적 85㎡초과 102㎡이하,2019,11,12728.0,True,매우 비쌈
3828,Seoul,전용면적 85㎡초과 102㎡이하,2019,7,12728.0,True,매우 비쌈
3743,Seoul,전용면적 85㎡초과 102㎡이하,2019,6,12728.0,True,매우 비쌈
3913,Seoul,전용면적 85㎡초과 102㎡이하,2019,8,12728.0,True,매우 비쌈
4338,Seoul,전용면적 85㎡초과 102㎡이하,2020,1,12728.0,True,매우 비쌈


In [178]:
df.dtypes

지역명      object
규모구분     object
연도        int64
월         int64
분양가     float64
test       bool
평가       object
dtype: object

In [181]:
df['평가'] = df['평가'].astype('category')

In [183]:
df.dtypes

지역명       object
규모구분      object
연도         int64
월          int64
분양가      float64
test        bool
평가      category
dtype: object

In [185]:
df.head(10)

Unnamed: 0,지역명,규모구분,연도,월,분양가,test,평가
0,Seoul,전체,2015,10,5841.0,True,매우 비쌈
1,Seoul,전용면적 60㎡이하,2015,10,5652.0,True,매우 비쌈
2,Seoul,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True,매우 비쌈
3,Seoul,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True,매우 비쌈
4,Seoul,전용면적 102㎡초과,2015,10,5879.0,True,매우 비쌈
5,인천,전체,2015,10,3163.0,True,보통
6,인천,전용면적 60㎡이하,2015,10,3488.0,True,비쌈
7,인천,전용면적 60㎡초과 85㎡이하,2015,10,3119.0,True,보통
8,인천,전용면적 85㎡초과 102㎡이하,2015,10,3545.0,True,비쌈
9,인천,전용면적 102㎡초과,2015,10,3408.0,True,비쌈


In [187]:
df['평가'].head()

0    매우 비쌈
1    매우 비쌈
2    매우 비쌈
3    매우 비쌈
4    매우 비쌈
Name: 평가, dtype: category
Categories (5, object): ['0', '매우 비쌈', '보통', '비쌈', '저렴']

* 범주형 값 추가 

In [190]:
df['평가'].cat.categories=['해당없음', '개비쌈', '평균', '쫌비쌈', '쌈']

In [191]:
df['평가'].value_counts()

평균      1708
개비쌈     1074
쌈       1059
쫌비쌈      419
해당없음     330
Name: 평가, dtype: int64