In [1]:
import warnings
warnings.filterwarnings('ignore')

# pandas 모듈 import

In [2]:
import pandas as pd
import numpy as np

## csv파일을 불러오기

In [3]:
df = pd.read_csv('./data/house_price.csv')

## 살펴보기

In [4]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가
0,서울,60㎡이하,2015,10,5652
1,서울,60㎡초과 85㎡이하,2015,10,5882
2,서울,85㎡초과 102㎡이하,2015,10,5721
3,서울,102㎡초과,2015,10,5879
4,인천,60㎡이하,2015,10,3488


In [5]:
df['test'] = True

In [6]:
df.tail()

Unnamed: 0,지역,규모,연도,월,분양가,test
3288,경남,60㎡초과 85㎡이하,2020,2,3065,True
3289,경남,85㎡초과 102㎡이하,2020,2,3247,True
3290,제주,60㎡이하,2020,2,4039,True
3291,제주,60㎡초과 85㎡이하,2020,2,3962,True
3292,제주,102㎡초과,2020,2,3601,True


## 열의 이름 바꾸기

In [7]:
df=df.rename(columns={'분양가격(㎡)':'분양가'})

In [8]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


## data type 보기

In [9]:
df.dtypes

지역      object
규모      object
연도       int64
월        int64
분양가      int64
test      bool
dtype: object

In [10]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


In [11]:
df['분양가'] = pd.to_numeric(df['분양가'])

In [12]:
df.dtypes

지역      object
규모      object
연도       int64
월        int64
분양가      int64
test      bool
dtype: object

In [13]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


## numpy array로 변환하기

In [14]:
arr = df.to_numpy()

In [15]:
arr

array([['서울', ' 60㎡이하', 2015, 10, 5652, True],
       ['서울', ' 60㎡초과 85㎡이하', 2015, 10, 5882, True],
       ['서울', ' 85㎡초과 102㎡이하', 2015, 10, 5721, True],
       ...,
       ['제주', ' 60㎡이하', 2020, 2, 4039, True],
       ['제주', ' 60㎡초과 85㎡이하', 2020, 2, 3962, True],
       ['제주', ' 102㎡초과', 2020, 2, 3601, True]], dtype=object)

In [16]:
len(arr)

3293

In [17]:
arr[0], arr[1]

(array(['서울', ' 60㎡이하', 2015, 10, 5652, True], dtype=object),
 array(['서울', ' 60㎡초과 85㎡이하', 2015, 10, 5882, True], dtype=object))

## 간단한 통계 보기

In [18]:
df.describe()

Unnamed: 0,연도,월,분양가
count,3293.0,3293.0,3293.0
mean,2017.406316,6.577285,3294.067112
std,1.309646,3.588813,1321.781979
min,2015.0,1.0,1868.0
25%,2016.0,3.0,2478.0
50%,2017.0,7.0,2887.0
75%,2019.0,10.0,3632.0
max,2020.0,12.0,13835.0


## Transposing 하기 (축 변환하기)

In [19]:
# 갯수를 지정하여 출력
df.head(3)

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True


In [20]:
df.T.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,3283,3284,3285,3286,3287,3288,3289,3290,3291,3292
지역,서울,서울,서울,서울,인천,인천,인천,인천,경기,경기,...,전남,경북,경북,경북,경남,경남,경남,제주,제주,제주
규모,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,102㎡초과,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,102㎡초과,60㎡이하,60㎡초과 85㎡이하,...,102㎡초과,60㎡이하,60㎡초과 85㎡이하,102㎡초과,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,60㎡이하,60㎡초과 85㎡이하,102㎡초과
연도,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,...,2020,2020,2020,2020,2020,2020,2020,2020,2020,2020
월,10,10,10,10,10,10,10,10,10,10,...,2,2,2,2,2,2,2,2,2,2
분양가,5652,5882,5721,5879,3488,3119,3545,3408,3126,3239,...,3053,2578,2549,2756,2780,3065,3247,4039,3962,3601


## 정렬

In [21]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


### 1. Index 정렬

In [22]:
# 내림차순 정렬
df.sort_index(axis=0, ascending=False)[:5]

Unnamed: 0,지역,규모,연도,월,분양가,test
3292,제주,102㎡초과,2020,2,3601,True
3291,제주,60㎡초과 85㎡이하,2020,2,3962,True
3290,제주,60㎡이하,2020,2,4039,True
3289,경남,85㎡초과 102㎡이하,2020,2,3247,True
3288,경남,60㎡초과 85㎡이하,2020,2,3065,True


In [23]:
# 오름차순 정렬
df.sort_index(axis=0, ascending=True)[:5]

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


### 2. Value 정렬

In [24]:
# 지역 별로 정렬
df.sort_values(by='지역')[:5]

Unnamed: 0,지역,규모,연도,월,분양가,test
1949,강원,60㎡초과 85㎡이하,2018,4,2273,True
2427,강원,60㎡이하,2018,12,2452,True
873,강원,60㎡이하,2016,11,2017,True
225,강원,60㎡이하,2016,1,2290,True
226,강원,60㎡초과 85㎡이하,2016,1,2199,True


In [25]:
# 연도 별로 정렬
df.sort_values(by='연도')[:5]

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
122,경남,60㎡초과 85㎡이하,2015,11,2322,True
123,경남,85㎡초과 102㎡이하,2015,11,2980,True
124,경남,102㎡초과,2015,11,3043,True
125,제주,60㎡초과 85㎡이하,2015,11,2225,True


## 선택 (Selection)

### 1. Column 이름으로 선택

In [26]:
df['지역'][:5]

0    서울
1    서울
2    서울
3    서울
4    인천
Name: 지역, dtype: object

In [27]:
df['연도'][:5]

0    2015
1    2015
2    2015
3    2015
4    2015
Name: 연도, dtype: int64

### 2. Index 선택

In [28]:
# index 0 부터 5 미만까지 선택
# index 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df[0:5]

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


In [29]:
# 끝에 5개 출력
df[-5:]

Unnamed: 0,지역,규모,연도,월,분양가,test
3288,경남,60㎡초과 85㎡이하,2020,2,3065,True
3289,경남,85㎡초과 102㎡이하,2020,2,3247,True
3290,제주,60㎡이하,2020,2,4039,True
3291,제주,60㎡초과 85㎡이하,2020,2,3962,True
3292,제주,102㎡초과,2020,2,3601,True


### 3. label로 선택

In [30]:
df.loc[:, ['지역', '연도']][:5]

Unnamed: 0,지역,연도
0,서울,2015
1,서울,2015
2,서울,2015
3,서울,2015
4,인천,2015


In [31]:
# (주의) 여기서는 :를 기준으로 우측에 있는 범위인 6을 포함하여 출력
df.loc[:6,['지역', '연도']]

Unnamed: 0,지역,연도
0,서울,2015
1,서울,2015
2,서울,2015
3,서울,2015
4,인천,2015
5,인천,2015
6,인천,2015


In [32]:
# 조건을 삽입 가능
df.loc[df.index > 5, ['지역', '연도']][:10]

Unnamed: 0,지역,연도
6,인천,2015
7,인천,2015
8,경기,2015
9,경기,2015
10,경기,2015
11,경기,2015
12,부산,2015
13,부산,2015
14,부산,2015
15,부산,2015


In [33]:
# 지역 column의 값이 '인천'인 행의 '지역', '연도' 출력
df.loc[df['지역']=='인천',['지역', '연도']][:10]

Unnamed: 0,지역,연도
4,인천,2015
5,인천,2015
6,인천,2015
7,인천,2015
68,인천,2015
69,인천,2015
70,인천,2015
71,인천,2015
132,인천,2015
133,인천,2015


### 4. iloc을 활용한 인덱스 지정 선택

In [34]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


In [35]:
df.iloc[2, 1]

' 85㎡초과 102㎡이하'

In [36]:
# df.iloc과 동작방식은 동일하지만, 범위 지정은 불가
df.iat[2, 1]

' 85㎡초과 102㎡이하'

In [37]:
df.iloc[2, :]

지역                 서울
규모       85㎡초과 102㎡이하
연도               2015
월                  10
분양가              5721
test             True
Name: 2, dtype: object

In [38]:
df.iloc[:5, 1]

0            60㎡이하
1      60㎡초과 85㎡이하
2     85㎡초과 102㎡이하
3           102㎡초과
4            60㎡이하
Name: 규모, dtype: object

In [39]:
# iloc으로 인덱스 지정시 : 기준으로 왼쪽은 포함, : 기준으로 오른쪽은 미만
df.iloc[:5, 1:3]

Unnamed: 0,규모,연도
0,60㎡이하,2015
1,60㎡초과 85㎡이하,2015
2,85㎡초과 102㎡이하,2015
3,102㎡초과,2015
4,60㎡이하,2015


### 5. 범위 조건 지정 선택

In [40]:
df[df.index > 3565]

Unnamed: 0,지역,규모,연도,월,분양가,test


### 5-a. df.연도  와  df['연도'] 의 column 지정방식은 동일하다

In [41]:
df[df.연도 == 2019][:5]

Unnamed: 0,지역,규모,연도,월,분양가,test
2459,서울,60㎡이하,2019,1,7400,True
2460,서울,60㎡초과 85㎡이하,2019,1,8105,True
2461,서울,85㎡초과 102㎡이하,2019,1,6842,True
2462,서울,102㎡초과,2019,1,7787,True
2463,인천,60㎡이하,2019,1,3461,True


In [42]:
df[df['연도'] == 2019][:5]

Unnamed: 0,지역,규모,연도,월,분양가,test
2459,서울,60㎡이하,2019,1,7400,True
2460,서울,60㎡초과 85㎡이하,2019,1,8105,True
2461,서울,85㎡초과 102㎡이하,2019,1,6842,True
2462,서울,102㎡초과,2019,1,7787,True
2463,인천,60㎡이하,2019,1,3461,True


## Copy로 복사

In [43]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


In [44]:
copy = df.copy()

In [45]:
copy.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,서울,60㎡이하,2015,10,5652,True
1,서울,60㎡초과 85㎡이하,2015,10,5882,True
2,서울,85㎡초과 102㎡이하,2015,10,5721,True
3,서울,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


## 값 지정

In [46]:
# 지역 == 서울 인 지역만 선택
df.loc[df['지역']=='서울','지역'][:10]

0      서울
1      서울
2      서울
3      서울
64     서울
65     서울
66     서울
67     서울
128    서울
129    서울
Name: 지역, dtype: object

In [47]:
# 지역 == 서울 인 지역을 Seoul로 변경(값을 set)
df.loc[df['지역']=='서울','지역'] = 'Seoul'

In [48]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,Seoul,60㎡이하,2015,10,5652,True
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True
3,Seoul,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


## reindex를 통한 지정 행과 새로운 열을 추가하여 새로운 dataframe으로 생성

In [49]:
df1 = df.reindex(index=df.index[:7], columns=list(df.columns) + ['extra'])

In [50]:
df1

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,
3,Seoul,102㎡초과,2015,10,5879,True,
4,인천,60㎡이하,2015,10,3488,True,
5,인천,60㎡초과 85㎡이하,2015,10,3119,True,
6,인천,85㎡초과 102㎡이하,2015,10,3545,True,


In [51]:
df1.loc[:4, 'extra'] = False

In [52]:
df1

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,False
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,False
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,False
3,Seoul,102㎡초과,2015,10,5879,True,False
4,인천,60㎡이하,2015,10,3488,True,False
5,인천,60㎡초과 85㎡이하,2015,10,3119,True,
6,인천,85㎡초과 102㎡이하,2015,10,3545,True,


## 빈 데이터 처리

In [53]:
df2 = df1.copy()

In [54]:
df2

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,False
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,False
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,False
3,Seoul,102㎡초과,2015,10,5879,True,False
4,인천,60㎡이하,2015,10,3488,True,False
5,인천,60㎡초과 85㎡이하,2015,10,3119,True,
6,인천,85㎡초과 102㎡이하,2015,10,3545,True,


### 1. NaN 값이 있는 행을 제거

In [55]:
df2.dropna(how='any')

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,False
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,False
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,False
3,Seoul,102㎡초과,2015,10,5879,True,False
4,인천,60㎡이하,2015,10,3488,True,False


#### 1-a 하지만 원본 데이터에는 반영이 안되어 있음

In [56]:
df2

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,False
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,False
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,False
3,Seoul,102㎡초과,2015,10,5879,True,False
4,인천,60㎡이하,2015,10,3488,True,False
5,인천,60㎡초과 85㎡이하,2015,10,3119,True,
6,인천,85㎡초과 102㎡이하,2015,10,3545,True,


#### 1-b 원본 데이터에 반영을 시키기 위해서는 inplace=True를 적용

In [57]:
df2.dropna(how='any', inplace=True)

In [58]:
# NaN 값이 있는 행이 제거됨
df2

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,False
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,False
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,False
3,Seoul,102㎡초과,2015,10,5879,True,False
4,인천,60㎡이하,2015,10,3488,True,False


### 2. NaN 값이 있는 행에 값을 채움

In [59]:
df2 = df1.copy()

In [60]:
df2

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,False
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,False
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,False
3,Seoul,102㎡초과,2015,10,5879,True,False
4,인천,60㎡이하,2015,10,3488,True,False
5,인천,60㎡초과 85㎡이하,2015,10,3119,True,
6,인천,85㎡초과 102㎡이하,2015,10,3545,True,


In [61]:
df2.fillna(value=True)

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,Seoul,60㎡이하,2015,10,5652,True,False
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True,False
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True,False
3,Seoul,102㎡초과,2015,10,5879,True,False
4,인천,60㎡이하,2015,10,3488,True,False
5,인천,60㎡초과 85㎡이하,2015,10,3119,True,True
6,인천,85㎡초과 102㎡이하,2015,10,3545,True,True


### 3. NaN 값이 있는 데이터를 Boolean 값으로 출력

In [62]:
pd.isna(df2)

Unnamed: 0,지역,규모,연도,월,분양가,test,extra
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True
6,False,False,False,False,False,False,True


## 연산 (Operation)

In [63]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,Seoul,60㎡이하,2015,10,5652,True
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True
3,Seoul,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


### Broadcasting을 이용한 subtract (빼기)

In [64]:
df1 = df[['연도', '월']]

In [65]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [66]:
df1.shape

(3293, 2)

In [67]:
s = np.ones(df.shape[0])

In [68]:
s.shape

(3293,)

In [69]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [70]:
s

array([1., 1., 1., ..., 1., 1., 1.])

In [71]:
df1.sub(s, axis=0).head()

Unnamed: 0,연도,월
0,2014.0,9.0
1,2014.0,9.0
2,2014.0,9.0
3,2014.0,9.0
4,2014.0,9.0


In [72]:
s = np.ones(df1.shape[1])

In [73]:
s

array([1., 1.])

In [74]:
df1.sub(s, axis=1).head()

Unnamed: 0,연도,월
0,2014.0,9.0
1,2014.0,9.0
2,2014.0,9.0
3,2014.0,9.0
4,2014.0,9.0


### Apply

np.cumsum : cumulative sum의 함수형으로 누적 합을 구하는 함수

In [75]:
df1.apply(np.cumsum)[:10]

Unnamed: 0,연도,월
0,2015,10
1,4030,20
2,6045,30
3,8060,40
4,10075,50
5,12090,60
6,14105,70
7,16120,80
8,18135,90
9,20150,100


#### 연도 column
x.max() 는 최대값인 2019년도의 2019
x.min() 은 최소값인 2015년도의 2015
2019 - 2015 = 4가 출력

#### 월 column
x.max() 는 최대값인 12
x.min() 은 최소값인 1
12 - 1 = 11이 출력

In [76]:
df1.apply(lambda x: x.max() - x.min())

연도     5
월     11
dtype: int64

In [77]:
df1.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


## 값들의 종류별 출력

In [78]:
df1['연도'].value_counts()

연도
2016    780
2017    771
2018    716
2019    716
2015    192
2020    118
Name: count, dtype: int64

## 데이터 합치기 (Data Merge)

In [79]:
df.head()

Unnamed: 0,지역,규모,연도,월,분양가,test
0,Seoul,60㎡이하,2015,10,5652,True
1,Seoul,60㎡초과 85㎡이하,2015,10,5882,True
2,Seoul,85㎡초과 102㎡이하,2015,10,5721,True
3,Seoul,102㎡초과,2015,10,5879,True
4,인천,60㎡이하,2015,10,3488,True


In [80]:
left = df[['연도', '월']]

In [81]:
left.head()

Unnamed: 0,연도,월
0,2015,10
1,2015,10
2,2015,10
3,2015,10
4,2015,10


In [82]:
right = df[['지역']]

In [83]:
right.head()

Unnamed: 0,지역
0,Seoul
1,Seoul
2,Seoul
3,Seoul
4,인천


### 1. Concat

In [84]:
part_1 = pd.DataFrame(np.random.randn(3, 4))
part_2 = pd.DataFrame(np.random.randn(4, 4))
part_3 = pd.DataFrame(np.random.randn(5, 4))

In [85]:
part_1

Unnamed: 0,0,1,2,3
0,0.518453,-1.396693,-0.783267,-1.472065
1,1.009083,-1.111263,1.324735,-0.013212
2,-0.647019,0.216117,1.289872,-1.112402


In [86]:
part_2

Unnamed: 0,0,1,2,3
0,-0.380195,-0.261937,-1.874351,-0.258041
1,0.409159,-0.667919,0.251335,0.586928
2,-0.491163,-0.775817,-0.235923,-1.468195
3,-0.06697,-1.156277,0.641829,-0.370593


In [87]:
part_3

Unnamed: 0,0,1,2,3
0,-0.49071,-0.229016,-1.273951,0.371706
1,1.356474,-0.793306,0.370745,-1.773923
2,-0.100545,0.991548,-0.600364,0.47281
3,0.210257,-0.201403,0.829647,0.350189
4,2.439529,-0.105968,1.41145,-0.719694


In [88]:
part = [part_1, part_2, part_3]

In [89]:
part

[          0         1         2         3
 0  0.518453 -1.396693 -0.783267 -1.472065
 1  1.009083 -1.111263  1.324735 -0.013212
 2 -0.647019  0.216117  1.289872 -1.112402,
           0         1         2         3
 0 -0.380195 -0.261937 -1.874351 -0.258041
 1  0.409159 -0.667919  0.251335  0.586928
 2 -0.491163 -0.775817 -0.235923 -1.468195
 3 -0.066970 -1.156277  0.641829 -0.370593,
           0         1         2         3
 0 -0.490710 -0.229016 -1.273951  0.371706
 1  1.356474 -0.793306  0.370745 -1.773923
 2 -0.100545  0.991548 -0.600364  0.472810
 3  0.210257 -0.201403  0.829647  0.350189
 4  2.439529 -0.105968  1.411450 -0.719694]

In [90]:
pd.concat(part)

Unnamed: 0,0,1,2,3
0,0.518453,-1.396693,-0.783267,-1.472065
1,1.009083,-1.111263,1.324735,-0.013212
2,-0.647019,0.216117,1.289872,-1.112402
0,-0.380195,-0.261937,-1.874351,-0.258041
1,0.409159,-0.667919,0.251335,0.586928
2,-0.491163,-0.775817,-0.235923,-1.468195
3,-0.06697,-1.156277,0.641829,-0.370593
0,-0.49071,-0.229016,-1.273951,0.371706
1,1.356474,-0.793306,0.370745,-1.773923
2,-0.100545,0.991548,-0.600364,0.47281


### 2. Join

Join을 Column(열)을 기준으로 합칠 경우에 on='합치고자하는 열의 이름'를 자주 사용하게 되는데, 값이 고유하지 않다면, 매우 혼란스러울 수 있다

#### 예시1: key가 고유한 경우

In [91]:
left = pd.DataFrame({'연도': ['2015', '2016', '2017', '2018', '2019'], '월': ['1', '2', '3', '4', '5']})
left

Unnamed: 0,연도,월
0,2015,1
1,2016,2
2,2017,3
3,2018,4
4,2019,5


In [92]:
right = pd.DataFrame({'이름': ['홍길동', '김영희', '이철수', '방탄소년단', 'QUEEN'], '월': ['1', '2', '3', '4', '5']})
right

Unnamed: 0,이름,월
0,홍길동,1
1,김영희,2
2,이철수,3
3,방탄소년단,4
4,QUEEN,5


In [93]:
left.shape, right.shape

((5, 2), (5, 2))

#### 매우 깔끔하게 합쳐진 것을 볼 수 있다

In [94]:
pd.merge(left, right, on='월')

Unnamed: 0,연도,월,이름
0,2015,1,홍길동
1,2016,2,김영희
2,2017,3,이철수
3,2018,4,방탄소년단
4,2019,5,QUEEN


#### 예시2: 중복되는 key가 있을 때 합치려는 경우 (1월을 중복으로 넣어놨음)

In [95]:
left = pd.DataFrame({'연도': ['2015', '2016', '2017', '2018', '2019'], '월': ['1', '1', '3', '4', '5']})
left

Unnamed: 0,연도,월
0,2015,1
1,2016,1
2,2017,3
3,2018,4
4,2019,5


In [96]:
right = pd.DataFrame({'이름': ['홍길동', '김영희', '이철수', '방탄소년단', 'QUEEN'], '월': ['1', '1', '3', '4', '5']})
right

Unnamed: 0,이름,월
0,홍길동,1
1,김영희,1
2,이철수,3
3,방탄소년단,4
4,QUEEN,5


#### 행이 2개가 더 추가로 합쳐진 모습이다.

In [97]:
pd.merge(left, right, on='월')

Unnamed: 0,연도,월,이름
0,2015,1,홍길동
1,2015,1,김영희
2,2016,1,홍길동
3,2016,1,김영희
4,2017,3,이철수
5,2018,4,방탄소년단
6,2019,5,QUEEN


### 3. Append

In [98]:
test = np.arange(0, 50)
test

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])

In [99]:
# 1d -> 2d로 변환
test = test.reshape(10, 5)

In [100]:
test

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49]])

In [101]:
test_1 = test[:3]

In [102]:
test_1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [103]:
test_2 = test[3:7]

In [104]:
test_2

array([[15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34]])

In [105]:
test_3 = test[7:10]

In [106]:
test_3

array([[35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49]])

In [107]:
df1 = pd.DataFrame(test_1)
df1

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14


In [108]:
df2 = pd.DataFrame(test_2)
df2

Unnamed: 0,0,1,2,3,4
0,15,16,17,18,19
1,20,21,22,23,24
2,25,26,27,28,29
3,30,31,32,33,34


In [109]:
df3 = pd.DataFrame(test_3)
df3

Unnamed: 0,0,1,2,3,4
0,35,36,37,38,39
1,40,41,42,43,44
2,45,46,47,48,49


In [112]:
pd.concat([df1, df2])

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
0,15,16,17,18,19
1,20,21,22,23,24
2,25,26,27,28,29
3,30,31,32,33,34


## 그룹화 (Grouping)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.groupby(['지역', '연도', '월'])['분양가'].agg('sum')

#### 분양가 column이 현재 int 타입이 아닌 object 타입으로 되어 있기 때문에 연산이 잘 이뤄지지 않음. 따라서 int 타입으로 변경

In [None]:
df.info()

In [None]:
df.info()

In [None]:
grouped = df.groupby(['지역', '연도', '월']).sum()
grouped

In [None]:
grouped.head()

In [None]:
grouped.stack()

**group이 되어 있는 DataFrame을 unstack의 '레벨'을 조정하여 보여줄 수 있다.**
위의 grouped에서 '도시' = level 1, '연도' = level 2, '월'

In [None]:
df.head(10)

### stack & unstack을 활용한 column별 데이터 그룹핑

In [None]:
# level0: 열을 도시별로 출력
grouped.unstack(0)

In [None]:
# level1: 열을 연도별로 출력
grouped.unstack(1)

In [None]:
# level2: 열을 연도별로 출력
grouped.unstack(2)

## Pivot Table

#### Pivot Table이란?
다시 말해 피벗 테이블이란 여러 데이터 중에서 자신이 원하는 데이터만을 가지고 원하는 행과 열에 데이터를 배치하여 새로운 보고서를 만드는 기능이다.

In [None]:
df.head(10)

In [None]:
pd.pivot_table(df, values='분양가', index=['연도','지역'], columns=['월'])

## Categoricals

In [None]:
df.head(10)

In [None]:
df['분양가'].describe()

In [None]:
df['평가'] = 0

In [None]:
df.head(10)

**가격대 별 평가**

low: 25% = 2387 보다 싼 분양가 

mid: 50% = 2387 ~ 3130 

high: 75% = 3130 ~ 3383

very high: 75% ~ 100% = 3383 보다 비싼 분양가 