## Pandas 활용

#### 참고 링크
1. 10 minutes to pandas : https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
2. 블로그 : https://velog.io/@suminwooo/%ED%8C%8C%EC%9D%B4%EC%8D%AC-Pandas-%ED%99%9C%EC%9A%A9

![데이터 확인하기](./image/pandas0.png)

- 판다스(Pandas)는 Python에서 DB처럼 테이블 형식의 데이터를 쉽게 처리할 수 있는 라이브러리
- 데이터가 테이블 형식(DB Table, csv 등)으로 이루어진 경우가 많아 데이터 분석 시 자주 사용하게 될 Python 패키지

## 0. Pandas 사용 방법
- pandas 를 사용하기 위해서 다음과 같이 모듈을 import
- 임포트를 할 때에는 pandas 라고 그대로 사용할 수 있지만, pd 라는 축약된 이름을 관례적으로 많이 사용

In [None]:
import pandas as pd # 설치시 pip install pandas
import numpy as np

## 1. 데이터 오브젝트 생성
- 데이터 오브젝트는 ‘데이터를 담고 있는 그릇’이라고 생각하면 됩니다.
- pandas에서는 2가지 오브젝트 Series 와 DataFrame가 있습니다.
- Series : 1차원 데이터와 각 데이터의 위치정보를 담는 인덱스로 구성
- DataFrame : 2차원 데이터와 인덱스, 컬럼으로 구성(하나의 컬럼만 선택한다면 Series)

![데이터 확인하기](./image/pandas5.png)

In [None]:
# Series 생성
s = pd.Series([1, 3, 5, np.nan, 6, 8])

In [None]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

- 위와 같이 Series() 안에 list로 1차원 데이터만 입력
- index는 입력하지 않아도 자동으로 0부터 입력

In [None]:
# DataFrame 생성
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])

In [None]:
df

Unnamed: 0,A,B,C,D
2013-01-01,1.099095,-0.094869,1.481246,-1.066322
2013-01-02,0.571494,0.305272,-1.094685,-1.368104
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596
2013-01-04,1.163584,0.117691,-0.83435,2.304782
2013-01-05,-2.200023,0.625555,1.639767,-0.489486
2013-01-06,0.270268,1.500229,-1.146912,1.255544


- pandas의 경우 리스트 이외에 딕셔너리 형식으로도 DataFrame을 만들 수 있음
- 이 때에는 dict 의 key 값이 열을 정의하는 컬럼이 되며, 행을 정의하는 인덱스는 자동으로 0부터 시작하여 1씩 증가하는 정수 인덱스가 사용

In [None]:
df_dict = pd.DataFrame(
    {'A': 1.,
    'B': pd.Timestamp('20130101'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3]*4, dtype='int32'),
    'E': pd.Categorical(['test', 'train', 'test', 'train']),
    'F': 'str'}
)

In [None]:
df_dict

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-01,1.0,3,test,str
1,1.0,2013-01-01,1.0,3,train,str
2,1.0,2013-01-01,1.0,3,test,str
3,1.0,2013-01-01,1.0,3,train,str


## 2. 데이터 확인하기
- DataFrame은 head(), tail()의 함수로 처음과 끝의 일부 데이터를 볼 수 있음
- 데이터가 큰 경우에 데이터가 어떤식으로 구성되어 있는지 확인할 때 자주 사용

In [None]:
df.head()

Unnamed: 0,A,B,C,D,E
0,one,A,foo,2.157132,0.852527
1,one,B,foo,-0.87169,0.47018
2,two,C,foo,-0.082836,-0.817455
3,three,A,bar,-0.083657,-0.206291
4,one,B,bar,0.212586,-0.914473


In [None]:
df.tail()

Unnamed: 0,A,B,C,D,E
7,three,B,foo,0.719291,0.706169
8,one,C,foo,-0.368945,0.550116
9,one,A,bar,-0.573056,-0.999382
10,two,B,bar,-1.318277,-2.036184
11,three,C,bar,-0.465185,-0.364541


#### jupyter Notebook 사용 팁
- head()와 같은 함수를 사용할 경우 jupyter notebook에서 함수의 기본값을 확인 가능
- shift+tab을 누를 경우 아래의 내용을 확인 할 수 있습니다. 이미지처럼 n: 'int' = 5 로 설정이 되어 있기 때문에 디폴트 값이 5
- 3개만 넣고 싶다면 3을 입력

![데이터 확인하기](./image/pandas1.png)

- DataFrame에서 인덱스를 확인하고 싶을 경우에는 .index, 컬럼은 .columns, 내부 데이터는 .values 속성을 통해 확인 가능

In [None]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [None]:
df.values

array([[ 1.09909464, -0.09486934,  1.48124571, -1.06632238],
       [ 0.57149428,  0.30527217, -1.09468482, -1.36810431],
       [-1.27663917,  0.40939623, -1.25841262, -0.54596008],
       [ 1.16358394,  0.11769126, -0.83435031,  2.30478223],
       [-2.20002349,  0.6255545 ,  1.63976666, -0.4894857 ],
       [ 0.27026839,  1.50022898, -1.14691229,  1.25554413]])

- DataFrame의 describe()를 통해 각 컬럼의 통계적인 수치를 확인 가능
  - count: 데이터 개수
  - mean: 평균값
  - std: 표준편차
  - min: 최소값
  - 25%: 1사분위값
  - 50%: 중앙값
  - 75%: 3사분위값
  - max: 최대값

In [None]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.062037,0.477212,-0.202225,0.015076
std,1.371744,0.558438,1.373393,1.444539
min,-2.200023,-0.094869,-1.258413,-1.368104
25%,-0.889912,0.164586,-1.133855,-0.936232
50%,0.420881,0.357334,-0.964518,-0.517723
75%,0.967195,0.571515,0.902347,0.819287
max,1.163584,1.500229,1.639767,2.304782


+ 분위수란?
  - 1사분위값 : 누적 확률이 0.25가 되는 곳
  - 2사분위값 : 누적 확률이 0.5가 되는 곳
  - 3사분위값 : 누적 확률이 0.75가 되는 곳

![데이터 확인하기](./image/pandas2.png)

- .T 속성은 DataFrame 에서 index 와 column 을 바꾼 형태의 DataFrame


In [None]:
df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,1.099095,0.571494,-1.276639,1.163584,-2.200023,0.270268
B,-0.094869,0.305272,0.409396,0.117691,0.625555,1.500229
C,1.481246,-1.094685,-1.258413,-0.83435,1.639767,-1.146912
D,-1.066322,-1.368104,-0.54596,2.304782,-0.489486,1.255544


- .sort_index(), .sort_valus() 라는 메소드를 활용해 행과 열 이름을 정렬하여 나타낼 수도 있음
  - ascending: 정렬 방식 (false : 내림차순, true: 오름차순)

In [None]:
df.sort_index(ascending=False)

Unnamed: 0,A,B,C,D,E
11,three,C,bar,-0.465185,-0.364541
10,two,B,bar,-1.318277,-2.036184
9,one,A,bar,-0.573056,-0.999382
8,one,C,foo,-0.368945,0.550116
7,three,B,foo,0.719291,0.706169
6,two,A,foo,1.114011,-2.512304
5,one,C,bar,0.725526,-0.499169
4,one,B,bar,0.212586,-0.914473
3,three,A,bar,-0.083657,-0.206291
2,two,C,foo,-0.082836,-0.817455


In [None]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-01,1.099095,-0.094869,1.481246,-1.066322
2013-01-04,1.163584,0.117691,-0.83435,2.304782
2013-01-02,0.571494,0.305272,-1.094685,-1.368104
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596
2013-01-05,-2.200023,0.625555,1.639767,-0.489486
2013-01-06,0.270268,1.500229,-1.146912,1.255544


## 3. 데이터 선택하기
- 데이터프레임 자체가 갖고 있는 인덱싱&슬라이싱 기능을 이용할 수 있음

- 특정 컬럼의 값들만 가져오고 싶다면 df['A'](df.A와 동일)와 같은 형태로 입력
  - 리턴되는 값은 Series의 자료구조를 갖고 있습니다.

- 단, 컬럼의 이름이 간혹 df.A로 쓰면 에러가 나는 경우가 발생하기 때문에 df['A']를 추천

In [None]:
df['A']

2013-01-01    1.099095
2013-01-02    0.571494
2013-01-03   -1.276639
2013-01-04    1.163584
2013-01-05   -2.200023
2013-01-06    0.270268
Freq: D, Name: A, dtype: float64

In [None]:
type(df['A'])

pandas.core.series.Series

- 특정 ‘행 범위’를 가져오고 싶다면 다음과 같이 리스트를 슬라이싱 할 때와 같이 동일하게 사용 가능
- df[0:3] 라고 하면 0, 1, 2번째 행을 가져옴
- 또 다른 방법으로 df['20130102':'20130104'] 인덱스명을 직접 넣어서 해당하는 행 범위를 가져올 수도 있음
- 파이썬에서 슬라이싱을 할 경우 경우에 따라 마지막 값이 포함되거나 포함되지 않을 수 있습니다. 다양한 경우를 외우기 보단 다양한 테스트를 통해 확인하는 방법을 추천

In [None]:
## 맨 처음 3개의 행
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,1.099095,-0.094869,1.481246,-1.066322
2013-01-02,0.571494,0.305272,-1.094685,-1.368104
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596


In [None]:
## 인덱스명에 해당하는 값
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,0.571494,0.305272,-1.094685,-1.368104
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596
2013-01-04,1.163584,0.117691,-0.83435,2.304782


### 이름을 이용하여 선택하기: .loc
- 이름(Label)로 가져오는 것은 DataFrame의 .loc 속성을 이용
- .loc은 2차원으로 구성되어 있습니다. .loc[인덱스명, 컬럼명] 형식으로 접근가능
- .loc[인덱스명]으로 입력하면 모든 행의 값으로 결과가 나옴
- 여기에서는 .loc[인덱스명, :] 과 동일한 의미이며, :의 경우 모든 값을 의미
- .loc[선택 인덱스 리스트, 선택 컬럼 리스트]와 같은 리스트 형식으로 멀티인덱싱이 가능

In [None]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,1.099095,-0.094869
2013-01-02,0.571494,0.305272
2013-01-03,-1.276639,0.409396
2013-01-04,1.163584,0.117691
2013-01-05,-2.200023,0.625555
2013-01-06,0.270268,1.500229


In [None]:
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,0.571494,0.305272
2013-01-03,-1.276639,0.409396
2013-01-04,1.163584,0.117691


In [None]:
df.loc['20130102',['A','B']]

A    0.571494
B    0.305272
Name: 2013-01-02 00:00:00, dtype: float64

In [None]:
df.loc[dates[0],'A']

1.0990946405272288

### 인덱스로 데이터 가져오기: .iloc
- 여기서 말하는 인덱스는 위치(숫자) 정보
- .iloc도 .loc와 마찬가지로 2차원 형태로 구성되어 있어 1번째 인덱스는 행의 번호를, 2번째 인덱스는 컬럼의 번호를 의미
- 마찬가지로 멀티인덱싱도 가능합니다.

In [None]:
df.iloc[3]

A    1.163584
B    0.117691
C   -0.834350
D    2.304782
Name: 2013-01-04 00:00:00, dtype: float64

In [None]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,1.163584,0.117691
2013-01-05,-2.200023,0.625555


In [None]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.571494,-1.094685
2013-01-03,-1.276639,-1.258413
2013-01-05,-2.200023,1.639767


In [None]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,0.571494,0.305272,-1.094685,-1.368104
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596


### 조건으로 가져오기
- 하나의 컬럼의 다양한 조건에 따라 행들을 선택 가능

In [None]:
df[df['A'] > 0]

Unnamed: 0,A,B,C,D
2013-01-01,1.099095,-0.094869,1.481246,-1.066322
2013-01-02,0.571494,0.305272,-1.094685,-1.368104
2013-01-04,1.163584,0.117691,-0.83435,2.304782
2013-01-06,0.270268,1.500229,-1.146912,1.255544


- DataFrame의 값 조건에 해당하는 것만 선택 가능


In [None]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,1.099095,,1.481246,
2013-01-02,0.571494,0.305272,,
2013-01-03,,0.409396,,
2013-01-04,1.163584,0.117691,,2.304782
2013-01-05,,0.625555,1.639767,
2013-01-06,0.270268,1.500229,,1.255544


### isin 함수
- 열이 list의 값들을 포함하고 있는 모든 행들을 골라낼 때 주로 사용

In [None]:
df_isin = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'f']})
df_isin.isin([1, 3, 12, 'a'])

Unnamed: 0,A,B
0,True,True
1,False,False
2,True,False


In [None]:
# 테이블 복사
df2 = df.copy()

# 새로운 컬럼 E에 값 추가
df2['E'] = ['one','one', 'two','three','four','three']

In [None]:
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596,two
2013-01-05,-2.200023,0.625555,1.639767,-0.489486,four


### 데이터 변경하기
- 데이터 프레임의 값들을 다른 값으로 변경 가능
- 기존 데이터 프레임에 새로운 열을 추가하고 싶을 때는 다음과 같이 같은 인덱스를 가진 시리즈나 리스트를 입력

In [None]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102',periods=6))

In [None]:
df['F'] = s1

In [None]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,1.099095,-0.094869,1.481246,-1.066322,
2013-01-02,0.571494,0.305272,-1.094685,-1.368104,1.0
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596,2.0
2013-01-04,1.163584,0.117691,-0.83435,2.304782,3.0
2013-01-05,-2.200023,0.625555,1.639767,-0.489486,4.0
2013-01-06,0.270268,1.500229,-1.146912,1.255544,5.0


In [None]:
# 0번째 인덱스, 'A' 컬럼을 0으로 변경
df.loc[dates[0],'A'] = 0

In [None]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,-0.094869,1.481246,-1.066322,
2013-01-02,0.571494,0.305272,-1.094685,-1.368104,1.0
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596,2.0
2013-01-04,1.163584,0.117691,-0.83435,2.304782,3.0
2013-01-05,-2.200023,0.625555,1.639767,-0.489486,4.0
2013-01-06,0.270268,1.500229,-1.146912,1.255544,5.0


In [None]:
# 0번째 인덱스, 1번째 컬럼을 0으로 변경
df.iloc[0,1] = 0

In [None]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,1.481246,-1.066322,
2013-01-02,0.571494,0.305272,-1.094685,-1.368104,1.0
2013-01-03,-1.276639,0.409396,-1.258413,-0.54596,2.0
2013-01-04,1.163584,0.117691,-0.83435,2.304782,3.0
2013-01-05,-2.200023,0.625555,1.639767,-0.489486,4.0
2013-01-06,0.270268,1.500229,-1.146912,1.255544,5.0


In [None]:
# 전체 인덱스, 'D' 컬럼 데이터를 변경
df.loc[:,'D'] = 5

In [None]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,1.481246,5.0,
2013-01-02,0.571494,0.305272,-1.094685,5.0,1.0
2013-01-03,-1.276639,0.409396,-1.258413,5.0,2.0
2013-01-04,1.163584,0.117691,-0.83435,5.0,3.0
2013-01-05,-2.200023,0.625555,1.639767,5.0,4.0
2013-01-06,0.270268,1.500229,-1.146912,5.0,5.0


## 4. 결측 데이터
- 여러가지 이유로 우리는 데이터를 전부 다 측정하지 못하는 경우가 종종 발생
- 이처럼 측정되지 못하여 비어있는 데이터를 ‘결측치’ - pandas 에서는 결측치를 np.nan 으로 나타냄
- pandas 에서는 결측치를 기본적으로 연산에서 제외
- 또한 머신러닝, 딥러닝의 경우 결측치가 존재한다면, 코드가 오류나는 경우도 존재하기 때문에 항상 데이터 분석을 하기 전에는 데이터 결측치를 확인하는 습관을 가지는 것이 중요
- reindex()을 통해 컬럼이나 인덱스를 추가, 삭제, 변경 등의 작업이 가능합니다. 결측 데이터를 만들기 위해 ‘E’ 컬럼을 생성

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1

In [None]:
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,1.481246,5.0,,1.0
2013-01-02,0.571494,0.305272,-1.094685,5.0,1.0,1.0
2013-01-03,-1.276639,0.409396,-1.258413,5.0,2.0,
2013-01-04,1.163584,0.117691,-0.83435,5.0,3.0,


### drop() 함수

- DataFrame의 dropna()를 통해 결측데이터를 삭제(drop)할 수 있음
- how='any'는 값들 중 하나라도 NaN인 경우 삭제, how='all'은 전체가 NaN인 경우 삭제
- axis=0 일 경우 NaN값이 있는 행 기준으로 삭제, axis=1 일 경우 열 기준으로 삭제

![데이터 확인하기](./image/pandas3.png)

In [None]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,0.571494,0.305272,-1.094685,5.0,1.0,1.0


### 결측 데이터 채우기
- DataFrame의 fillna()를 통해 결측데이터에 값을 넣을 수도 있음
- 결측치가 있다면 머신러닝 알고리즘이 학습과 예측을 할 수 없음
- 결측치를 대체하는 방법으로는 여러가지가 있음
- 평균, 중앙, 최빈값 등으로 채우기도 하며 그룹화된 값으로 대표값을 찾아 대체해 주기도 함
- 결측치가 일부라면 제거하기도 함
- 혹은, 머신러닝을 통해 예측해서 대체하기도 함

In [None]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,1.481246,5.0,5.0,1.0
2013-01-02,0.571494,0.305272,-1.094685,5.0,1.0,1.0
2013-01-03,-1.276639,0.409396,-1.258413,5.0,2.0,5.0
2013-01-04,1.163584,0.117691,-0.83435,5.0,3.0,5.0


- 해당 값이 결측치인지 아닌지의 여부를 알고싶다면 isna() 메소드를 이용 가능
- 결측치이면 True, 값이 있다면 False 로 나타냄
- 결측치의 전체 합계를 알고 싶다면, .isna()뒤에 .sum() 함수를 활용할 수 있음

In [None]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


## 4. 연산
- 통계적 지표가 계산이 가능

- 평균 구하기

  - axis = 1 : 인덱스 기준
  - axis = 0 : 칼럼 기준(default)

In [None]:
df.mean()

A   -0.245219
B    0.493024
C   -0.202225
D    5.000000
F    3.000000
dtype: float64

In [None]:
df.mean(1)

2013-01-01    1.620311
2013-01-02    1.156416
2013-01-03    0.974869
2013-01-04    1.689385
2013-01-05    1.813060
2013-01-06    2.124717
Freq: D, dtype: float64

### 함수 적용
- 데이터에 대해 정의된 함수들이나 lamdba 식을 이용하여 새로운 함수도 적용 가능

In [None]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,1.481246,5.0,
2013-01-02,0.571494,0.305272,0.386561,10.0,1.0
2013-01-03,-0.705145,0.714668,-0.871852,15.0,3.0
2013-01-04,0.458439,0.83236,-1.706202,20.0,6.0
2013-01-05,-1.741584,1.457914,-0.066435,25.0,10.0
2013-01-06,-1.471316,2.958143,-1.213348,30.0,15.0


In [None]:
df.apply(lambda x: x.max() - x.min())

A    3.363607
B    1.500229
C    2.898179
D    0.000000
F    4.000000
dtype: float64

## 5. Merge
- 다양한 정보를 데이터가 있을 때 데이터들을 하나로 합쳐서 새로운 데이터로 만들어야 할 때가 존재
- 같은 형태의 자료들을 이어 하나로 만들어주는 concat, 다른 형태의 자료들을 한 컬럼을 기준으로 합치는 merge를 활용

### Concat
- concat 을 이용하여 pandas 오브젝트들을 일렬로 연결

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))

In [None]:
# 테스트용으로 데이터 분리
pieces = [df[:3], df[3:7], df[7:]]

In [None]:
# 다시 합치기
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,-0.64127,1.066903,-0.790754,2.106103
1,0.791265,-0.463243,0.14731,-0.136974
2,0.724323,-0.08578,0.360649,0.76905
3,-0.52515,-0.01635,-0.687577,1.17748
4,-0.889963,-0.002362,-0.098155,0.872612
5,-0.863826,-1.984582,0.141677,-0.727393
6,-0.011696,-1.010151,-2.037056,0.925436
7,0.104354,-1.126727,0.383731,-1.559588
8,0.159845,-0.320789,-2.030943,1.054695
9,-0.636,2.52612,0.548968,0.39713


### Merge
- 데이터베이스에서 사용하는 SQL 스타일의 합치기 기능
- merge 메소드를 통해 이루어짐

![데이터 확인하기](./image/pandas6.png)

In [None]:
# 1
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
merged = pd.merge(left, right, on='key')

In [None]:
merged

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


In [None]:
# 2
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
merged = pd.merge(left, right, on='key')

In [None]:
merged

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


## 6. Grouping
- SQL과 유사한 group by에 관련된 내용은 아래와 같은 과정

  - Spltting : 어떠한 기준을 바탕으로 데이터를 나누는 일
  - applying : 각 그룹에 어떤 함수를 독립적으로 적용시키는 일
  - Combining : 적용되어 나온 결과들을 통합하는 일

In [None]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                         'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                         'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})

In [None]:
df

Unnamed: 0,A,B,C,D
0,foo,one,0.847585,-1.287305
1,bar,one,0.985581,1.361966
2,foo,two,0.633019,0.716438
3,bar,three,0.977679,-0.008935
4,foo,two,-0.534628,-0.418541
5,bar,two,-0.602861,-0.302518
6,foo,one,-1.47664,0.898412
7,foo,three,-0.832467,1.245166


In [None]:
df.groupby('A').sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,1.360399,1.050512
foo,onetwotwoonethree,-1.363131,1.15417


In [None]:
df.groupby(['A', 'B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.985581,1.361966
bar,three,0.977679,-0.008935
bar,two,-0.602861,-0.302518
foo,one,-0.629055,-0.388893
foo,three,-0.832467,1.245166
foo,two,0.098391,0.297896


- 아래의 예시처럼 같은 그룹의 합도 구할 수 있지만, .agg() 함수를 통해 여러가지 값을 확인 가능
- (ex. df.groupby('A').agg(['min', 'max']))

## 7. Reshaping

### 피봇 테이블이란?
- 피벗 테이블(pivot table)은 커다란 표(예: 데이터베이스, 스프레드시트, 비즈니스 인텔리전스 프로그램 등)의 데이터를 요약하는 통계
- 이 요약에는 합계, 평균, 기타 통계가 포함될 수 있으며 피벗 테이블이 이들을 함께 의미있는 방식으로 묶어줌

![데이터 확인하기](./image/pandas4.png)

In [None]:
# 피봇 테이블
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})

In [None]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,2.157132,0.852527
1,one,B,foo,-0.87169,0.47018
2,two,C,foo,-0.082836,-0.817455
3,three,A,bar,-0.083657,-0.206291
4,one,B,bar,0.212586,-0.914473
5,one,C,bar,0.725526,-0.499169
6,two,A,foo,1.114011,-2.512304
7,three,B,foo,0.719291,0.706169
8,one,C,foo,-0.368945,0.550116
9,one,A,bar,-0.573056,-0.999382


In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.573056,2.157132
one,B,0.212586,-0.87169
one,C,0.725526,-0.368945
three,A,-0.083657,
three,B,,0.719291
three,C,-0.465185,
two,A,,1.114011
two,B,-1.318277,
two,C,,-0.082836
