## Pandas로 데이터 가공하기

NumPy를 활용하여 복잡한 데이터 배열(n 차원)을 저장하고 가공할 수 있었다. Pandas는 NumPy를 기반으로 만들어진 새로운 패키지로서 DataFrame이라는 효율적인 자료구조를 제공한다. 
- DataFrame : 근본적으로 행과 열 레이블이 부착된 다차원 배열, 여러가지 타입의 데이터를 저장할 수 있으며 데이터 누락도 혀용, **데이터베이스와 스프레드시트 프로그램과 유사**

### Pandas 설치 및 사용

시스템에 Pandas를 설치하려면 먼저 Numpy가 설치되어 있어야한다. 일반적으로 Numpy를 np라는 별명으로 임포트 하는 것처럼 Pandas도 pd라는 별명으로 임포트

In [4]:
import pandas as pd

### Pandas 객체 소개

Pandas는 기본 자료구조(Series, DataFrame, Index)에 추가로 여러 유용한 도구와 메서드, 기능을 제공하지만 먼저 기본 자료구조에 대해 알아보자 

#### Pandas Series 객체

Pandas Series는 인덱싱된 데이터의 1차원 배열, 리스트나 배열로 부터 만들 수 있다.

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series는 값과 인덱스 속성으로 접근할 수 있다.

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

Numpy 배열과 마찬가지로 데이터는 친숙한 괄호 표기법으로 인덱스 접근 가능

In [8]:
data[1]

0.5

In [9]:
data[1:3]

1    0.50
2    0.75
dtype: float64

#### Series : 일반화된 Numpy 배열

Numpy 배열에는 값에 접근하는데 사용되는 암묵적 정수형 인덱스(0,1,2,3,...)가 있고, Pandas Series에는 값에 명시적으로 연결된 인덱스가 있음

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [11]:
data['b']

0.5

인접하지 않거나 연속적이지 않은 인덱스 사용 가능

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2,5,3,7])
data[5]

0.5

#### Series : 딕셔너리 활용

딕셔너리를 활용하여 Pandas Series 객체를 구성함으로써 의미를 분명하게 정할 수 있다

In [13]:
pop_dict = {'California' : 38332521, 'Texas' : 19552862, 'New York' : 128832123, 
            'Florida' : 195321122, 'illinois' : 2582123 }
pop = pd.Series(pop_dict)
pop

California     38332521
Florida       195321122
New York      128832123
Texas          19552862
illinois        2582123
dtype: int64

In [14]:
pop['California']

38332521

In [15]:
pop['California' : 'New York']

California     38332521
Florida       195321122
New York      128832123
dtype: int64

##### Quiz
다음 데이터로 시리즈 객체 만들기
area_dic = {'California' : 423967, 'Texas' : 695662, 'New York' : 141297, 
            'Florida' : 170312, 'illinois' : 149995 } 

### Pandas DataFrame 객체

#### DataFrame : 일반회된 Numpy 배열

Series가 유연한 인덱스를 가지는 1차원 배열이면 DataFrame은 유연한 행 인덱스와 열이름을 가진 2차원 배열

In [16]:
area_dic = {'California' : 423967, 'Texas' : 695662, 'New York' : 141297, 
            'Florida' : 170312, 'illinois' : 149995 } 

In [17]:
area = pd.Series(area_dic)
area

California    423967
Florida       170312
New York      141297
Texas         695662
illinois      149995
dtype: int64

In [18]:
pop

California     38332521
Florida       195321122
New York      128832123
Texas          19552862
illinois        2582123
dtype: int64

pop Series와 area Series(1차원)을 합쳐 2차원 객체 구성

In [19]:
states = pd.DataFrame({'population':pop, 'area': area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,195321122
New York,141297,128832123
Texas,695662,19552862
illinois,149995,2582123


In [20]:
states.index

Index(['California', 'Florida', 'New York', 'Texas', 'illinois'], dtype='object')

In [21]:
states.columns

Index(['area', 'population'], dtype='object')

열 이름으로 Series 객체를 참조 

In [22]:
states['area']

California    423967
Florida       170312
New York      141297
Texas         695662
illinois      149995
Name: area, dtype: int64

#### DataFrame 객체 구성하기

In [23]:
pd.DataFrame(pop, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,195321122
New York,128832123
Texas,19552862
illinois,2582123


In [24]:
data = [{'a':i, 'b':2*i} for i in range(3) ]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [25]:
pd.DataFrame([{'a':1, 'b':2},{'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [26]:
data = pd.DataFrame({'population' : pop, 'area' : area})
data

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,195321122
New York,141297,128832123
Texas,695662,19552862
illinois,149995,2582123


In [27]:
import numpy as np

pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.843734,0.266392
b,0.853321,0.957828
c,0.213238,0.052945


In [28]:
data['density'] = data['population'] / data['area']
data

Unnamed: 0,area,population,density
California,423967,38332521,90.413926
Florida,170312,195321122,1146.842982
New York,141297,128832123,911.782437
Texas,695662,19552862,28.106842
illinois,149995,2582123,17.214727


##### Quiz
다음 데이터(pd_data01.xlsx)로 데이터프레임 객체를 만드세요.

In [29]:
def myfunc(a):
    return a * 10

data['multi_1'] = myfunc(data['area'])
#data['multi_2'] = (lambda a : a * 10)(data['area'])

In [30]:
# data = data.drop('multi_1', axis=1)
# data = data.drop('Texas')

In [31]:
data

Unnamed: 0,area,population,density,multi_1
California,423967,38332521,90.413926,4239670
Florida,170312,195321122,1146.842982,1703120
New York,141297,128832123,911.782437,1412970
Texas,695662,19552862,28.106842,6956620
illinois,149995,2582123,17.214727,1499950


##### Quiz
앞에서 만든 데이터프레임 객체 '행사진행일수' 칼럼을 만드세요.

### Pandas Index 객체

Series와 DataFrame 객체에서 데이터를 참조하고 수정하게 해주는 Index객체는 배열 처럼 관련함수 사용 가능, 단 **객체처럼 변경 불가**

In [32]:
ind = pd.Index([2,3,5,7,11])

In [33]:
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [34]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [35]:
# ind[1] = 0

#### 인덱서 : loc, iloc

Series 혹은 DataFrame 객체가 명시적인 정수 인덱스를 가지고 있다면, 인덱싱 혹은 슬라이싱 할때 혼선이 발생

In [36]:
data = pd.Series(['a','b','c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [37]:
data[1] # 직접 정수 인덱스 사용

'a'

In [38]:
data[1:3] # 파이썬에서 정해진 인덱스 (0,1,2) 사용

3    b
5    c
dtype: object

Pandas는 특정 인덱싱 방식만 활용할 수 있는 인덱서(indexer) 속성을 제공

- loc 인덱서는 직접 정한 인덱스만 사용한다

In [39]:
data.loc[1]

'a'

In [40]:
data.loc[1:3]

1    a
3    b
dtype: object

- iloc 인덱서는 파이썬 내부에서 정한 인덱스만 활용한다.

In [41]:
data.iloc[1]

'b'

In [42]:
data.iloc[1:3]

3    b
5    c
dtype: object

### Pandas에서 데이터 연산하기

numpy로 기본 산술 연산, 삼각함수, 지수, 로그함수 등 요소 단위의 연산을 빠르게 수행할 수 있다. Pandas는 Numpy로 부터 이 기능을 대부분 상속
- 단항 연산의 경우, 유니버설 함수가 결과물에 인덱스와 열 테이블을 보존 (유니버설 함수: 배열 안에 있는 데이터 원소 별로 연산을 수행하는 함수)
- 이항 연산의 경우, Pandas가 유니버설 함수에 객체를 전달할 때 인덱스를 자동으로 정렬

#### 인덱스 보존

In [43]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4)) # 0에서 10까지 4개
ser

0    6
1    3
2    7
3    4
dtype: int64

In [44]:
df = pd.DataFrame(rng.randint(0,10,(3,4)), columns=['A','B','C','D'])

In [45]:
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [46]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [47]:
np.sin(df*np.pi/4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


#### 인덱스 정렬

두개의 Series 또는 DataFrame객체에 이항 연산을 적용하는 경우 Pandas는 연산을 수행하는 과정에서 인덱스를 정렬

In [48]:
area = pd.Series({'Alaska': 1722321, 'Texas':394842, 'California':397393},
                 name='area')
population = pd.Series({'California':39283912, 'Texas':39481293, 'New York': 39581232},
                       name='population')

In [49]:
population / area

Alaska              NaN
California    98.854061
New York            NaN
Texas         99.992638
dtype: float64

In [50]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])

In [51]:
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

누락된 요소에 채우기 값을 선택해 명시적으로 지정

In [52]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [53]:
A = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))

In [54]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [55]:
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns=list('BAC'))

In [56]:
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [57]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [58]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


파이썬 연산자와 Pandas 메서드 매핑

| 파이썬 연산자 |       Pandas 메서드        |
| :-----------: | :------------------------: |
|       +       |           add()            |
|       -       |     sub(), subtract()      |
|       *       |     mul(), multiply()      |
|       /       | div(), truediv(), divide() |
|      //       |         floordiv()         |
|       %       |           mod()            |
|      **       |           pow()            |

##### Quiz
다음과 같은 데이터 프레임을 만들고 두 좌표(left, top), (right, bottom)로 만들어지는 평면의 면적을 구하여 데이터 프레임의 빈 값을 체우세요

In [76]:
quiz = pd.read_csv('/Users/raejin/python-programming-class/quiz2.csv', index_col=0)
quiz

Unnamed: 0,지역,left,top,right,bottom,평면
1,A,0,1,4,5,
2,B,2,6,6,7,
3,C,6,1,7,4,
4,D,3,5,5,9,


In [84]:
w = np.array(quiz['right'].values - quiz['left'].values)
h = np.array(quiz['bottom'].values - quiz['top'].values)

In [88]:
quiz['평면'] = w * h
quiz

Unnamed: 0,지역,left,top,right,bottom,평면
1,A,0,1,4,5,16
2,B,2,6,6,7,4
3,C,6,1,7,4,3
4,D,3,5,5,9,8


### DataFrame과 Series 간의 연산

DataFrame과 Series 사이의 연산할 때 인덱스와 열의 순서는 비슷하게 유지

In [None]:
A = rng.randint(10, size=(3,4))
A

In [None]:
A - A[0]

In [None]:
df = pd.DataFrame(A, columns=list('QRST'))

In [None]:
df

In [None]:
df-df.iloc[0]

DataFrame, Series 연산은 앞에서 언급했던 연산과 마찬가지로 두 요소간의 인덱스를 자동으로 맞춘다.

In [None]:
halfrow = df.iloc[0, ::2]
halfrow

In [None]:
df - halfrow

## 누락된 데이터 처리하기

누락된 데이터 존재를 나타내기 위한 여러 가지 방식
    - 1비트를 누락 전용 표기로 활용 (P0012, N0012, P0014, P0015 ...)
    - 데이터에서 나올 수 없는 값 (-1, -9999, 0101010)
    - NaN(Not a Number)로 표시
    - NA(Nat Available) : 값이 결손(손상)됨, Pandas에 미포함
    - Null : 값이 존재하지 않는다. 손상되어 쓸 수 없는 경우도 포함

### None : 파이썬의 누락된 데이터

None은 파이썬 코드에서 누락된 데이터 표시를 위해 사용, Pandas/Numpy 에서는 데이터 타입이 'object'일 경우에만 사용할 수 있다.

In [None]:
import numpy as np
import pandas as pd

vals1 = np.array([1, 2, 3, 4])
vals1

In [None]:
vals2 = np.array([1, None, 3, 4])
vals2

None 값을 가진 배열에서 sum()이나 min()같은 연산을 하면 오류가 발생

In [None]:
vals1.sum()


In [None]:
# vals2.sum()

### NaN : 누락된 숫자 데이터

NaN(Not a Number)는 표준 IEEE 부동소수점 표기를 사용하는 모든 시스템이 인식하는 **특수 부동 소수점 값**이다

In [None]:
val2 = np.array([1, np.nan, 3, 4])
val2

In [None]:
val2.dtype

NaN이 포함된 산술 연산의 결과는 항상 NaN

In [None]:
1 + np.nan

In [None]:
val2.sum()

NaN 값을 무시하는 연산들

In [None]:
np.nansum(val2), np.nanmin(val2), np.nanmax(val2)

### Pandas에서 NaN과 None

NaN과 None은 각자의 역할이 있고 Pandas에서는 이 둘을 서로 호환 및 변환 할 수 있다.

In [None]:
pd.Series([1, np.nan, 2, None])

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

### 널 값 연산하기

Pandas는 None과 NaN을 근본적으로 누락된 값이나 없는 값을 가리키기 위해 호환되는 값으로 처리한다. 데이터에서 이 값들을 감시하고 삭제하는데 유용한 메소드들이 있다ㅡ



#### 널 값 감지 isnull(), notnull()

널 데이터를 탐지하기 위한 메소드로 데이터에 대한 불 배열을 반환한다



In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

In [None]:
data[data.notnull()]

#### 널 값 제거하기 dropna(), fillna()

NA값을 제거하는 dropna(), NA값을 채우는 fillna()

In [None]:
data.dropna()

In [None]:
df = pd.DataFrame([[1, np.nan, 2],[2, 3, 5],[np.nan, 4, 6]])
df

dropna()는 데이터프레임에 대해 널 값이 있는 모든 행을 삭제한다.

In [None]:
df.dropna()

In [None]:
df.dropna(axis='rows') # 행일 경우 rows

In [None]:
df

In [None]:
df[3] = np.nan

In [None]:
df

In [None]:
행이나 열의 값이 모두 NA값이거나 일부분만 NA일 경우 how, thresh 제거할 기준을 조정한다.
기본 how값은 any : NA값이 있는 행이나 열을 모두 제거

In [None]:
df.dropna(axis='columns', how='all')

thresh 옵션은 행이나 열에서 널이 아닌 값이 최소 몇 개 있는지 지정

In [None]:
df.dropna(axis='rows', thresh=3)

#### 널 값 채우기 fillna()

NA 값을 삭제하지 않고 유효한 값으로 대체해야 할 때가 있다. Pandas는 이러한 연산을 위해 fillna()함수를 제공한다.

In [None]:
data = pd.Series([1,np.nan,2,None,3],index=list('abcde'))

In [None]:
data

In [None]:
data.fillna(0)

이전 값으로 체우는 ffill(forward-fill), bfill(back-fill)과 기준 축 지정 axis(rows는 0 columns은 1)

In [None]:
data.fillna(method='ffill')

In [None]:
data.fillna(method='bfill')

In [None]:
df

In [None]:
df.fillna(method='ffill', axis=1) 

## 데이터 프레임을 csv 파일로 내보내기, 읽어오기

### 내보내기

데이터프레임에서 to_csv("파일이름.csv") 함수로 작성한 내용을 csv 파일로 저장할 수 있다.
파일이름을 입력할 때 확장명(.csv)를 생략하지 않는다.

In [None]:
df = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))

In [None]:
df.to_csv('export.csv')

### 읽어오기

csv 파일에서 저장한 데이터를 데이터프레임으로 읽어오려면 read_csv('파일경로\파일이름.csv', index_col=0)함수를 활용, (index_col = 0은 0번째 행을 인덱스로 활용한다는 의미)

In [None]:
df_read = pd.read_csv('/Users/raejin/python-programming-class/export.csv', index_col=0)
print(df_read.head()) 

##### Quiz
다음과 같이 데이터가 있을 때 데이터프레임을 만들고 아래와 같이 누락된 데이터를 처리하세요.

In [None]:
state = pd.Series(['AK', 'AL', 'CA', 'FL', 'HI','IA'])
state

In [None]:
gender = pd.Series([np.nan, np.nan, 0, np.nan, 0, np.nan])
gender

In [None]:
name = pd.Series(['Elsie',
'Clyde',
'Russell',
'Eliza',
'Charles',
'Margaret',])
name

In [None]:
win = pd.Series([38,
38,
32,
32,
33,
25])
win

In [None]:
lose = pd.Series([1,
np.nan,
np.nan,
np.nan,
np.nan,
np.nan])
lose

In [None]:
quiz = pd.DataFrame({'state':state, 'gender':gender, 'name':name, 'win':win, 'lose':lose})

In [None]:
quiz

In [None]:
quiz = quiz[['state','gender','name','win','lose']]

In [None]:
quiz

In [None]:
quiz.to_csv('quiz1.csv')

In [None]:
quiz_load = pd.read_csv('./quiz1.csv', index_col=0)
quiz_load

#### 풀이

In [None]:
quiz2 = quiz.dropna(axis='rows', thresh=4)

In [None]:
quiz2

In [None]:
quiz3 = quiz.dropna(axis='columns')

In [None]:
quiz3

## 계층적 인덱싱

Pandas는 고차원의 데이터를 처리하는 객체를 제공하지만 주로 단일 인덱스 내에 여러 인덱스 레벨을 포함하는 계층적 인덱싱(hierarchical indexing, 다중 인덱싱(multi-indexing))을 활용한다. 이 방식으로 고차원 데이터를 익숙한 1차원 Series와 2차원 DataFrame 객체로 간결하게 표현할 수 있다.

### 다중 인덱스된 Series

다음과 같은 2차원의 데이터프레임이 있다. 이것을 1차원의 시리즈로 표현한다면?

In [408]:
pop = pd.DataFrame([{"2000" : 33871648, "2010" : 37253956}, 
                    {"2000" : 18976457, "2010" : 19378102},
                    {"2000" : 20851820, "2010" : 25145561}], 
                   index=['California', 'New York','Taxas'])

In [409]:
pop

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Taxas,20851820,25145561


#### 튜플을 키로 사용

In [414]:
index = [('California', 2000), ('California', 2001),
        ('New York', 2000), ('New York', 2001),
        ('Taxas', 2000), ('Taxas', 2001)]

In [415]:
population = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]

In [416]:
pop2 = pd.Series(population, index=index)

In [417]:
pop2

(California, 2000)    33871648
(California, 2001)    37253956
(New York, 2000)      18976457
(New York, 2001)      19378102
(Taxas, 2000)         20851820
(Taxas, 2001)         25145561
dtype: int64

In [418]:
pop2[[i for i in pop2.index if i[1] == 2000]]

(California, 2000)    33871648
(New York, 2000)      18976457
(Taxas, 2000)         20851820
dtype: int64

#### Pandas MultiIndex

Pandas는 MultiIndex를 활용하여 다중 레벨의 인덱스를 만들 수 있다.

In [419]:
index

[('California', 2000),
 ('California', 2001),
 ('New York', 2000),
 ('New York', 2001),
 ('Taxas', 2000),
 ('Taxas', 2001)]

In [420]:
index2 = pd.MultiIndex.from_tuples(index)
index2

MultiIndex(levels=[['California', 'New York', 'Taxas'], [2000, 2001]],
           labels=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

새로 구성한 인덱스를 적용할 때 reindex() 매서드를 활용

In [421]:
pop3 = pop2.reindex(index2) # 

In [429]:
pop2

(California, 2000)    33871648
(California, 2001)    37253956
(New York, 2000)      18976457
(New York, 2001)      19378102
(Taxas, 2000)         20851820
(Taxas, 2001)         25145561
dtype: int64

In [430]:
pop3

California  2000    33871648
            2001    37253956
New York    2000    18976457
            2001    19378102
Taxas       2000    20851820
            2001    25145561
dtype: int64

In [433]:
pop3[:, 2001]

California    37253956
New York      19378102
Taxas         25145561
dtype: int64

unstack() 함수는 다중 인덱스를 가진 Series를 전형적인 인덱스의 DataFrame으로 빠르게 변환해 준다. stack() 함수는 반대 연산을 제공한다.

In [434]:
pop4 = pop3.unstack()
pop4

Unnamed: 0,2000,2001
California,33871648,37253956
New York,18976457,19378102
Taxas,20851820,25145561


In [435]:
pop5 = pop4.stack()
pop5

California  2000    33871648
            2001    37253956
New York    2000    18976457
            2001    19378102
Taxas       2000    20851820
            2001    25145561
dtype: int64

다중인덱스 방식으로 레벨을 구성함으로써 데이터 구조에 유연성을 제공할 수 있다.

In [437]:
pop_df = pd.DataFrame({'total': pop5,
                      'under18' : [9267089, 9284094,
                                  4687374, 4318033,
                                  5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2001,37253956,9284094
New York,2000,18976457,4687374
New York,2001,19378102,4318033
Taxas,2000,20851820,5906301
Taxas,2001,25145561,6879014


In [438]:
f_u18 = pop_df['under18'] / pop_df['total']

In [439]:
f_u18

California  2000    0.273594
            2001    0.249211
New York    2000    0.247010
            2001    0.222831
Taxas       2000    0.283251
            2001    0.273568
dtype: float64

In [440]:
f_u18.unstack()

Unnamed: 0,2000,2001
California,0.273594,0.249211
New York,0.24701,0.222831
Taxas,0.283251,0.273568


### MultiIndex 생성 메서드

다중인덱스를 생성하는 가장 간편한 방식은 2개 이상의 인덱스 배열 리스트를 전달하는 것

In [443]:
df = pd.DataFrame(np.random.rand(4,2),
                 index=[['a','a','b','b'],[1,2,1,2]],
                 columns=['data1','data2'])

In [444]:
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.877778,0.700605
a,2,0.3316,0.167929
b,1,0.376001,0.7196
b,2,0.148642,0.276853


### 명시적 MultiIndex 생성자

In [445]:
pd.MultiIndex.from_arrays([['a','a','b','b'],[1,2,1,2]]) # 배열

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [446]:
pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2)]) # 튜플

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [447]:
pd.MultiIndex.from_product([['a','b'],[1,2]]) # 데카르트 곱

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [448]:
pd.MultiIndex(levels=[['a','b'],[1,2]], labels=[[0,0,1,1],[0,1,0,1]]) # 직접 입력 생성

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

### MultiIndex 레벨 이름

MultiIndex의 레벨에 이름을 지정할 수 있다. MultiIndex 생성자에 names 인수를 전달하거나 생성 후에 인덱스의 names 속성을 성정해 이름을 지정 가능

In [449]:
pop5.index.names = ['state','year']
pop5

state       year
California  2000    33871648
            2001    37253956
New York    2000    18976457
            2001    19378102
Taxas       2000    20851820
            2001    25145561
dtype: int64

### 열의 MultiIndex

In [463]:
index = pd.MultiIndex.from_product([[2013,2014],[1,2]], names=['year','visit'])

In [464]:
columns = pd.MultiIndex.from_product([['Bob','Guido','Sue'],['HR','Temp']], 
                                     names=['subject', 'type'])

In [465]:
# 임의의 데이터 만드는 과정
data = np.round(np.random.randn(4,6),1)

In [466]:
data

array([[ 0. ,  0.8, -2. , -0.7,  1.1,  0.1],
       [-0.3,  1.7, -1. , -0.7,  0.6, -0.4],
       [-1. ,  0.1,  0.5, -0. ,  0.1, -0.3],
       [-0.6, -2.5, -1.4,  0.6,  0.4, -1.1]])

In [467]:
data[:, ::2] *= 10

In [468]:
data

array([[  0. ,   0.8, -20. ,  -0.7,  11. ,   0.1],
       [ -3. ,   1.7, -10. ,  -0.7,   6. ,  -0.4],
       [-10. ,   0.1,   5. ,  -0. ,   1. ,  -0.3],
       [ -6. ,  -2.5, -14. ,   0.6,   4. ,  -1.1]])

In [469]:
data += 37

In [470]:
data

array([[37. , 37.8, 17. , 36.3, 48. , 37.1],
       [34. , 38.7, 27. , 36.3, 43. , 36.6],
       [27. , 37.1, 42. , 37. , 38. , 36.7],
       [31. , 34.5, 23. , 37.6, 41. , 35.9]])

In [471]:
health_data = pd.DataFrame(data, index=index, columns=columns)

In [472]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,37.0,37.8,17.0,36.3,48.0,37.1
2013,2,34.0,38.7,27.0,36.3,43.0,36.6
2014,1,27.0,37.1,42.0,37.0,38.0,36.7
2014,2,31.0,34.5,23.0,37.6,41.0,35.9


In [473]:
health_data['Bob']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,37.0,37.8
2013,2,34.0,38.7
2014,1,27.0,37.1
2014,2,31.0,34.5


##### Quiz
다음과 같은 다중 인덱스를 가진 데이터프레임을 만드세요

In [483]:
# 인덱스 생성
index = pd.MultiIndex.from_product([["Brown Stone", "North", "Central", "South"], ["Condominium","House"]], 
                                   names=['area','type'])

In [484]:
index

MultiIndex(levels=[['Brown Stone', 'Central', 'North', 'South'], ['Condominium', 'House']],
           labels=[[0, 0, 2, 2, 1, 1, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['area', 'type'])

In [485]:
# 임시데이터 구성
law = np.absolute(np.round(np.random.randn(8, 4), 1))
law[:, 0] *= 1000
law[:, 1] *= 2000
law[:, 2] *= 3000
law[:, 3] *= 5000

law += 120

In [476]:
law

array([[  620.,   320.,  3420.,   620.],
       [ 1520.,  2320.,  3720.,  4120.],
       [ 1420.,  2320.,  3420., 10120.],
       [  220.,   320.,  4920.,  2120.],
       [  920.,  2720.,  1620.,  6120.],
       [  620.,  2320.,  1620.,  5120.],
       [  920.,   120.,  1320.,  6620.],
       [ 1720.,  2320.,   120.,   620.]])

In [486]:
# 배열 데이터 제공
np.save('quiz3.npy', law)

In [487]:
law = np.load('./quiz3.npy')

In [488]:
law

array([[ 720., 2720., 1020., 2120.],
       [1920., 2520., 1320., 4120.],
       [1020., 1920., 5820., 3120.],
       [ 220., 2920., 3120.,  620.],
       [1520., 1120., 1620., 3620.],
       [1020.,  520., 5820., 2120.],
       [ 420.,  320., 2820., 5620.],
       [1720., 4120., 2220., 3120.]])

In [489]:
columns = pd.MultiIndex.from_product([[2017, 2018],['전반기','후반기']], names=['year', 'Quarter'])


In [490]:
columns

MultiIndex(levels=[[2017, 2018], ['전반기', '후반기']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['year', 'Quarter'])

In [493]:
index

MultiIndex(levels=[['Brown Stone', 'Central', 'North', 'South'], ['Condominium', 'House']],
           labels=[[0, 0, 2, 2, 1, 1, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['area', 'type'])

In [494]:
estate = pd.DataFrame(law, index=index, columns=columns)

In [495]:
estate

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
Brown Stone,House,1920.0,2520.0,1320.0,4120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
North,House,220.0,2920.0,3120.0,620.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
Central,House,1020.0,520.0,5820.0,2120.0
South,Condominium,420.0,320.0,2820.0,5620.0
South,House,1720.0,4120.0,2220.0,3120.0


### MultiIndex 인덱싱 및 슬라이싱

#### 시리즈에서 인덱싱 및 슬라이싱

In [552]:
pop5

state       year
California  2000    33871648
            2001    37253956
New York    2000    18976457
            2001    19378102
Taxas       2000    20851820
            2001    25145561
dtype: int64

In [502]:
pop5['California', 2000]

33871648

In [503]:
pop5['California']

year
2000    33871648
2001    37253956
dtype: int64

MultiIndex가 정렬되어 있다면 부분 슬라이싱도 가능하다.

In [506]:
pop5.loc['California':'New York']

state       year
California  2000    33871648
            2001    37253956
New York    2000    18976457
            2001    19378102
dtype: int64

In [508]:
pop5[:, 2000]

state
California    33871648
New York      18976457
Taxas         20851820
dtype: int64

In [510]:
pop5[pop5 > 22000000]

state       year
California  2000    33871648
            2001    37253956
Taxas       2001    25145561
dtype: int64

In [512]:
pop5[['California', 'Taxas']]

state       year
California  2000    33871648
            2001    37253956
Taxas       2000    20851820
            2001    25145561
dtype: int64

#### 데이터 프레임에서 인덱싱 및 슬라이싱

In [513]:
estate

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
Brown Stone,House,1920.0,2520.0,1320.0,4120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
North,House,220.0,2920.0,3120.0,620.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
Central,House,1020.0,520.0,5820.0,2120.0
South,Condominium,420.0,320.0,2820.0,5620.0
South,House,1720.0,4120.0,2220.0,3120.0


In [514]:
estate[2017, '전반기']

area         type       
Brown Stone  Condominium     720.0
             House          1920.0
North        Condominium    1020.0
             House           220.0
Central      Condominium    1520.0
             House          1020.0
South        Condominium     420.0
             House          1720.0
Name: (2017, 전반기), dtype: float64

#### 배열 슬라이싱

numpy의 슬라이싱은 표준 파이썬 구문에 따르지만, 시작인덱스에서 마지막 인덱스까지 일정 간격을 두어 띄여서 값을 슬라이스 할 수 있다.

배열이름[시작인덱스:마지막인덱스:간격]

시작인덱스, 마지막 인덱스, 간격을 설정하지 않으면 기본적으로는 0, 데이터 갯수, 1로 설정된다.

In [521]:
estate[0:7:2] # estate[::2]

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
South,Condominium,420.0,320.0,2820.0,5620.0


In [522]:
estate

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
Brown Stone,House,1920.0,2520.0,1320.0,4120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
North,House,220.0,2920.0,3120.0,620.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
Central,House,1020.0,520.0,5820.0,2120.0
South,Condominium,420.0,320.0,2820.0,5620.0
South,House,1720.0,4120.0,2220.0,3120.0


#### 인덱서 활용

In [524]:
estate.iloc[:5, :3]

Unnamed: 0_level_0,year,2017,2017,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0
Brown Stone,House,1920.0,2520.0,1320.0
North,Condominium,1020.0,1920.0,5820.0
North,House,220.0,2920.0,3120.0
Central,Condominium,1520.0,1120.0,1620.0


In [526]:
estate

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
Brown Stone,House,1920.0,2520.0,1320.0,4120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
North,House,220.0,2920.0,3120.0,620.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
Central,House,1020.0,520.0,5820.0,2120.0
South,Condominium,420.0,320.0,2820.0,5620.0
South,House,1720.0,4120.0,2220.0,3120.0


In [527]:
estate.loc[:,(2018, '전반기')]

area         type       
Brown Stone  Condominium    1020.0
             House          1320.0
North        Condominium    5820.0
             House          3120.0
Central      Condominium    1620.0
             House          5820.0
South        Condominium    2820.0
             House          2220.0
Name: (2018, 전반기), dtype: float64

In [530]:
idx = pd.IndexSlice
estate.loc[idx[:, 'Condominium'], idx[:, '전반기']]

Unnamed: 0_level_0,year,2017,2018
Unnamed: 0_level_1,Quarter,전반기,전반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2
Brown Stone,Condominium,720.0,1020.0
North,Condominium,1020.0,5820.0
Central,Condominium,1520.0,1620.0
South,Condominium,420.0,2820.0


##### Quiz 
다음의 estate 데이터 프레임을 다음과 같이 슬라이스 하시오

In [531]:
estate

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
Brown Stone,House,1920.0,2520.0,1320.0,4120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
North,House,220.0,2920.0,3120.0,620.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
Central,House,1020.0,520.0,5820.0,2120.0
South,Condominium,420.0,320.0,2820.0,5620.0
South,House,1720.0,4120.0,2220.0,3120.0


In [534]:
idx = pd.IndexSlice
estate.loc[idx[:, 'House'], idx[2018, :]]

Unnamed: 0_level_0,year,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2
Brown Stone,House,1320.0,4120.0
North,House,3120.0,620.0
Central,House,5820.0,2120.0
South,House,2220.0,3120.0


In [535]:
estate.iloc[1:8:2, 2:4:1]

Unnamed: 0_level_0,year,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2
Brown Stone,House,1320.0,4120.0
North,House,3120.0,620.0
Central,House,5820.0,2120.0
South,House,2220.0,3120.0


### 다중 인덱스 재정렬하기

In [None]:
다중 인덱스 슬라이싱 연산은 인덱스가 정렬되어 있어야 가능하다

#### 정렬된 인덱스와 정렬되지 않은 인덱스

In [536]:
index = pd.MultiIndex.from_product([['a','c','b'],[1,2]])

In [537]:
data = pd.Series(np.random.rand(6), index=index)

In [538]:
data.index.names = ['char','int']

In [539]:
data

char  int
a     1      0.641366
      2      0.405315
c     1      0.048767
      2      0.005648
b     1      0.555356
      2      0.740134
dtype: float64

In [544]:
try:
    data['a':'b']
except Exception as e:
    print(e)

sort_index() 메서드로 멀티 인덱스를 정렬할 수 있다

In [545]:
data = data.sort_index()

In [546]:
data

char  int
a     1      0.641366
      2      0.405315
b     1      0.555356
      2      0.740134
c     1      0.048767
      2      0.005648
dtype: float64

In [553]:
data['a':'b']

char  int
a     1      0.641366
      2      0.405315
b     1      0.555356
      2      0.740134
dtype: float64

#### 인덱스 설정 및 재설정

인덱스를 열로 설정하여 데이터를 저정렬할 수도 있다. reset_index() 메서드를 활용하면 인덱스의 정보가 열로 변환된다.

In [555]:
index = pd.MultiIndex.from_product([['California','New York','Texas'],[2000,2010]], names=["state","year"])

In [561]:
pop = pd.DataFrame([33871648,37253956,18976457,19378192,20851820,25145561], index=index, columns=['population'])

In [562]:
pop

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378192
Texas,2000,20851820
Texas,2010,25145561


MultiIndex를 데이터프레임의 열로 만드는 reset_index()

In [563]:
pop_flat = pop.reset_index()
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378192
4,Texas,2000,20851820
5,Texas,2010,25145561


열값으로 MultiIndex를 만드는 set_index()

In [564]:
pop_flat.set_index(['state','year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378192
Texas,2000,20851820
Texas,2010,25145561


### 다중 인덱스에서 데이터 집계

다중인덱스가 적용되어 있는 데이터테이블도 mean(), sum(), max() 같은 집계 메소드를 활용할 수 있다. 원하는 열이나 행을 level 매개변수로 전달

In [571]:
estate

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
Brown Stone,House,1920.0,2520.0,1320.0,4120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
North,House,220.0,2920.0,3120.0,620.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
Central,House,1020.0,520.0,5820.0,2120.0
South,Condominium,420.0,320.0,2820.0,5620.0
South,House,1720.0,4120.0,2220.0,3120.0


In [572]:
data_mean = estate.mean(level='type')

In [573]:
data_mean

year,2017,2017,2018,2018
Quarter,전반기,후반기,전반기,후반기
type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Condominium,920.0,1520.0,2820.0,3620.0
House,1220.0,2520.0,3120.0,2495.0


In [576]:
data_sum = estate.sum(axis=1, level='year')

In [577]:
data_sum

Unnamed: 0_level_0,year,2017,2018
area,type,Unnamed: 2_level_1,Unnamed: 3_level_1
Brown Stone,Condominium,3440.0,3140.0
Brown Stone,House,4440.0,5440.0
North,Condominium,2940.0,8940.0
North,House,3140.0,3740.0
Central,Condominium,2640.0,5240.0
Central,House,1540.0,7940.0
South,Condominium,740.0,8440.0
South,House,5840.0,5340.0


In [578]:
estate

Unnamed: 0_level_0,year,2017,2017,2018,2018
Unnamed: 0_level_1,Quarter,전반기,후반기,전반기,후반기
area,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Brown Stone,Condominium,720.0,2720.0,1020.0,2120.0
Brown Stone,House,1920.0,2520.0,1320.0,4120.0
North,Condominium,1020.0,1920.0,5820.0,3120.0
North,House,220.0,2920.0,3120.0,620.0
Central,Condominium,1520.0,1120.0,1620.0,3620.0
Central,House,1020.0,520.0,5820.0,2120.0
South,Condominium,420.0,320.0,2820.0,5620.0
South,House,1720.0,4120.0,2220.0,3120.0


## 데이터셋 결합하기 : 병합과 조인

Pandas는 pd.merge() 함수를 활용하여 고성능 인메모리 조인과 병합연산을 할 수 있다.

### 조인 작업의 분류

pd.merge() 함수는 일대일, 다대일, 다대다 같은 여러가지 조인 유형을 구현한다.

#### 일대일 조인

In [587]:
df1 = pd.DataFrame({'employee' : ['Bob','Jake','Lisa','Sue'],
                    'group':['Accounting','Engineering','Engineering','HR']})

In [588]:
df2 = pd.DataFrame({'employee' : ['Lisa','Bob','Jake','Sue'], 
                    'hire_date': [2004, 2000, 2012, 2014]})

In [589]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [590]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2000
2,Jake,2012
3,Sue,2014


In [591]:
df3 = pd.merge(df1, df2)

In [592]:
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2000
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### 다대일(Many-to-one) 조인

병합하는 키 열 하나에 중복된 항목이 포함되는 경우의 조인

In [596]:
df4 = pd.DataFrame({'group':['Accounting','Engineering', 'HR'],
                             'supervisor':['Carly', 'Guido','Steve']})

In [597]:
df4

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve


In [598]:
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2000
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [599]:
pd.merge(df3, df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2000,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


#### 다대다(Many-to-many) 조인

병합되는 두 데이터프레임에서 키열에 대해 모두 중복항목이 존재하면 다대다 조인이다.

In [607]:
df5 = pd.DataFrame({'group':
                    ['Accounting','Accounting','Engineering','Engineering','HR','HR'],
                   'skills':
                    ['math','spreadsheets','coding','linux','spreadsheets','organiation']})

In [608]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [609]:
df5

Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organiation


In [610]:
pd.merge(df1, df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organiation


### 병합 키 지정

In [None]:
pd.merge()는 두개의 입력 데이터셋 사이에 일치하는 하나 이상의 열 이름을 찾아 그것을 키로 사용한다.

#### on 키워드

on 키워드를 사용해 키로 쓸 열이름을 명시적으로 지정할 수 있다.

In [613]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [614]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2000
2,Jake,2012
3,Sue,2014


In [615]:
pd.merge(df1, df2, on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2000
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### left_on과 right_on 키워드

다른 열이름을 가진 두 데이터셋을 병합하려면, left_on과 right_on 키워드를 활용한다.

In [618]:
df3 = pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],
                   'salary':[70000,80000,120000,90000]})

In [619]:
df3

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000


In [622]:
pd.merge(df1, df3, left_on="employee", right_on="name")

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


In [623]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


#### left_index와 right_index 키워드 그리고 join() 메서드

기본적으론 열을 기준으로 병합하지만 left_index, right_index를 활용하면 인덱스로 병합할 수 있다.

In [624]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [625]:
df1a = df1.set_index('employee')

In [626]:
df1a

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR


In [627]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2000
2,Jake,2012
3,Sue,2014


In [628]:
df2a = df2.set_index('employee')

In [629]:
df2a

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2000
Jake,2012
Sue,2014


In [631]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2000
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [637]:
pd.merge(df1a, df2a, left_index=True, right_index=True).reset_index()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2000
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


DateFrame은 기본적으로 인덱스 기반으로 조인한는 join() 메서드를 제공한다.

In [639]:
df1a

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR


In [640]:
df2a

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2000
Jake,2012
Sue,2014


In [641]:
df1a.join(df2a)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2000
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


#### 인덱스와 열

두 데이터셋에서 하나는 인덱스로 다른 것은 열로 섞고자 하면 left_index와 right_on, left_on과 right_index를 조합할 수 있다.

In [645]:
df1a

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR


In [646]:
df3

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000


In [647]:
pd.merge(df1a, df3, left_index=True, right_on='name')

Unnamed: 0,group,name,salary
0,Accounting,Bob,70000
1,Engineering,Jake,80000
2,Engineering,Lisa,120000
3,HR,Sue,90000


### 조인을 위한 집합연산 지정하기

In [None]:
데이터셋에 따라 키열에 맞는 값이 등장하거나 등장하지 않는 경우가 있다.

In [650]:
df6 = pd.DataFrame({'name':['Peter','Paul','Mary'],
                   'food':['fish','beans','bread']},
                  columns=['name','food'])

In [651]:
df7 = pd.DataFrame({'name':['Mary','Joseph'],
                   'drink':['wine','beer']},
                  columns=['name','drink'])

In [653]:
pd.merge(df6, df7)

Unnamed: 0,name,food,drink
0,Mary,bread,wine


결과가 두 데이터 집합에 대한 교집합이 들어간다. 이를 내부조인(inner join)이라 한다.
how 키워드를 활용하여 outer, left, right로 기준을 정할 수 있다.

In [656]:
df6

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread


In [657]:
df7

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer


외부조인(outer join)은 입력 데이터 열의 합집합으로 조인한 결과를 반환하고 누락된 값은 NaN으로 채운다.

In [660]:
pd.merge(df6, df7, how='outer')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


왼쪽 조인(left join), 오른쪽 조인(right join)은 각각 왼쪽 데이터셋, 오른쪽 데이터셋을 기준으로 조인

In [661]:
pd.merge(df6, df7, how='left')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


In [662]:
df6

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread


In [663]:
df7

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer


In [664]:
pd.merge(df6, df7, how='right')

Unnamed: 0,name,food,drink
0,Mary,bread,wine
1,Joseph,,beer


### 열 이름이 겹치는 경우 : suffixes 키워드

두 데이터 셋에서 열이름이 충돌하는 경우 자동으로 접미사 _x, _y가 붙는다.

In [666]:
df8 = pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],'rank':[1,2,3,4]})

In [667]:
df9 = pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],'rank':[3,1,4,2]})

In [669]:
pd.merge(df8, df9, on='name')

Unnamed: 0,name,rank_x,rank_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


기본값이 싫다면 suffixes 키워드를 사용해 별도로 지정할 수 있다.

In [671]:
pd.merge(df8, df9, on="name", suffixes=["_left","_right"])

Unnamed: 0,name,rank_left,rank_right
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


##### Quiz
두개의 데이터 셋(state-abbresv.csv, state-population.csv)을 외부조인 하여 병합하세요

In [673]:
pop = pd.read_csv('state-population.csv')

In [677]:
pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


In [679]:
abbrevs = pd.read_csv('state-abbrevs.csv')

In [680]:
abbrevs.head()

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


In [681]:
merge = pd.merge(pop, abbrevs, how='outer', left_on='state/region', right_on='abbreviation')

In [683]:
merge.head()

Unnamed: 0,state/region,ages,year,population,state,abbreviation
0,AL,under18,2012,1117489.0,Alabama,AL
1,AL,total,2012,4817528.0,Alabama,AL
2,AL,under18,2010,1130966.0,Alabama,AL
3,AL,total,2010,4785570.0,Alabama,AL
4,AL,under18,2011,1125763.0,Alabama,AL


In [693]:
merge = merge.drop('abbreviation', axis=1)

In [694]:
merge.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


In [723]:
merge.isnull()

Unnamed: 0,state/region,ages,year,population,state
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False
8,False,False,False,False,False
9,False,False,False,False,False


In [724]:
merge.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

In [725]:
merge['population'].isnull()

0       False
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18      False
19      False
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28      False
29      False
        ...  
2514    False
2515    False
2516    False
2517    False
2518    False
2519    False
2520    False
2521    False
2522    False
2523    False
2524    False
2525    False
2526    False
2527    False
2528    False
2529    False
2530    False
2531    False
2532    False
2533    False
2534    False
2535    False
2536    False
2537    False
2538    False
2539    False
2540    False
2541    False
2542    False
2543    False
Name: population, Length: 2544, dtype: bool

In [737]:
merge.loc[merge['state/region'] == 'PR', 'state']

2448    Puerto Rico
2449    Puerto Rico
2450    Puerto Rico
2451    Puerto Rico
2452    Puerto Rico
2453    Puerto Rico
2454    Puerto Rico
2455    Puerto Rico
2456    Puerto Rico
2457    Puerto Rico
2458    Puerto Rico
2459    Puerto Rico
2460    Puerto Rico
2461    Puerto Rico
2462    Puerto Rico
2463    Puerto Rico
2464    Puerto Rico
2465    Puerto Rico
2466    Puerto Rico
2467    Puerto Rico
2468    Puerto Rico
2469    Puerto Rico
2470    Puerto Rico
2471    Puerto Rico
2472    Puerto Rico
2473    Puerto Rico
2474    Puerto Rico
2475    Puerto Rico
2476    Puerto Rico
2477    Puerto Rico
2478    Puerto Rico
2479    Puerto Rico
2480    Puerto Rico
2481    Puerto Rico
2482    Puerto Rico
2483    Puerto Rico
2484    Puerto Rico
2485    Puerto Rico
2486    Puerto Rico
2487    Puerto Rico
2488    Puerto Rico
2489    Puerto Rico
2490    Puerto Rico
2491    Puerto Rico
2492    Puerto Rico
2493    Puerto Rico
2494    Puerto Rico
2495    Puerto Rico
Name: state, dtype: object

In [726]:
#(merge[merge['state'].isnull()]['state/region']).unique()

array(['PR', 'USA'], dtype=object)

In [729]:
merge.loc[merge['state/region'] == 'PR', 'state'] = 'Puerto Rico'

In [731]:
merge.loc[merge['state/region'] == 'USA', 'state'] = 'United States'

In [732]:
merge.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool