In [144]:
# 연속적으로 값을 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "last_expr"

from IPython.display import display

# Pandas
- NumPy를 기반으로 만들어진 새로운 패키지
- DataFrame이라는 효율적인 자료구조를 제공
 - 행과 열 레이블이 부착된 다차원 배열
 - 여러 가지 타입의 데이터를 가질 수 있으며 데이터 누락도 허용
- 레이블이 붙은 데이터를 위한 편리한 스토리지 인터페이스를 제공
- 데이터베이스 프레임워크와 스프레드시트 프로그램 사용자에게 익숙한 강력한 데이터 연산을 구현

## Pandas 객체
- 행과 열이 단순 정수형 인덱스가 아닌 **레이블**로 식별되는 NumPy의 구조화된 배열을 보강한 버전
- Pandas의 세 가지 기본 자료구조
 - Series
 - DataFrame
 - Index

### Pandas Series 객체
 - 인덱싱된 데이터의 1차원 배열이다.

In [2]:
# NumPy와 Pandas를 import 한다.
import numpy as np
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
# Series의 values에 접근하기
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

In [4]:
# Series의 index에 접근하기
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# index를 이용하여 Series의 value에 접근하기
data[1]

0.5

> **일반화된 NumPy 배열**
> - NumPy 배열에는 값에 접근하는 데 사용되는 암묵적으로 정의된 정수형 인덱스가 존재
> - Pandas Series에는 값에 연결된 **명시적**으로 정의된 인덱스가 존재

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

#### Quiz
value가 [0.25, 0.5, 0.75, 1.0], 인덱스가 [2, 3, 5, 7]인 Series를 구하라.

> **특수한 딕셔너리**
> - 딕셔너리는 일련의 임의의 값에 임의의 키를 매핑하는 구조
> - Series는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조 

In [9]:
population_dict = {'california': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135}

# Series의 생성자로 딕셔너리를 넣는다.
population = pd.Series(population_dict)

population

Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
california    38332521
dtype: int64

> **Series 객체 구성하기**

In [14]:
# data가 리스트나 NumPy 배열일 수 있고, 그런 경우 index는 정수가 기본
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [15]:
# data는 지정된 인덱스를 채우기 위새 반복되는 스칼라값일 수 있다.
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [16]:
# data가 딕셔너리일때, 이 경우 index는 기본적으로 딕셔너리 키를 정렬해서 취한다.
pd.Series({2:'a', 1:'b', 3:'c'})

1    b
2    a
3    c
dtype: object

In [17]:
# data가 딕셔너리일때, index를 명시적으로 설정할 수 있다.
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

### Pandas DataFrame 객체

> **일반화된 NumPy 배열**
> - 유연한 행 인덱스와 유연한 열 이름을 가진 2차원 배열
> - 정렬된 Series 객체의 연속으로 볼 수 있다. (정렬 : 같은 인덱스를 공유한다!)

In [21]:
area_dict = {'california': 423967,
            'Texas': 695662,
            'New York': 141297,
            'Florida': 170312,
            'Illinois': 149995}

area = pd.Series(area_dict)
area

Florida       170312
Illinois      149995
New York      141297
Texas         695662
california    423967
dtype: int64

In [22]:
population_dict = {'california': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135}

population = pd.Series(population_dict)

population

Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
california    38332521
dtype: int64

In [23]:
# Series 객체 2개를 이용하여 DataFrame을 생성한다. key는 'population', 'area'가 된다.
states = pd.DataFrame({'population': population,
                      'area':area})

states

Unnamed: 0,area,population
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193
california,423967,38332521


In [24]:
# 인덱스 레이블에 접근
states.index

Index([u'Florida', u'Illinois', u'New York', u'Texas', u'california'], dtype='object')

In [25]:
# 열 레이블에 접근
states.columns

Index([u'area', u'population'], dtype='object')

> **특수한 딕셔너리**
> - 열 이름을 열 데이터로 이뤄진 Series에 매핑

In [26]:
states['area']

Florida       170312
Illinois      149995
New York      141297
Texas         695662
california    423967
Name: area, dtype: int64

> **DataFrame 객체 구성하기**

In [31]:
"""단일 Series 객체에서 구성하기"""

pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193
california,38332521


In [34]:
"""딕셔너리의 리스트에서 구성하기"""

data = [{'a': i, 'b': 2*i} for i in range(3)]
print data

pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [37]:
"""Series 객체의 딕셔너리에 구성하기"""

pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,area,population
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193
california,423967,38332521


In [41]:
"""NumPy의 구조화된 배열에서 구성하기"""

a = np.zeros(3, dtype = [('A', 'i8'), ('B','f8')])
print a

pd.DataFrame(a)

[(0, 0.0) (0, 0.0) (0, 0.0)]


Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


In [42]:
# 딕셔너리의 일부 키가 누락되더라도 Padnas는 NaN 값으로 채운다.
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 2, 'c': 3}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,2,3.0


### Pandas Index 객체
- 불변의 배열이나 정렬된 집합

Int64Index([2, 3, 5, 7, 11], dtype='int64')

> **불변의 배열**

In [44]:
idx = pd.Index([2, 3, 5, 7, 11])
idx

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [45]:
print idx[1]
print idx[::2]

3
Int64Index([2, 5, 11], dtype='int64')


In [46]:
# NumPy 배열에서 익숙한 속성들
print idx.size, idx.shape, idx.ndim, idx.dtype

5 (5,) 1 int64


In [47]:
# 일반적인 방법으로는 변경될 수 없다.
idx[1] = 0

TypeError: Index does not support mutable operations

> **정렬된 집합**
>- 파이썬에 내장된 set 데이터 구조에서 사용하는 표기법을 따른다.

In [49]:
idx_A = pd.Index([1, 3, 5, 7, 9])
idx_B = pd.Index([2, 3, 5, 7, 11])

# 교집합
print idx_A & idx_B

# 합집합
print idx_A | idx_B

# 여집합
print idx_A ^ idx_B

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


## 데이터 인덱싱과 선택

### Series에서 데이터 선택

> **Series: 딕셔너리**

In [51]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])

print data
print data['b']

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.5


In [52]:
# 키의 포함 유무를 체크해보자
'a' in data

True

In [53]:
# 키집합
data.keys()

Index([u'a', u'b', u'c', u'd'], dtype='object')

In [69]:
# 새로운 값 추가
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

> **Series: 1차원 배열**

In [71]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [72]:
"""명시적인 인덱스로 슬라이싱하기"""

# 마지막 인덱스가 포함된다.
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [73]:
"""암묵적 정수 인덱스로 슬라이싱하기"""

# 마지막 인덱스는 포함되지 않는다.
data[0:2]

a    0.25
b    0.50
dtype: float64

In [74]:
"""마스킹"""

data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [75]:
"""팬시 인덱싱"""

data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

### DataFrame에서 데이터 선택

In [79]:
# 미국의 population
population

Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
california    38332521
dtype: int64

In [80]:
# 미국의 area
area

Florida       170312
Illinois      149995
New York      141297
Texas         695662
california    423967
dtype: int64

In [81]:
data = pd.DataFrame({'population': population, 'area': area})

In [82]:
# 열 이름으로 된 딕셔너리 스타일의 인덱싱을 통해 접근
data['area']

Florida       170312
Illinois      149995
New York      141297
Texas         695662
california    423967
Name: area, dtype: int64

In [83]:
# 열 이름을 이용해 속성 스타일로 접근
data.area

Florida       170312
Illinois      149995
New York      141297
Texas         695662
california    423967
Name: area, dtype: int64

In [85]:
# 새로운 열을 추가
data['density'] = data['population'] / data['area']
data

Unnamed: 0,area,population,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874
california,423967,38332521,90.413926


> **DataFrame: 2차원 배열**

In [86]:
# 데이터 배열
data.values

array([[  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  6.95662000e+05,   2.64481930e+07,   3.80187404e+01],
       [  4.23967000e+05,   3.83325210e+07,   9.04139261e+01]])

In [87]:
# 행과 열을 바꾸기
data.T

Unnamed: 0,Florida,Illinois,New York,Texas,california
area,170312.0,149995.0,141297.0,695662.0,423967.0
population,19552860.0,12882140.0,19651130.0,26448190.0,38332520.0
density,114.8061,85.88376,139.0767,38.01874,90.41393


In [88]:
# 첫번째 행에 접근
data.values[0]

array([  1.70312000e+05,   1.95528600e+07,   1.14806121e+02])

In [89]:
# 열에 접근
data['area']

Florida       170312
Illinois      149995
New York      141297
Texas         695662
california    423967
Name: area, dtype: int64

> **추가적인 인덱싱 규칙**

In [95]:
# 인덱싱은 열을 참조
data['area']

Florida       170312
Illinois      149995
New York      141297
Texas         695662
california    423967
Name: area, dtype: int64

In [97]:
# 슬라이싱은 행을 참조
data['Florida': 'Illinois']

Unnamed: 0,area,population,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [92]:
# 슬라이싱은 숫자로 변경 가능
data[1:3]

Unnamed: 0,area,population,density
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746


In [98]:
# 마스킹 연산은 행 단위로 해석
data[data.density > 100]

Unnamed: 0,area,population,density
Florida,170312,19552860,114.806121
New York,141297,19651127,139.076746


### Pandas에서 데이터 연산하기
기본 산술 연산(덧셈, 뺄셈, 곱셈 등)과 복잡한 연산(삼각함수, 지수와 로그 함수 등) 모두에서 요소 단위의 연산을 빠르게 수행
 - 유니버설 함수 : 인덱스 보존
 - 유니버설 함수 : 인덱스 정렬
 - 유니버설 함수 : DataFrame과 Series간의 연산

### 유니버설 함수 : 인덱스 보존

- Pandas는 NumPy와 함께 작업하도록 설계됐기 때문에 NumPy의 유니버설 함수가 Pandas Series와 DataFrame 객체에 동작한다.

In [3]:
import numpy as np
import pandas as pd

rng = np.random.RandomState(42)

# 0~10까지 랜덤하게 4개의 수를 뽑아서 value로 만든다.
ser = pd.Series(rng.randint(0, 10, 4))

ser

0    6
1    3
2    7
3    4
dtype: int64

In [4]:
# 0~10까지 랜덤하게 수를 뽑아서 3 by 4 행렬을 만든다.
df = pd.DataFrame(rng.randint(0, 10, (3 ,4)),
                 columns=['A', 'B', 'C', 'D'])

df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [6]:
# index는 보존되고, value에만 지수 값이 적용 된다.
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [7]:
# 마찬가지로 data frame 내의 value만 적용된다.
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### 유니버설 함수 : 인덱스 정렬
- 두 개의 Series 또는 DataFrame 객체에 이항 연산을 적용하는 경우, Pandas는 연산을 수행하는 과정에서 인덱스를 정렬한다.

> **Series에서 인덱스 정렬**

In [9]:
# 두 개의 다른 데이터 소스를 결합해 미국 주에서 면적 기준 상위 세 개의 주와 인구 기준 상위 세 개의 주를 찾는다고 가정한다.
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                 'California': 423967}, name='area')

population = pd.Series({'California': 38332521, 'Texas': 26448193,
                       'New York': 19651127}, name='population')

# 결과 배열은 두 입력 배열의 인덱스의 합집합을 담고 있다.
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

- 둘 중 하나라도 값이 없는 항목은 Pandas가 누락된 데이터를 표시하는 방식에 따라 NaN 즉, 숫자가 아님(Not a Number)으로 표시된다.

In [12]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])

A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

- NaN 값 사용을 원치 않을 경우, 연산자 대신에 적절한 객체 메서드를 사용해 채우기 값을 수정할 수 있다.

In [15]:
# 객체 메서드 add 사용
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

> DataFrame에서 인덱스 정렬

In [22]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns = list('AB'))
A

Unnamed: 0,A,B
0,1,19
1,14,6


In [23]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns = list('BAC'))
B

Unnamed: 0,B,A,C
0,7,2,0
1,3,1,7
2,3,1,5


In [24]:
# 없는 수의 경우 NaN이 채워진다.
A + B

Unnamed: 0,A,B,C
0,3.0,26.0,
1,15.0,9.0,
2,,,


In [25]:
# NaN을 채워 넣을 수 있다.
fill = A.stack().mean()
A.add(B, fill_value = fill)

Unnamed: 0,A,B,C
0,3.0,26.0,10.0
1,15.0,9.0,17.0
2,11.0,13.0,15.0


### 유니버설 함수 : DataFrame과 Series 간의 연산

In [30]:
A = rng.randint(10, size = (3, 4))
A

array([[7, 4, 1, 4],
       [7, 9, 8, 8],
       [0, 8, 6, 8]])

In [31]:
A - A[0]

array([[ 0,  0,  0,  0],
       [ 0,  5,  7,  4],
       [-7,  4,  5,  4]])

In [48]:
df = pd.DataFrame(A, columns = list('QRST'))

# data frame에서 행으로 접근하기 위해서는 iloc을 사용한다.
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,0,5,7,4
2,-7,4,5,4


In [53]:
# 0번 row를 가지고 오되, 스텝 사이즈가 2이다.
halfrow = df.iloc[0, ::2]
print halfrow

df - halfrow

Q    7
S    1
Name: 0, dtype: int64


Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,0.0,,7.0,
2,-7.0,,5.0,


## 누락된 데이터 처리하기
### Pandas에서 누락된 데이터

> **None : 파이썬의 누락된 데이터**
> - None은 파이썬 객체이므로 임의의 NumPy / Pandas 배열에서 사용할 수 없고 데이터 타입이 'object'인 배열에서만 사용할 수 있다. (즉 파이썬 객체의 배열)

In [55]:
value1 = np.array([1, None, 3, 4])

# value1의 dtype은 object이다.
value1

array([1, None, 3, 4], dtype=object)

In [56]:
# 배열에서 파이썬 객체를 사용한다는 것은 None 값을 가진 배열에서 `sum()` 이나 `min()` 같은 집계 연산을 하면 일반적으로 오류가 발생할 것이다.
value1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

> **NaN : 누락된 숫자 데이터**
> - Not a Number

In [58]:
value2 = np.array([1, np.nan, 3, 4])
value2.dtype

dtype('float64')

In [59]:
# NaN 덧셈
print 1 + np.NaN

# NaN 곱셈
print 0 * np.NaN

nan
nan


In [61]:
# NaN이 존재 할 때, 연산에서 에러를 내지는 않지만 정확한 값을 출력하지 않는다.
print value2.sum()
print value2.min()

nan
nan


In [62]:
# 누락된 값을 무시하는 특별한 집계 연산
print np.nansum(value2)
print np.nanmin(value2)

8.0
1.0


> **Pandas에서 NaN과 None**

In [65]:
# Pandas는 nan과 none을 호환성 있게 처리하고, 적절한 경우 서로 변환할 수 있게 했다.
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

### 널 값 연산하기

> **널 값 탐지**

In [70]:
# 부울 마스크를 반환
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [71]:
# 부울 마스크는 Series나 DataFrame 인덱스로 직접 사용가능
data[data.notnull()]

0        1
2    hello
dtype: object

> **널 값 제거하기**
> - `dropna()` : NA 값 제거하기
> - `fillna()` : NA 값 채우기

In [72]:
# Series 의 경우
data.dropna()

0        1
2    hello
dtype: object

- DataFrame 에서는 단일 값을 지울 수는 없고 전체 행이나 전체 열을 사젝하는 것만 가능

In [74]:
# DataFrame 의 경우
df = pd.DataFrame([[1, np.nan, 2], 
                  [2, 3, 5],
                  [np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [75]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [76]:
# 널 값을 포함하는 모든 열을 삭제하기
df.dropna(axis = 1)

Unnamed: 0,2
0,2
1,5
2,6


- 열 또는 행을 삭제할 때, 열과 행이 가지고 있는 널값의 갯수에 따라서 지울지 말지를 결정할 수 있다.

In [78]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [79]:
# column의 모든 원소가 널 값일 때만 삭제
df.dropna(axis = 1, how = 'all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [80]:
# row의 원소 중에서 널이 아닌 값이 최소 3개가 있어야 열을 삭제 하지 않음
df.dropna(axis = 0, thresh = 3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


> **널 값 채우기**
> - 널 값을 삭제하지 않고, 유효한 값으로 대체해야 할 때 `fillna()`메소드를 사용한다.

In [85]:
data = pd.Series([1, np.nan, 2, None, 3], index = list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [86]:
# 단일 값 0으로 채우기
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [87]:
# 이전의 값(전 index에 있는 값)으로 채우기
data.fillna(method = 'ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [88]:
# 뒤의 값(전 index에 있는 값)으로 채우기
data.fillna(method = 'bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [90]:
# DafaFrame의 경우 축을 지정하여 채울 수 있다.
print df

df.fillna(method = 'ffill', axis = 1)

     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN


Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


## 계층적 인덱싱
- Pandas는 기본적으로 3차원과 4차원 데이터를 처리할 수 있는 Panel과 Panel4D 개체를 제공한다.
- 더 일반적으로 사용되는 패턴은 단일 인덱스 내에 여러 인덱스 레벨을 포함하는 **계층적 인덱싱**, **다중 인덱싱**이다.

## 데이터세트 결합 : Concat과 Append

두 개의 다른 데이터를 매우 간단하게 연결하는 것부터 테이터 간 겹치는 부분을 제대로 처리하는 복잡한 데이터베이스 스타일을 조인하고 병합하는 것까지 다양하게 사용될 수 있다. Series, DataFrame은 이 유형의 연산을 연두에 두고 만들어진 것이다.
- 데이터 랭글링(Data Wrangling), 데이터 먼징(Data Munging) : 원자료(raw data)를 또 다른 형태로 전환하거나 매핑하는 과정

In [92]:
# 사용할 메소드를 미리 만들자.
def make_df(cols, idx):
    """빠르게 DataFrame을 생성"""
    data = {c : [str(c) + str(i) for i in idx] for c in cols}
    return pd.DataFrame(data, idx)
    
# 예제
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


### pd.concat을 이용한 간단한 연결
> **Series 객체를 간단하게 연결할 때 사용**

In [95]:
ser1 = pd.Series(['A', 'B', 'C'], index = [1, 2, 3])
ser1

1    A
2    B
3    C
dtype: object

In [96]:
ser2 = pd.Series(['D', 'E', 'F'], index = [4, 5, 6])
ser2

4    D
5    E
6    F
dtype: object

In [97]:
print pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object


> **DataFrame 객체를 간단하게 연결할 때 사용 (컬럼 결합)**

In [139]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

display(df1)
display(df2)
display(pd.concat([df1, df2]))

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
3,A3,B3
4,A4,B4


Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


> **DataFrame 객체를 간단하게 연결할 때 사용 (로우 결합)**

In [141]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])

display(df3)
display(df4)
display(pd.concat([df3, df4], axis = 1))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,C,D
0,C0,D0
1,C1,D1


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


> **인덱스 복제**
> - `np.concatenate`, `pd.concat`의 중요한 차이는 Pandas에서의 연결은 그 결과가 복제된 인덱스를 가지더라도 인덱스를 유지하는 것

In [160]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])

# 복제 인덱스 생성
y.index = x.index

display(x)
display(y)

# 인덱스가 복제되어서 겹쳐지더라도 기존의 인덱스를 유지한다. 이 경우는 문제가 될 수 있다!
display(pd.concat([x, y]))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
0,A2,B2
1,A3,B3


Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


In [146]:
"""처리 방법 1 : 반복을 에러로 잡아낸다."""

try:
    pd.concat([x, y], verify_integrity = True)
except ValueError as e:
     print "ValueError:", e

ValueError: Indexes have overlapping values: [0, 1]


In [148]:
"""처리 방법 2 : 인덱스를 무시한다."""
display(x)
display(y)

display(pd.concat([x, y], ignore_index = True))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
0,A2,B2
1,A3,B3


Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [151]:
"""처리 방법 3 : 다중 인덱스 키를 추가한다."""
display(x)
display(y)

display(pd.concat([x, y], keys = ['a', 'b']))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
0,A2,B2
1,A3,B3


Unnamed: 0,Unnamed: 1,A,B
a,0,A0,B0
a,1,A1,B1
b,0,A2,B2
b,1,A3,B3


> **Join을 이용한 연결**

In [164]:
"""컬럼의 이름이 같은 것끼리 조인된다. defualt는 outer 조인이다."""

df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [1, 2])

display(df5)
display(df6)

# outer 조인이기 때문에 없는 값은 NaN으로 채워진다.
display(pd.concat([df5, df6]))

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2


Unnamed: 0,B,C,D
1,B1,C1,D1
2,B2,C2,D2


Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
1,,B1,C1,D1
2,,B2,C2,D2


In [167]:
"""inner 조인 사용하면 교집합으로 변경된다."""

pd.concat([df5, df6], join='inner')

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
1,B1,C1
2,B2,C2


In [168]:
"""남기고 싶은 열을 지정할 수 있다."""

# A, B, C 열만 남기고 싶은 경우.
pd.concat([df5, df6], join_axes=[df5.columns])

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
1,,B1,C1
2,,B2,C2


> **append 메서드**
> - 원래의 객체를 변경하지 않고, 결합된 데이터를 가지는 새로운 객체를 만든다.
> - 새 인덱스와 데이터 버퍼를 생성하기 때문에 매우 효율적인 방식이라고 보기는 어렵다.

In [170]:
display(df1)
display(df2)

display(df1.append(df2))

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
3,A3,B3
4,A4,B4


Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


## 데이터세트 결합하기 : 병합과 조인