# Pandas를 이용한 자료 가공

**Pandas**는 **NumPy**를 기반으로 만들어진 패키지로써 ``DataFrame``이라는 효율적인 자료구조를 제공한다. ``DataFrame``는 근본적으로 행과 열 레이블이 부착된 다차원의 배열로서, 여러 가지 타입의 데이터를 가질 수 있으며 결측치도 허용된다. 따라서, **Pandas**의 구조 및 사용법을 익히는 것은 데이터 분석을 위해서는 필수적이다. 좀 더 자세한 사항은 https://pandas.pydata.org 에 있다.

## Pandas 설치 및 사용

In [1]:
!pip3 install pandas



In [2]:
import numpy as np
import pandas as pd
np.__version__
pd.__version__

'2.2.2'

## Pandas 객체 소개

세 가지 기본 자료구조인 ``Series``, ``DataFrame``, 그리고 ``Index``를 소개한다.

### 1. Series 객체

``Series``객체는 일차원 자료를 다룰 때 사용된다.

#### Series 객체 생성

**Python**에서 ``Series``를 객체를 생성하는 기본적인 방법은 다음과 같다.

```python
>>> pd.Series(data, index=index)
```

참고. index는 옵션으로 사용자가 지정하지 않으면 정수가 기본이다.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


In [None]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
data.dtype

dtype('float64')

index를 통해 자료에 접근할 수 있다.

In [None]:
data[1]

0.5

In [None]:
print(data[1:3])

1    0.50
2    0.75
dtype: float64


index를 사용자가 지정할 수 있다.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [None]:
data['b']

0.5

In [None]:
data[['b','c']]

Unnamed: 0,0
b,0.5
c,0.75


연속적이지 않은 index를 사용할 수 있다.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
print(data)

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64


In [None]:
data[2]

0.25

**Pandas**의 ``Series``는 딕셔너리의 특수한 버전으로 생각할 수 있다.

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [None]:
population['California']

38332521

딕셔너리와 달리 ``Series``는 슬라이싱 같이 배열 스타일의 연산도 가능

In [None]:
print(population['California':'Illinois'])
print(population['California':'Texas'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
California    38332521
Texas         26448193
dtype: int64


data는 같은 값을 지정할 수 있다.

In [None]:
a = pd.Series(5, index=[100, 200, 300])
print(a)

100    5
200    5
300    5
dtype: int64


index를 명시적으로 설정할 수 있다.

In [None]:
a = pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])
print(a)

3    c
2    a
dtype: object


### 2. DataFrame 객체

``DataFrame``객체는 이차원 배열을 다룰 때 사용된다. 데이터 분석에서의 가장 기본적으로 사용되는 자료형태이다.

#### DataFrame 객체 생성

**Python**에서 ``DataFrame`` 객체를 생성하는 기본적인 방법은 다음과 같다.

```python
>>> DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```

##### Series 객체 이용

In [9]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [10]:
pop = pd.DataFrame(population, columns=['population'])
print(pop)

            population
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135


In [11]:
pop.index
# row.names

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [None]:
pop.columns

Index(['population'], dtype='object')

##### Series 객체의 딕셔너리 이용

In [12]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
print(area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64


In [13]:
states = pd.DataFrame({'population': population,
                       'area': area})
print(states)

            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995


In [14]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [15]:
states.columns

Index(['population', 'area'], dtype='object')

``Series``에서는 ``data[0]``는 첫 번째 행을 반환하고, ``DataFrame``에서 ``data['col0']``는 첫 번째 열을 반환한다.

In [16]:
a = states['area']
print(a)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


##### 딕셔너리의 리스트 이용

In [17]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [18]:
a = pd.DataFrame(data)
print(a)

   a  b
0  0  0
1  1  2
2  2  4


``Pandas``에서는 딕셔너리의 일부 키가 생략되면 ``NaN``(Not a number)를 채운다.

In [19]:
a = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])
print(a)

     a  b    c
0  1.0  2  NaN
1  NaN  3  4.0


##### 2차원 NumPy 배열 이용

In [20]:
data = np.random.rand(3, 2)
data

array([[0.53463944, 0.82086275],
       [0.12256724, 0.92698303],
       [0.34134035, 0.40564263]])

In [21]:
a = pd.DataFrame(data,
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])
print(a)

        foo       bar
a  0.534639  0.820863
b  0.122567  0.926983
c  0.341340  0.405643


### 3. Pandas Index 객체

표 형식의 데이터 객체에서 각 행과 열에 대한 이름을 저장하는 객체이다.

In [22]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

#### 불변의 배열

일반적인 방법으로 값을 변경할 수 없다.

In [23]:
ind[1]

3

In [24]:
ind[::2]

Index([2, 5, 11], dtype='int64')

In [25]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [26]:
ind[1] = 0

TypeError: Index does not support mutable operations

#### 정렬된 집합

대체로 ``set``데이터 구조에서 사용하는 표기법을 따른다.

In [39]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print(indB)

Index([2, 3, 5, 7, 11], dtype='int64')


In [43]:
print(indA.intersection(indB))  # intersection

Index([3, 5, 7], dtype='int64')


In [44]:
indA.union(indB)  # union

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [45]:
indA.difference(indB)  # symmetric difference

Index([1, 9], dtype='int64')

## 데이터 인덱싱과 선택

### 1. Series

#### 딕셔너리 사용법

키의 집합을 값의 집합에 매핑한다.

In [46]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

Unnamed: 0,0
a,0.25
b,0.5
c,0.75
d,1.0


In [47]:
data['b']

0.5

In [48]:
'a' in data

True

In [49]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [50]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [51]:
data['e'] = 1.25
data

Unnamed: 0,0
a,0.25
b,0.5
c,0.75
d,1.0
e,1.25


#### 일차원 배열 사용법

``Series``는 슬라이스, 마스킹, 팬시 인덱싱 등 **NumPy**배열과 똑같은 기본 메커니즘으로 배열 형태의 아이템을 선택할 수 있다.

In [52]:
# slicing by explicit index
data['a':'c']

Unnamed: 0,0
a,0.25
b,0.5
c,0.75


In [53]:
# slicing by implicit integer index
data[0:2]

Unnamed: 0,0
a,0.25
b,0.5


In [54]:
# masking
data[(data > 0.3) & (data < 0.8)]

Unnamed: 0,0
b,0.5
c,0.75


In [55]:
# fancy indexing
data[['a', 'e']]

Unnamed: 0,0
a,0.25
e,1.25


#### 인덱서: loc, iloc

인덱서를 이용하면 명확하게 해당 요소를 지정할 수 있다.

In [10]:
import pandas as pd
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

Unnamed: 0,0
1,a
3,b
5,c


In [17]:
# explicit index when indexing
data[1]

'a'

In [18]:
# implicit index when slicing
data[1:3]

Unnamed: 0,0
3,b
5,c


``loc`` 사용:

In [19]:
data.loc[1]

'a'

In [23]:
data.loc[1:5]

Unnamed: 0,0
1,a
3,b
5,c


``iloc`` 사용: 암묵적인 **Python**스타일

In [24]:
data.iloc[1]

'b'

In [25]:
data.iloc[1:3]

Unnamed: 0,0
3,b
5,c


### 2. DataFrame

#### 딕셔너리 사용법

In [34]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [35]:
data['area']

Unnamed: 0,area
California,423967
Texas,695662
New York,141297
Florida,170312
Illinois,149995


다음은 약식표현 방법을 자료를 선택하는 방법이다.

In [36]:
data.area

Unnamed: 0,area
California,423967
Texas,695662
New York,141297
Florida,170312
Illinois,149995


In [37]:
data.area
data.area is data['area']

True


**주의. 약식표현이 항상 가능하지는 않다. 즉, ``DataFrame``는 ``pop()``메서드를 가지고 있다.**

In [38]:
print(data.pop)
data.pop is data['pop']

<bound method DataFrame.pop of               area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127
Florida     170312  19552860
Illinois    149995  12882135>


False

새로운 변수명과 해당 변수에 대한 자료 입력을 통해 객체를 추가할 수 있다.

In [39]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### 이차원 배열 사용법

In [40]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [41]:
data.T   # Transpose

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


#### 인덱싱 및 슬라이싱

In [42]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [43]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [44]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [45]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [46]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### 추가 규칙

인덱싱은 열을 참조하고, 슬라이싱은 행을 참조한다.

In [49]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [50]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


마스킹 연산은 행 단위로 해석된다.

In [51]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


## Pandas에서의 연산

부정 함수와 삼각함수 같은 단항 연산의 경우에는 유니버설 함수가 결과물에 인덱스와 열 레이블을 보존하고, 덧셈과 곱셈 같은 이항 연산의 경우에는 유니버설 함수에 객체를 전달할 때 자동으로 인덱스를 정렬한다.

### 유니버설 함수: 인덱스 보존

단항 연산은 인덱스를 보존한다.

### 1. Series

In [None]:
import numpy as np
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [None]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

### 2. DataFrame

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [None]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### 유니버설 함수: 인덱스 정렬

이항 연산을 적용하는 경우 인덱스를 정렬한다.

### 1. Series

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [None]:
print(area)

Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64


In [None]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64


In [None]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

누락된 값을 다른 값으로 채워 계산할 수 있다.

In [None]:
population.div(area, fill_value=1)
# population / area (fill--)

Alaska        5.802696e-07
California    9.041393e+01
New York      1.965113e+07
Texas         3.801874e+01
dtype: float64

In [None]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B
# Index에 주의해서 합쳐야 함

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [None]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### 2. DataFrame

In [None]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,6,11
1,7,14


In [None]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,2,0,3
1,1,7,3
2,1,5,5


In [None]:
A + B

Unnamed: 0,A,B,C
0,6.0,13.0,
1,14.0,15.0,
2,,,


``Series``와 같이 누락된 값을 채워넣을 수 있다.

In [None]:
fill = A.stack().mean()
fill

9.5

In [None]:
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,6.0,13.0,12.5
1,14.0,15.0,12.5
2,14.5,10.5,14.5


다음은 **Python** 연산자와 대응되는 **Pandas** 메소드이다.

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


### 유니버설 함수: DataFrame과 Series사이의 연산

``DataFrame``과 ``Series`` 사이에서 연산할 때 인덱스와 열의 순서는 비슷하게 유지된다. ``DataFrame``과 ``Series`` 사이의 연산은 2차원 **NumPy**배열과 1차원 **NumPy**배열 사이의 연산과 비슷하다.

#### NumPy 배열: 행 방향으로 적용됨

In [None]:
rng = np.random.RandomState(42)

A = rng.randint(10, size=(3, 4))
A

array([[6, 3, 7, 4],
       [6, 9, 2, 6],
       [7, 4, 3, 7]])

In [None]:
A[0]

array([6, 3, 7, 4])

In [None]:
A - A[0]

array([[ 0,  0,  0,  0],
       [ 0,  6, -5,  2],
       [ 1,  1, -4,  3]])

#### Pandas

**Pandas**에서도 연산 규칙이 기본적으로 행 방향으로 적용된다.

In [None]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,6,3,7,4
1,6,9,2,6
2,7,4,3,7


In [None]:
df.iloc[0]

Q    6
R    3
S    7
T    4
Name: 0, dtype: int64

In [None]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,0,6,-5,2
2,1,1,-4,3


``axis = 0``을 지정하면 열 방향으로 연산이 가능한다.

In [None]:
print(df)
df.subtract(df['R'], axis=0)

   Q  R  S  T
0  6  3  7  4
1  6  9  2  6
2  7  4  3  7


Unnamed: 0,Q,R,S,T
0,3,0,4,1
1,-3,0,-7,-3
2,3,0,-1,3


``DataFrame``/``Series`` 연산

In [None]:
halfrow = df.iloc[0, ::2]
halfrow

Q    6
S    7
Name: 0, dtype: int64

In [None]:
df

Unnamed: 0,Q,R,S,T
0,6,3,7,4
1,6,9,2,6
2,7,4,3,7


In [None]:
df - halfrow
# 객체에 이름이 있다는 것에 주의

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,0.0,,-5.0,
2,1.0,,-4.0,


## 결측치 처리

**Pandas**에서는 결측치를 ``NaN``값과 **Python**의 ``None``로 나타낸다.

### ``None``

``None``는 데이터 타입이 ``dtype=object``(객체의 배열)에서만 사용가능하다.

In [None]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

객체 배열의 연산은 기본 데이터 타입의 연산보다 많은 오버헤드가 발생한다.

In [None]:
for dtype in ['object', 'int']:
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype = object
44 ms ± 7.75 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
489 µs ± 9.86 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)



``None``값을 가진 배열에서 ``sum``과 같은 연산을 하면 일반적으로 오류가 발생한다.

In [None]:
vals1.sum()

TypeError: ignored

### ``NaN``: 누락된 숫자 데이터

``NaN``(Not a Number)는 표준 **IEEE**부동 소수점 표기를 사용하는 모든 시스템이 인식하는 특수 부동 소수점 값이다.

In [None]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

dtype('float64')

결측치가 있는 자료의 연산에 대한 결과는 ``NaN``이다.

In [None]:
1 + np.nan

nan

In [None]:
0 *  np.nan

nan

In [None]:
print(vals2)
vals2.sum(), vals2.min(), vals2.max()

NameError: ignored

``NaN``을 생략하고 연산할 수 있는 함수가 있다.

In [None]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

### Pandas에서의 ``NaN``과 ``None``

``NaN``과 ``None``를 호환성 있게 처리하고 적절한 경우에는 서로 변환할 수 있다.

In [None]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [None]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int64

In [None]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

## ``Null``값에 대한 연산

### 널 값 찾기

In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [None]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [None]:
data[data.notnull()]

0        1
2    hello
dtype: object

### 널 값 제거

##### ``Series``

In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [None]:
data.dropna()

0        1
2    hello
dtype: object

##### ``DataFrame``

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


기본 메소드는 널 값을 가진 행을 삭제한다.

In [None]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5



축 지정을 통해 널 값이 있는 열을 삭제할 수 있다.

In [None]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6



``how = 'any'``를 사용하여 널 값을 포함하는 열 혹은 행을 모두 삭제하거나, ``how = 'all'``을 사용하여 모두 널 값인 행 혹은 열을 삭제할 수 있다.

In [None]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [None]:
df.dropna(axis='columns', how='any')

Unnamed: 0,2
0,2
1,5
2,6


non-null의 개수를 지정할 수 있다.

In [None]:
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


### 널 값 채우기

널 값(결측치)를 다른 값으로 채울 수 있다.

##### ``Series``

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

0으로 채운다.

In [None]:
data.fillna(-1)

a    1.0
b   -1.0
c    2.0
d   -1.0
e    3.0
dtype: float64

앞 혹은 뒤의 값을 이용하여 널 값을 채울 수 있다.

In [None]:
# forward-fill (전의 값))
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [None]:
# back-fill (후의 값))
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

##### ``DataFrame``

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [None]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2
0,1.0,1.0,2.0
1,2.0,3.0,5.0
2,,4.0,6.0


## 계층적 인덱싱

**Pandas**에서는 계층적 인덱싱을 통해 고차원의 데이터를 효율적으로 표현할 수 있다.

### MultiIndex

튜플로부터 다중 인덱스를 생성할 수 있다.

In [None]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [None]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [None]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### MultiIndex 차원 변경

``unstack()``와 ``stack()``는 차원을 변경해 준다:

In [None]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [None]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

#### 자료추가:

MultiIndex를 이용하면 쉽게 자료를 추가할 수 있다.

In [None]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


유니버설 함수도 MultiIndex와 잘 동작한다.

1.   항목 추가
2.   항목 추가



In [None]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


### MultiIndex 생성 방법

다중 인덱스를 가진 ``Series``나 ``DataFrame``을 생성하는 가장 간단한 방식은 생성자에 2개 이상의 인덱스 배열 리스트를 전달하는 것이다.

In [None]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.792886,0.00977
a,2,0.714824,0.091079
b,1,0.376271,0.078637
b,2,0.066049,0.996906


In [None]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

### 명시적 MultiIndex 생성자

``MultiIndex``의 클래스 메서드 생성자를 사용해 더 유연하게 인덱스를 생성할 수 있다.

In [None]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [None]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [None]:
# Cartesian product
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [None]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

### MultiIndex 레벨 이름

``MultiIndex``의 레벨에 이름을 지정할 수 있다.

In [None]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### 열에 대한 MultiIndex

열도 여러 레벨을 가질 수 있다.

In [None]:
# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37
data

array([[51. , 37. , 48. , 34.6, 59. , 35.7],
       [32. , 36.5, 41. , 37.2, 43. , 38.2],
       [30. , 36.9, 34. , 35.3, 21. , 37.2],
       [37. , 37.3, 16. , 34.1, 29. , 40. ]])

In [None]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

In [None]:
index

MultiIndex([(2013, 1),
            (2013, 2),
            (2014, 1),
            (2014, 2)],
           names=['year', 'visit'])

In [None]:
columns

MultiIndex([(  'Bob',   'HR'),
            (  'Bob', 'Temp'),
            ('Guido',   'HR'),
            ('Guido', 'Temp'),
            (  'Sue',   'HR'),
            (  'Sue', 'Temp')],
           names=['subject', 'type'])

In [None]:
# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,51.0,37.0,48.0,34.6,59.0,35.7
2013,2,32.0,36.5,41.0,37.2,43.0,38.2
2014,1,30.0,36.9,34.0,35.3,21.0,37.2
2014,2,37.0,37.3,16.0,34.1,29.0,40.0


### MultiIndex의 인덱싱과 슬라이싱

#### ``Series``

In [None]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [None]:
pop[('California', 2010):('Texas', 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

다중 인덱스

In [None]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pop = pd.Series(data)
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

In [None]:
pop['California', 2000]

33871648

In [None]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [None]:
pop[:, 2000]

state
California    33871648
Texas         20851820
New York      18976457
dtype: int64

In [None]:
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [None]:
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

#### ``DataFrames``

In [None]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,32.0,37.0,36.0,37.2,31.0,38.3
2013,2,30.0,37.6,34.0,38.8,34.0,38.1
2014,1,52.0,38.6,18.0,37.1,37.0,38.6
2014,2,46.0,34.7,30.0,38.6,40.0,35.9


In [None]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,36.0,37.2
2013,2,34.0,38.8
2014,1,18.0,37.1
2014,2,30.0,38.6


In [None]:
health_data['Guido', 'HR']

year  visit
2013  1        36.0
      2        34.0
2014  1        18.0
      2        30.0
Name: (Guido, HR), dtype: float64

In [None]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,32.0,37.0
2013,2,30.0,37.6


In [None]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        32.0
      2        30.0
2014  1        52.0
      2        46.0
Name: (Bob, HR), dtype: float64

**주의. 튜플 내에 슬라이스는 작동하지 않는다.**

In [None]:
health_data.loc[(:, 1), (:, 'HR')]

SyntaxError: ignored

**주의. ``IndexSlice`` 객체를 이용하면 쉽게 해결할 수 있다.**

In [None]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,32.0,36.0,31.0
2014,1,52.0,18.0,37.0


### Multi-Indices 재배열

#### 정렬된 인덱스와 정렬되지 않은 인덱스

대부분의 MultiIndex 슬라이싱 연산은 인덱스가 정렬돼 있지 않으면 실패한다.

In [None]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.856959
      2      0.626968
c     1      0.080189
      2      0.855903
b     1      0.033432
      2      0.851495
dtype: float64

In [None]:
data['a':'b']

UnsortedIndexError: ignored

In [None]:
#try:
#    data['a':'b']
#except KeyError as e:
#    print(type(e))
#    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


#### ``sort_index()``를 활용한 인덱스 정렬 (인텍스를 정렬해 줌):

In [None]:
data = data.sort_index()
data

char  int
a     1      0.856959
      2      0.626968
b     1      0.033432
      2      0.851495
c     1      0.080189
      2      0.855903
dtype: float64

In [None]:
data['a':'b']

char  int
a     1      0.856959
      2      0.626968
b     1      0.033432
      2      0.851495
dtype: float64

### 인덱스 Stacking과 unstacking

다중 인덱스에서 간단한 2차원 표현으로 변경할 수 있다.

In [None]:
pop

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

In [None]:
pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [None]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [None]:
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### 인덱스 setting과 resetting

계층적 데이터를 재정렬하는 또 다른 방법은 인덱스 레이블을 열로 바꾸는 것이다.

In [None]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,Texas,2000,20851820
3,Texas,2010,25145561
4,New York,2000,18976457
5,New York,2010,19378102


열 값을 이용해서 MultiIndex를 만들 수 있다.

In [None]:
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
Texas,2000,20851820
Texas,2010,25145561
New York,2000,18976457
New York,2010,19378102


## 데이터세트 결합

**Pandas**에서는 서로 다른 데이터 소스를 결합하는 함수와 메소드를 제공한다.

In [None]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [None]:
#class display(object):
#    """Display HTML representation of multiple objects"""
#    template = """<div style="float: left; padding: 10px;">
#    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
#    </div>"""
#    def __init__(self, *args):
#        self.args = args

#    def _repr_html_(self):
#        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
#                         for a in self.args)

#    def __repr__(self):
#        return '\n\n'.join(a + '\n' + repr(eval(a))
#                           for a in self.args)

## ``pd.concat``

```python
# Signature in Pandas v0.18
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', "pd.concat([df1, df2])")

Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display('df3', 'df4', "pd.concat([df3, df4], axis=1,sort=True)")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,C,D
0,C0,D0
1,C1,D1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


### indices 복제

**Pandas**의 ``concat``경우 복제된 인덱스를 가지더라도 인덱스를 유지한다.

In [None]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # make duplicate indices!
display('x', 'y', 'pd.concat([x, y])')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


#### 인덱스 무시

In [None]:
display('x', 'y', 'pd.concat([x, y], ignore_index=True)')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


#### 다중 인덱스 키를 추가

In [None]:
display('x', 'y', "pd.concat([x, y], keys=['x', 'y'])")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


### joins을 이용한 연결

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
display('df5', 'df6', 'pd.concat([df5, df6],sort=True)')

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


``join = 'inner'``를 이용하여 열의 교집합으로 변경할 수 있다.

In [None]:
display('df5', 'df6',
        "pd.concat([df5, df6], join='inner')")

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


### ``append()`` 사용

배열을 직접 연결할 수 있는 메소드를 가지고 있다.

In [None]:
display('df1', 'df2', 'df1.append(df2)')



Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


### ``pd.merge()``의 활용

``merge``에는 관계 데이터(relation data)를 조작하는 규칙의 정형 집합이자 대부분의 데이터베이스에서 사용할 수 있는 연산의 개념적 기반을 형성하는 관계 대수(relational algebra)의 하위 집합에 해당하는 행위가 구현돼 있다.

#### 일대일 결합

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
display('df1', 'df2')

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [None]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### 다대일 결합

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
display('df3', 'df4', 'pd.merge(df3, df4)')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


#### 다대다 결합

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
display('df1', 'df5', "pd.merge(df1, df5)")

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


### 병합 키 설정

열 이름을 지정하여 데이터를 결합할 수 있다.

#### ``on`` 옵션

In [None]:
display('df1', 'df2', "pd.merge(df1, df2, on='employee')")

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### ``left_on``와 ``right_on`` 옵션

In [None]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
display('df1', 'df3', 'pd.merge(df1, df3, left_on="employee", right_on="name")')

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


In [None]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


#### ``left_index``와 ``right_index`` 옵션

인덱스를 통해 병합할 수 있다.

In [None]:
print(df1.head())
print(df2.head())
df1a = df1.set_index('employee')
# 특정 열을 변수명으로 전환
df2a = df2.set_index('employee')
display('df1a', 'df2a')

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014


In [None]:
display('df1a', 'df2a',
        "pd.merge(df1a, df2a, left_index=True, right_index=True)")

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


``join()`` 메소드는 인덱스 기반으로 조인하는 병합을 수행한다.

In [None]:
display('df1a', 'df2a', 'df1a.join(df2a)')

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


인덱스와 열을 섞어서 결합할 수 있다.

In [None]:
display('df1a', 'df3', "pd.merge(df1a, df3, left_index=True, right_on='name')")
# **_index: index name, **_on: variable name

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000

Unnamed: 0,group,name,salary
0,Accounting,Bob,70000
1,Engineering,Jake,80000
2,Engineering,Lisa,120000
3,HR,Sue,90000


### 결합을 위한 집합연산 설정

``how`` 키워드를 사용하면 결합하는 방법을 명시적으로 지정할 수 있다.

In [None]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
display('df6', 'df7', 'pd.merge(df6, df7)')

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [None]:
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [None]:
display('df6', 'df7', "pd.merge(df6, df7, how='outer')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [None]:
display('df6', 'df7', "pd.merge(df6, df7, how='left')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


### 열 이름이 겹치는 경우: ``suffixes`` 옵션

In [None]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
display('df8', 'df9', 'pd.merge(df8, df9, on="name")')

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2

Unnamed: 0,name,rank_x,rank_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


``suffixes``옵션을 사용하면 겹치는 변수의 이름을 지정할 수 있다.

In [None]:
display('df8', 'df9', 'pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])')

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2

Unnamed: 0,name,rank_L,rank_R
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


## 예제: US States 자료

자료 받기

In [None]:
# Following are shell commands to download the data
!curl -O https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-population.csv
!curl -O https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-areas.csv
!curl -O https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-abbrevs.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 57935  100 57935    0     0   175k      0 --:--:-- --:--:-- --:--:--  175k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   835  100   835    0     0   4135      0 --:--:-- --:--:-- --:--:--  4154
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   872  100   872    0     0   4538      0 --:--:-- --:--:-- --:--:--  4518


``read_csv()`` 함수를 이용하여 자료읽기

In [None]:
pop = pd.read_csv('state-population.csv')
areas = pd.read_csv('state-areas.csv')
abbrevs = pd.read_csv('state-abbrevs.csv')

display('pop.head()', 'areas.head()', 'abbrevs.head()')

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


### 2010년 인구 밀도 기준으로 미국 주와 지역 순위를 계산하고 싶다.

1. 인구(population)와 주의 전체 이름을 제공하는 데이터 결합

In [None]:
merged = pd.merge(pop, abbrevs, how='outer',
                  left_on='state/region', right_on='abbreviation')
merged = merged.drop('abbreviation', 1) # drop duplicate info
merged.head()

  merged = merged.drop('abbreviation', 1) # drop duplicate info


Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


2. Null값 찾기

In [None]:
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

In [None]:
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,Puerto Rico
2449,PR,total,1990,,Puerto Rico
2450,PR,total,1991,,Puerto Rico
2451,PR,under18,1991,,Puerto Rico
2452,PR,total,1993,,Puerto Rico


In [None]:
merged.loc[merged['state'].isnull(), 'state/region']
merged.loc[merged['state'].isnull(), 'state/region'].unique()

array(['PR', 'USA'], dtype=object)

2. 널 값에 항목 채워 넣기

In [None]:
merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States'
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

3. 면적 데이터의 결합

In [None]:
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


4. Null값 찾기

In [None]:
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

In [None]:
final['state'][final['area (sq. mi)'].isnull()].unique()

array(['United States'], dtype=object)

5. Null값 삭제

In [None]:
final.dropna(inplace=True) # NULL 삭제
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [None]:
final['state'][final['area (sq. mi)'].isnull()].unique()

array([], dtype=object)

6. 특정 데이터 선택: ``query()`` 사용

In [None]:
#!pip3 install numexpr



In [None]:
data2010 = final[(final.year == 2010) & (final.ages == 'total')]
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


In [None]:
data2010 = final.query("year == 2010 & ages == 'total'")
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


7. 인구 밀도 계산

In [None]:
data2010.set_index('state', inplace=True)
# 변수를 첨자로 변환
density = data2010['population'] / data2010['area (sq. mi)']
# density.head()

KeyError: ignored

In [None]:
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

In [None]:
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64

## 집계와 군집화

### 행성 데이터

In [None]:
planets = pd.read_csv('/content/planets.csv')
planets.shape

(1035, 6)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


### 간단한 요약 통계량 연산

In [None]:
planets.dropna().describe()
#describe: 요약통계량

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


**Pandas**에서 제공하는 집계 연산:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |


## GroupBy: 분할, 적용, 결합

자료를 요약할 때 특정 기준을 이용할 수 있다.

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


``groupby()``:

In [None]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


### GroupBy 객체

#### 열 인덱싱 : 궤도 주기

*method*별 *orbital_period*의 중앙값 계산

In [None]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

#### 그룹별 지원

In [None]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


#### 디스패치 매소드

*method*별 *year*에 대한 요약 통계량 계산

In [None]:
planets.groupby('method')['year'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


### 집계, 필터, 변환, 적용

In [None]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


#### 요약 통계량 계산

``aggregate`` 메소드를 사용하면 더 유연하게 요약 통계량을 계산할 수 있다.

In [None]:
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [None]:
df.groupby('key').aggregate({'data1': 'min',
                             'data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


#### 필터

필터연산을 사용하면 그룹 속성을 기준으로 데이터를 추출할 수 있다.

In [None]:
def filter_func(x):
    return x['data2'].std() > 4

display('df', "df.groupby('key').std()", "df.groupby('key').filter(filter_func)")

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,1.414214
B,2.12132,4.949747
C,2.12132,4.242641

Unnamed: 0,key,data1,data2
1,B,1,0
2,C,2,3
4,B,4,7
5,C,5,9


#### 변환

전체 데이터의 변환된 버전을 반환할 수 있다.

In [None]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


#### ``apply()`` 메소드

임의의 함수를 그룹 결과에 적용할 때 사용된다.

In [None]:
def norm_by_data2(x):
    # x is a DataFrame of group values
    x['data1'] /= x['data2'].sum()
    return x

display('df', "df.groupby('key').apply(norm_by_data2)")

To preserve the previous behavior, use

	>>> .groupby(..., group_keys=False)


	>>> .groupby(..., group_keys=True)
To preserve the previous behavior, use

	>>> .groupby(..., group_keys=False)


	>>> .groupby(..., group_keys=True)


Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0,key,data1,data2
0,A,0.0,5
1,B,0.142857,0
2,C,0.166667,3
3,A,0.375,3
4,B,0.571429,7
5,C,0.416667,9


### 분할 키 설정

In [None]:
L = [0, 1, 0, 1, 2, 0]
display('df', 'df.groupby(L).sum()')



Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0,data1,data2
0,7,17
1,4,3
2,4,7


In [None]:
display('df', "df.groupby(df['key']).sum()")

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,8
B,5,7
C,7,12


인덱스 값을 그룹 키에 매핑하는 딕셔너리를 제공할 수 있다.

In [None]:
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
display('df2', 'df2.groupby(mapping).sum()')

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,0
C,2,3
A,3,3
B,4,7
C,5,9

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonant,12,19
vowel,3,8


**Python**함수를 사용할 수 있다.

In [None]:
?str.lower

In [None]:
display('df2', 'df2.groupby(str.lower).mean()')

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,0
C,2,3
A,3,3
B,4,7
C,5,9

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.5,4.0
b,2.5,3.5
c,3.5,6.0


지금까지 다룬 모든 키 선택 방식은 다중 인덱스에서 그룹에 결합하여 사용할 수 있다.

In [None]:
df2.groupby([str.lower, mapping]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key,key,Unnamed: 2_level_1,Unnamed: 3_level_1
a,vowel,1.5,4.0
b,consonant,2.5,3.5
c,consonant,3.5,6.0


### 예제

In [None]:
decade = 10 * (planets['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
print(decade)
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

0       2000s
1       2000s
2       2010s
3       2000s
4       2000s
        ...  
1030    2000s
1031    2000s
1032    2000s
1033    2000s
1034    2000s
Name: decade, Length: 1035, dtype: object


decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0


## 피벗 테이블

피벗 테이블은 입력값으로 간단한 열 단위의 데이터를 취하고 그 데이터에 대한 다차원 요약을 제공하는 2차원 테이블로 항목을 그룹핑한다. 피벗 테이블은 근본적으로 ``GroupBy`` 요약 통계량의 다차원 버전이다.

``GroupBy`` 요약 통계량의 다차원 버전

In [None]:
titanic = pd.read_csv('/content/titanic.csv')

In [None]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
titanic['Survived'].mean()

0.3838383838383838

In [None]:
titanic.groupby(['Sex', 'Pclass'])['Survived'].aggregate('mean').unstack()

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


### 피벗 테이블

In [None]:
titanic.pivot_table('Survived', index='Sex', columns='Pclass')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


### 다단계 피벗 테이블

피벗 테이블의 그룹핑은 다단계로 여러 가지 옵션을 통해 지정할 수 있다.

In [None]:
age = pd.cut(titanic['Age'], [0, 18, 80])
titanic.pivot_table('Survived', ['Sex', age], 'Pclass')

Unnamed: 0_level_0,Pclass,1,2,3
Sex,Age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


``pd.qcut`` 분위수 계산:

In [None]:
fare = pd.qcut(titanic['Fare'], 2)
titanic.pivot_table('Survived', ['Sex', age], [fare, 'Pclass'])

Unnamed: 0_level_0,Fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,Pclass,1,2,3,1,2,3
Sex,Age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 80]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 80]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


### 기타 옵션

```python
# call signature as of Pandas 0.18
DataFrame.pivot_table(data, values=None, index=None, columns=None,
                      aggfunc='mean', fill_value=None, margins=False,
                      dropna=True, margins_name='All')
```

In [None]:
titanic.pivot_table(index='Sex', columns='Pclass',
                    aggfunc={'Survived':sum, 'Fare':'mean'})

Unnamed: 0_level_0,Fare,Fare,Fare,Survived,Survived,Survived
Pclass,1,2,3,1,2,3
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


``margins = True``키워드를 통해 그룹별 총합을 계산할 수 있다.

In [None]:
titanic.pivot_table('Survived', index='Sex', columns='Pclass', margins=True)

Pclass,1,2,3,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838
