# Pandas로 데이터 가공하기

Pandas는 Numpy를 기반으로 만들어진 패키지로서 DataFrame이라는 효율적인 자료구조를 제공한다.

DataFrame은 근본적으로 행과 열 레이블이 부착된 다차원 배열으로써, 여러 가지 타입의 데이터를 가질 수 있으며 데이터 누락도 허용된다.

## Pandas 설치 및 사용

pip install pandas

아나콘다 사용자라면 이미 Pandas는 설치되어 있다.

In [1]:
import pandas as pd

pandas는 별칭인 pd로 import 한다.

# Pandas 객체 소개

Pandas 객체는 행과 열이 단순한 정수형 인덱스가 아닌 레이블로 식별되는 Numpy의 구조화된 배열을 보강한 버전이라고 볼 수 있다.

In [2]:
import numpy as np
import pandas as pd

### Pandas Series 객체

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Series는 일련의 값과 인덱스를 모두 감싸고 있으며, 각각의 values와 index 속성으로 접근 할 수 있다.

Numpy배열과 마찬가지로 데이터는 파이썬 대괄호 표기법을 통해 인덱스로 접근 할 수 있다.

### Series : 일반화된 Numpy 배열

Numpy 배열에는 값에 접근하는데 사용되는 암묵적으로 정의된 정수형 인덱스가 잇고, Pandas Series에는 값에 연결된 명시적으로 정의된 인덱스가 있다. 고로 인덱스가 숫자가 아닌 문자 등으로도 가능하다.

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [9]:
data['b']

0.5

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [11]:
data[5]

0.5

### Series : 특수한 딕셔너리

파이썬에서 딕셔너리는 일련의 값에 임의이 키를 매핑하는 구조고, Series는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조로 조금 더 특수하고 효율적이다.

In [12]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

In [13]:
population['California']

38332521

In [14]:
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

### Series 객체 구성하기

>pd.Series(data, index=index)

지금까지 위 방식으로 Series를 생성했다.

data는 리스트나 Numpy 배열, 딕셔너리, 지정된 인덱스를 채우기위한 스칼라 값 이며, index 정수가 default이다. data가 딕셔너리일 경우는 index는 기본적으로 딕셔너리 키를 정렬해서 취한다.

In [15]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [16]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'})

1    b
2    a
3    c
dtype: object

In [18]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

위 경우는 명시된 3, 2 키로만 채울 수 있다.

## Pandas DataFrame 객체
### DatFrame : 일반화된 Numpy 배열
Series가 유연한 인덱스를 가지는 1차원 배열이라면

DataFrame은 유연한 행 인덱스와 유연한 열 이름을 가진 2차원 배열이라고 볼 수 있다.

DataFrame은 정렬된 Series 객체의 연속으로 볼 수 있다. (여기서 정렬은 같은 인덱스를 공유하는걸 말한다.)

In [19]:
area_dict = {'California' : 43422, 'Texas' : 59232, 'New York' : 9322,
            'Florida' : 49231, 'Illinois' : 14235}
area = pd.Series(area_dict)
area

California    43422
Florida       49231
Illinois      14235
New York       9322
Texas         59232
dtype: int64

In [20]:
states = pd.DataFrame({'population' : population,
                      'area' : area})
states

Unnamed: 0,area,population
California,43422,38332521
Florida,49231,19552860
Illinois,14235,12882135
New York,9322,19651127
Texas,59232,26448193


In [21]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [22]:
states.columns

Index(['area', 'population'], dtype='object')

population과 area series를 통해 DataFrame을 만들었다.

DataFrame도 마찬가지로 index, columns 를 통해 레이블에 접근 할 수 있다.

### DataFrame : 특수한 딕셔너리

In [23]:
states['area']

California    43422
Florida       49231
Illinois      14235
New York       9322
Texas         59232
Name: area, dtype: int64

2차원 Numpy 배열에서는 data[0]이 첫 번째 행을 반환한다. DataFrame의 경우에는 data['col0']이 첫번재 열을 반환한다.

### DataFrame 객체 구성하기
Pandas DataFrame은 다양한 방법으로 구성 할 수 있다.

In [24]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


In [25]:
data = [{'a': i, 'b' : 2 * i}
       for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [26]:
pd.DataFrame([{'a' : 1, 'b' : 2}, {'b' : 3, 'c' : 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


딕셔너리의 일부 키가 누락되더라도 Pandas는 누락된 자리를 Nan(Not a number) 값으로 채운다.

In [27]:
pd.DataFrame({'population' : population,
             'area' : area})

Unnamed: 0,area,population
California,43422,38332521
Florida,49231,19552860
Illinois,14235,12882135
New York,9322,19651127
Texas,59232,26448193


In [28]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index = ['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.643002,0.596617
b,0.299635,0.375691
c,0.348363,0.47104


2차원 배열이 주어지면 지정된 열과 인덱스 이름을 가진 DataFrame을 생성 할 수도 있다. 만약 생략될 경우 정수로 채워진다.

In [29]:
A = np.zeros(3, dtype = [('A', 'i8'), ('B', 'f8')])
A

array([(0,  0.), (0,  0.), (0,  0.)],
      dtype=[('A', '<i8'), ('B', '<f8')])

In [30]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Pandas Index 객체

In [31]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [32]:
ind[1]

3

In [33]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [34]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [35]:
ind[1] = 0

TypeError: Index does not support mutable operations

index : 불변의 배열

Index 객체와 Numpy 배열의 한 가지 차이점이라면 Index 객체는 일반적인 방법으로는 변경될 수 없는 불변의 값이라는 것이다.

이 불변성 덕분에 예기치 않은 인덱스 변경으로 인한 부작용 없이 DataFrame과 배열 사이에서 인덱스를 더 안전하게 공유할 수 있다.

In [36]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [37]:
indA & indB

Int64Index([3, 5, 7], dtype='int64')

In [38]:
indA | indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [39]:
indA ^ indB

Int64Index([1, 2, 9, 11], dtype='int64')

index : 정렬된 집합

&(교집합), |(합집합), ^(xor) 등 익숙한 방식으로 조합들이 계산 될 수 있다.

# 데이터 인덱싱과 선택
## Series에서 데이터 선택

#### Series : 딕셔너리
Series 객체는 딕셔너리와 마찬가지로 키의 집합을 값을 집합에 매핑한다.

키/인덱스와 값을 조사하기 위해 딕셔너리와 유사한 파이썬 표현식과 메서드를 사용 할 수도 있다.

Series 객체는 딕셔너리와 유사한 구문을 사용해 수정하거나 새로운 키를 할당해 확장 할 수도 있다.

In [40]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [41]:
data['b']

0.5

In [42]:
'a' in data

True

In [43]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [44]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [45]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### Series : 1차원 배열
슬라이스, 마스킹, 팬시 인덱싱 등 Numpy배열과 똑같은 기본 매커니즘으로 배열 형태의 아이템을 선택 할 수 있다.

In [46]:
# 명시적으로 인덱스로 슬라이싱하기
data['a' : 'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [47]:
# 암묵적 정수 인덱스로 슬라이싱하기
data[0 : 2]

a    0.25
b    0.50
dtype: float64

In [48]:
# 마스킹
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [49]:
# 팬시 인덱싱
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

### 인덱서 : loc, iloc, ix
정수 인덱스를 사용하는 경우 명시적 인덱스와 암묵적 인덱스의 혼선이 발생 할 수 있기 때문에 Pandas에서는 명시적 특별한 인덱서 속성을 제공한다.

In [50]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [51]:
# 인덱싱할 때 명시적인 인덱스 사용
data[1]

'a'

In [52]:
# 슬라이싱할 때 암묵적 인덱스 사용
data[1:3]

3    b
5    c
dtype: object

In [53]:
data.loc[1]

'a'

In [54]:
data.loc[1:3]

1    a
3    b
dtype: object

In [55]:
data.iloc[1]

'b'

In [56]:
data.iloc[1:3]

3    b
5    c
dtype: object

loc 속성은 명시적인 인덱스를 참조하는 인덱싱과 슬라이싱을 가능하게 한다.

iloc속성은 인덱싱과 슬라이싱에서 언제나 암묵적인 파이썬 스타일 인덱스를 참조하게 해준다.

## DataFrame에서 데이터 선택
### DataFrame: 딕셔너리
DataFrame은 관련 Series 객체의 딕셔너리이다.

DataFrame의 열을 이루는 각 Series는 열 이름으로 된 딕셔너리 스타일을 인덱싱을 통해 접근 할 수 있다.

만약 pop이라는 함수 있고, pop이라는 열 이름이 있을때 data.pop 은 메서드를 가리킨다.

In [57]:
area = pd.Series({'California' : 435323, 'Texas' : 583332,
                 'New York' : 391123, 'Florida' : 955343,
                 'Illinois' : 9332411})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,435323,38332521
Florida,955343,19552860
Illinois,9332411,12882135
New York,391123,19651127
Texas,583332,26448193


In [58]:
data['area']

California     435323
Florida        955343
Illinois      9332411
New York       391123
Texas          583332
Name: area, dtype: int64

In [59]:
data.area

California     435323
Florida        955343
Illinois      9332411
New York       391123
Texas          583332
Name: area, dtype: int64

In [60]:
data.area is data['area']

True

In [61]:
data.pop is data['pop']

False

In [62]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,435323,38332521,88.055354
Florida,955343,19552860,20.466848
Illinois,9332411,12882135,1.380365
New York,391123,19651127,50.242832
Texas,583332,26448193,45.339863


### DataFrame : 2차원 배열

In [63]:
data.values

array([[  4.35323000e+05,   3.83325210e+07,   8.80553543e+01],
       [  9.55343000e+05,   1.95528600e+07,   2.04668480e+01],
       [  9.33241100e+06,   1.28821350e+07,   1.38036516e+00],
       [  3.91123000e+05,   1.96511270e+07,   5.02428315e+01],
       [  5.83332000e+05,   2.64481930e+07,   4.53398631e+01]])

In [64]:
data.T

Unnamed: 0,California,Florida,Illinois,New York,Texas
area,435323.0,955343.0,9332411.0,391123.0,583332.0
pop,38332520.0,19552860.0,12882140.0,19651130.0,26448190.0
density,88.05535,20.46685,1.380365,50.24283,45.33986


In [65]:
data.values[0]

array([  4.35323000e+05,   3.83325210e+07,   8.80553543e+01])

In [66]:
data['area']

California     435323
Florida        955343
Illinois      9332411
New York       391123
Texas          583332
Name: area, dtype: int64

In [67]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,435323,38332521
Florida,955343,19552860
Illinois,9332411,12882135


In [68]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,435323,38332521
Florida,955343,19552860
Illinois,9332411,12882135


In [69]:
data.ix[:3, :'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,area,pop
California,435323,38332521
Florida,955343,19552860
Illinois,9332411,12882135


In [70]:
data.loc[data.density > 50, ['pop', 'density']]

Unnamed: 0,pop,density
California,38332521,88.055354
New York,19651127,50.242832


In [71]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,435323,38332521,90.0
Florida,955343,19552860,20.466848
Illinois,9332411,12882135,1.380365
New York,391123,19651127,50.242832
Texas,583332,26448193,45.339863


### 추가적인 인덱싱 규칙

In [72]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,955343,19552860,20.466848
Illinois,9332411,12882135,1.380365


In [73]:
data[1:3]

Unnamed: 0,area,pop,density
Florida,955343,19552860,20.466848
Illinois,9332411,12882135,1.380365


In [74]:
data[data.density > 50]

Unnamed: 0,area,pop,density
California,435323,38332521,90.0
New York,391123,19651127,50.242832


# Pandas에서 데이터 연산하기
pandas는 Numpy의 대부분 연산 기능을 상속 받았다.

### 유니버셜 함수 : 인덱스 보존

In [75]:
import pandas as pd
import numpy as np

In [76]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [77]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [78]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [79]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


## 유니버셜 함수 : 인덱스 정렬
### Series에서 인덱스 정렬

In [80]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [81]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [82]:
area.index | population.index

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

In [83]:
area.index & population.index

Index(['California', 'Texas'], dtype='object')

In [84]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [85]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### DataFrame에서 인덱스 정렬

In [86]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [87]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [88]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [89]:
fill = A.stack().mean()
A.add(B, fill_value=fill) #fill_value는 Nan값을 채울때 쓴다.

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


## 유니버셜 함수 : DataFrame과 Series 간의 연산

In [90]:
A = rng.randint(10, size=(3, 4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [91]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

In [92]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [93]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [94]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [95]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## 누락된 데이터 처리하기
### 누락된 데이터 처리 방식의 트레이드오프
누락된 값을 전체적으로 가리키는 마스크를 사용하거나 누락된 항목 하나를 가리키는 센티널 값을 선택하는 두 전략 중 하나로 누락된 데이터 존재를 나타낸다.

마스킹 방식에서는 부울 배열 또는 NULL(1비트) 배열을 사용 할 수 있다.

센티널 방식은 누락된 정수값을 -9999나 보기 드문 비트 패턴으로 표시하는 등 특화된 표시법이나 NaN으로 표시하는 것 같은 방법이 있다.

### Pandas에서 누락된 데이터
#### None: 파이썬의 누락된 데이터

In [96]:
import numpy as np
import pandas as pd

In [97]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [98]:
for dtype in ['object', 'int']:
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype = object
69.2 ms ± 1.81 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
2.51 ms ± 42.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)



In [99]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

dtype = object 일때는 일반적으로 표준형보다는 오버헤드가 많이 발생한다.

정수와 None의 덧셈이 정의 되어 있지 않음을 위를 통해 알 수 있다.

#### NaN: 누락된 숫자 데이터

In [None]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

In [None]:
1 + np.nan

In [None]:
0 *  np.nan

In [None]:
vals2.sum(), vals2.min(), vals2.max()

In [None]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

일반적인 nan과의 연산의 결과는 nan이다. 따라서 누락된 값을 무시하는 앞에 nan을 붙여 사용해야 한다.

#### Pandas에서 Nan과 None
array에 NaN 과 None이 둘다 있을 경우 Nan으로 자동 상향 변환 된다.

In [None]:
pd.Series([1, np.nan, 2, None])

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

정수 배열을 부동 소수점으로 바꿀때도 마찬가지로 Nan으로 자동 상향 변환 된다.

|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

Pandas에서 문자열은 항상 object dtype으로 저장 된다.

## 널 값 연산하기
isnull() - 누락 값을 가리키는 부울 마스크를 생성
notnull() - isnull()의 역
dropna() - 데이터에 필터를 적용한 버전을 반환
fillna() - 누락 값을 채우거나 전가된 데이터 사본을 반환

#### 널 값 탐지

In [None]:
data = pd.Series([1, np.nan, 'hello', None])

In [None]:
data.isnull()

In [None]:
data[data.notnull()]

#### 널 값 제거하기

In [None]:
data.dropna()

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis='columns')

In [None]:
df[3] = np.nan
df

In [None]:
df.dropna(axis='columns', how='all')

In [None]:
df.dropna(axis='rows', thresh=3)

dropna()는 기본적으로 모든 널 값이 있는 행을 삭제 한다.

axis = 1 일경우 모든 열, axis = 0 일경우 모든 행에 대해 작동한다. 이는 'columns', 'rows'로도 대체 가능하다.

how의 기본 설정 값은 'any'로 'all'로 설정할 경우 모두가 NaN인 경우에만 삭제가 된다.

thresh는 행이나 열에서 널이 아닌값이 최소 몇개 있어야 삭제하지 않을 것인지 지정할 수 있다.

#### 널 값 채우기

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.fillna(0)

In [None]:
# forward-fill(이전 값으로 채우기)
data.fillna(method='ffill')

In [None]:
# back-fill (다음에 오는 값으로 채우기)
data.fillna(method='bfill')

In [None]:
df

In [None]:
df.fillna(method='ffill', axis=1)

이전 값이 없는 경우 NaN값은 그대로 남는다.

## 계층적 인덱싱
### 다중 인덱스된 Series
#### 나쁜 방식

In [None]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

In [None]:
pop[('California', 2010):('Texas', 2000)]

In [None]:
pop[[i for i in pop.index if i[1] == 2010]]

튜플을 키 값으로 할 경우 인덱싱을 할때 두 원소에 대한 조건이 계산되므로 원하지 않는 결과가 나올 수 있다.

#### 더 나은 방식 : Pandas MultiIndex

In [None]:
index = pd.MultiIndex.from_tuples(index)
index

In [100]:
pop = pop.reindex(index)
pop

NameError: name 'index' is not defined

In [101]:
pop[:, 2010]

ValueError: Can only tuple-index with a MultiIndex

멀티 인덱스를 이용하면 단순한 튜플 기반의 다중 인덱싱 해법보다 훨씬 더 편리하며 연산도 훨씬 더 효율적이다.

#### MultiIndex : 추가 차원
unstack() 메서드는 다중 인덱스를 가진 Series를 전형적인 인덱스를 가진 DataFrame으로 빠륵 변환해준다.

In [102]:
pop_df = pop.unstack()
pop_df

AttributeError: 'Index' object has no attribute 'labels'

In [103]:
pop_df.stack()

NameError: name 'pop_df' is not defined

In [104]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

ValueError: array length 6 does not match index length 5

In [105]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

NameError: name 'pop_df' is not defined

## MultiIndex 생성 메서드
가장 간단한 방법은 배열 두개를 인자로 넣는 것이다.

In [106]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.79305,0.450425
a,2,0.61284,0.242143
b,1,0.685046,0.16635
b,2,0.286325,0.89877


In [107]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

#### 명시적 MultiIndex 생성자

In [108]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [109]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [110]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [111]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

#### MultiIndex 레벨 이름

In [112]:
pop.index.names = ['state', 'year']
pop

ValueError: Length of new names must be 1, got 2

#### 열의 MultiIndex

In [113]:
# 계층적 인덱스와 열
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# 일부 데이터 모형 만들기
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# DataFrame 생성하기
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,25.0,35.8,36.0,36.3,22.0,37.2
2013,2,22.0,37.4,39.0,36.9,48.0,38.2
2014,1,15.0,36.2,13.0,38.1,30.0,40.1
2014,2,44.0,36.3,31.0,37.6,32.0,38.8


In [114]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,36.0,36.3
2013,2,39.0,36.9
2014,1,13.0,38.1
2014,2,31.0,37.6


## MultiIndex 인덱싱 및 슬라이싱
#### 다중 인덱스를 가진 Series

In [115]:
pop

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

In [116]:
pop['California', 2000]

KeyError: ('California', 2000)

In [117]:
pop['California']

38332521

In [118]:
pop.loc['California':'New York']

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
dtype: int64

In [119]:
pop[:, 2000]

ValueError: Can only tuple-index with a MultiIndex

In [120]:
pop[pop > 22000000]

California    38332521
Texas         26448193
dtype: int64

In [121]:
pop[['California', 'Texas']]

California    38332521
Texas         26448193
dtype: int64

#### 다중 인덱스를 가진 DataFrame

In [122]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,25.0,35.8,36.0,36.3,22.0,37.2
2013,2,22.0,37.4,39.0,36.9,48.0,38.2
2014,1,15.0,36.2,13.0,38.1,30.0,40.1
2014,2,44.0,36.3,31.0,37.6,32.0,38.8


In [123]:
health_data['Guido', 'HR']

year  visit
2013  1        36.0
      2        39.0
2014  1        13.0
      2        31.0
Name: (Guido, HR), dtype: float64

In [124]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,25.0,35.8
2013,2,22.0,37.4


In [125]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        25.0
      2        22.0
2014  1        15.0
      2        44.0
Name: (Bob, HR), dtype: float64

In [126]:
health_data.loc[(:, 1), (:, 'HR')]
#튜플 내에 슬라이스를 새성하려고 하면 구문 에러가 발생한다.

SyntaxError: invalid syntax (<ipython-input-126-901901174b6d>, line 1)

In [127]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,25.0,36.0,22.0
2014,1,15.0,13.0,30.0


## 다중 인덱스 재정렬하기
#### 정렬된 인덱스와 정렬되지 않은 인덱스

In [128]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.374255
      2      0.399997
c     1      0.665923
      2      0.078225
b     1      0.921270
      2      0.852180
dtype: float64

In [129]:
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)
# 정렬되지 않은것을 슬라이싱해서 에러가 발생

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [130]:
data = data.sort_index()
data

char  int
a     1      0.374255
      2      0.399997
b     1      0.921270
      2      0.852180
c     1      0.665923
      2      0.078225
dtype: float64

In [131]:
data['a':'b']

char  int
a     1      0.374255
      2      0.399997
b     1      0.921270
      2      0.852180
dtype: float64

#### 인덱스 스태킹 및 언스태킹

In [132]:
pop.unstack(level=0)

AttributeError: 'Index' object has no attribute 'labels'

In [133]:
pop.unstack(level=1)

IndexError: Too many levels: Index has only 1 level, not 2

In [134]:
pop.unstack().stack()

AttributeError: 'Index' object has no attribute 'labels'

#### 인덱스 설정 및 재설정

In [135]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,index,population
0,California,38332521
1,Florida,19552860
2,Illinois,12882135
3,New York,19651127
4,Texas,26448193


In [136]:
pop_flat.set_index(['state', 'year'])

KeyError: 'state'

### 다중 인덱스에서 데이터 집계

In [137]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,25.0,35.8,36.0,36.3,22.0,37.2
2013,2,22.0,37.4,39.0,36.9,48.0,38.2
2014,1,15.0,36.2,13.0,38.1,30.0,40.1
2014,2,44.0,36.3,31.0,37.6,32.0,38.8


In [138]:
data_mean = health_data.mean(level='year')
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,23.5,36.6,37.5,36.6,35.0,37.7
2014,29.5,36.25,22.0,37.85,31.0,39.45


In [139]:
data_mean.mean(axis=1, level='type')

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,32.0,36.966667
2014,27.5,37.85


# 데이터세트 결합 : Concat과 Append

In [140]:
def make_df(cols, ind):
    """빠르게 DataFrame 생성"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# DataFrame 예제
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


## 복습 : Numpy 배열 연결

In [141]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [142]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

#### pd.concat을 이용한 간단한 연결
```python
# 팬더스 0.19에서 pd.concat() 함수 시그니처
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```

In [143]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [144]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1); print(df2); print(pd.concat([df1, df2])) 

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [145]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3); print(df4); print(pd.concat([df3, df4], axis=1)) 

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


#### 인덱스 복제
    Pandas에서의 연결은 그 결과가 복제된 인덱스를 가지더라도 인덱스를 유지한다는데 있다.

In [146]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # 복제 인덱스 생성!
print(x); print(y); print(pd.concat([x, y])) 

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [147]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: [0, 1]


concat 결과의 인덱스가 겹치는지 알기 위해 verify_integrity를 사용할 수 있다.

In [148]:
print(x); print(y); print(pd.concat([x, y], keys=['x', 'y'], ignore_index=True)) 

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


#### 조인을 이용한 연결

In [149]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5); print(df6); print(pd.concat([df5, df6])) 

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [150]:
print(df5); print(df6); 
print(pd.concat([df5, df6], join='inner')) 

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


join ='inner' 의 경우 두 조인의 공백이 아닌 교집합만 결합된다.
인데스 객체의 목록을 취하는 join_axes 도 있다

In [151]:
print(df5); print(df6);
print(pd.concat([df5, df6], join_axes=[df5.columns]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C
1   A1  B1  C1
2   A2  B2  C2
3  NaN  B3  C3
4  NaN  B4  C4


#### append() 메서드

In [152]:
print(df1); print(df2); print(df1.append(df2)) 
display('df1', 'df2', "df1.append(df2)")

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


'df1'

'df2'

'df1.append(df2)'

append는 원래의 객체를 변경하지 않는 대신 결합된 데이터를 가지는 새로운 객체를 만든다는 사실을 유념하자. 이 방법 역시 새 인덱스와 데이터 버퍼를 생성하기 때문에 매우 효율적인 방식이라고 보기는 어렵다. 따라서 append를 여러번 수행할꺼라면 concat() 함수로 한번에 전달하는게 더 바람직하다.

# 데이터세트 결합하기 : 병합과 조인
## 관계 대수
pd.merge()에는 관계 데이터를 조작하는 규칙의 정형 집합이자 대부분의 데이터베이스에서 사용할 수 있는 연산의 개념적 기반을 형성한느 관계대수의 하위 집합에 해당하는 행위가 구현되어 있다. 관계 대수 방식의 강점은 그것이 데이터세트에 대한 복잡한 연산의 기본 구서요소가 되는 몇 가지 기초 연산을 제안한다는 것이다.

## 조인 작업의 분류
pd.merge()함수는 일대일, 다대일, 다대다 조인 같은 여러 가지 조인 유형을 구현한다.

#### 일대일 조인

In [153]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
display('df1', 'df2')

'df1'

'df2'

In [154]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### 다대일 조인

In [155]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
display('df3', 'df4', 'pd.merge(df3, df4)')

'df3'

'df4'

'pd.merge(df3, df4)'

#### 다대다 조인

In [156]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
display('df1', 'df5', "pd.merge(df1, df5)")

'df1'

'df5'

'pd.merge(df1, df5)'

## 병합 키 지정
#### on 키워드
열 이름을 리스트를 통해 명시적으로 지정하는것

In [157]:
display('df1', 'df2', "pd.merge(df1, df2, on='employee')")

'df1'

'df2'

"pd.merge(df1, df2, on='employee')"

#### left_on, right_on 키워드
다른 열 이름을 가진 두 데이터세트를 병합하고 싶을 때 쓴다.

In [158]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
display('df1', 'df3', 'pd.merge(df1, df3, left_on="employee", right_on="name")')

'df1'

'df3'

'pd.merge(df1, df3, left_on="employee", right_on="name")'

In [159]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


#### left_index, right_index 키워드

In [160]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
display('df1a', 'df2a')

'df1a'

'df2a'

In [161]:
display('df1a', 'df2a',
        "pd.merge(df1a, df2a, left_index=True, right_index=True)")

'df1a'

'df2a'

'pd.merge(df1a, df2a, left_index=True, right_index=True)'

In [162]:
display('df1a', 'df2a', 'df1a.join(df2a)')

'df1a'

'df2a'

'df1a.join(df2a)'

In [163]:
display('df1a', 'df3', "pd.merge(df1a, df3, left_index=True, right_on='name')")

'df1a'

'df3'

"pd.merge(df1a, df3, left_index=True, right_on='name')"

## 조인을 위한 집합 연산 지정하기
how의 옵션으로 inner, outer, left, right가 있다. inner은 Nan있는건 출력x, outer은 Nan까지 출력o, left는 왼쪽인자 Nan있는건 출력x, right는 오른쪽인자 Nan있는건 출력x

In [164]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
display('df6', 'df7', 'pd.merge(df6, df7)')

'df6'

'df7'

'pd.merge(df6, df7)'

In [165]:
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [166]:
display('df6', 'df7', "pd.merge(df6, df7, how='outer')")

'df6'

'df7'

"pd.merge(df6, df7, how='outer')"

In [167]:
display('df6', 'df7', "pd.merge(df6, df7, how='left')")

'df6'

'df7'

"pd.merge(df6, df7, how='left')"

# 집계와 분류

## 행성 데이터

In [168]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

In [169]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


## Pandas의 간단한 집계 연산

In [170]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64

In [171]:
ser.sum()

2.811925491708157

In [172]:
ser.mean()

0.5623850983416314

In [173]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
df

Unnamed: 0,A,B
0,0.155995,0.020584
1,0.058084,0.96991
2,0.866176,0.832443
3,0.601115,0.212339
4,0.708073,0.181825


In [174]:
df.mean()

A    0.477888
B    0.443420
dtype: float64

In [175]:
df.mean(axis='columns')

0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64

In [176]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


describe()메서드는 여러 일반적인 집계를 계산하고 그 결과를 반환한다.

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | 항목 전체 개수           |
| ``first()``, ``last()``  | 첫 항목과 마지막 항목             |
| ``mean()``, ``median()`` | 평균값과 중앙값                 |
| ``min()``, ``max()``     | 최솟값과 최댓값             |
| ``std()``, ``var()``     | 표준편차와 분산 |
| ``mad()``                | 절대 평균 편차         |
| ``prod()``               | 전체 항목의 곱            |
| ``sum()``                | 전체 항목의 합                |

## GroupBy : 분할, 적용, 결합

In [177]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [178]:
df.groupby('key')

<pandas.core.groupby.DataFrameGroupBy object at 0x000002194DEB0F28>

In [179]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


#### GroupBy 객체

In [180]:
planets.groupby('method')

<pandas.core.groupby.DataFrameGroupBy object at 0x000002194DEB0AC8>

In [181]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.SeriesGroupBy object at 0x000002194DEB0438>

In [182]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [183]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


In [184]:
planets.groupby('method')['year'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


#### 집계, 필터, 변환, 적용

In [185]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [186]:
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [187]:
df.groupby('key').aggregate({'data1': 'min',
                             'data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


In [188]:
def filter_func(x):
    return x['data2'].std() > 4

display('df', "df.groupby('key').std()", "df.groupby('key').filter(filter_func)")

'df'

"df.groupby('key').std()"

"df.groupby('key').filter(filter_func)"

In [189]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


In [190]:
def norm_by_data2(x):
    # x는 그룹의 값을 가지는 DataFrame
    x['data1'] /= x['data2'].sum()
    return x

display('df', "df.groupby('key').apply(norm_by_data2)")

'df'

"df.groupby('key').apply(norm_by_data2)"

#### 분할 키 지정하기

In [191]:
L = [0, 1, 0, 1, 2, 0]
display('df', 'df.groupby(L).sum()')

'df'

'df.groupby(L).sum()'

In [192]:
display('df', "df.groupby(df['key']).sum()")

'df'

"df.groupby(df['key']).sum()"

In [193]:
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
display('df2', 'df2.groupby(mapping).sum()')

'df2'

'df2.groupby(mapping).sum()'

In [194]:
display('df2', 'df2.groupby(str.lower).mean()')

'df2'

'df2.groupby(str.lower).mean()'

In [195]:
df2.groupby([str.lower, mapping]).mean()

Unnamed: 0,Unnamed: 1,data1,data2
a,vowel,1.5,4.0
b,consonant,2.5,3.5
c,consonant,3.5,6.0


# 피벗 테이블
## 피벗 테이블 시작

In [196]:
import numpy as np
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic')

In [197]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## 피벗 테이블 등장 배경

In [198]:
titanic.groupby('sex')[['survived']].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [199]:
titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


## 피벗 테이블 구문

In [200]:
titanic.pivot_table('survived', index='sex', columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


#### 다단계 피벗 테이블

In [201]:
age = pd.cut(titanic['age'], [0, 18, 80])
titanic.pivot_table('survived', ['sex', age], 'class')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


In [202]:
fare = pd.qcut(titanic['fare'], 2)
titanic.pivot_table('survived', ['sex', age], [fare, 'class'])

fare            (-0.001, 14.454]                     (14.454, 512.329]  \
class                      First    Second     Third             First   
sex    age                                                               
female (0, 18]               NaN  1.000000  0.714286          0.909091   
       (18, 80]              NaN  0.880000  0.444444          0.972973   
male   (0, 18]               NaN  0.000000  0.260870          0.800000   
       (18, 80]              0.0  0.098039  0.125000          0.391304   

fare                                 
class              Second     Third  
sex    age                           
female (0, 18]   1.000000  0.318182  
       (18, 80]  0.914286  0.391304  
male   (0, 18]   0.818182  0.178571  
       (18, 80]  0.030303  0.192308  

#### 기타 피벗 테이블

In [203]:
titanic.pivot_table(index='sex', columns='class',
                    aggfunc={'survived':sum, 'fare':'mean'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


In [204]:
titanic.pivot_table('survived', index='sex', columns='class', margins=True)

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


# 벡터화된 문자열 연산
## Pandas 문자열 연산 소개

In [205]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

In [206]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

In [207]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

In [208]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

In [209]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

## Pandas 문자열 메서드 목록

In [210]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

#### 파이썬 문자열 메서드와 유사한 메서드
|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

In [211]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

In [212]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [213]:
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [214]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

#### 정규 표현식을 활용하는 메서드
| Method | Description |
|--------|-------------|
| ``match()`` | Call ``re.match()`` on each element, returning a boolean. |
| ``extract()`` | Call ``re.match()`` on each element, returning matched groups as strings.|
| ``findall()`` | Call ``re.findall()`` on each element |
| ``replace()`` | Replace occurrences of pattern with some other string|
| ``contains()`` | Call ``re.search()`` on each element, returning a boolean |
| ``count()`` | Count occurrences of pattern|
| ``split()``   | Equivalent to ``str.split()``, but accepts regexps |
| ``rsplit()`` | Equivalent to ``str.rsplit()``, but accepts regexps |

In [215]:
monte.str.extract('([A-Za-z]+)', expand=False)

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

In [216]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

#### 기타 메서드
| Method | Description |
|--------|-------------|
| ``get()`` | Index each element |
| ``slice()`` | Slice each element|
| ``slice_replace()`` | Replace slice in each element with passed value|
| ``cat()``      | Concatenate strings|
| ``repeat()`` | Repeat values |
| ``normalize()`` | Return Unicode form of string |
| ``pad()`` | Add whitespace to left, right, or both sides of strings|
| ``wrap()`` | Split long strings into lines with length less than a given width|
| ``join()`` | Join strings in each element of the Series with passed separator|
| ``get_dummies()`` | extract dummy variables as a dataframe |

In [217]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [218]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

In [219]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C', 'B|C|D']})
full_monte

Unnamed: 0,info,name
0,B|C|D,Graham Chapman
1,B|D,John Cleese
2,A|C,Terry Gilliam
3,B|D,Eric Idle
4,B|C,Terry Jones
5,B|C|D,Michael Palin


In [220]:
full_monte['info'].str.get_dummies('|')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


# 시계열 다루기
## 파이썬에서의 날짜와 시간
#### 기본 파이썬 날짜와 시간 : datetime과 dateutil

In [221]:
from datetime import datetime
datetime(year=2015, month=7, day=4)

datetime.datetime(2015, 7, 4, 0, 0)

In [222]:
from dateutil import parser
date = parser.parse("4th of July, 2015")
date

datetime.datetime(2015, 7, 4, 0, 0)

In [223]:
date.strftime('%A')

'Saturday'

#### 타입이 지정된 시간 배열 : Numpy의 datetime64

In [224]:
import numpy as np
date = np.array('2015-07-04', dtype=np.datetime64)
date

array(datetime.date(2015, 7, 4), dtype='datetime64[D]')

In [225]:
date + np.arange(12)

array(['2015-07-04', '2015-07-05', '2015-07-06', '2015-07-07',
       '2015-07-08', '2015-07-09', '2015-07-10', '2015-07-11',
       '2015-07-12', '2015-07-13', '2015-07-14', '2015-07-15'], dtype='datetime64[D]')

In [226]:
np.datetime64('2015-07-04')

numpy.datetime64('2015-07-04')

In [227]:
np.datetime64('2015-07-04 12:00')

numpy.datetime64('2015-07-04T12:00')

In [228]:
np.datetime64('2015-07-04 12:59:59.50', 'ns')

numpy.datetime64('2015-07-04T12:59:59.500000000')

|Code    | Meaning     | Time span (relative) | Time span (absolute)   |
|--------|-------------|----------------------|------------------------|
| ``Y``  | Year	       | ± 9.2e18 years       | [9.2e18 BC, 9.2e18 AD] |
| ``M``  | Month       | ± 7.6e17 years       | [7.6e17 BC, 7.6e17 AD] |
| ``W``  | Week	       | ± 1.7e17 years       | [1.7e17 BC, 1.7e17 AD] |
| ``D``  | Day         | ± 2.5e16 years       | [2.5e16 BC, 2.5e16 AD] |
| ``h``  | Hour        | ± 1.0e15 years       | [1.0e15 BC, 1.0e15 AD] |
| ``m``  | Minute      | ± 1.7e13 years       | [1.7e13 BC, 1.7e13 AD] |
| ``s``  | Second      | ± 2.9e12 years       | [ 2.9e9 BC, 2.9e9 AD]  |
| ``ms`` | Millisecond | ± 2.9e9 years        | [ 2.9e6 BC, 2.9e6 AD]  |
| ``us`` | Microsecond | ± 2.9e6 years        | [290301 BC, 294241 AD] |
| ``ns`` | Nanosecond  | ± 292 years          | [ 1678 AD, 2262 AD]    |
| ``ps`` | Picosecond  | ± 106 days           | [ 1969 AD, 1970 AD]    |
| ``fs`` | Femtosecond | ± 2.6 hours          | [ 1969 AD, 1970 AD]    |
| ``as`` | Attosecond  | ± 9.2 seconds        | [ 1969 AD, 1970 AD]    |

#### Pandas에서의 날짜와 시간 : 두 세계의 최선

In [229]:
import pandas as pd
date = pd.to_datetime("4th of July, 2015")
date

Timestamp('2015-07-04 00:00:00')

In [230]:
date.strftime('%A')

'Saturday'

In [231]:
date + pd.to_timedelta(np.arange(12), 'D')

DatetimeIndex(['2015-07-04', '2015-07-05', '2015-07-06', '2015-07-07',
               '2015-07-08', '2015-07-09', '2015-07-10', '2015-07-11',
               '2015-07-12', '2015-07-13', '2015-07-14', '2015-07-15'],
              dtype='datetime64[ns]', freq=None)

# Pandas 시계열 : 시간으로 인덱싱하기

In [232]:
index = pd.DatetimeIndex(['2014-07-04', '2014-08-04',
                          '2015-07-04', '2015-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
data

2014-07-04    0
2014-08-04    1
2015-07-04    2
2015-08-04    3
dtype: int64

In [233]:
data['2014-07-04':'2015-07-04']

2014-07-04    0
2014-08-04    1
2015-07-04    2
dtype: int64

In [234]:
data['2015']

2015-07-04    2
2015-08-04    3
dtype: int64

## Pandas 시계열 데이터 구조
타임스탬프, 기간, 시간 델타

In [235]:
dates = pd.to_datetime([datetime(2015, 7, 3), '4th of July, 2015',
                       '2015-Jul-6', '07-07-2015', '20150708'])
dates

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)

In [236]:
dates.to_period('D')

PeriodIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
             '2015-07-08'],
            dtype='period[D]', freq='D')

In [237]:
dates - dates[0]

TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq=None)

#### 정규 시퀸스 : pd.date_range()

In [238]:
pd.date_range('2015-07-03', '2015-07-10')

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10'],
              dtype='datetime64[ns]', freq='D')

In [239]:
pd.date_range('2015-07-03', periods=8)

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10'],
              dtype='datetime64[ns]', freq='D')

In [240]:
pd.date_range('2015-07-03', periods=8, freq='H')

DatetimeIndex(['2015-07-03 00:00:00', '2015-07-03 01:00:00',
               '2015-07-03 02:00:00', '2015-07-03 03:00:00',
               '2015-07-03 04:00:00', '2015-07-03 05:00:00',
               '2015-07-03 06:00:00', '2015-07-03 07:00:00'],
              dtype='datetime64[ns]', freq='H')

In [241]:
pd.period_range('2015-07', periods=8, freq='M')

PeriodIndex(['2015-07', '2015-08', '2015-09', '2015-10', '2015-11', '2015-12',
             '2016-01', '2016-02'],
            dtype='period[M]', freq='M')

In [242]:
pd.timedelta_range(0, periods=10, freq='H')

TimedeltaIndex(['00:00:00', '01:00:00', '02:00:00', '03:00:00', '04:00:00',
                '05:00:00', '06:00:00', '07:00:00', '08:00:00', '09:00:00'],
               dtype='timedelta64[ns]', freq='H')

## 주기와 오프셋
| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |        |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |        |                      |
| ``S``  | Seconds             |        |                      |
| ``L``  | Milliseonds         |        |                      |
| ``U``  | Microseconds        |        |                      |
| ``N``  | nanoseconds         |        |                      |

| Code    | Description            || Code    | Description            |
|---------|------------------------||---------|------------------------|
| ``MS``  | Month start            ||``BMS``  | Business month start   |
| ``QS``  | Quarter start          ||``BQS``  | Business quarter start |
| ``AS``  | Year start             ||``BAS``  | Business year start    |

In [243]:
pd.timedelta_range(0, periods=9, freq="2H30T")

TimedeltaIndex(['00:00:00', '02:30:00', '05:00:00', '07:30:00', '10:00:00',
                '12:30:00', '15:00:00', '17:30:00', '20:00:00'],
               dtype='timedelta64[ns]', freq='150T')

In [244]:
from pandas.tseries.offsets import BDay
pd.date_range('2015-07-01', periods=5, freq=BDay())

DatetimeIndex(['2015-07-01', '2015-07-02', '2015-07-03', '2015-07-06',
               '2015-07-07'],
              dtype='datetime64[ns]', freq='B')


# 고성능 Pandas : eval()과 query()
## query()와 eval()의 등장 배경 : 복합 표현식

In [245]:
import numpy as np
rng = np.random.RandomState(42)
x = rng.rand(1000000)
y = rng.rand(1000000)
%timeit x + y

5.17 ms ± 102 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [246]:
%timeit np.fromiter((xi + yi for xi, yi in zip(x, y)), dtype=x.dtype, count=len(x))

229 ms ± 3.19 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [247]:
mask = (x > 0.5) & (y < 0.5)

In [248]:
tmp1 = (x > 0.5)
tmp2 = (y < 0.5)
mask = tmp1 & tmp2

In [249]:
import numexpr
mask_numexpr = numexpr.evaluate('(x > 0.5) & (y < 0.5)')
np.allclose(mask, mask_numexpr)

True

## 효율적인 연산을 위한 pandas.eval()

In [250]:
import pandas as pd
nrows, ncols = 100000, 100
rng = np.random.RandomState(42)
df1, df2, df3, df4 = (pd.DataFrame(rng.rand(nrows, ncols))
                      for i in range(4))

In [251]:
%timeit df1 + df2 + df3 + df4

114 ms ± 1.43 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [252]:
%timeit pd.eval('df1 + df2 + df3 + df4')

52.4 ms ± 811 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [253]:
np.allclose(df1 + df2 + df3 + df4,
            pd.eval('df1 + df2 + df3 + df4'))

True

#### pd.eval()이 지원하는 연산

In [254]:
df1, df2, df3, df4, df5 = (pd.DataFrame(rng.randint(0, 1000, (100, 3)))
                           for i in range(5))

In [255]:
result1 = -df1 * df2 / (df3 + df4) - df5
result2 = pd.eval('-df1 * df2 / (df3 + df4) - df5')
np.allclose(result1, result2)

True

In [256]:
result1 = (df1 < df2) & (df2 <= df3) & (df3 != df4)
result2 = pd.eval('df1 < df2 <= df3 != df4')
np.allclose(result1, result2)

True

In [257]:
result1 = (df1 < 0.5) & (df2 < 0.5) | (df3 < df4)
result2 = pd.eval('(df1 < 0.5) & (df2 < 0.5) | (df3 < df4)')
np.allclose(result1, result2)

True

In [258]:
result3 = pd.eval('(df1 < 0.5) and (df2 < 0.5) or (df3 < df4)')
np.allclose(result1, result3)

True

In [259]:
result1 = df2.T[0] + df3.iloc[1]
result2 = pd.eval('df2.T[0] + df3.iloc[1]')
np.allclose(result1, result2)

True

## 열단위 연산을 위한 DataFrame.eval()

In [260]:
df = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C'])
df.head()

Unnamed: 0,A,B,C
0,0.375506,0.406939,0.069938
1,0.069087,0.235615,0.154374
2,0.677945,0.433839,0.652324
3,0.264038,0.808055,0.347197
4,0.589161,0.252418,0.557789


In [261]:
result1 = (df['A'] + df['B']) / (df['C'] - 1)
result2 = pd.eval("(df.A + df.B) / (df.C - 1)")
np.allclose(result1, result2)

True

In [262]:
result3 = df.eval('(A + B) / (C - 1)')
np.allclose(result1, result3)

True

#### DataFrame.eval()에서의 할당

In [263]:
df.head()

Unnamed: 0,A,B,C
0,0.375506,0.406939,0.069938
1,0.069087,0.235615,0.154374
2,0.677945,0.433839,0.652324
3,0.264038,0.808055,0.347197
4,0.589161,0.252418,0.557789


In [264]:
df.eval('D = (A + B) / C', inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.375506,0.406939,0.069938,11.18762
1,0.069087,0.235615,0.154374,1.973796
2,0.677945,0.433839,0.652324,1.704344
3,0.264038,0.808055,0.347197,3.087857
4,0.589161,0.252418,0.557789,1.508776


In [265]:
df.eval('D = (A - B) / C', inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.375506,0.406939,0.069938,-0.449425
1,0.069087,0.235615,0.154374,-1.078728
2,0.677945,0.433839,0.652324,0.374209
3,0.264038,0.808055,0.347197,-1.566886
4,0.589161,0.252418,0.557789,0.603708


#### DataFrame.eva()의 지역 변수

In [266]:
column_mean = df.mean(1)
result1 = df['A'] + column_mean
result2 = df.eval('A + @column_mean')
np.allclose(result1, result2)

True

## DataFrame.query메서드

In [267]:
result1 = df[(df.A < 0.5) & (df.B < 0.5)]
result2 = pd.eval('df[(df.A < 0.5) & (df.B < 0.5)]')
np.allclose(result1, result2)

True

In [268]:
result2 = df.query('A < 0.5 and B < 0.5')
np.allclose(result1, result2)

True

In [269]:
Cmean = df['C'].mean()
result1 = df[(df.A < Cmean) & (df.B < Cmean)]
result2 = df.query('A < @Cmean and B < @Cmean')
np.allclose(result1, result2)

True