# 공부를 어떻게 하면 될까나
- data의 처리, 가공
    numpy, pandas
- data의 시각화
    matplotlib, seaborn, plotly
- 모델링
    sklearn, pytorch, tensorflow, keras
- 공간정보
    geopandas, folium

실제 데이터로 실습
    project-base
    task-base

# Chapter5

# Getting Started with pandas

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame

In [3]:
import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
PREVIOS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.set_printoptions(precision=4, suppress=True)

# Introduction to pandas Data Structures

# Series

Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

index : 배열의 데이터와 연관된 이름

In [4]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다.

기본 색인 : 정수 0에서 N -1 (N은 데이터의 길이)

In [5]:
obj.values

array([ 4,  7, -5,  3])

In [6]:
obj.index # range(4)와 같다

RangeIndex(start=0, stop=4, step=1)

In [7]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
# [4, 7, -5, 3] = dictionary ~ key, value로 이루어짐
obj2
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
obj2['a']
obj2['d']
obj2[['c', 'a', 'd']] #색인의 배열로 해석됨

c    3
a   -5
d    4
dtype: int64

불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열 연산을 수행해도 색인 - 값 연결이 유지된다

In [9]:
obj2[obj2 > 0]
obj2 * 2
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series = 고정 길이의 정렬된 사전형
    : 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷함

In [10]:
'b' in obj2
'e' in obj2

False

파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로 부터 Series 객체를 생성 가능하다

In [11]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah':5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

사전 객체만 가지고 Series 객체를 생성하면, 생성된 Series 객체의 색인에는 사전의 키 값이 순서대로 들어간다.

색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 직접 넘겨줄 수도 있다.

In [12]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

=sdata에 있는 값 중 3개만 확인 가능

'California'에 대한 값은 찾을 수 없기 때문.

이 값은 NaN으로 표시되고 pandas에서는 누락된 값, 혹은 NA값으로 취급됨

##### isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다

In [13]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [14]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

위 메서드는 Series의 인스턴스 메서드로도 존재한다.

In [15]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

유용한 기능 : 산술 연산에서 색인과 라벨로 자동 정렬하는 것

In [16]:
obj3
obj4
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series 객체와 Series의 색인은 모두 name 속성이 있는데 이 속성은 pandas의 핵심 기능과 밀접한 관련이 있다.

In [17]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Series의 색인은 대입하여 변경할 수 있다.

In [18]:
obj
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

# DataFrame


DataFrame : 표 같은 스프레드시트 형식의 자료구조

생성방법 : 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 것

In [19]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [20]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [21]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [22]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장된다

In [23]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [24]:
# 이 함수는 존나 많이 쓰는 함수
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다.

In [25]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [26]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [27]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [28]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [29]:
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


리스트나 배열에 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야한다.

Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치가 대입된다.

In [30]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [31]:
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


존재하지 않는 컬럼을 대입하면 새로운 컬럼을 생성한다.

파이썬 사전형에서처럼 del 예약어를 사용해서 컬럼을 삭제할 수 있다.

del 예약어에 대한 예제로, state 컬럼의 값이 'Ohio'인지 아닌지에 대한 불리언값을 담고 있는 새로운 컬럼을 아래에 생성해봄

In [32]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


del 예약어를 이용해서 이 컬럼을 삭제할 수 있다.

In [33]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

중첩된 사전을 이용해서 데이터를 생성 가능

In [34]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

이 중첩된 사전을 DataFrame에 넘기면 바깥에 있는 사전의 키는 컬럼이 되고 안에 있는 키는 로우가 된다.

In [35]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [36]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전값은 키값별로 조합되어 결과의 색인이 되지만 색인을 직접 지정하면 지정된 색인으로 DataFrame를 생성.

In [37]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [38]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [39]:
frame3.index.name = 'year'; frame3.columns.name = 'state'

Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 변환한다.

In [40]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

컬럼이 서로 다른 dtpye을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택된다.

In [41]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

# Index Objects (색인 객체)

pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 객체다.

Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환된다.

In [42]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index
index[1:]

Index(['b', 'c'], dtype='object')

In [43]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [44]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2
obj2.index is labels

True

In [45]:
frame3
frame.columns
'Ohio' in frame3.columns
2003 in frame3.index

False

In [46]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

# Essential Functionality

## Reindexing(재색인)

reindex : 새로운 색인에 맞도록 객체를 새로 생성하는 역할

In [47]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN을 추가한다.

In [48]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

시계열 같은 순차적인 데이터를 재색인 할 때 값을 보간하거나 채워 넣어야 할 경우

method 옵션을 이용해서 이를 해결할 수 있음녀, ffill 같은 메서드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.

In [49]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index = [0, 2, 4])
obj3
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

DataFrame에 대한 reindex는 로우(색인), 컬럼, 또는 둘 다 변경 가능하다.

그냥 순서만 전달하면 로우가 재색인된다.

In [50]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [51]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


컬럼은 columns 예약어를 사용해서 재색인 할 수 있다.

In [52]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [53]:
frame.loc[['a', 'b', 'c', 'd'], states] #교수님이 책에서도 이상 있다고 하신부분

KeyError: "['b'] not in index"

재색인은 loc를 이용해서 라벨로 색인하면 좀 더 간결하게 할 수 있다.

## 하나의 로우나 컬럼 삭제하기

drop 메서드 : 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [54]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [55]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [56]:
obj.drop(['d', 'c']) #하나의 리스트로 묶어서 빼줌

a    0.0
b    1.0
e    4.0
dtype: float64

In [57]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


drop 함수에 인자로 로우 이름을 넘기면 해당 로우(axis 0)의 값을 모두 삭제한다.

In [58]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


컬럼의 값을 삭제할 때는 axis=1 또는 axis='columns'를 인자로 넘겨주면 된다.

In [59]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [60]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


drop 함수처럼 Series나 DataFrame의 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경한다.

In [61]:
obj.drop('c', inplace = True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

# Indexing, Selection, and Filtering(색인하기, 선택하기, 거르기)

# 이거 좀 많이 중요함!!!

Series의 색인 (obj[...])은 NumPy 배열의 색인과 유사하게 동작하지만 정수가 아니여도 된다는 점은 다름!

In [62]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [63]:
obj['b']

1.0

In [64]:
obj[1]

1.0

In [65]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [66]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [67]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [68]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

라벨 이름으로 슬라이싱 하면 시작점과 끝점을 포함한다는 것 ~ 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [69]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [70]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [71]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [72]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [73]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [74]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [75]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


data[:2] 형식의 문법으로 편리하게 로우를 선택할 수 있다.

[] 연산자에 단일 값을 넘기거나 리스트를 넘겨서 여러 컬럼을 선택할 수 있다.

##### 다른 방법 : 스칼라 비교를 이용해 생성된 불리언 DataFrame을 사용해서 값을 선택

In [76]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [77]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


# Selection with loc and iloc

로우에 대해 라벨로 색인하는 방법

NumPy와 비슷한 방식에 추가적으로 축의 라벨을 사용하여 DataFrame의 로우와 컬럼을 선택 가능

#### loc : 축 이름을 선택할 때

#### iloc : 정수 색인

In [78]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [79]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [80]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [81]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [82]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [83]:
data.loc[:'Utah']

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11


In [84]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


# 정수 색인

ser = pd.Series(np.arange(3.))ser ser[-1]

In [85]:
ser = pd.Series(np.arange(3.))

In [86]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [87]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

일관성을 유지하기 위해 정숫값을 담고 있는 축 색인이 있다면 우선적으로 라벨을 먼저 찾아보도록 구현되어 있다. 

In [88]:
ser[:1]

0    0.0
dtype: float64

label 기반 : loc

숫자 기반 : iloc

In [89]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [90]:
ser.iloc[:1]

0    0.0
dtype: float64

# 산술 연산과 데이터 정렬

객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인이 통합된다.

In [91]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [92]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
              index=['a', 'c', 'e', 'f', 'g'])
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [93]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

서로 겹치는 색인이 없는 경우 데이터는 NA 값이 된다.

산술 연산 시 누락된 값은 전파된다.

In [94]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                  index=['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [95]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


이 두 DataFrame을 더하면 각 DataFrame에 있는 색인과 컬럼이 하나로 합쳐진다.

In [96]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


'c'와 'e' 컬럼이 양쪽 DataFrame 객체에 존재하지 않으므로 결과에서는 모두 없는 값으로 나타난다.

로우 역시 마찬가지로 양쪽에 다 존재하지 않는 라벨에 대해서는 없는 값으로 나타난다.

In [97]:
df1 = pd.DataFrame({'A': [1, 2]})
df1

Unnamed: 0,A
0,1
1,2


In [98]:
df2 = pd.DataFrame({'B': [3, 4]})
df2

Unnamed: 0,B
0,3
1,4


In [99]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


# 산술 연산 메서드에 채워 넣을 값 지정하기

서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 특수한 값(0 같은)으로 지정하고 싶을 때는 다음과 같이 가능

In [100]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                  columns=list('abcd'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [101]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                  columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


위 둘을 더하면 겹치지 않는 부분은 NA 값이 된다.

In [102]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


df1에 add 메서드를 사용하고, df2와 fill_value 값을 인자로 전달한다.

In [103]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


각각의 산술 연산 메서드는 r로 시작하는 계산 인자를 뒤집어 계산하는 짝궁 메서드를 가진다.

In [104]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [105]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


Series나 DataFrame을 재색인할 때도 fill_value를 지정할 수 있다.

In [106]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


# DataFrame과 Series 간의 연산

In [107]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [108]:
arr[0]

array([0., 1., 2., 3.])

In [109]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

arr에서 arr[0]을 뺴면 계산은 각 로우에 대해 한 번씩만 수행된다.

==브로드 캐스팅

In [110]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [111]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [112]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [113]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

기본적으로 DataFrame과 Series 간의 산술 연산은 Series의 색인을 DataFrame의 컬럼에 맞추고 아래 로우로 전파한다.

In [114]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


만약 색인값을 DataFrame의 컬럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인된다.

In [115]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


만약 각 로우에 대해 연산을 수행하고 싶다면 산술 연산 메서드를 사용하면 된다.

In [116]:
series3 = frame['d']
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [117]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [118]:
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


인자로 넘기는 axis 값은 연산을 적용할 축 번호다.

axis = 'index'나, axis = 0은 DataFrame의 로우를 따라 연산을 수행하라는 의미

# 함수 적용과 매핑

pandas 객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다.

In [119]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.204708,0.478943,0.519439
Ohio,0.55573,1.965781,1.393406
Texas,0.092908,0.281746,0.769023
Oregon,1.246435,1.007189,1.296221


각 컬럼이나 로우의 1차원 배열에 함수를 적용가능

이는 DataFrame의 apply메서드를 이용해 수행 가능하다.

In [120]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.802165
d    1.684034
e    2.689627
dtype: float64

함수 f는 Series의 최댓값과 최솟값의 차이를 계산하는 함수다.

frame의 각 컬럼에 대해 한번만 수행되며 결괏값은 계산을 적용한 컬럼을 색인으로 하는 Series를 반환한다.

apply 함수에 axis='columns'인자를 넘기면 각 로우에 대해 한번씩만 수행된다.

In [121]:
frame.apply(f, axis='columns')

Utah      0.998382
Ohio      2.521511
Texas     0.676115
Oregon    2.542656
dtype: float64

배열에 대한 일반적인 통계(sum이나 mean 같은)는 DataFrame의 메서드로 존재하므로 apply 메서드를 사용할 필요없다.

apply 메서드에 전달된 함수는 스칼라 값을 반환할 필요가 없다. 여러 값을 가진 Series를 반환해도 된다.

In [122]:
def f(x):
    return pd.Series([x.min(), x.max()], index = ['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-0.55573,0.281746,-1.296221
max,1.246435,1.965781,1.393406


frame 객체에서 실숫값을 문자열 포맷으로 변환하고 싶다면 applymap을 이용해서 다음과 같이 할 수 있다.

In [123]:
format = lambda x: '%.2f' %x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.2,0.48,-0.52
Ohio,-0.56,1.97,1.39
Texas,0.09,0.28,0.77
Oregon,1.25,1.01,-1.3


applymap ~ Series는 각 원소에 적용할 함수를 지정하기 위한 map 메서드를 가지고 있기 때문

In [124]:
frame['e'].map(format)

Utah      -0.52
Ohio       1.39
Texas      0.77
Oregon    -1.30
Name: e, dtype: object

# 정렬과 순위

로우나 컬럼의 색인을 알파벳 순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용하면 된다.

In [125]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

로우나 컬럼 중 하나의 축을 기준으로 정렬 가능

In [126]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [127]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


기본적으로 오름차순으로 정렬되고 내림차순으로 정렬할 수도 있다.

In [128]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용하면 된다.

In [129]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

정렬할 때 비어 있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치

In [130]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

하나 이상의 컬럼에 있는 값으로 정렬을 하는 경우 sort_values 함수의 by 옵션에 하나 이상의 컬럼 이름을 넘기면 된다.

In [131]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


여러 개의 컬럼을 정렬하려면 컬럼 이름이 담긴 리스트를 전달하면 됨

In [132]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


순위는 정렬과 거의 흡사한데, 1부터 배열의 유효한 데이터 개수까지 순서를 매긴다.

Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [133]:
obj = pd.Series([7, -5, 4, 2, 0, 4])
obj.rank()

0    6.0
1    1.0
2    4.5
3    3.0
4    2.0
5    4.5
dtype: float64

In [134]:
obj.rank(method='first')

0    6.0
1    1.0
2    4.0
3    3.0
4    2.0
5    5.0
dtype: float64

In [135]:
# 동률인 경우 그룹 내엣 높은 순위를 적용한다
obj.rank(ascending=False, method='max')

0    1.0
1    6.0
2    3.0
3    4.0
4    5.0
5    3.0
dtype: float64

DataFrame에서는 로우나 컬럼에 대해 순위를 정할 수도 있다.

In [136]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [137]:
frame.rank(axis='columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


# 중복 색인

In [138]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

색인의 is_unique 속성 : 해당 값이 유일한지 아닌지 알려줌

In [139]:
obj.index.is_unique

False

중복되는 색인값이 없을 때는 색인을 이용해서 데이터에 접근하면 스칼라값을 반환하지만 중복되는 색인값이 있을 때는 하나의 Series 객체를 반환한다.

In [140]:
obj['a']

a    0
a    1
dtype: int64

In [141]:
obj['c']

4

In [142]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,0.274992,0.228913,1.352917
a,0.886429,-2.001637,-0.371843
b,1.669025,-0.43857,-0.539741
b,0.476985,3.248944,-1.021228


In [143]:
df.loc['b']

Unnamed: 0,0,1,2
b,1.669025,-0.43857,-0.539741
b,0.476985,3.248944,-1.021228


# 기술 통계 계산과 요약

In [144]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                  [np.nan, np.nan], [0.75, -1.3]],
                 index=['a', 'b', 'c', 'd'],
                 columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


DataFrame의 sum 메서드를 호출하면 각 컬럼의 합을 담은 Series를 반환한다.

In [145]:
df.sum()

one    9.25
two   -5.80
dtype: float64

axis='columns' 또는 axis=1 옵션을 넘기면 각 컬럼의 합을 반환한다.

In [146]:
df.sum(axis='columns') #컬럼단위의 합을 구하기 위함

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

전체 로우나 컬럼의 값이 NA가 아니라면 NA 값은 제외하고 계산된다.

이는 skipna 옵션으로 조정 가능

In [147]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

idxmin이나 idmax 같은 메서드는 최솟값 혹은 최댓값을 가지고 있는 색인값과 같은 간접 통계를 반환한다.

In [148]:
df.idxmax()

one    b
two    d
dtype: object

비스무리한 누산(accumulation)이 있다. 

In [149]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


decribe() : 한 번에 여러 개의 통계 결과를 만들어낸다.

In [150]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


수치 데이터가 아닐 경우 describe는 다른 요약 통계를 생성한다.

In [151]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

# 상관관계와 공분산

conda install pandas-datareader

In [152]:
price = pd.read_pickle('yahoo_price.pkl')
volume = pd.read_pickle('yahoo_volume.pkl')

In [153]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


corr 메서드 : NA가 아니며 정렬된 색인에서 연속하는 두 Series에 대해 상관관계를 계산

cov 메서드 : 공분산을 계산

In [154]:
returns['MSFT'].corr(returns['IBM'])
returns['MSFT'].cov(returns['IBM'])

8.870655479703549e-05

In [155]:
returns.MSFT.corr(returns.IBM)

0.4997636114415116

In [156]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [157]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000277,0.000107,7.8e-05,9.5e-05
GOOG,0.000107,0.000251,7.8e-05,0.000108
IBM,7.8e-05,7.8e-05,0.000146,8.9e-05
MSFT,9.5e-05,0.000108,8.9e-05,0.000215


corrwith 메서드를 사용하면 다른 Series나 DataFrame과의 상관관계를 계산한다.

Series를 넘기면 각 컬럼에 대해 계산한 상관관계를 담고 있는 Series를 반환한다.

In [158]:
returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

DataFrame을 넘기면 맞아떨어지는 컬럼 이름에 대한 상관관계를 계산한다.

In [159]:
returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

axis = 'columns' 옵션을 넘기면 각 컬럼에 대한 상관관계와 공분산을 계산한다.

모든 경우 데이터는 상관관계를 계산하기 전에 색인의 이름순으로 정렬된다.

# 유일값, 값 세기, 멤버쉽

In [160]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

unique 메서드 : 중복되는 값을 제거하고 유일값만 담고 있는 Series를 반환한다.

In [161]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

유일값은 정렬된 순서대로 반환되지 않지만, 필요하다면 unique.sort()를 이용해서 나중에 정렬할 수 있다.

그리고 value_counts 메서드는 Series에서 도수(frequncy)를 계산해서 반환한다.

In [162]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

value_counts에서 반환하는 Series는 담고 있는 값을 내림차순으로 정렬한다.

value_counts 메서드는 pandas의 최상위 메서드로, 어떤 배열이나 순차 자료구조에서도 사용할 수 있다.

In [163]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

isin 메서드는 어떤 값이 Series에 조냊하는지 나타내는 불리언 벡터를 반환하는데, Series나 DataFrame의 컬럼에서 값을 골라내고 싶을 때 사용

In [164]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [165]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [166]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

isin과 관련이 있는 Index.get_indexer 메서드는 여러 값이 들어 있는 배열에서 유일한 값의 색인 배열을 구할 수 있다.

In [167]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

In [168]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3 ,4],
                     'Qu2': [2, 3, 1, 2 ,3],
                     'Qu3': [1, 5, 2, 4 ,4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [169]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


# Conclusion

In [170]:
pd.options.display.max_rows = PREVIOUS_MAX_ROWS

NameError: name 'PREVIOUS_MAX_ROWS' is not defined