## pandas의 자료 구조

### Series

일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

**색인(Index)** 이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다.

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [5]:
obj = pd.Series([1,4,-5,3])
obj

0    1
1    4
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다.

In [6]:
obj.values

array([ 1,  4, -5,  3], dtype=int64)

In [7]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있다.

In [10]:
obj2 = pd.Series([1,4,-5,3],index = ['d','b','c','a'])
obj2

d    1
b    4
c   -5
a    3
dtype: int64

numpy 배열과 비교할시, 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용 할 수 있다.

In [11]:
obj2['a']

3

In [12]:
obj2['d'] = 6

In [13]:
obj2[['c','a','b']]

c   -5
a    3
b    4
dtype: int64

여기서 **['c','a','b']**는 색인의 배열로 해석된다.

불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 Numpy 배열 연산을 수행해도 색인 - 값 연결이 유지된다.

In [14]:
obj2[obj2 > 0] 

d    6
b    4
a    3
dtype: int64

In [15]:
obj2 * 2

d    12
b     8
c   -10
a     6
dtype: int64

In [17]:
import numpy as np

np.exp(obj2)

d    403.428793
b     54.598150
c      0.006738
a     20.085537
dtype: float64

Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [18]:
'b' in obj2

True

In [19]:
'e' in obj2

False

파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [22]:
sdata = {'ohio' : 35000, 'Texas' : 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = pd.Series(sdata)
obj3

ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인에는 사전의 키값이 순서대로 들어간다.

In [30]:
state = ['California', 'ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index = state)

obj4

California        NaN
ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [31]:
# NaN 값 찾기

obj4.isnull()

California     True
ohio          False
Oregon        False
Texas         False
dtype: bool

Series의 유용한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.

In [32]:
obj3

ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [33]:
obj4

California        NaN
ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [34]:
obj3 + obj4

California         NaN
Oregon         32000.0
Texas         142000.0
Utah               NaN
ohio           70000.0
dtype: float64

In [36]:
obj4.name = 'population'

obj4.index.name = 'state'

obj4

state
California        NaN
ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [37]:
obj

0    1
1    4
2   -5
3    3
dtype: int64

In [39]:
# obj의 색인 변경

obj.index = ['Bob', 'Show', 'Nick', 'Steve']

obj

Bob      1
Show     4
Nick    -5
Steve    3
dtype: int64

## DataFrame

DataFrame은 표 같은 스프레드시트 형식의 자료구조이고 여러 개의 컬럼이 있는데 각 컬럼은 서로 다른 종류의 값을 담을 수 있다.

DataFrame 객체는 다양한 방법으로 생성할 수 있지만 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 Numpy 배열을 이용하는 것이다.

In [2]:
import pandas as pd

data = {'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year' : [2000,2001,2002,2001,2002,2003],
       'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

In [3]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


큰 DataFrame을 다룰 때는 head 메소드를 이용해서 처음 5개의 로우만 출력할 수 있다.

In [4]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


원하는 순서대로 colums를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [6]:
pd.DataFrame(data,columns = ['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장된다.

In [7]:
frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop','debt'],
                     index = ['one','two','three','four','five','six'])

In [8]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [10]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다.

In [11]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [12]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

반환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.

로우는 위치나 loc 속성을 이용해서 이름을 통해 접근할 수 있다.

In [14]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [16]:
# 비어있는 debt 컬럼에 16.5 스칼라 값 대입시키기 

frame2['debt'] = 16.5

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [18]:
# debt 컬럼에 배열 값 대입시키기

import numpy as np

frame2['debt'] = np.arange(6.)

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야함.

Series를 대입하면 DataFrame의 색인에 따라 값이 대입하며 존재하지 않는 색인에는 결측치가 대입됨.

In [20]:
val = pd.Series([-1.2,-1.5,-1.7],index = ['two','four','five'])

frame2['debt'] = val

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


존재하지 않는 컬럼을 대입하면 새로운 컬럼을 생성함.

In [25]:
# state의 값이 ohio인지에 대한 불리언값을 담는 컬럼 생성

frame2['eastern'] = frame2.state == 'Ohio'

frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


**del** 예약어를 이용해 컬럼 삭제를 할 수 있다.

In [26]:
del frame2['eastern']

frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

중첩된 사전을 DataFrame에 넘기면 바깥에 있는 사전의 키는 컬럼이 되고 안에 있는 키는 로우가 된다.

In [30]:
# nevada,ohio 컬럼 , 내부키(2000-2002) 로우

pop = {'Nevada' : {2001 : 2.4, 2002 : 2.9},
       'Ohio' : {2000 : 1.5 , 2001 : 1.7 , 2002 : 2.1}}
frame3 = pd.DataFrame(pop)

frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,2.1


In [31]:
# Numpy 배열과 유사한 문법으로 데이터를 전치 

frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,2.1


In [32]:
# 색인을 직접 지정하면 지정된 색인으로 DataFrame 생성

pd.DataFrame(pop, index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,2.1
2003,,


In [34]:
# 색인과 컬렘에 이름 지정하기

frame3.index.name = 'year' ; frame3.columns.name = 'state'

frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,2.1


**values** 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환함.

In [35]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 2.1]])

서로 다른 dtype을 가지고 있을시 그 컬럼의 배열의 dtype을 선택하게 된다

In [36]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

## 색인 객체

pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터를 저장하는 객체다.

Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환된다.

In [38]:
obj = pd.Series(range(3), index = ['a','b','c'])

index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [39]:
index[1:]

Index(['b', 'c'], dtype='object')

In [41]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [43]:
obj2 = pd.Series([1.5, -2.5, 0], index = labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [44]:
obj2.index is labels

True

배열과 유사하게 index 객체도 고정 크기로 작동한다.

In [45]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,2.1


In [46]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [47]:
2003 in frame3.index

False

## 핵심 기능

### 재색인

**reindex**를 사용하여 새로운 색인에 맞도록 객체를 새로 생성한다.

In [49]:
obj = pd.Series([4.5,7.2,-5.3,3.6],index = ['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고 존재하지않는 색인값이 있다면 NaN을 추가한다.

In [52]:
obj2 = obj.reindex(['a','b','c','d','e'])

obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

값을 보관하거나 **ffill**같은 메소드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.

In [56]:
obj3 = pd.Series(['blue','purple','yellow'],index = [0,2,4])

obj3

0      blue
2    purple
4    yellow
dtype: object

In [57]:
obj3.reindex(range(6), method = 'ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [59]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index = ['a','c','d'],
                    columns = ['Ohio','Texas','California'])

frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [60]:
frame2 = frame.reindex(['a','b','c','d'])

frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


컬럼은 columns 예약어를 사용해서 재색인할 수 있다.

In [61]:
states = ['Texas', 'Utah', 'California']

frame.reindex(columns = states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### 하나의 로우나 컬럼 삭제하기

**drop**메소드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [5]:
obj = pd.Series(np.arange(5.),index = ['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [7]:
new_obj = obj.drop('c')

new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [8]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [10]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index = ['Ohio','Utah','Colorado','New York'],
                    columns = ['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Utah,4,5,6,7
Colorado,8,9,10,11
New York,12,13,14,15


drop 함수에 인자로 로우 이름을 넘기면 해당 로우(axis 0)의 값을 모두 삭제한다. 

In [11]:
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,4,5,6,7
New York,12,13,14,15


컬럼의 값을 삭제할 때는 axis = 1 또는 axis = 'columns'를 인자로 넘겨주면 된다.

In [12]:
data.drop('two', axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Utah,4,6,7
Colorado,8,10,11
New York,12,14,15


In [13]:
data.drop(['two','four'],axis = 'columns')

Unnamed: 0,one,three
Ohio,0,2
Utah,4,6
Colorado,8,10
New York,12,14


drop 함수처럼 Series나 DataFrame의 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경한다.

In [14]:
obj.drop('c', inplace = True)

obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

inplace 옵션을 사용하는 경우 버려지는 값을 모두 삭제하므로 주의해서 사용해야 한다.

### 색인하기, 선택하기, 거르기

Series의 색인(obj[...])은 Numpy 배열의 색인과 유사하게 동작하지만 정수가 아니어도 된다는 점이 다르다.

In [15]:
obj = pd.Series(np.arange(4.), index = ['a','b','c','d'])

obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [16]:
obj['b']

1.0

In [17]:
obj[1]

1.0

In [19]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [20]:
obj[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [21]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [22]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함한다는 것이 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [23]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [25]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

DataFrame에서 하나 이상의 컬럼 값을 가져올 수 있다.

In [27]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index = ['Ohio','Colorado','Utah','New York'],
                    columns = ['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [28]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [30]:
data[['three','one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


슬라이싱으로 로우를 선택하거나 불리언 배열로 로우를 선택할 수 있다.

In [31]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [32]:
data[data['three'] > 3]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


다른 방법으로는 스칼라 비교를 이용해 생성된 불리언 DataFrame을 사용해서 값을 선택하는 것이다.

In [33]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [35]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15
