In [1]:
from pandas import Series, DataFrame

In [2]:
import pandas as pd

In [3]:
import numpy as np

## Series와 인덱스(index)로 배열 다루기
Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조이다(어떤 Numpy 자료형이라도 담을 수 있다).
그리고 색인(index)라고 하는 배열의 데이터에 연관된 이름을 가지고 있다

In [4]:
obj = Series([4,7,-5,3])

In [22]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [8]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [9]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
obj2 = Series([4,7,-5,3], index = ['d','b','a','c'])

In [12]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [13]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [14]:
obj2['a']

-5

In [16]:
obj2[2]

-5

In [17]:
obj2['a'] = -10

In [18]:
obj2['a']

-10

In [19]:
obj2[obj2>0]

d    4
b    7
c    3
dtype: int64

In [20]:
obj2*2

d     8
b    14
a   -20
c     6
dtype: int64

In [21]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.000045
c      20.085537
dtype: float64

고정 길이의 정렬된 사전형이라고 이해하는 것이다. 색인 값에 데이터 값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다. 
파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다

In [23]:
'b' in obj2

True

In [24]:
'e' in obj2

False

파이썬 사전형(dictionary)에 데이터를 저장해야 한다면 파이썬 사전 객체로 부터 Series 객체를 생성할 수 있다.  
NaN = not a number

In [25]:
sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000, 'Utah':5000}

In [40]:
obj3 = Series(sdata)

In [41]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [42]:
states = ['California','Ohio','Oregon','Texas']

In [43]:
obj4 = Series(sdata, index = states)

In [44]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

### isnull() and notnull()

isnull()과 notnull()은 pd뿐 아니라 Series의 인스턴트 매서드이기도 하다

In [45]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [46]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [47]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [48]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

### Series 객체의 산술연산 

In [50]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [51]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [52]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

### name 속성

In [53]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [57]:
obj4.name = 'population'
obj4.index.name = 'state'

In [58]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [59]:
obj4.index = ['california','Ohio','Oregon','Texas@@']

In [60]:
obj4

california        NaN
Ohio          35000.0
Oregon        16000.0
Texas@@       71000.0
Name: population, dtype: float64

## DataFrame 다루기

R의 data.frame과 유사한 개념이다.  
DataFrame은 데이터를 내부적으로 2차원 형식으로 저장하므로, 고차원의 표 형식 데이터를 나중에 살펴볼 계층적 색인을 통해 쉽게 표현할 수 있다. 계층적 색인은 pandas에서 데이터를 취급하는 고급 기능에 필수적인 요소이다.  
DataFrame 객체의 생성하는 방법 중 가장 흔한 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 방법이 있다

In [63]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year' : [2000,2001,2002,2001,2002],
        'pop' : [1.5, 1.7, 3.6, 2.4, 2.9]}
DataFrame(data)

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [64]:
DataFrame(data, columns = ['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [62]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [67]:
df = DataFrame(data, columns = ['year','state','pop','debt'])

In [68]:
df

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,


In [69]:
df.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [72]:
df['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

In [73]:
df['debt'] = 16.5

In [75]:
df

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5


In [80]:
df.ix[3]

year       2001
state    Nevada
pop         2.4
debt       16.5
Name: 3, dtype: object

In [81]:
df.index = ['one','two','three','four','five']

In [82]:
df

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [83]:
df.ix['four']

year       2001
state    Nevada
pop         2.4
debt       16.5
Name: four, dtype: object

In [87]:
df['debt'] = np.arange(5)

In [88]:
df

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [89]:
df['debt'] = np.arange(5.)

In [90]:
df

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


In [92]:
val = Series([-1.2,-1.5,-1.7], index = ['two','four','finve'])

In [93]:
df['debt'] = val

In [94]:
df

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,


In [95]:
df['eastern'] = df.state == 'Ohio'

In [96]:
df

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,,False


In [97]:
del df['eastern']

In [98]:
df

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,
