# Pandas 자료 구조 : Series

In [1]:
import pandas as pd
import numpy as np

Series = (1차원 배열의)value + (배열 원소와 연관된)index 
- index를 지정하지 않으면, 정수 0~N-1이 index로 할당됨. N은 (1차원) 배열의 원소 개수

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
#len(obj)
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
obj.index 

RangeIndex(start=0, stop=4, step=1)

In [7]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

index를 직접 지정하면 RangeIndex 타입이 아니라 Index 타입으로 바뀜

In [10]:
obj2.index
#type(obj2.index)

Index(['d', 'b', 'a', 'c'], dtype='object')

한 개의 index를 지정하면 value 만 가져오지만, 여러 개 index를 지정하면 Series 객체를 반환한다.

In [19]:
obj2['a']
#type(obj2['a'])

-5

In [20]:
obj2[['c', 'a', 'd']]
#type(obj2[['c', 'a', 'd']])

c    3
a   -5
d    4
dtype: int64

Series 객체에 산술 연산을 적용해도 값만 바뀔 뿐 index-value 관계는 그대로 유지됨.

In [21]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [23]:
obj2[obj2 > 5]
#type(obj2[obj2 > 0])

b    7
dtype: int64

In [26]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [27]:
np.exp(obj2)
#np.round(np.exp(obj2), 2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [30]:
'b' in obj2
#'b' in obj2.index
#'e' in obj2
#-5 in obj2.values

True

Pandas의 Series 객체는 python의 dictionary 타입과 유사. 
- python의 dictionary 객체를 사용하여 Pandas의 Series 객체를 생성할 수 있음.
- dictionary 객체의 key가 Series 객체의 index가 됨.
- dictionary는 keys(), values()와 같이 메소드를 호출하지만, Series에서는 index, values 속성을 사용

In [31]:
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
#sdata.keys()
#sdata.values()

dict_keys(['Ohio', 'Texas', 'Oregon', 'Utah'])

In [32]:
obj3 = pd.Series(sdata)
obj3
#obj3.index
#obj3.values

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Series 객체의 index를 직접 지정하고 싶으면, index 속성을 직접 설정하면 됨.

In [33]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

Series 객체에 index로 새롭게 추가된 'California'가 원본 dictionary 객체에 정의되지 않았기 때문에, Series 객체의 value는 NaN(Not a Number)로 출력됨.반면 dictionary 객체에 정의된 key 'Utah'는 Series객체의 index에서 빠졌기 때문에 출력에서 제외됨.

In [34]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

isnull, notnull 메소드: Series 객체에 어떤 index의 값이 정의되지 않았는지 확인할 때 사용. 

In [38]:
pd.isnull(obj4)
#obj4[pd.isnull(obj4)]
#isnull, notnull은 아래처럼 Series 객체의 메소드로 호출할 수도 있음.
#obj4.isnull()   
#obj4.notnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [42]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Series 객체끼리 산술 연산 결과는 index를 기준으로 정렬해서 출력.

In [43]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [44]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [45]:
obj3+obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series 객체 및 Series 객체의 index에 name 속성을 설정할 수 있음.

In [46]:
obj4.name = 'population'  #values에 대한 이름 지정

In [47]:
obj4.index.name = 'state' #index에 대한 이름 지정

In [48]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Series 객체의 index는 새 리스트를 대입해서 변경 가능. 단, 새 리스트의 원소 개수는 이전 index 개수와 정확히 일치해야 함. 

In [39]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [42]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
#obj.index = ['Bob', 'Steve', 'Jeff'] 
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64