In [4]:
# 판다스 사용하기
import pandas as pd

# 또는 아래와 같이 Import 
# 로컬 네임스페이스로 import 하는것이 편하기 때문에 아래와 같이 사용하는경우가 많다.
# from pandas import Series, DataFrame

# Series 는 일련의 객체를 담을 수 있는 1차원 배열같은 구조이다.
# 어떤 Numpy 자료 구조형이라도 담을 수 있다.

# 색인 이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.
obj = pd.Series([4,7,-5,3])

obj

0    4
1    7
2   -5
3    3
dtype: int64

In [11]:
# 출력결과의 왼쪽은 key,index 를 보여주고, 오른쪽은 Value 를 보여준다.
# Series 의 배열과 색인 객체는 각각 values 와 index 속성을 통해 얻을 수 있다.

# 각각의 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때는 다음처럼 한다.
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])

print(obj2)

print('---'*30)
print(obj2.index)
print('---'*30)

d    4
b    7
a   -5
c    3
dtype: int64
------------------------------------------------------------------------------------------
Index(['d', 'b', 'a', 'c'], dtype='object')
------------------------------------------------------------------------------------------


In [12]:
# 단일 값을 선택하거나 여러값을 선택할 때 색인으로 라벨을 사용 할 수 있다.
obj2['a']

-5

In [13]:
# 색인의 배열로 해석된다.
obj2[['c','a','d']]

c    3
a   -5
d    4
dtype: int64

In [14]:
# 불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 
# Numpy 배열 연산을 수행해도 색인-값 연결이 유지된다.

obj2[obj2>0]

d    4
b    7
c    3
dtype: int64

In [15]:
# Series 는 고정길이의 정렬된 사전형이다. 
# Series 는 색인값에 데이터 값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다.
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

'b' in obj2

True

In [16]:
'e' in obj2

False

In [19]:
# 파이썬 Dic 타입에 데이터를 저장해야 한다면 파이썬 사전 객체로 부터 Series 객체를 생성할 수 있다.
sdata = {'Ohio' : 3500, 'Texas' : 71000, 'Oregon' : 16000 , 'Utah' :5000}

obj3=pd.Series(sdata)

obj3

Ohio       3500
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [21]:
# Dic 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인에는 
# 사전의 키값이 순서대로 들어간다.

states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index=states)

obj4

California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [22]:
# pandas 의 isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다.
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [23]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [24]:
# 색인과 라벨로 자동 정렬
obj3

Ohio       3500
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [25]:
obj3 + obj4

California         NaN
Ohio            7000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [28]:
# Series 객체의 색인은 모두 name 속성이 있는데 이 속성은 pandas 의 핵심 기능과 밀접
obj4.name = 'population'

obj4.index.name = 'state'

obj4

state
California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [32]:
# Series 의 색인은 대입하여 변경 가능하다.
print(obj)
print('---'*30)

obj.index = ['bob','steve','jeff','ryan']
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64
------------------------------------------------------------------------------------------
bob      4
steve    7
jeff    -5
ryan     3
dtype: int64
