## pandas의 자료 구조

### Series

일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

**색인(Index)** 이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.

가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다.

In [3]:
import pandas as pd
from pandas import Series, DataFrame

In [5]:
obj = pd.Series([1,4,-5,3])
obj

0    1
1    4
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다.

In [6]:
obj.values

array([ 1,  4, -5,  3], dtype=int64)

In [7]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있다.

In [10]:
obj2 = pd.Series([1,4,-5,3],index = ['d','b','c','a'])
obj2

d    1
b    4
c   -5
a    3
dtype: int64

numpy 배열과 비교할시, 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용 할 수 있다.

In [11]:
obj2['a']

3

In [12]:
obj2['d'] = 6

In [13]:
obj2[['c','a','b']]

c   -5
a    3
b    4
dtype: int64

여기서 **['c','a','b']**는 색인의 배열로 해석된다.

불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 Numpy 배열 연산을 수행해도 색인 - 값 연결이 유지된다.

In [14]:
obj2[obj2 > 0] 

d    6
b    4
a    3
dtype: int64

In [15]:
obj2 * 2

d    12
b     8
c   -10
a     6
dtype: int64

In [17]:
import numpy as np

np.exp(obj2)

d    403.428793
b     54.598150
c      0.006738
a     20.085537
dtype: float64

Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [18]:
'b' in obj2

True

In [19]:
'e' in obj2

False

파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [22]:
sdata = {'ohio' : 35000, 'Texas' : 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = pd.Series(sdata)
obj3

ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인에는 사전의 키값이 순서대로 들어간다.

In [24]:
state = ['California', 'ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index = state)

obj4

California        NaN
ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64