# 1. 자료 구조 소개

pandas 에서 사용하는 자료 구조

- Series
- DataFrame

## 1.1 Series

Series 는 일련의 객체를 담을 수 있는 1 차원 배열 같은 자료 구조다. (어떤 NumPy 자료형이라도 담을 수 있다.)   
그리고 색인(Index)이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다.  


In [27]:
from pandas import Series, DataFrame
import numpy as np
obj = Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [2]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
for v in obj.values:
    print(v)

4
7
-5
3


## 1.1.1 인덱스 설정

초기화 시에 index 옵션에 배열을 별도로 전달하면 이것이 인덱스가 된다.

*질문: 만약에, index 의 길이와 values 의 길이가 다르다면 어떻게 될까?*  
**정답: 오류가 발생한다.**

In [13]:
obj2 = Series([4,7,-5,3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [15]:
obj3 = Series([1,2,3,4,], index=[1,2,3,4,5]) # Throw ValueError

ValueError: Length of passed values is 4, index implies 5

### 1.1.2 색인(인덱스)를 통한 접근

색인의 특성 정리

아래의 조건에서도 색인-값 연결은 유지됨을 보장한다.

- 불리언 배열을 통한 필터
- 산술 곱셈을 수행
- 수학 함수를 적용

In [17]:
obj2['a']

-5

In [22]:
# 접근하여 할당도 가능
obj2['d'] = 6

In [23]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

#### 1.1.2.1 불리언 배열을 이용한 필터링 예시


In [24]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [25]:
obj2*2

d    12
b    14
a   -10
c     6
dtype: int64

In [29]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [31]:
# Series 는 Dictionary 타입과 유사한 속성을 가지고 있어, 사전형(책에서 이렇게 부름) 인자를 대체할 수 있다.
'b' in obj2

True

#### 1.1.3. Dictioanry to Series

사전형 객체에서 Series 객체로 컨버팅이 가능하다.

In [33]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)

In [35]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [36]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [39]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [42]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [43]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [45]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [48]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [54]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
       'year': [2000, 2001, 2002, 2001, 2002],
       'pop': [1.5, 1.7,3.6, 2.4, 2.9]}
frame = DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])

In [58]:
frame['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [60]:
frame.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

In [65]:
frame.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [74]:
frame['eastern'] = frame.state == 'Ohio'
frame

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,,False
five,2002,Nevada,2.9,,False


In [75]:
del frame['eastern']

In [79]:
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index

index

Index(['a', 'b', 'c'], dtype='object')

In [80]:
index[1:]

Index(['b', 'c'], dtype='object')