# 판다스 시리즈

**기본 설정**

Numpy와 Pandas 라이브러리를 각각 np와 pd로 불러온다.

In [1]:
import numpy as np
import pandas as pd

판다스는 넘파이와 함께 데이터 분석 분야에서 가장 많이 활용되는 라이브러리다.
판다스가 제공하는 두 개의 자료형 `Series`와 `DataFrame`은 
데이터를 다루기 위한 다양한 기능을 제공한다.

넘파이 어레이는 수치형 데이터를 처리하는 데에 특화된 반면에 
판다스의 시리즈와 데이터프레임은 표(table) 형식으로 제공되는 모든 종류의 데이터를 다룬다.

먼저 `Series` 객체를 소개한다.

## 시리즈 생성

시리즈는 1차원 어레이와 동일한 구조를 갖는다. 
다만 인덱스<font size='2'>index</font>를 0, 1, 2 등이 아닌 원하는 값으로 지정할 수 있다.
시리즈를 생성하기 위해 리스트, 넘파이 1차원 어레이, 사전 등을 이용할 수 있다.

**리스트와 어레이 활용**

1차원 리스트 또는 어레이를 이용하여 간단하게 시리즈를 생성할 수 있다.
`dtype`은 시리즈에 포함된 항목들의 자료형을 가리키며 모든 항목은 포함하는 자료형을 가리킨다.

아래 코드는 리스트를 이용하여 시리즈를 생성한다.
인덱스를 별도로 지정하지 않으면 리스트, 넘파이 어레이 등에서 사용된 정수 인덱스가 사용된다.

In [2]:
obj1 = pd.Series([4, 7, -5, 3])
obj1

0    4
1    7
2   -5
3    3
dtype: int64

시리즈 객체의 자료형은 다음과 같다.

In [3]:
type(obj1)

pandas.core.series.Series

시리즈 생성을 위해 1차원 어레이도 동일한 방식으로 이용할 수 있다.

In [4]:
obj1 = pd.Series(np.array([4, 7, -5, 3]))
obj1

0    4
1    7
2   -5
3    3
dtype: int64

**사전 활용**

사전을 이용하여 시리즈를 생성할 수 있다.
사전의 키<font size='2'>key</font>가 인덱스로 사용된다.

In [5]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj2 = pd.Series(sdata)

obj2

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

## `index` 속성

`index` 속성은 인덱스로 사용된 값들로 구성된 `Index` 객체를 가리킨다.
자동으로 생성된 경우 정수 인덱스는 `range`와 유사한 `RangeIndex` 자료형으로 지정된다.

In [6]:
obj1

0    4
1    7
2   -5
3    3
dtype: int64

In [7]:
obj1.index

RangeIndex(start=0, stop=4, step=1)

`index` 속성을 다른 값으로 할당하는 방식으로 새로운 인덱스를 지정할 수 있다.

In [8]:
obj1.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj1

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

처음부터 인덱스를 지정하면서 시리즈를 생성할 수 있다.

* `index` 키워드 인자: 항목의 수와 동일한 길이를 갖는 리스트. 
    리스트에 포함된 항목 순서대로 인덱스 지정.
    
인덱스가 인덱스 리스트에 사용된 순서대로 지정됨에 주의하라.

In [9]:
obj1 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj1

d    4
b    7
a   -5
c    3
dtype: int64

In [10]:
obj1.index

Index(['d', 'b', 'a', 'c'], dtype='object')

## `name` 속성과 `values` 속성

**`name` 속성**

`Series` 객체와 시리즈의 `Index` 객체 모두 `name` 속성을 이용하여
사용되는 값들에 대한 정보를 저장한다.

아래 코드는 시리즈와 시리즈에 사용된 인덱스에 이름 속성을 지정한다.

- 시리즈 이름은 population(인구): `name='population'`
- 시리즈의 인덱스의 이름은 state(주 이름): `Index.name='state'`

In [11]:
obj2.name = 'population'
obj2.index.name = 'state'

obj2

state
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
Name: population, dtype: int64

**`values` 속성**

`values` 속성은 시리즈의 항목으로 구성된 1차원 어레이를 가리킨다.

In [12]:
obj2.values

array([35000, 71000, 16000,  5000])

## 시리즈 인덱싱

1차원 넘파이 어레이와 거의 동일하게 작동한다.
설명을 위해 아래 시리즈를 이용한다.

In [13]:
obj3 = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj3

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

시리즈 인덱싱은 인덱스 라벨 또는 정수를 사용할 수 있다.
인덱스 라벨을 이용하는 경우엔 사전 인덱싱처럼 활용한다.

In [14]:
obj3['b']

1.0

`iloc[]` 객체를 행의 정수 인덱스와 함께 이용한다.

In [15]:
obj3.iloc[1]

1.0

## 시리즈 슬라이싱

행의 정수 인덱스를 이용한 슬라이싱 또한 `iloc[]` 객체를 이용한다.
사용법은 1차원 어레이의 경우와 유사하다.

In [16]:
obj3.iloc[1:3]

b    1.0
c    2.0
dtype: float64

반면에 정수가 아닌 다른 인덱스 라벨을 이용하는 슬라이싱은 리스트의 슬라이싱과 유사한 방식으로 진행한다. 
다만, 양쪽 구간의 끝을 모두 포함하는 점이 다르다.

In [17]:
obj3['b':'c']

b    1.0
c    2.0
dtype: float64

In [18]:
obj3['b':'c'] = 5
obj3

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

## 예제

**예제 1**

아래 리스트를 이용하여 시리즈를 생성하여라.
단, `np.nan`은 결측치, 값이 없어서 비어있는 항목의 자리를 가리키는 전혀 의미없는 값이다.

In [19]:
aList = [1, 3, 5, np.nan, 6, 8]

답:

시리즈와 데이터프레임에서 결측치는 `NAN`으로 표시된다.

In [20]:
pd.Series(aList)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

**예제 2**

먼저 하나의 시리즈를 생성한다.

In [21]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s

a    1.551211
b    0.292498
c    3.038242
d   -0.537776
e    0.331187
dtype: float64

아래 코드의 실행 결과를 설명한ㄷ,

In [22]:
s.reindex(["e", "b", "f", "d"])

e    0.331187
b    0.292498
f         NaN
d   -0.537776
dtype: float64

답:

`reindex()` 메서드는 기존 시리즈의 인덱스 정보를 활용하여 지정된 방식으로 인덱스를 정렬한다.
다만 기존에 없던 새로운 인덱스의 값은 결측치로, 그리고 기존에 있었지만 언급되지 않는 인덱스는 무시된다.
따라서 새로운 인덱스 `f`의 값은 결측치로 지정되었으며, `a`와 `c` 행은 무시된다.