In [5]:
import pandas as pd
import numpy as np

## 1. Series 데이터 생성 (index, value 활용)

**Series**  
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
- index 지정하지 않을 시, 기본적으로 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있다.

In [3]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

- data, index 함께 명시하기

In [8]:
s4 = pd.Series([1,2,3], [100,200,300])
s4

100    1
200    2
300    3
dtype: int64

- data, index, data type 함께 명시하기

In [9]:
s5 = pd.Series(np.arange(5), np.arange(100,105), dtype=np.int32)
s5

100    0
101    1
102    2
103    3
104    4
dtype: int32

---
**index 활용하기**

1. 인덱스를 통한 데이터 접근
2. 인덱스를 통한 데이터 업데이트
3. 인덱스 재사용하기
4. 인덱스를 활용하여 멀티플한 값에 접근

In [10]:
s5.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [11]:
s5.values

array([0, 1, 2, 3, 4], dtype=int32)

---
# 2. Series 데이터 심플 분석

**Series size, shape, unique, count, value_counts 함수**
- size : 개수
- shape : 튜플 형태로 shape 반환
- unique : 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수
- mean : NaN을 제외한 평균
- **value_counts : NaN을 제외하고 각 값들의 빈도 반환**

**numpy와 달리 pandas는 NaN 값을 제외하고 mean 값 등을 계산한다.**

In [14]:
s = pd.Series([2,5,4,6,7,8,np.NaN,9])
s

0    2.0
1    5.0
2    4.0
3    6.0
4    7.0
5    8.0
6    NaN
7    9.0
dtype: float64

In [15]:
len(s)

8

In [17]:
s.size

8

In [19]:
# Series는 1차원
s.shape

(8,)

In [20]:
s.unique()

array([ 2.,  5.,  4.,  6.,  7.,  8., nan,  9.])

In [22]:
# NaN이 있어서 이를 제외한 나머지 개수
s.count()

7

In [23]:
s.value_counts()

9.0    1
8.0    1
7.0    1
6.0    1
4.0    1
5.0    1
2.0    1
dtype: int64

---
**head, tail함수**
- head : 상위 n개 출력 기본 5개
- tail : 하위 n개 출력 기본 5개

In [24]:
s.head()

0    2.0
1    5.0
2    4.0
3    6.0
4    7.0
dtype: float64

# 3. Series 데이터 연산하기

In [25]:
s1 = pd.Series([1,2,3,4], ['a','b','c','d'])
s2 = pd.Series([6,3,2,1], ['d','c','b','a'])

In [26]:
s1 + s2

a     2
b     4
c     6
d    10
dtype: int64

**산술연산**
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
    - **이때, 인덱스의 pair가 맞지 않으면 결과는 NaN**

# 4. Series 데이터 Boolean selection으로 데이터 선택

**Boolean selection**
- boolean Series가 조건과 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series 객체에 포함됨
- 다중조건의 경우, &,| 를 사용하여 연결 가능

> index로써 사용됨

In [29]:
s = pd.Series(np.arange(10), np.arange(10)+1)
s[(s > 5) & (s < 8)]

7    6
8    7
dtype: int64

# 5. Series 데이터 변경 & 슬라이싱하기

**Series 값 변경**
- 추가 및 업데이트 : 인덱스 이용
- 삭제 : drop 함수 이용

**Slicing**
- 리스트, ndarray와 동일하게 이용