# 🚩 Series에 대해서
## 주요 토픽
1. Pandas Series Basics
2. 인덱싱
3. 정렬과 필터링
4. 연산과 집계
5. 결측값 처리
6. 커스텀 함수 적용
## 목표
- Series와 넘파이 배열의 관계 이해하기
- Series의 loc, iloc 메서드 사용해서 값 조회하기
- Series의 정렬/필터링/집계 기능 사용하기
- Series에 조건부 로직을 사용하는 커스텀 함수 적용하기

In [1]:
import numpy as np
import pandas as pd

## 1. Series란?
- 넘파이 배열에 기반한 판다스 자료구조이다.
- 2개 이상의 Series가 모이면 데이터프레임을 구성한다.
- 반드시 1차원 배열 형태여야 한다.
### > 속성
1. values (Series의 데이터)
2. index (Series의 인덱스)
3. name (데이터프레임 열에 접근할 때 유용)
4. dtype (values array에 들어있는 데이터들의 타입)

In [2]:
sales = [0, 5, 155, 0, 518, 0, 1827]
sales_series = pd.Series(sales, name='Sales')
sales_series

0       0
1       5
2     155
3       0
4     518
5       0
6    1827
Name: Sales, dtype: int64

In [3]:
# 속성
print('values: ', sales_series.values)
print('index: ', sales_series.index)
print('name: ', sales_series.name)
print('dtype: ', sales_series.dtype)

values:  [   0    5  155    0  518    0 1827]
index:  RangeIndex(start=0, stop=7, step=1)
name:  Sales
dtype:  int64


## 2. 판다스 데이터 타입
### > Numeric
1. boolean - Nullable boolean True(1)/False(0)
2. Int64(디폴트) - Nullable whole numbers
3. Float64(디폴트) - Nullable decimal numbers
### > Object/Text
1. string
2. category - 
### > Time Series
1. datetime64 - Single moment in time
2. timedelta - Duration between two dates or times
3. period - Span of time

## 3. Series 인덱싱
### > 일반적인 인덱싱
- 파이썬 리스트와 넘파이식 인덱싱/슬라이싱을 통해 값에 대한 접근이 가능하다
### > 커스텀 인덱싱
- Series를 생성하면서 index 매개변수를 사용하는 방법이다
- ✅ 문자열 인덱스인 경우 슬라이싱 범위상 끝점을 포함한다
- ✅ datetimes 사용할 때 유용하다

In [4]:
# 커스텀 인덱싱
sales = [0, 5, 155, 0, 518]
items = ['coffee', 'banana', 'tea', 'coconut', 'sugar']

# sales_series = pd.Series(sales, name='Sales')
# sales_series.index = items
# sales_series

sales_series = pd.Series(sales, index=items, name='Sales')
sales_series

coffee       0
banana       5
tea        155
coconut      0
sugar      518
Name: Sales, dtype: int64

In [5]:
# 커스텀 인덱싱
sales_series['banana':'coconut']

banana       5
tea        155
coconut      0
Name: Sales, dtype: int64

### > iloc 접근자
- 대상값이 위치하고 있는 인덱스를 사용해 값에 대한 접근이 가능하다
    - access values by their positional index
    - 커스텀 인덱스를 설정하더라도 사용이 가능하다
    - 슬라이싱 보다 효율적이며 판다스 개발자들이 권장하는 방법이다
- loc 접근자보다는 덜 자주 사용한다.

In [6]:
my_series = pd.Series(
    [0, 1, 2, 3, 4], index=['day 0', 'day 1', 'day 2', 'day 3', 'day 4']
)
my_series

day 0    0
day 1    1
day 2    2
day 3    3
day 4    4
dtype: int64

In [7]:
my_series.iloc[2]

2

In [8]:
my_series.iloc[[1, 4]]

day 1    1
day 4    4
dtype: int64

In [9]:
my_series.iloc[1:]

day 1    1
day 2    2
day 3    3
day 4    4
dtype: int64

### > loc 접근자
- 커스텀 레이블을 사용해 값에 대한 접근이 가능하다
    - Label-base (NOT positional index)
- iloc 접근자보다 자주 사용한다

In [10]:
my_series = pd.Series(
    [0, 1, 2, 3, 4], index=['day 0', 'day 1', 'day 2', 'day 3', 'day 4']
)
my_series

day 0    0
day 1    1
day 2    2
day 3    3
day 4    4
dtype: int64

In [11]:
my_series.loc['day 2']

2

In [12]:
# 양끝 범위를 포함
my_series.loc['day 1':'day 3']

day 1    1
day 2    2
day 3    3
dtype: int64

### > 중복 인덱스
- 판다스 Series나 DataFrame은 중복 인덱스를 가질 수 있다
    - loc 접근자로 중복 인덱스를 사용하면 중복되는 값들에 대해 모두 접근한다
    - Which is NOT desirable → 고유 인덱스를 갖도록 설정해야 한다
    - Must have unique row identifier
### > 인덱스 재설정
- reset_index 메서드 (디폴트로 리셋 전 인덱스는 데이터프레임의 새로운 컬럼이 된다)

In [13]:
my_series = pd.Series(
    [0, 1, 2, 3, 4],
    index=['day 0', 'day 0', 'day 0', 'day 2', 'day 2']
)
my_series.index

Index(['day 0', 'day 0', 'day 0', 'day 2', 'day 2'], dtype='object')

In [14]:
my_series.loc['day 0']

day 0    0
day 0    1
day 0    2
dtype: int64

In [15]:
my_series.loc['day 2']

day 2    3
day 2    4
dtype: int64

In [16]:
# 기존 인덱스 열이 데이터프레임의 새로운 열을 구성한다.
my_series.reset_index()

Unnamed: 0,index,0
0,day 0,0
1,day 0,1
2,day 0,2
3,day 2,3
4,day 2,4


In [17]:
my_series.reset_index(drop=True)

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [18]:
my_series.reset_index(drop=True).iloc[2:4]

2    2
3    3
dtype: int64

In [19]:
# iloc 접근자와의 차이점 (끝점을 포함한다)
my_series.reset_index(drop=True).loc[2:4]

2    2
3    3
4    4
dtype: int64