# 🚩 Series에 대해서
## 주요 토픽
1. Pandas Series Basics
2. 인덱싱
3. 정렬과 필터링
4. 연산과 집계
5. 결측값 처리
6. 커스텀 함수 적용
## 목표
- Series와 넘파이 배열의 관계 이해하기
- Series의 loc, iloc 메서드 사용해서 값 조회하기
- Series의 정렬/필터링/집계 기능 사용하기
- Series에 조건부 로직을 사용하는 커스텀 함수 적용하기

In [1]:
import numpy as np
import pandas as pd

## 1. Series란?
- 넘파이 배열에 기반한 판다스 자료구조이다.
- 2개 이상의 Series가 모이면 데이터프레임을 구성한다.
- 반드시 1차원 배열 형태여야 한다.
### > 속성
1. values (Series의 데이터)
2. index (Series의 인덱스)
3. name (데이터프레임 열에 접근할 때 유용)
4. dtype (values array에 들어있는 데이터들의 타입)

In [2]:
sales = [0, 5, 155, 0, 518, 0, 1827]
sales_series = pd.Series(sales, name='Sales')
sales_series

0       0
1       5
2     155
3       0
4     518
5       0
6    1827
Name: Sales, dtype: int64

In [3]:
# 속성
print('values: ', sales_series.values)
print('index: ', sales_series.index)
print('name: ', sales_series.name)
print('dtype: ', sales_series.dtype)

values:  [   0    5  155    0  518    0 1827]
index:  RangeIndex(start=0, stop=7, step=1)
name:  Sales
dtype:  int64


## 2. 판다스 데이터 타입
### > Numeric
1. boolean - Nullable boolean True(1)/False(0)
2. Int64(디폴트) - Nullable whole numbers
3. Float64(디폴트) - Nullable decimal numbers
### > Object/Text
1. string
2. category - 
### > Time Series
1. datetime64 - Single moment in time
2. timedelta - Duration between two dates or times
3. period - Span of time

## 3. Series 인덱싱
### > 일반적인 인덱싱
- 파이썬 리스트와 넘파이식 인덱싱/슬라이싱을 통해 값에 대한 접근이 가능하다
### > 커스텀 인덱싱
- Series를 생성하면서 index 매개변수를 사용하는 방법이다
- ✅ 문자열 인덱스인 경우 슬라이싱 범위상 끝점을 포함한다
- ✅ datetimes 사용할 때 유용하다

In [4]:
# 커스텀 인덱싱
sales = [0, 5, 155, 0, 518]
items = ['coffee', 'banana', 'tea', 'coconut', 'sugar']

# sales_series = pd.Series(sales, name='Sales')
# sales_series.index = items
# sales_series

sales_series = pd.Series(sales, index=items, name='Sales')
sales_series

coffee       0
banana       5
tea        155
coconut      0
sugar      518
Name: Sales, dtype: int64

In [5]:
# 커스텀 인덱싱
sales_series['banana':'coconut']

banana       5
tea        155
coconut      0
Name: Sales, dtype: int64

### > iloc 접근자
- 대상값이 위치하고 있는 인덱스를 사용해 값에 대한 접근이 가능하다
    - access values by their positional index
    - 커스텀 인덱스를 설정하더라도 사용이 가능하다
    - 슬라이싱 보다 효율적이며 판다스 개발자들이 권장하는 방법이다
- loc 접근자보다는 덜 자주 사용한다.

In [6]:
my_series = pd.Series(
    [0, 1, 2, 3, 4], index=['day 0', 'day 1', 'day 2', 'day 3', 'day 4']
)
my_series

day 0    0
day 1    1
day 2    2
day 3    3
day 4    4
dtype: int64

In [7]:
my_series.iloc[2]

2

In [8]:
my_series.iloc[[1, 4]]

day 1    1
day 4    4
dtype: int64

In [9]:
my_series.iloc[1:]

day 1    1
day 2    2
day 3    3
day 4    4
dtype: int64

### > loc 접근자
- 커스텀 레이블을 사용해 값에 대한 접근이 가능하다
    - Label-base (NOT positional index)
- iloc 접근자보다 자주 사용한다

In [10]:
my_series = pd.Series(
    [0, 1, 2, 3, 4], index=['day 0', 'day 1', 'day 2', 'day 3', 'day 4']
)
my_series

day 0    0
day 1    1
day 2    2
day 3    3
day 4    4
dtype: int64

In [11]:
my_series.loc['day 2']

2

In [12]:
# 양끝 범위를 포함
my_series.loc['day 1':'day 3']

day 1    1
day 2    2
day 3    3
dtype: int64

### > 중복 인덱스
- 판다스 Series나 DataFrame은 중복 인덱스를 가질 수 있다
    - loc 접근자로 중복 인덱스를 사용하면 중복되는 값들에 대해 모두 접근한다
    - Which is NOT desirable → 고유 인덱스를 갖도록 설정해야 한다
    - Must have unique row identifier
### > 인덱스 재설정
- reset_index 메서드 (디폴트로 리셋 전 인덱스는 데이터프레임의 새로운 컬럼이 된다)
- 원본 Series를 변경하지 않는다

In [13]:
my_series = pd.Series(
    [0, 1, 2, 3, 4],
    index=['day 0', 'day 0', 'day 0', 'day 2', 'day 2']
)
my_series.index

Index(['day 0', 'day 0', 'day 0', 'day 2', 'day 2'], dtype='object')

In [14]:
my_series.loc['day 0']

day 0    0
day 0    1
day 0    2
dtype: int64

In [15]:
my_series.loc['day 2']

day 2    3
day 2    4
dtype: int64

In [16]:
# 기존 인덱스 열이 데이터프레임의 새로운 열을 구성한다.
my_series.reset_index()

Unnamed: 0,index,0
0,day 0,0
1,day 0,1
2,day 0,2
3,day 2,3
4,day 2,4


In [17]:
my_series.reset_index(drop=True)

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [18]:
my_series.reset_index(drop=True).iloc[2:4]

2    2
3    3
dtype: int64

In [19]:
# iloc 접근자와의 차이점 (끝점을 포함한다)
my_series.reset_index(drop=True).loc[2:4]

2    2
3    3
4    4
dtype: int64

## 4. Series 필터링
### > loc 접근자
- 비교연산자를 함께 사용하면 Series를 필터링 할 수 있다
    - ✅ 연산자를 사용하면 불리언 배열을 리턴한다
### > isin
- ✅ 불리언 배열을 리턴한다
    - in: .isin()
    - not in: ~.isin()
- Series에 대해서 in, not in 연산자는 사용이 불가능하다

In [20]:
my_series = pd.Series(
    [0, 1, 2, 3, 4], index=['day 0', 'day 1', 'day 2', 'day 3', 'day 4']
)
my_series

day 0    0
day 1    1
day 2    2
day 3    3
day 4    4
dtype: int64

In [21]:
my_series == 2

day 0    False
day 1    False
day 2     True
day 3    False
day 4    False
dtype: bool

In [22]:
my_series.loc[my_series > 2]

day 3    3
day 4    4
dtype: int64

In [23]:
my_series.loc[my_series == 2]

day 2    2
dtype: int64

In [24]:
my_series.loc[~(my_series != 2)]

day 2    2
dtype: int64

In [25]:
my_series.loc[my_series.isin([1, 2])]

day 1    1
day 2    2
dtype: int64

In [26]:
my_series.loc[~my_series.isin([1, 2])]

day 0    0
day 3    3
day 4    4
dtype: int64

## 5. Series 정렬
- 2가지 정렬 기준
    1. by 값 (sort_values 메서드)
    2. by 인덱스 (sort_index 메서드)
- 원본 Series를 변경하지 않는다

In [27]:
my_series = pd.Series(
    [1, 0, 2, 3, 4], index=['day 0', 'day 1', 'day 2', 'day 3', 'day 4']
)
my_series

day 0    1
day 1    0
day 2    2
day 3    3
day 4    4
dtype: int64

In [28]:
my_series.sort_values()

day 1    0
day 0    1
day 2    2
day 3    3
day 4    4
dtype: int64

In [29]:
my_series = my_series.sort_values(ascending=False)
my_series

day 4    4
day 3    3
day 2    2
day 0    1
day 1    0
dtype: int64

In [30]:
my_series

day 4    4
day 3    3
day 2    2
day 0    1
day 1    0
dtype: int64

In [31]:
my_series.sort_index()

day 0    1
day 1    0
day 2    2
day 3    3
day 4    4
dtype: int64

In [32]:
my_series.sort_index(ascending=False)

day 4    4
day 3    3
day 2    2
day 1    0
day 0    1
dtype: int64

## 6. Series 연산
### > 수학 연산
- Numeric Operation
- 사칙연산(+, -, /, *), 몫(//), 나머지(%), 지수(**)

In [33]:
my_series = pd.Series(
    [1, np.NaN, 2, 3, 4], index=['day 0', 'day 1', 'day 2', 'day 3', 'day 4']
)
my_series

day 0    1.0
day 1    NaN
day 2    2.0
day 3    3.0
day 4    4.0
dtype: float64

In [34]:
my_series + 1

day 0    2.0
day 1    NaN
day 2    3.0
day 3    4.0
day 4    5.0
dtype: float64

In [35]:
my_series2 = my_series.add(1, fill_value=0).astype('int')
my_series2

day 0    2
day 1    1
day 2    3
day 3    4
day 4    5
dtype: int64

### > Text Series 연산
- str 접근자를 통해 문자열 메서드를 사용할 수 있다
- 메서드 종류
    - strip, lstrip, rstrip
    - upper, lower
    - slice
    - count
    - contains
    - replace
    - split
    - len
    - startswith, endswith
- ✅ Pro Tips
    1. contains 메서드를 통해 특정 문자열을 검색하는 경우
        - 사전에 모든 문자열을 소문자화 혹은 대문자화 해놓는다

In [36]:
str_series = pd.Series(['day 0', 'day 1', 'day 2', 'day 3', 'day 4'])
str_series

0    day 0
1    day 1
2    day 2
3    day 3
4    day 4
dtype: object

In [37]:
str_series.str.upper()

0    DAY 0
1    DAY 1
2    DAY 2
3    DAY 3
4    DAY 4
dtype: object

In [38]:
str_series.str.upper().str.contains('day 1')

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [39]:
str_series.str.upper().str.contains('DAY 1')

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [40]:
str_series.str.strip('day ').astype('int')

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [41]:
# strip 메서드보다 슬라이싱을 사용
str_series.str[-1].astype('int')

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [42]:
str_series.str[1:3]

0    ay
1    ay
2    ay
3    ay
4    ay
dtype: object

In [43]:
str_series.str.split(' ')

0    [day, 0]
1    [day, 1]
2    [day, 2]
3    [day, 3]
4    [day, 4]
dtype: object

In [44]:
str_series.str.split(' ', expand=True)

Unnamed: 0,0,1
0,day,0
1,day,1
2,day,2
3,day,3
4,day,4


## 7. Series 종류별 집계 연산
### > 숫자 타입 Series
- 메서드 종류
    - count
    - first, last
    - mean, median, min, max, argmax, argmin, std, var, mad
    - prod, sum, quantile

In [45]:
transactions = pd.read_csv('./data/retail/transactions.csv')
transactions_series = pd.Series(transactions['transactions'])

transactions_series.iloc[:5]

0     770
1    2111
2    2358
3    3487
4    1922
Name: transactions, dtype: int64

In [46]:
# interpolation 옵션을 지정하면 실제 데이터 중에서 리턴
transactions_series.iloc[:5].quantile([.4], interpolation='nearest')

0.4    2111
Name: transactions, dtype: int64

In [47]:
transactions_series.count()

83488

In [48]:
transactions_series.sum()

141478945

### > 범주형 타입 Series
- 메서드 종류
    - unique, nunique, value_counts

In [49]:
series = pd.Series(['day 0', 'day 0', 'day 2', 'day 2', 'day 4'])
series

0    day 0
1    day 0
2    day 2
3    day 2
4    day 4
dtype: object

In [50]:
series.nunique()

3

In [51]:
series.unique()

array(['day 0', 'day 2', 'day 4'], dtype=object)

In [52]:
type(series.unique())

numpy.ndarray

In [53]:
series.value_counts()

day 0    2
day 2    2
day 4    1
dtype: int64

In [54]:
series.value_counts(normalize=True)

day 0    0.4
day 2    0.4
day 4    0.2
dtype: float64

## 8. Series 결측값
### > Numpy NaN
- 파이썬 None보다 효율적이다
- 판다스는 NaN을 float으로 취급한다 (벡터 연산이 가능하다)
### > 결측값 찾기
- 메서드 종류
    - isna (결측값이면 True 아니면 False를 리턴) → 마스킹
    - value_counts
        - dropna 매개변수 (True/False): 결측값 유지 여부
### > 결측값 다루기
- 메서드 종류
    - dropna (Series, DataFrame의 결측값을 제거)
    - fillna (결측값을 특정값으로 대체)
        - 숫자형 보다는 범주형/문자 데이터와 친화적이다
- 결측값을 어떻게 다룰 것인가?
    - 제거? 대체?
    - 전체 데이터 중 결측값의 개수를 우선 파악!

In [55]:
my_series = pd.Series([np.NaN] * 5)
my_series

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
dtype: float64

In [56]:
my_series.isna()

0    True
1    True
2    True
3    True
4    True
dtype: bool

In [57]:
my_series.isna().sum()

5

In [58]:
my_series = pd.Series(range(5))
my_series.loc[1:2] = np.NaN
my_series

0    0.0
1    NaN
2    NaN
3    3.0
4    4.0
dtype: float64

In [59]:
my_series.isna()

0    False
1     True
2     True
3    False
4    False
dtype: bool

In [60]:
my_series.value_counts(dropna=False)

NaN    2
0.0    1
3.0    1
4.0    1
dtype: int64

In [61]:
my_series.fillna(0)

0    0.0
1    0.0
2    0.0
3    3.0
4    4.0
dtype: float64

In [62]:
my_series.fillna(my_series.mean())

0    0.000000
1    2.333333
2    2.333333
3    3.000000
4    4.000000
dtype: float64

In [63]:
my_series.dropna()

0    0.0
3    3.0
4    4.0
dtype: float64

In [64]:
my_series.dropna().reset_index(drop=True)

0    0.0
1    3.0
2    4.0
dtype: float64