<a href="https://colab.research.google.com/github/housekjh1/study-pandas/blob/main/Chap02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 2.1 Series의 개요

동일한 유형의 데이터만 담을 수 있으며 레이블이 있는 1차원 배열(리스트의 특징, 레이블(인덱스): 딕셔너리 특징)

- 리스트와 딕셔너리의 특징을 모두 가짐
 - 리스트: 1차원 배열
 - 딕셔너리: 레이블(키)

In [2]:
import pandas as pd
import numpy as np

### 2.1.1 클래스 및 인스턴스
- Series 클래스에서 생성자 호출로 Series 객체 생성

In [3]:
pd.Series()

  pd.Series()


Series([], dtype: float64)

### 2.1.2 Series에 값 채우기

수동으로 데이터 몇 가지를 만들어서 Series를 만드는 연습을 해보자.
- 리스트, 딕셔너리, 튜플, 넘파이 ndarray 등 가능

In [4]:
ice_cream_flavors = ["Choco", "Vanilla", "Strawberry", "Rum"]
pd.Series(ice_cream_flavors)

0         Choco
1       Vanilla
2    Strawberry
3           Rum
dtype: object

Series 생성자는 data, index, dtype, name, copy, fastpath의 6개의 매개변수를 가진다.
- None: data, index, name
- False: copy, fastpath

data 매개변수:
- 첫 번째 매개변수로 Series에 값을 채우는 변수

매개변수 이름없이 값을 전달하면 순서대로 전달됨(위치인자 방식)

매개변수의 이름을 명시하는 것이 가독성에 좋음

In [5]:
pd.Series(ice_cream_flavors)
pd.Series(data=ice_cream_flavors)

0         Choco
1       Vanilla
2    Strawberry
3           Rum
dtype: object

### 2.1.3 Series 인덱스 사용자 정의

Series의 위치 인덱스(기본)는 0부터 시작

index 매개변수:
- 인덱스 레이블 추가 할당
- 내부적으로는 위치 인덱스 있음

In [7]:
ice_cream_flavors = ["Choco", "Vanilla", "Strawberry", "Rum"]
days_of_week = ("Monday", "Wednesday", "Friday", "Saturday")
pd.Series(ice_cream_flavors, days_of_week)
pd.Series(data=ice_cream_flavors, index=days_of_week)

Monday            Choco
Wednesday       Vanilla
Friday       Strawberry
Saturday            Rum
dtype: object

딕셔너리와는 다르게 Series 인덱스는 중복 허용
- 하지만 중복은 피하는 것이 좋음(빠른 검색을 위함)

In [8]:
ice_cream_flavors = ["Choco", "Vanilla", "Strawberry", "Rum"]
days_of_week = ("Monday", "Wednesday", "Friday", "Wednesday")
pd.Series(ice_cream_flavors, days_of_week)
pd.Series(data=ice_cream_flavors, index=days_of_week)

Monday            Choco
Wednesday       Vanilla
Friday       Strawberry
Wednesday           Rum
dtype: object

키워드 인자 방식을 지원하므로 매개변수의 순서를 바꿔도 됨

In [9]:
pd.Series(index=days_of_week, data=ice_cream_flavors)

Monday            Choco
Wednesday       Vanilla
Friday       Strawberry
Wednesday           Rum
dtype: object

Series 출력의 마지막 dtype 부분은 데이터 타입을 나타냄
- bool, float, int
- object: 문자열이나 복잡한 객체
---
부울, 정수 및 실수 리스트를 이용한 Series 생성 예제

In [10]:
bunch_of_bools = [True, False, True]
pd.Series(bunch_of_bools)

0     True
1    False
2     True
dtype: bool

In [11]:
stock_price = [985.32, 950.44]
time_of_day = ["Open", "Close"]
pd.Series(data=stock_price, index=time_of_day)

Open     985.32
Close    950.44
dtype: float64

dtype 매개변수를 이용해서 강제로 다른 유형으로 변환 가능

In [14]:
stock_price = [985, 950]
time_of_day = ["Open", "Close"]
pd.Series(data=stock_price, index=time_of_day, dtype='float')

Open     985.0
Close    950.0
dtype: float64

### 2.1.4 결측값이 있는 Series 생성

지금까지 예제는 수동으로 데이터를 생성하였으므로 아무 문제가 없지만, **현실 세계의 데이터는 훨씬 복잡하다.**

가장 흔한 문제는 **결측값**이다.

판다스는 파일에서 데이터를 읽어올 때 결측값을 만나면 NaN 객체로 결측값을 대체함

In [15]:
temperatures = [94, 88, np.nan, 91]
pd.Series(temperatures)

0    94.0
1    88.0
2     NaN
3    91.0
dtype: float64

NaN 값을 만나면 숫자의 경우 dtype을 정수에서 실수로 자동 변환

## 2.2 파이썬 객체에서 Series 생성

data 매개변수는 기본 파이썬 자료구조 및 다른 라이브러리 객체를 포함하여 다양한 입력을 허용함
- 딕셔너리, 튜플, 집합 및 넘파이 ndarray를 입력해보자.
---
딕셔너리는 키값을 인덱스 레이블로 설정함

In [16]:
calorie_info = {"Cereal": 125, "Chocolate Bar": 406, "Ice Cream Sundae": 342}
diet = pd.Series(calorie_info)
diet

Cereal              125
Chocolate Bar       406
Ice Cream Sundae    342
dtype: int64

튜플은 리스트와 동일한 방식으로 생성

In [17]:
pd.Series(data = ("Red", "Green", "Blue"))

0      Red
1    Green
2     Blue
dtype: object

In [18]:
pd.Series(data = [("Red", "Green", "Blue"), (195, 32, 43, 4)])

0    (Red, Green, Blue)
1      (195, 32, 43, 4)
dtype: object

집합의 경우 리스트와 같은 순서나 딕셔너리와 같은 연관개념(키-값)이 없으므로 에러 발생

In [None]:
my_set = {"Ricky", "Bobby"}
pd.Series(my_set)

In [20]:
pd.Series(list(my_set))

0    Ricky
1    Bobby
dtype: object

넘파이 ndarray 객체도 사용 가능

In [21]:
random_data = np.random.randint(1, 101, 10)
random_data

array([31,  2, 94, 26, 38, 94, 15,  1, 71, 47])

ndarray 값의 순서가 그대로 유지됨

In [22]:
pd.Series(random_data)

0    31
1     2
2    94
3    26
4    38
5    94
6    15
7     1
8    71
9    47
dtype: int64

## 2.3 Series의 속성

속성은 객체에 속하는 데이터의 조각
- 속성은 객체의 내부 상태에 대한 정보를 나타냄
- 속성의 값은 다른 객체일 수 있음

In [23]:
calorie_info = {"Cereal": 125, "Chocolate Bar": 406, "Ice Cream Sundae": 342}
diet = pd.Series(calorie_info)
diet

Cereal              125
Chocolate Bar       406
Ice Cream Sundae    342
dtype: int64

values 속성: Series 값들을 반환(넘파이의 ndarray 객체)

In [24]:
diet.values

array([125, 406, 342])

In [25]:
type(diet.values)

numpy.ndarray

판다스는 넘파이에 종속적임
- 내부적으로 넘파이의 ndarray를 이용하여 Series의 값을 저장
- ndarray 객체는 내부적으로 C를 사용하므로 속도가 빠르며, 효율적임

> Series는 넘파이를 판다스에서 최적화시켜 사용하기 위한 계층이라고 볼 수 있음(wrapper)

---

index 속성: Series 인덱스 레이블을 저장하는 index 객체 반환
- index 객체는 판다스 자체 객체임

In [26]:
diet.index

Index(['Cereal', 'Chocolate Bar', 'Ice Cream Sundae'], dtype='object')

In [27]:
type(diet.index)

pandas.core.indexes.base.Index

size 속성: Series 값의 개수 반환

In [28]:
diet.size

3

shape 속성: 판다스 자료구조의 차원을 포함하는 튜플 반환

In [29]:
diet.shape

(3,)

is_unique 속성: 모든 값이 유니크한 경우 True, 아니면 False

In [30]:
diet.is_unique

True

In [31]:
pd.Series([3,3]).is_unique

False

is_monotonic 속성: Series 값들이 언제나 이전 값보다 크면 True

In [36]:
pd.Series(data=[1,3,6]).is_monotonic_increasing

True

In [37]:
pd.Series(data=[1,6,3]).is_monotonic_increasing

False

## 2.4 첫 번째 행과 마지막 행 검색

In [38]:
values = range(0,500,5)
nums = pd.Series(data=values)
nums

0       0
1       5
2      10
3      15
4      20
     ... 
95    475
96    480
97    485
98    490
99    495
Length: 100, dtype: int64

In [40]:
nums.head(10)

0     0
1     5
2    10
3    15
4    20
5    25
6    30
7    35
8    40
9    45
dtype: int64

In [42]:
nums.tail(10)

90    450
91    455
92    460
93    465
94    470
95    475
96    480
97    485
98    490
99    495
dtype: int64

## 2.5 수학 연산

### 2.5.1 통계 연산
오름차순으로 정렬된 숫자 사이에 NaN 값을 포함하는 Series 생성

In [45]:
numbers = pd.Series([1,2,3,np.nan,4,5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

count 메서드: null이 아닌 값의 개수를 카운팅해서 반환

In [46]:
numbers.count()

5

sum 메서드: Series의 값을 모두 합함(NaN 값 무시)

In [47]:
numbers.sum()

15.0

skipna = False : 결측치를 강제로 포함시킬 수 있음

In [50]:
numbers.sum(skipna=False)

nan

min_count 매개변수: 합을 계산하기 위한 최소한의 유효값의 수 설정

In [51]:
numbers.sum(min_count=3)

15.0

In [54]:
numbers.sum(min_count=6)

nan

product 메서드: Series의 모든 값을 곱함(Nan 무시)
- skipna, min_count 매개변수 있음

In [55]:
numbers.product()

120.0

In [56]:
numbers.product(skipna=False)

nan

In [59]:
numbers.product(min_count=6)

nan

cumsum 메서드: 누적합을 값으로 가지는 Series 반환

In [60]:
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [61]:
numbers.cumsum()

0     1.0
1     3.0
2     6.0
3     NaN
4    10.0
5    15.0
dtype: float64

In [62]:
numbers.cumsum(skipna=False)

0    1.0
1    3.0
2    6.0
3    NaN
4    NaN
5    NaN
dtype: float64

pct_change 메서드: 값의 변동 비율을 계산해서 Series로 반환
- 현재 인덱스의 값(n1), 이전 인덱스의 값(n0) : (n1-n0)/n0
- 결측값에 대해서는 정방향 채우기(foward-fill) 방식을 기본으로 적용
 - NaN의 마지막 유효값으로 대체

In [64]:
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [63]:
numbers.pct_change()

0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.333333
5    0.250000
dtype: float64

fill-method 매개변수: 결측치 채우는 방식 설정
- 기본: 정방향 채우기 ("pad", "ffill")
- 역방향 채우기: "bfill" or "backfill"

In [65]:
numbers.pct_change(fill_method="bfill")

0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.000000
5    0.250000
dtype: float64

mean 메서드: Series 값의 평균 반환

In [66]:
numbers.mean()

3.0

median 메서드: 중앙값 반환

std 메서드: 표준편차

max, min 메서드: 최댓값, 최솟값 반환

In [67]:
numbers.median()

3.0

In [69]:
numbers.std()

1.5811388300841898

In [70]:
numbers.max()

5.0

In [71]:
numbers.min()

1.0

알파벳 문자열에서는
- min은 사전에서 앞쪽인 문자열
- max는 사전에서 뒤쪽인 문자열

In [72]:
animals = pd.Series(["koala", "aardvark", "zevbra"])
animals.max()

'zevbra'

In [73]:
animals.min()

'aardvark'

describe 메서드: 데이터를 요약해주는 메서드
- 개수, 평균, 표준편차, 최소, 최대 등 통계

In [74]:
numbers.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

sample 메서드: 임의의 값을 선택해서 반환

In [76]:
numbers.sample(3)

0    1.0
2    3.0
4    4.0
dtype: float64

unique 메서드: Series 값에서 유니크한 값들만 넘파이 ndarray로 반환

In [78]:
numbers.values

array([ 1.,  2.,  3., nan,  4.,  5.])

In [81]:
numbers.unique()

array([ 1.,  2.,  3., nan,  4.,  5.])

In [82]:
x = pd.Series(["A","B","C","A"])
x.unique()

array(['A', 'B', 'C'], dtype=object)

nunique 메서드: 유니크한 값의 개수를 반환(length)

In [83]:
x.nunique()

3

### 2.5.2 산술연산

In [84]:
s1 = pd.Series([5, np.nan, 15], ["A","B","C"])
s1

A     5.0
B     NaN
C    15.0
dtype: float64

In [85]:
s1+3
s1-3
s1*3
s1/3
s1.add(3)
s1.sub(3)
s1.subtract(3)
s1.mul(3)
s1.multiply(3)
s1.div(3)
s1.divide(3)

A    1.666667
B         NaN
C    5.000000
dtype: float64

In [86]:
s1//4
s1.floordiv(4)

A    1.0
B    NaN
C    3.0
dtype: float64

In [88]:
s1%3
s1.mod(3)

A    2.0
B    NaN
C    0.0
dtype: float64

### 브로드캐스팅

In [89]:
s1 = pd.Series([1,2,3],["A","B","C"])
s2 = pd.Series([4,5,6],["A","B","C"])

In [90]:
s1+s2

A    5
B    7
C    9
dtype: int64

In [95]:
s1 = pd.Series([3,6,np.nan,12])
s2 = pd.Series([2,6,np.nan,12])
s1==s2
s1.eq(s2)

s1!=s2
s1.ne(s2)

0     True
1    False
2     True
3    False
dtype: bool

In [96]:
s1 = pd.Series([5,10,15],["A","B","C"])
s2 = pd.Series([4,8,12,14],["B","C","D","E"])
s1+s2

A     NaN
B    14.0
C    23.0
D     NaN
E     NaN
dtype: float64

## 2.6 Series를 파이썬의 내장함수에 전달

In [103]:
cities = pd.Series(["Seoul","Busan","Daegu",np.nan])
cities

0    Seoul
1    Busan
2    Daegu
3      NaN
dtype: object

In [98]:
len(cities)

4

In [99]:
type(cities)

pandas.core.series.Series

In [None]:
dir(cities)

In [101]:
list(cities)

['Seoul', 'Busan', 'Daegu', nan]

In [102]:
dict(cities)

{0: 'Seoul', 1: 'Busan', 2: 'Daegu', 3: nan}

In [106]:
"Seoul" in cities # 인덱스 값 조회

False

In [108]:
2 in cities # 인덱스 값 조회

True

In [111]:
"Seoul" in cities.values # 값 조회

True

In [112]:
100 not in cities

True

## 2.7 코딩 챌린지

In [113]:
superheroes = ["Batman","Superman","Spider-Man","Iron Man","Captain America","Wonder Woman"]
strength_levels = (100,120,90,95,110,120)

In [129]:
pd.Series(superheroes)

0             Batman
1           Superman
2         Spider-Man
3           Iron Man
4    Captain America
5       Wonder Woman
dtype: object

In [131]:
pd.Series(data=strength_levels)

0    100
1    120
2     90
3     95
4    110
5    120
dtype: int64

In [117]:
heroes = pd.Series(data=strength_levels, index=superheroes)
heroes

Batman             100
Superman           120
Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [118]:
heroes.head(2)

Batman      100
Superman    120
dtype: int64

In [119]:
heroes.tail(4)

Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [127]:
heroes.nunique()

5

In [121]:
heroes.mean()

105.83333333333333

In [122]:
heroes.max()

120

In [123]:
heroes.min()

90

In [124]:
heroes*2

Batman             200
Superman           240
Spider-Man         180
Iron Man           190
Captain America    220
Wonder Woman       240
dtype: int64

In [125]:
dict(heroes)

{'Batman': 100,
 'Superman': 120,
 'Spider-Man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}

In [133]:
len(heroes)

6