# 시리즈(Series)

In [2]:
import numpy as np
import pandas as pd

- DataFrame의 열 <br>
동일한 타입의 데이터가 들어간다 <br>
numpy array와의 차이점: 인덱싱을 숫자 말고 내 마음대로 별도로 붙일 수 있다. <br>
=> 파라미터로 \[데이터들\] , index = \[인덱스들\] 가 들어간다.


In [4]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [13]:
multiindex = pd.Series([9904312, 3448737, 2890451, 2466052],
index= [["Capital","Capital","SouthEast","SouthEast"],
["서울", "부산", "인천", "대구"]])
multiindex

Capital    서울    9904312
           부산    3448737
SouthEast  인천    2890451
           대구    2466052
dtype: int64

In [7]:
# numpy와의 비교 => 인덱싱의 차이
x = np.array([9904312, 3448737, 2890451, 2466052])
x

array([9904312, 3448737, 2890451, 2466052])

In [11]:
# 그래서 Series에 따로 인덱스를 주지 않으면 np.array랑 별 차이 없음
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

In [12]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [18]:
# Series를 만들고 values만 뽑아낸 이후엔 np.array 처럼 사용하면 됨
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [22]:
# 시리즈에 이름 주기 => 나중 DataFrame의 Header가 된다
s.name = '인구'
# 인덱스에 이름 주기
s.index.name = '도시'

### 시리즈 연산 (벡터화 지원)

In [24]:
s / 100000

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

### 시리즈 인덱싱

In [25]:
s[1] , s['부산']

(3448737, 3448737)

In [27]:
s[[0,3,1]], s[["서울", "대구", "부산"]]

(도시
 서울    9904312
 대구    2466052
 부산    3448737
 Name: 인구, dtype: int64,
 도시
 서울    9904312
 대구    2466052
 부산    3448737
 Name: 인구, dtype: int64)

In [28]:
# np.array의 Fancy 인덱싱도 가능
s[(250e4 < s) & (s < 500e4)] 

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [32]:
# 슬라이싱도 가능
""" 숫자로 하면 맨 끝을 제외시킴. 파이썬처럼 """
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [35]:
""" 이름으로 하면 맨 끝도 들어감 """
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [36]:
s0 = pd.Series(range(3),index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [42]:
# NodeJS Object Value값 뽑아내듯이 쓸 수도 있음
""" Series.인덱스 = 밸류 """
s0.a

0

(위 셀에서 Inspired 된) <br>
### 시리즈와 딕셔너리 자료형

- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다. 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [43]:
"서울" in s

True

In [44]:
"대전" in s

False

In [45]:
for k,v in s.items():
    print(f"{k},{v}")

서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [49]:
# 딕셔너리처럼 시리즈 만들수도 있다
""" [밸류] 자리에 딕셔너리가, 인덱스는 똑같이 """
# 딕셔너리는 순서보장이 안되듯이 시리즈도 원랜 안됨. 
""" [밸류] 자리에 딕셔너리가, 인덱스는 똑같이 """
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035,"대전": 1490158}, index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [53]:
# 윗 셀 s2와 비교
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [55]:
# s와 s2 차이가 있을까?
""" 예를 들어 s는 2010년 인구, s2는 2015년 인구 """
""" 한쪽에만 있는 애들은 NaN """
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [58]:
# 인덱스를 무시하고 빼버리니까 이상하게 나온다
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [60]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [61]:
# 팬시 인덱싱 => NaN 제외
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [65]:
# 인구 증가율(%)
rs = (s - s2) / s * 100
rs = rs[rs.notnull()]
rs

부산    1.610619
서울    2.754659
인천    8.940335
dtype: float64

### 데이터 갱신, 추가, 삭제

In [67]:
# 데이터 갱신
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.754659
인천    8.940335
dtype: float64

In [70]:
# 데이터 추가
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.754659
인천    8.940335
대구    1.410000
dtype: float64

In [71]:
# 데이터 삭제
del rs["서울"]

In [10]:
s1 = pd.Series([1,2,3,4], index = ['삼성','현대','기아','LG'])
s2 = pd.Series([5,6,7,8], index = ['삼성','현대','기아','SK'])
s1, s2

(삼성    1
 현대    2
 기아    3
 LG    4
 dtype: int64,
 삼성    5
 현대    6
 기아    7
 SK    8
 dtype: int64)

In [5]:
s1 + s2

LG     NaN
SK     NaN
기아    10.0
삼성     6.0
현대     8.0
dtype: float64

In [6]:
s1 - s2

LG    NaN
SK    NaN
기아   -4.0
삼성   -4.0
현대   -4.0
dtype: float64

In [7]:
s1 * s2 

LG     NaN
SK     NaN
기아    21.0
삼성     5.0
현대    12.0
dtype: float64

In [11]:
s1 / s2

LG         NaN
SK         NaN
기아    0.428571
삼성    0.200000
현대    0.333333
dtype: float64