# Pandas - Series

In [1]:
import numpy as np
import pandas as pd

## 시리즈 생성
>시리즈 = 값(value) + 인덱스(index)

In [3]:
s = pd.Series([123,456,789,135])     # Series 클래스 생성자, 데이터는 리스트나 1차원 배열 형식(numpy)
s       # index의 default는 0부터 시작하는 정수값

0    123
1    456
2    789
3    135
dtype: int64

In [4]:
s = pd.Series([123,456,789,135],
              index = ['서울','부산','인천','대구'])     # 인덱스 라벨 : 문자열, 날짜, 시간, 정수 등 가능
s 

서울    123
부산    456
인천    789
대구    135
dtype: int64

In [8]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index = ['서울','부산','인천','대구'], dtype=np.int32) 
s 

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int32

In [9]:
# 시리즈의 값 - 넘파이 배열
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int32)

In [10]:
# 시리즈의 인데스
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [12]:
s.name = '인구'   # 시리즈의 이름
s.index.name = '도시'  # index의 이름
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int32

## 시리즈의 연산

In [13]:
s/1000000       # dtype만 변경됨, series의 데이터는 numpy이기 때문에 가능한 결과

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

## 시리즈 인덱싱

In [23]:
s[1], s['부산'], s.부산

(3448737, 3448737, 3448737)

In [16]:
# 시리즈 자료형 반환 - 배열 인덱싱을 이용
# fancy indexing
s[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int32

In [17]:
# slicing
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int32

In [19]:
s['부산':'대구']    # 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 콜론(:) 기호 뒤에 오는 값도 결과에 포함됨

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int32

In [20]:
# 필터링
s[(2500000<s) & (s<3000000)]    # s[2500000 < s < 3000000]은 사용 불가, and

도시
인천    2890451
Name: 인구, dtype: int32

In [21]:
s[(s<25e5) | (s>4e6)]   # or

도시
서울    9904312
대구    2466052
Name: 인구, dtype: int32

## 시리즈와 딕셔너리

In [26]:
'서울' in s, '대전' in s

(True, False)

In [24]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [None]:
# 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. => 따라서 딕셔너리를 사용하여 시리즈를 만드는 것을 권장하지 않음
# 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 한다.

## 인덱스 기반 연산

In [27]:
s - s2  # index가 두 시리즈에 존재하면 연산 결과, 아니면 NaN

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [28]:
s.values - s2.values

array([272830,  55546, 258416, 975894])

In [29]:
# 인구 증가율
rs = (s-s2)/s2 * 100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [31]:
rs.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [33]:
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

## 데이터의 갱신, 추가, 삭제

In [34]:
rs['부산'] = 1.63  # update
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [36]:
rs['대구'] = 1.41   # create
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [37]:
del rs['부산']      # delete
rs

서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64