# Pandas Series

In [4]:
# 판다스 패키지 임포트
import pandas as pd 
import numpy as np       #넘파이도 같이 따라다님


## 시리즈 생성

*  Series 클래스는 넘파이에서 제공하는 1차원 배열과 비슷
* 각 데이터의 의미를 표시하는 인덱스(index)
* 데이터 자체는 값(value)
* 시리즈 = 값(value) + 인덱스(index)  값은 넘파이의 값이 들어감.
* s = pd.Series(value) value에는 여러가지 종류 들어갈 수 있음 데이터 타입은 ㅇ도일

In [5]:
s = pd.Series([9904312,3448737,2890451,2465052])
s

0    9904312
1    3448737
2    2890451
3    2465052
dtype: int64

In [11]:
s = pd.Series([9904312,3448737,2890451,2465052],
              index = ['서울', '부산', '인천', '대구'], dtype=np.int32)
s

서울    9904312
부산    3448737
인천    2890451
대구    2465052
dtype: int32

In [12]:
# 시리즈의 값 - 넘파이 배열
s.values

array([9904312, 3448737, 2890451, 2465052], dtype=int32)

In [13]:
# 시리즈의 인덱스
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [15]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2465052
Name: 인구, dtype: int32

## 시리즈의 연산

In [16]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.465052
Name: 인구, dtype: float64

## 시리즈 인덱싱

In [28]:
s[1], s['부산'] , s.부산

(3448737, 3448737, 3448737)

In [18]:
# fancy indexing
s[[0,3,1]]

도시
서울    9904312
대구    2465052
부산    3448737
Name: 인구, dtype: int32

In [19]:
s[['서울', '대구', '부산']]

도시
서울    9904312
대구    2465052
부산    3448737
Name: 인구, dtype: int32

In [20]:
# slicing
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int32

In [22]:
# 인덱스로 슬라이싱의 경우 [a:b] b값은 포함하지 않지만 문자인덱스로 슬라이싱하면 문자인덱스도 포함. 대구!
s['부산' : '대구']

도시
부산    3448737
인천    2890451
대구    2465052
Name: 인구, dtype: int32

In [23]:
# 필터링
s[2500000 < s < 3000000]

ValueError: ignored

In [24]:
s[(2500000 < s) & (s < 3000000)]   # Logical and : s[<s<] 는 작용하지 않고, 나눠서 &로 묶어줘야 함 

도시
인천    2890451
Name: 인구, dtype: int32

In [26]:
s[(25e5 > s) | (s > 4e6)]

도시
서울    9904312
대구    2465052
Name: 인구, dtype: int32

In [27]:
s.부산

3448737

## 시리즈와 딕셔너리

* 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다. 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.
* "서울" in s  # 인덱스 라벨 중에 서울이 있는가
* 권장하는 방법은 아님 sorting이 안됨

In [29]:
'서울' in s, '대전' in s

(True, False)

In [31]:
s2 = pd.Series({"서울":9999999, "부산":3333333, "인천":2666666, "대전":1499999})
s2

서울    9999999
부산    3333333
인천    2666666
대전    1499999
dtype: int64

## 인덱스 기반 연산

In [32]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산    115404.0
서울    -95687.0
인천    223785.0
dtype: float64

In [33]:
s.values - s2.values

array([-95687, 115404, 223785, 965053])

In [34]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    3.46212
서울   -0.95687
인천    8.39194
dtype: float64

In [37]:
rs = (s - s2) / s2 * 100
rs

대구        NaN
대전        NaN
부산    3.46212
서울   -0.95687
인천    8.39194
dtype: float64

In [38]:
rs.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [41]:
rs = rs[rs.notnull()]
rs

부산    1.63000
서울   -0.95687
인천    8.39194
dtype: float64

## 데이터의 갱신, 추가, 삭제

In [42]:
# update
rs['부산'] = 1.63
rs

부산    1.63000
서울   -0.95687
인천    8.39194
dtype: float64

In [43]:
# add
rs['대구'] = 1.41
rs

부산    1.63000
서울   -0.95687
인천    8.39194
대구    1.41000
dtype: float64

In [44]:
# delete
del rs['부산']
rs

서울   -0.95687
인천    8.39194
대구    1.41000
dtype: float64