# [시리즈 클래스]
- https://datascienceschool.net/view-notebook/ee0a5679dd574b94b55193690992f850/

시리즈 클래스는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다. 데이터 자체는 값(value)라고 한다. <br>
`시리즈 = 값(value) + 인덱스(index)`

# <span style="color:teal"> **1. 시리즈 생성**</span>
데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 인덱스의 길이는 데이터의 길이와 같아야 한다. 다음 예에서 이 "서울", "부산" 등의 문자열이 인덱스의 값이다. 인덱스의 값을 인덱스 라벨(label)이라고도 한다. 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.

다음 예제는 각 도시의 2015년 인구 데이터를 시리즈로 만든 것이다.

In [2]:
import numpy as np
import pandas as pd

In [4]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

- <span style="color:deeppink"> **만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다.** </span>

In [7]:
print(pd.Series(range(10, 14)))
print(s.index)
print(s.values)

0    10
1    11
2    12
3    13
dtype: int64
Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]


- <span style="color:deeppink"> **name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다.<br> 
index.name 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다.** </span>

In [9]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

# <span style="color:teal"> **2. 시리즈 연산** <span>
- NumPy 배열처럼 시리즈도 벡터화 연산을 할 수 있다.
- 다만 연산은 시리즈의 값(value)에만 적용되며 인덱스 값(index)은 변하지 않는다.

예를 들어 인구 숫자를 백만 단위로 만들기 위해 시리즈 객체를 1,000,000 으로 나누어도 인덱스 라벨에는 영향을 미치지 않는 것을 볼 수 있다.

In [8]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

# <span style="color:teal"> **3. 시리즈 인덱싱** <span>
- 시리즈는 NumPy 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다.
- 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능하다.

In [9]:
s[1], s["부산"]

(3448737, 3448737)

In [16]:
s[[0]], s[['서울']]

(도시
 서울    9904312
 Name: 인구, dtype: int64, 도시
 서울    9904312
 Name: 인구, dtype: int64)

- <span style="color:deeppink"> **배열인덱싱을 하면 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.** </span>

In [17]:
s[[0,3,2]]

도시
서울    9904312
대구    2466052
인천    2890451
Name: 인구, dtype: int64

In [14]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [15]:
s[(250e4 < s) & (s < 500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

- <span style="color:deeppink"> **문자열 라벨을 이용한 슬라이싱을 하는 경우에는 <br> 콜론(:) 기호 뒤에 오는 인덱스에 해당하는 값도 결과에 포함되므로 주의해야 한다.**</span>

In [16]:
s[1:3]  # 숫자 - 끝나기 전까지

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [17]:
s["부산":"대구"] # 글자 - 해당 index까지

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

- <span style='color:deeppink'> **만약 라벨 값이 영문 문자열인 경우에는 마치 속성인것처럼 점(.)을 이용하여 접근할 수도 있다.**<span>

In [27]:
s0 = pd.Series(range(3), index=["a", "b", "c"])
print(s0, s0.a , s0.b ,sep='\n\n') 

a    0
b    1
c    2
dtype: int64

0

1


# <span style="color:teal"> **4. 시리즈와 딕셔너리 자료형** </span>
시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다. 
- 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고
- items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [23]:
"서울" in s,"대전" in s

(True, False)

In [28]:
for k, v in s.items():
    print("%s = %s" % (k, format(v,',')))

서울 = 9,904,312
부산 = 3,448,737
인천 = 2,890,451
대구 = 2,466,052


- <span style='color:deeppink'> **또 딕셔너리 객체에서 시리즈를 만들 수도 있다.** </span> 
- 이번에는 2010년의 인구 자료를 s2라는 이름의 시리즈로 만들어 보자. 이 데이터에는 대구의 인구 자료는 없지만 대신 대전의 인구 자료가 포함되어 있다.

In [30]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

- <span style='color:deeppink'> **딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. <br>만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 한다.**</span>

In [32]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

# <span style='color:teal'> 5. 인덱스 기반 연산 </span>
이번에는 2015년도와 2010년의 인구 증가를 계산해 보자. <br> 두 개의 시리즈의 차이를 구하면 된다.<br>두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구한다.

In [33]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [34]:
print(s)
print(s2)
s.values - s2.values # 인덱스와 상관없이 빼기

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64


array([ 6511121, -6182745,   258416,   975894], dtype=int64)

- <span style='color:deeppink'> **대구와 대전의 경우에는 2010년 자료와 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능하므로 <br> NaN(Not a Number)이라는 값을 가지게 된다.** </span>
- <span style='color:deeppink'> **또한 NaN 값이 float 자료형에서만 가능하므로 다른 계산 결과도 모두 `float` 자료형이 되었다는 점에 주의한다. <br> NaN이 아닌 값을 구하려면 `notnull` 메서드를 사용한다.** </span>

In [35]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [36]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- <span style='color:deeppink'> **인구 증가율(%)은 다음과 같이 구할 수 있다.** </span>

In [39]:
rs = (s - s2) / s2 * 100
print(rs)
rs = rs[rs.notnull()]
print(rs)

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64


# <span style='color:teal'>6. 데이터의 갱신, 추가, 삭제</span>
인덱싱을 이용하면 딕셔너리처럼 데이터를 __갱신(update)__하거나 __추가(add)__할 수 있다.

In [44]:
rs["부산"] = 1.63 # rs 시리즈에 '부산' 추가 
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [45]:
rs["대구"] = 1.41 # rs 시리즈에 '대구' 추가 
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

데이터를 삭제할 때도 딕셔너리처럼 __del 명령__을 사용한다.

In [46]:
del rs["서울"] # rs.pop('서울')과 같다
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [None]:
rs.pop('인천')  # 딕셔너리 삭제방법으로 시리즈 객체에서 '인천' 삭제 
rs