In [1]:
import pandas as pd

# 시리즈(Series)

시리즈 = 값(Value) + 인덱스(index)

## 시리즈 생성

* 각 도시의 2015년 인구 데이터를 시리즈로 생성

In [2]:
srs = pd.Series([9904312, 3448737, 2890451, 2466052],
               index=['서울','부산','인천','대구'])
srs

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

* 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다.

In [3]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

* 시리즈의 인덱스는 index 속성으로 접근 가능하고, 시리즈의 값은 1차원 배열이며 values속성으로 접근 가능하다.

In [4]:
srs.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [5]:
srs.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

* name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다. index.name 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다.

In [6]:
srs.name = '인구'
srs.index.name = '도시'
srs

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

## 시리즈 연산

* 시리즈의 벡터화 연산

In [7]:
srs / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

## 시리즈 인덱싱

In [8]:
srs[1], srs['부산']

(3448737, 3448737)

In [9]:
srs[3], srs['대구']

(2466052, 2466052)

* 배열 인덱싱을 하면 부분적인 값을 가지는 시리즈 자료형을 반환한다. 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.

In [10]:
srs[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [11]:
srs[['서울','대구','부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [12]:
srs[(250e4 < srs) & (srs < 500e4)]  # 인구가 250만 초과, 500만 미만인 경우

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

## 시리즈 슬라이싱

In [13]:
srs[1:3] #두번째(1)부터 네번째(3) 전까지

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [14]:
srs['부산':'대구'] # 부산에서 대구까지 (대구도 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

* 만약 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근할 수도 있다.

In [15]:
srs0 = pd.Series(range(3), index = ['a', 'b', 'c'])
srs0

a    0
b    1
c    2
dtype: int64

In [16]:
srs0.a

0

In [17]:
srs0.c

2

## 딕셔너리 자료형

* 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다. 따라서 딕셔너리 자료형에서 제공하는 in연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [18]:
"서울" in srs # 인덱스 라벨 중에 서울이 있는가

True

In [19]:
"대전" in srs  # 인덱스 라벨 중에 대전이 있는가

False

In [20]:
for key, value in srs.items():
    print('%s = %d' % (key, value))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


* 또 딕셔너리 객체에서 시리즈를 만들 수도 있다. 이번에는 2010년의 인구 자료를 srs2라는 이름의 시리즈로 만들어 보자. 이 데이터에는 대구의 인구 자료는 없지만 대신 대전의 인구 자료가 포함되어 있다.

In [21]:
srs2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
srs2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

* 인덱스를 리스트로 지정하여 데이터의 순서를 지정해 줄 수 있다.(python 3.7부터)

In [22]:
srs2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])
srs2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

## 인덱스 기반 연산

In [23]:
ds = srs - srs2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [24]:
srs.values - srs2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

* 대구와 대전의 경우에는 2010년 자료와 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능하므로 NaN(Not a Number)이라는 값을 가지게 된다. 또한 **NaN 값이 float 자료형에서만 가능**하므로 다른 계산 결과도 모두 float 자료형이 되었다는 점에 주의한다. NaN이 아닌 값을 구하려면 notnull 메서드를 사용한다.

In [25]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [26]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [27]:
# 인구증가율(%)

ratio = (srs - srs2) / srs2 * 100
ratio = ratio[ratio.notnull()]
ratio

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

## 데이터의 갱신, 추가, 삭제

* 인덱싱을 이용하면 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)할 수 있다.

In [28]:
ratio['부산'] = 1.63
ratio

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [29]:
ratio['대구'] = 1.41
ratio

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

* 데이터를 삭제할 때도 딕셔너리처럼 del 명령을 사용한다.

In [30]:
del ratio['서울']
ratio

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

[참고-데이터 사이언스 스쿨](https://datascienceschool.net/01%20python/04.01%20%ED%8C%90%EB%8B%A4%EC%8A%A4%20%ED%8C%A8%ED%82%A4%EC%A7%80%EC%9D%98%20%EC%86%8C%EA%B0%9C.html)