In [1]:
import pandas as pd

### 시리즈 클래스
- 시리즈 Series 클래스는 넘파이에서 제공하는 1차원 배열과 비슷하지만, 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다.
데이터 자체는 값(value)라고 한다.
시리즈 = 값(Value) + 인덱스(index)

-데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 이 때 인덱스의 길이는 데이터의 길이와 같아야한다.
다음 예에서 이 '서울','부산' 등의 문자열이 인덱스의 값이다. 인덱스의 값을 인덱스 라벨(Label)이라고도 한다. 인덱스 라벨은 문자열 뿐만 아니라 날짜 시간 정수 등도 가능 !


In [2]:
s = pd.Series([9904312, 3448737, 2890451,2466052],
             index = ['서울','부산','인천','대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

- 만약 인덱스 지정안하면 0부터 시작하는 정수값이 됨

In [3]:
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

- 시리즈의 인덱스는 index 속성으로 접근할 수 있다. 시리즈의 값은 1차원 배열이며, values 속성으로 접근할 수 있다.

In [4]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [5]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

- name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다. index.name 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다.

In [6]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산
- 넘파이 배열처럼 시리즈도 벡터화 연산을 할 수 있다. 다만 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다. 예를 들어 인구 숫자를 백만 단위로 만들기 위해 시리즈 객체를 1,000,000 으로 나누어도 인덱스 라벨에는 영향을 미치지 않는 것을 볼 수 있다.

In [7]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 시리즈 인덱싱
- 시리즈는 넘파이 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다. 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(Slicing)도 가능하다.

In [8]:
s[1], s['부산']

(3448737, 3448737)

In [9]:
s[3], s['대구']

(2466052, 2466052)

- 배열 인덱싱을 하면 부분적인 값을 가지는 시리즈 자료형을 반환하게 된다 ! 자료의 순서를 바꾸거나 특정한 자료만 선택할수 있음 !

In [10]:
s[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [11]:
s[['서울','대구','부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [13]:
s[(250e4 < s ) & ( s < 500e4)] # 인구가 250만 초과, 500 미안인 경우

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [14]:
s[1:3] # 두번째(1)부터 세번째(2)까지 (네번째 (3) 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [15]:
s['부산':'대구'] # 부산에서 대구까지 (대구도 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈와 딕셔너리 자료형
- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(Key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다.
따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키와 값을 접근할 수도 있다.

In [17]:
'서울' in s # 인덱스 라벨중에 서울이 있는지 True/False

True

In [18]:
'대전' in s # 인덱스 라벨 중 대전이 있는지

False

In [20]:
for k,v in s.items(): # 아이템 활용예시
    print("%s = %d" % (k,v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


- 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야한다.

In [23]:
s2 = pd.Series({'서울' : 9631482, '부산':3393191, '인천': 2632035, '대전' : 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [24]:
s2 = pd.Series({'서울': 9631482, '부산':3393191,'인천':2632035,'대전':1490158},index =['부산','서울','인천','대전'])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

### 인덱스 기반 연산
- 이번에는 2015년도와 2010년의 인구 증가를 계산. 두 개의 시리즈의 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구함

In [25]:
ds = s -s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [26]:
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

- 대구와 대전과 같은 경우에는 2010년 자료와 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능하므로 NaN이라는 값을 가지게 된다. 또한 NaN 값이 float 자료형에서만 가능하므로 다른 계산 결과도 모두 float 자료형이 되었다는 점에 주의한다. NaN이 아닌 값을 구하려면 , notnull 메서드를 사용한다.

In [28]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [30]:
rs= (s-s2) /s2*100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제
- 인덱싱을 이용하여, 딕셔너리처럼 데이터를 갱신(Update)하거나 추가(Add)할 수 있다.

In [32]:
# 갱신
rs['부산'] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [33]:
# 추가
rs['대구'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [34]:
# 제거
del rs['서울']
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

### 연습문제 4.1.1
- 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
- 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [38]:
answer1 = pd.Series({'첫번째': 100 , '두번째': 123 , '세번째':140}, index =['첫번째','두번째','세번째'])
answer2 = pd.Series({'첫번째': 145, '두번째': 125 , '세번째가아닌 네번째':150})
answer1,answer2

(첫번째    100
 두번째    123
 세번째    140
 dtype: int64,
 첫번째           145
 두번째           125
 세번째가아닌 네번째    150
 dtype: int64)

In [39]:
answer1 -answer2

두번째           -2.0
세번째            NaN
세번째가아닌 네번째     NaN
첫번째          -45.0
dtype: float64