In [1]:
import numpy as np
import pandas as pd

# Series
* pandas의 기본 객체 중 하나로 numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타낸다.
* index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용한다.
* 같은 타입의 0개 이상의 데이터를 가질 수 있다.

In [3]:
s1 = pd.Series([1,2,3,4,5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

## data, index함께 명시하기

In [4]:
s2 = pd.Series([1, 2, 3], [100, 200, 300])
s2

100    1
200    2
300    3
dtype: int64

## data, index, data type 함께 명시하기

In [5]:
s3 = pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int16)
s3

100    0
101    1
102    2
103    3
104    4
dtype: int16

## 인덱스 활용하기
* 인덱스만 가져오기 index
* 값만 가져오기 values
* 인덱스를 통해 데이터에 접근이 가능하다.
* 인덱스를 통해 데이터 업데이트가 가능하다.
* 인덱스의 재사용이 가능하다.

In [6]:
s3.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [7]:
s3.values

array([0, 1, 2, 3, 4], dtype=int16)

In [8]:
s3[100]

0

In [12]:
s3[100] = 50
s3

100    50
101     1
102     2
103     3
104     4
dtype: int16

In [13]:
s3[200] = 55
s3

100    50
101     1
102     2
103     3
104     4
200    55
dtype: int64

In [15]:
s4 = pd.Series(np.arange(6), s3.index)
s4

100    0
101    1
102    2
103    3
104    4
200    5
dtype: int32

## Series 함수
* size : 개수 반환
* shape : 튜플형태로 shape반환
* unique: 유일한 값만 ndarray로 반환
* count : NaN을 제외한 개수를 반환
* mean: NaN을 제외한 평균
* value_counts: NaN을 제외하고 각 값들의 빈도를 반환

In [16]:
s = pd.Series([np.NaN, 1,2,3,1,2,1,2,4,5,1,3,2,8,4,1,2])
s

0     NaN
1     1.0
2     2.0
3     3.0
4     1.0
5     2.0
6     1.0
7     2.0
8     4.0
9     5.0
10    1.0
11    3.0
12    2.0
13    8.0
14    4.0
15    1.0
16    2.0
dtype: float64

In [17]:
s.size

17

In [19]:
s.count()

16

In [21]:
s.shape

(17,)

In [22]:
s.unique()

array([nan,  1.,  2.,  3.,  4.,  5.,  8.])

In [23]:
s.mean()

2.625

In [24]:
s.value_counts()

2.0    5
1.0    5
4.0    2
3.0    2
8.0    1
5.0    1
dtype: int64

In [25]:
# index를 활용하여 멀티플한 값에 접근
s[[5, 7, 8, 10]].value_counts()

2.0    2
1.0    1
4.0    1
dtype: int64

## head, tail 함수
* head : 상위 n개 출력 기본 5개
* tail : 하위 n개 출력 기본 5개

In [26]:
s.head()

0    NaN
1    1.0
2    2.0
3    3.0
4    1.0
dtype: float64

In [29]:
s.tail(n = 10)

7     2.0
8     4.0
9     5.0
10    1.0
11    3.0
12    2.0
13    8.0
14    4.0
15    1.0
16    2.0
dtype: float64

## Series 연산
* Series별 각 인덱스가 맞는 값끼리 연산을 적용한다.
* 인덱스가 맞지 않는 값이 있으면 결과는 NaN이다.

In [30]:
s1 = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])
s2 = pd.Series([6, 3, 2, 1], ['d', 'c', 'b', 'a'])

In [31]:
s1 + s2

a     2
b     4
c     6
d    10
dtype: int64

In [32]:
s1 ** s2

a       1
b       4
c      27
d    4096
dtype: int64

In [33]:
s1['k'] = 7
s2['e'] = 9

In [34]:
s1 + s2

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64

## Boolean selection
* boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함된다.
* 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능하다.

In [36]:
s = pd.Series(np.arange(10), np.arange(10)+100)
s

100    0
101    1
102    2
103    3
104    4
105    5
106    6
107    7
108    8
109    9
dtype: int32

In [37]:
s[s>5]

106    6
107    7
108    8
109    9
dtype: int32

In [38]:
s[s.index > 107]

108    8
109    9
dtype: int32

In [39]:
(s >= 7).sum()

3

In [40]:
(s[s>=7]).sum()

24

## Series 값 변경
* 추가 및 업데이트는 인덱스를 이용한다.
* 삭제는 drop함수 이용한다.
    * inplace값이 True면 원래 Series에 반영되고 False면 반영이 안된다.

In [46]:
s = pd.Series(np.arange(100, 105), ['a', 'b', 'c', 'd', 'e'])
s

a    100
b    101
c    102
d    103
e    104
dtype: int32

In [47]:
s['a'] = 1000
s

a    1000
b     101
c     102
d     103
e     104
dtype: int32

In [48]:
s['f'] = 2
s

a    1000
b     101
c     102
d     103
e     104
f       2
dtype: int64

In [49]:
s.drop('c', inplace = False)
s

a    1000
b     101
c     102
d     103
e     104
f       2
dtype: int64

In [50]:
s.drop('c', inplace = True)
s

a    1000
b     101
d     103
e     104
f       2
dtype: int64

## Slicing
* 리스트, ndarray와 동일하게 적용된다.

In [51]:
s = pd.Series(np.arange(100, 105), ['a', 'c', 'b', 'd', 'e'])
s

a    100
c    101
b    102
d    103
e    104
dtype: int32

In [52]:
s2[1:3]

c    3
b    2
dtype: int64

In [53]:
s2['c':'e']

c    3
b    2
a    1
e    9
dtype: int64