In [2]:
import pandas as pd
import numpy as np

# series 사용


### series
- pandas의 기본 객체중 하나
- numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시, 기본적으로 ndarray 와 같이 0-based 인덱스 생성,  지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음


- data로만 생성하기
    - index는 기본적으로 0 부터 자동생성

In [3]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

In [4]:
s2 = pd.Series(['a', 'b', 'c'])
s2

0    a
1    b
2    c
dtype: object

In [6]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
5        5
6        6
7        7
8        8
9        9
10      10
11      11
12      12
13      13
14      14
15      15
16      16
17      17
18      18
19      19
20      20
21      21
22      22
23      23
24      24
25      25
26      26
27      27
28      28
29      29
      ... 
170    170
171    171
172    172
173    173
174    174
175    175
176    176
177    177
178    178
179    179
180    180
181    181
182    182
183    183
184    184
185    185
186    186
187    187
188    188
189    189
190    190
191    191
192    192
193    193
194    194
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

In [7]:
s4 = pd.Series([1,2,3], [100,200,300])
s4

100    1
200    2
300    3
dtype: int64

In [9]:
s5 = pd.Series([1,2,3], ['a','m','k']) # 인덱스의 제약사항이 없다
s5

a    1
m    2
k    3
dtype: int64

In [11]:
s6 = pd.Series(np.arange(5), np.arange(100,105), dtype=np.int32)
s6

100    0
101    1
102    2
103    3
104    4
dtype: int32

In [12]:
s6.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [13]:
s6.values

array([0, 1, 2, 3, 4], dtype=int32)

In [16]:
s6[0]

KeyError: 0

In [17]:
s6[104]

4

In [19]:
s6[104] = 70
s6

100     0
101     1
102     2
103     3
104    70
dtype: int32

In [23]:
s6[105] = 90
s6[200] = 80 # update의 생성은 가능
s6

100     0
101     1
102     2
103     3
104    70
105    90
200    80
dtype: int64

In [22]:
s7 = pd.Series(np.arange(7), s6.index)
s7

100    0
101    1
102    2
103    3
104    4
105    5
200    6
dtype: int64

### Series size, shape, unique, count, value_counts 함수
- size : 개수 반환
- shape : 튜플 형태로 shape 반환
- unique : 유일한 값만 ndarray로 반환
- count : NaN 을 제외한 개수를 반환
- mean : NaN 을 제외한 평균
- value_count : NaN 을 제외하고 각 값들의 빈도를 반환

In [24]:
s = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [25]:
len(s)

16

In [26]:
s.size

16

In [27]:
s.shape

(16,)

In [29]:
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [30]:
s.count()

15

In [31]:
a = np.array([2,2,2,2,2, np.NaN])
a.mean()

nan

In [33]:
b = pd.Series(a)
b.mean() # nan을 무시

2.0

In [34]:
s.mean()

2.6666666666666665

In [35]:
s.value_counts()

1.0    5
2.0    4
5.0    2
3.0    2
7.0    1
4.0    1
dtype: int64

index를 활용하여 멀티플한 값의 접근

In [38]:
s[5]
s[5,7,8]

KeyError: (5, 7, 8)

In [40]:
s[[5, 7, 8, 10]]

5     2.0
7     1.0
8     1.0
10    3.0
dtype: float64

In [41]:
s[[5, 7, 8, 10]].value_counts()

1.0    2
3.0    1
2.0    1
dtype: int64

### head, tail 함수
- head : 상위 n 개 출력 기본 5개
- tail : 하위 n 개 출력 기본 5개

In [42]:
s.head()

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
dtype: float64

In [43]:
s.tail()

11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [44]:
s.head(n=7)

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
dtype: float64

### 연산시 같은 index 기준으로 연산한다

In [49]:
s1 = pd.Series([1,2,3,4], ['a', 'b', 'c', 'd'])
s2 = pd.Series([6,3,2,1], ['d','c','b','a'])

print(s1)
print(s2)

a    1
b    2
c    3
d    4
dtype: int64
d    6
c    3
b    2
a    1
dtype: int64


In [50]:
s1 + s2

a     2
b     4
c     6
d    10
dtype: int64

### 산술 연산
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
    - 이때, 인덱스의 pair가 맞지 않으면, 결과는 NaN

In [51]:
s1 ** 2

a     1
b     4
c     9
d    16
dtype: int64

In [52]:
s1 ** s2

a       1
b       4
c      27
d    4096
dtype: int64

In [53]:
s1['k'] = 7
s2['e'] = 9

In [54]:
s1

a    1
b    2
c    3
d    4
k    7
dtype: int64

In [55]:
s2

d    6
c    3
b    2
a    1
e    9
dtype: int64

In [56]:
s1 + s2

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64

### boolean selection
- boolean Series가 [] 와 함께 사용되면 True 값에 해당하는 값만 새로 반환하는 Series 객체에 포함
- 다중 조건의 경우 &, | 를 사용하여 연결가능

In [58]:
s = pd.Series(np.arange(10), np.arange(10) + 1)
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [59]:
s > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [60]:
s[s>5]

7     6
8     7
9     8
10    9
dtype: int64

In [61]:
s % 2 == 0

1      True
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9      True
10    False
dtype: bool

In [62]:
s[s % 2== 0]

1    0
3    2
5    4
7    6
9    8
dtype: int64

In [63]:
# index 기준
s.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [64]:
s[s.index > 5]

6     5
7     6
8     7
9     8
10    9
dtype: int64

In [65]:
s > 5 & s < 8

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [66]:
(s > 5) & (s < 8)

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9     False
10    False
dtype: bool

In [67]:
s[(s > 5) & (s < 8)]

7    6
8    7
dtype: int64

In [68]:
(s >= 7).sum()

3

In [69]:
(s[s >= 7]).sum()

24

### Series 값 변경
- 추가 및 업데이트 : 인덱스 이용
- 삭제 : drop 함수 이용

In [70]:
s = pd.Series(np.arange(100, 105), ['a','b','c','d','e'])
s

a    100
b    101
c    102
d    103
e    104
dtype: int64

In [72]:
s['a']= 200
s

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [73]:
s['k']=300
s

a    200
b    101
c    102
d    103
e    104
k    300
dtype: int64

In [78]:
s.drop('k') # 결과 값에 지워지나, 원래 s 값은 변화없음

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [77]:
s

a    200
b    101
c    102
d    103
e    104
k    300
dtype: int64

In [81]:
s['k']=300
s.drop('k', inplace=True) # 원본을 삭제함
s

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [82]:
s[['a', 'b']]

a    200
b    101
dtype: int64

In [84]:
s[['a', 'b']] = [300, 900]
s

a    300
b    900
c    102
d    103
e    104
dtype: int64

### Slicing
- list, ndarray 와 동일하게 적용

In [85]:
s1 = pd.Series(np.arange(100, 105))
s1

0    100
1    101
2    102
3    103
4    104
dtype: int64

In [86]:
s1[1:3]

1    101
2    102
dtype: int64

In [93]:
s2 = pd.Series(np.arange(100, 105), ['a','b','c','d','e'])
s2

a    100
b    101
c    102
d    103
e    104
dtype: int64

In [90]:
s2[1:3] # 인덱스가 숫자가 아니더라도 순서가 있다면 슬라이싱 가능

b    101
c    102
dtype: int64

In [94]:
s2['c':'e']

c    102
d    103
e    104
dtype: int64