In [1]:
import numpy as np
import pandas as pd

### Series(data, index, type, ...)
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기는을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음

- data로만 생성하기
  - index는 기본적으로 0부터 자동적으로 생성

In [3]:
s1 = pd.Series([1, 2, 3])
s1

0    1
1    2
2    3
dtype: int64

In [5]:
s2 = pd.Series(['a', 'b', 'c'])  # 입력된 데이터 타입을 자동적으로 추적함
s2

0    a
1    b
2    c
dtype: object

In [7]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

- data, index 함께 명시하기

In [12]:
s4 = pd.Series([1, 2, 3], ['a', 200, True])  # 인덱스를 임의로 지정할 수 있다.
s4

a       1
200     2
True    3
dtype: int64

- data, index, data type 함께 명시하기

In [14]:
s5 = pd.Series(np.arange(5), np.arange(100, 105), dtype = object)
s5

100    0
101    1
102    2
103    3
104    4
dtype: object

#### 인덱스 활용하기

In [15]:
s5.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [18]:
s5.values

array([0, 1, 2, 3, 4], dtype=object)

1. 인덱스를 통한 데이터 접근

In [31]:
s5[100]  # s5의 첫번째 인덱스는 100

0

2. 인덱스를 통한 데이터 업데이트

In [23]:
s5[104] = 70  # 인덱스를 통해 업데이트 가능
s5[104]

70

In [26]:
s5[200] = 100  # 값을 업데이트 하는 경우 존재하지 않는 index라도 접근 가능
print(s5)

100      0
101      1
102      2
103      3
104     70
200    100
dtype: object


3. 인덱스 재사용하기

In [29]:
s6 = pd.Series(np.arange(6), s5.index)  # 기존에 존재하는 데이터의 index를 그대로 사용. 대신 길이가 같아야 함.
s6

100    0
101    1
102    2
103    3
104    4
200    5
dtype: int32

4. 인덱스를 활용하여 멀티플한 값에 접근

In [59]:
s5[[104, 103, 200]]  # 인덱스 괄호 안에 리스트 형태로 여러개의 index를 입력하여 접근

104     70
103      3
200    100
dtype: object

### Series size, shape, unique, count, value_counts 함수
- size : 개수 반환
- shape : 튜플 형태로 shape 반한
- unique : 유이한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean : NaN을 제외한 평균
- valeu_counts : NaN을 제외하고 각 값들의 빈도를 반환

- NaN : Not a Number 누락 or 다른 값이 들어와 존재하지 않는 값을 의미.

In [36]:
s = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN]) # NaN : Not a Number
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [37]:
len(s) # Series 전체의 길이를 반환

16

In [39]:
s.size # pandas의 len

16

In [41]:
s.shape # 1차원 데이터 이기 때문에 값이 1개만 반환

(16,)

In [42]:
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [44]:
s.count() # 실제 값이 있는 데이터만 count

15

In [47]:
a = np.array([2,2,2,2, np.NaN])
a.mean()  # numpy에서 NaN이 존재하면 평균을 연산할 수 없다.

nan

In [49]:
b = pd.Series(a)
b.mean()  # NaN을 무시한다.

2.0

In [53]:
s.mean()

2.6666666666666665

In [55]:
s.value_counts()  # 각 값을 index 삼아 빈도수를 반환

1.0    5
2.0    4
5.0    2
3.0    2
7.0    1
4.0    1
dtype: int64

### head, tail 함수
- head : 상위 n개 출력. 기본 5개
- tail : 하위 n개 출력. 기본 5개
- 출력되는 개수를 조절

In [63]:
s.head()

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
dtype: float64

In [61]:
s.tail()

11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

#### index를 기준으로연산

In [65]:
s1 = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])
s2 = pd.Series([6, 3, 2, 1], ['d', 'c', 'b', 'a'])

print(s1)
print(s2)

a    1
b    2
c    3
d    4
dtype: int64
d    6
c    3
b    2
a    1
dtype: int64


In [67]:
s1 + s2  # 같은 index끼리 연산이 이루어진다.

a     2
b     4
c     6
d    10
dtype: int64

### 산술연산
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
  - 이때, index의 pari가 맞지 않으면, 결과는 NaN

In [71]:
s1 ** 2  # numpy의 broadcasting과 같이 모든 값에 연산이 적용

a     1
b     4
c     9
d    16
dtype: int64

In [70]:
s1 ** s2  # index의 맞는 값과 연산

a       1
b       4
c      27
d    4096
dtype: int64

In [73]:
s1['k'] = 7
s2['e'] = 9
print(s1)
print(s2)

a    1
b    2
c    3
d    4
k    7
dtype: int64
d    6
c    3
b    2
a    1
e    9
dtype: int64


In [75]:
s1 + s2  # pair가 맞지 않는 index의 값은 NaN으로 처리

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64

### Boolean selection
- boolean Series가 []와 함께 사용되면 True값에 해당하는 값만 새로 반환되는 Series 객체에 포함됨
- 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능

In [76]:
s = pd.Series(np.arange(10), np.arange(10) + 1)
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [77]:
s > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [79]:
s[s > 5]  # True인 것만 필터링

7     6
8     7
9     8
10    9
dtype: int32

In [80]:
s[s % 2 == 0]

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [82]:
s[s.index > 5]  # 인덱스로 필터링도 가능

6     5
7     6
8     7
9     8
10    9
dtype: int32

In [85]:
s[(s > 5) & (s < 8)]

7    6
8    7
dtype: int32

In [103]:
(s[s>=7].sum())

610

### Series 값 변경
- 추가 및 업데이트 : index를 이용
- 삭제 : drop 함수 이용

In [87]:
s = pd.Series(np.arange(100, 105), ['a','b','c','d','e'])
s

a    100
b    101
c    102
d    103
e    104
dtype: int32

In [89]:
s['k'] = 200
s

a    200
b    101
c    102
d    103
e    104
k    200
dtype: int64

In [94]:
s.drop('k')   # drop된 새로운 Series를 반환. 원레 Series에는 영향을 미치지 않는다.

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [95]:
s

a    200
b    101
c    102
d    103
e    104
k    200
dtype: int64

In [96]:
s.drop('k', inplace = True) # 원래 Series 자체의 데이터를 수정. 새로운 Series를 반환하지 않음

In [97]:
s

a    200
b    101
c    102
d    103
e    104
dtype: int64

### Slicing- 리스트, ndarray와 동일

In [98]:
s1 = pd.Series(np.arange(100, 105))
s1

0    100
1    101
2    102
3    103
4    104
dtype: int32

In [101]:
s1[1:3]   # 1 <= x < 3

1    101
2    102
dtype: int32

In [105]:
s2 = pd.Series(np.arange(100, 105), ['a','b','c','d','e'])
s2

a    100
b    101
c    102
d    103
e    104
dtype: int32

In [109]:
s2[1:3]    # 인덱스가 문자열인 경우도 숫자로 슬라이싱 가능

b    101
c    102
dtype: int32

In [111]:
s2['c':'d']  # 문자로된 인덱스는 '마지막 값도 포함'

c    102
d    103
dtype: int32