In [2]:
import pandas as pd
import numpy as np

### Series
- pandas의 기본 객체 중 하나
- numpy 의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄.
- index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음.

- data로만 생성하기
    - index는 기본적으로 0부터 자동 생성

In [3]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

In [4]:
s2 = pd.Series(['a','b','c'])
s2

0    a
1    b
2    c
dtype: object

In [5]:
s3 = pd.Series(np.arange(10))
s3

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

- data, index와 함께 명시하기

In [6]:
s4 = pd.Series([1, 2, 3], [100, 200, 300])
s4

100    1
200    2
300    3
dtype: int64

In [7]:
s5 = pd.Series([1, 2, 3], ['a', 'm', 'k'])
s5

a    1
m    2
k    3
dtype: int64

- data, index, data type 함께 명시하기

In [9]:
s6 = pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int32)
s6

100    0
101    1
102    2
103    3
104    4
dtype: int32

- 인덱스 활용하기

In [10]:
s6.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [14]:
s6.values

array([0, 1, 2, 3, 4], dtype=int32)

- 1. 인덱스를 통한 데이터 접근

In [17]:
s6[104]

4

- 2. 인덱스를 통한 데이터 업데이트 

In [18]:
s6[104] = 70
s6

100     0
101     1
102     2
103     3
104    70
dtype: int32

In [21]:
s6[200] = 190
s6

100      0
101      1
102      2
103      3
104     70
105     90
200    190
dtype: int64

- 3. 인덱스 재사용하기

In [23]:
s7 = pd.Series(np.arange(7), s6.index)
s7

100    0
101    1
102    2
103    3
104    4
105    5
200    6
dtype: int64

### Series size, shape, unique, count, value_counts 함수
- size : 개수 반환
- shape : 튜플 형태로 shape 반환
- unique : 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean : NaN을 제외한 평균
- value_counts : NaN을 제외하고 각 값들의 빈도를 반환

In [25]:
s = pd.Series([1, 1, 2, 3, 1, 4, 1, 5, 6, 7, 6, 5, 1, 4, np.NaN])
s

0     1.0
1     1.0
2     2.0
3     3.0
4     1.0
5     4.0
6     1.0
7     5.0
8     6.0
9     7.0
10    6.0
11    5.0
12    1.0
13    4.0
14    NaN
dtype: float64

In [26]:
len(s)

15

In [28]:
np.shape(s)

(15,)

In [36]:
s.size

15

In [33]:
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7., nan])

In [35]:
# NaN을 제외한 나머지 갯수를 카운트함.
s.count()

14

In [38]:
# 평균을 구할 때, 넘파이의 경우 NaN이 있다면 NaN 값을 반환
# 판다스의 경우 NaN을 무시하고 반환.
s.mean()

3.357142857142857

In [39]:
s.value_counts()

1.0    5
6.0    2
5.0    2
4.0    2
7.0    1
3.0    1
2.0    1
dtype: int64

- index를 활용하여 멀티플한 값에 접근

In [41]:
# 리스트에 대괄호를 하나 더 추가하면 됨.
s[[5, 7, 3]]

5    4.0
7    5.0
3    3.0
dtype: float64

### Series 데이터 연산
- index를 기준으로 연산

In [42]:
s1 = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])
s2 = pd.Series([6, 3, 2, 1], ['d', 'c', 'b', 'a'])
s1

a    1
b    2
c    3
d    4
dtype: int64

In [43]:
s2

d    6
c    3
b    2
a    1
dtype: int64

In [44]:
s1 + s2

a     2
b     4
c     6
d    10
dtype: int64

### 산술연산
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용

In [45]:
s1 ** 2

a     1
b     4
c     9
d    16
dtype: int64

In [46]:
s1 ** s2

a       1
b       4
c      27
d    4096
dtype: int64

### index pair가 맞지 않는 경우
- 해당 index에 대해선 NaN값 생성

In [47]:
s1['k'] = 7
s2['e'] = 6
s1

a    1
b    2
c    3
d    4
k    7
dtype: int64

In [48]:
s2

d    6
c    3
b    2
a    1
e    6
dtype: int64

In [52]:
s1 + s2

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64

### Boolean selection
- boolean Series가 [ ]와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series 객체에 포함됨.
- 다중 조건의 경우, &(and), |(or)를 사용하여 연결 가능.

In [54]:
s = pd.Series(np.arange(10), np.arange(10)+1)
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [55]:
s > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [56]:
s[s>5]

7     6
8     7
9     8
10    9
dtype: int64

In [58]:
# 인덱스 기준 필터링
s.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [59]:
s[s.index>5]

6     5
7     6
8     7
9     8
10    9
dtype: int64

In [60]:
# 멀티플 조건
(s > 5) & (s < 8) # 괄호로 묶어야함

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9     False
10    False
dtype: bool

In [61]:
s[(s > 5) & (s < 8)]

7    6
8    7
dtype: int64

In [63]:
# 7보다 큰 것의 갯수
(s >= 7).sum()

3

In [65]:
# 7보다 큰 것의 갯수들의 합
(s[s>=7]).sum()

24

### Series 값 변경
- 추가 및 업데이트 : 인덱스를 이용
- 삭제 : drop 함수 이용

In [66]:
s = pd. Series(np.arange(100, 105), ['a', 'b', 'c', 'd', 'e'])
s

a    100
b    101
c    102
d    103
e    104
dtype: int64

In [67]:
s['a'] = 200
s

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [68]:
s['k'] = 300
s

a    200
b    101
c    102
d    103
e    104
k    300
dtype: int64

In [71]:
s.drop('k')

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [72]:
s

a    200
b    101
c    102
d    103
e    104
k    300
dtype: int64

- drop 함수를 사용할 시 결과창에는 drop 된 채로 나오지만, s 자체에 변화를 주지는 않음.
- 복사본은 반환시키고, 원본은 건드리지 않음.

In [75]:
# inplace 적용 - 원본 건드리기
s.drop('a', inplace=True)
s

b    101
c    102
d    103
e    104
dtype: int64

In [76]:
s[['b','c','d','e']] = [100, 200, 300, 400]
s

b    100
c    200
d    300
e    400
dtype: int64

### Slicing
- 리스트, ndarray와 동일하게 적용

In [77]:
s[1:3]

c    200
d    300
dtype: int64

In [78]:
s[:-1]

b    100
c    200
d    300
dtype: int64