## 학습목표
1. pandas Series 데이터 생성하기

In [1]:
import numpy as np
import pandas as pd

### Series
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음

- data로만 생성하기
 - index는 기본적으로 0부터 자동적으로 생성

In [2]:
s1 = pd.Series([1, 2, 3])
s1

0    1
1    2
2    3
dtype: int64

In [4]:
s2 = pd.Series(['a','b','c'])
s2

0    a
1    b
2    c
dtype: object

In [5]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

- data, index 함께 명시하기

In [6]:
s4 = pd.Series([1, 2, 3], [100, 200, 300])
s4

100    1
200    2
300    3
dtype: int64

In [7]:
s5 = pd.Series([1, 2, 3], ['a','b','c'])
s5

a    1
b    2
c    3
dtype: int64

- data, index, data type 함께 명시하기

In [18]:
s6 = pd.Series(np.arange(5), np.arange(100,105), dtype=np.int16)
s6

100    0
101    1
102    2
103    3
104    4
dtype: int16

### 인덱스 활용하기

In [19]:
s6.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [20]:
s6.values

array([0, 1, 2, 3, 4], dtype=int16)

1. 인덱스를 통한 접근

In [16]:
s6[100]

0

2. 인덱스를 통한 업데이트

In [21]:
s6[104] = 70
s6

100     0
101     1
102     2
103     3
104    70
dtype: int16

In [23]:
s6[105] = 90 #업데이트시 해당 인덱스에 값이 존재하지 않으면 값을 새로 생성
s6[200] = 80
s6

100     0
101     1
102     2
103     3
104    70
105    90
200    80
dtype: int64

3. 인덱스 재사용하기

In [26]:
s7 = pd.Series(np.arange(7), s6.index)
s6

100     0
101     1
102     2
103     3
104    70
105    90
200    80
dtype: int64

## 학습목표
1. Series 함수 활용하여 데이터 분석하기

In [27]:
import numpy as np
import pandas as pd

**Series size, shape, unique, count, value_countes 함수**
- size : 개수 반환
- shape : 튜플 형태로 shape 반환
- unique : 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean : NaN을 제외한 평균
- value_counts : NaN을 제외하고 각 값들의 빈도를 반환

In [28]:
s = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [29]:
len(s)

16

In [32]:
s.size

16

In [34]:
s.shape

(16,)

In [36]:
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [37]:
s.count()

15

In [38]:
a = np.array([2, 2, 2, 2, np.NaN])
print(a.mean())

b = pd.Series(a)
print(b.mean())

nan
2.0


In [39]:
s.mean()

2.6666666666666665

In [40]:
s.value_counts()

1.0    5
2.0    4
3.0    2
5.0    2
4.0    1
7.0    1
dtype: int64

- 인덱스를 활용하여 멀티플한 값에 접근

In [42]:
s[[5, 7, 8, 10]]

5     2.0
7     1.0
8     1.0
10    3.0
dtype: float64

In [43]:
s[[5, 7, 8, 10]].value_counts()

1.0    2
2.0    1
3.0    1
dtype: int64

**head, tail 함수**
- head : 상위 n개 출력, 기본 5개
- tail : 하위 n개 출력, 기본 5개

In [44]:
s.head()

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
dtype: float64

In [46]:
s.tail(n=7)

9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

## 학습목표
1. Series 데이터 연산하기

In [None]:
import numpy as np
import pandas as pd

**index를 기준으로 연산**

In [47]:
s1 = pd.Series([1, 2, 3, 4], ['a','b','c','d'])
s2 = pd.Series([6, 3, 2, 1], ['d','c','b','a'])

In [48]:
s1

a    1
b    2
c    3
d    4
dtype: int64

In [49]:
s2

d    6
c    3
b    2
a    1
dtype: int64

In [50]:
s1 + s2

a     2
b     4
c     6
d    10
dtype: int64

**산술연산**
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와 연산이 적용
- Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
 - 이때, 인덱스의 pair가 맞지 않으면 결과는 NaN

In [51]:
s1 ** 2

a     1
b     4
c     9
d    16
dtype: int64

In [52]:
s1 ** s2

a       1
b       4
c      27
d    4096
dtype: int64

In [53]:
4 ** 6

4096

**index pair가 맞지 않는 경우**
- 해당 index에 대해선 NaN값 생성

In [54]:
s1['k'] = 7
s2['e'] = 9

In [55]:
s1

a    1
b    2
c    3
d    4
k    7
dtype: int64

In [56]:
s2

d    6
c    3
b    2
a    1
e    9
dtype: int64

In [57]:
s1 + s2

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64

## 학습목표
1. Series boolean selection 활용하기

In [None]:
import numpy as np
import pandas as pd

**Boolean selection**
- boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함됨
- 다중조건의 경우 &(and), |(or)를 사용하여 연결 가능

In [58]:
s = pd.Series(np.arange(10), np.arange(10)+1)
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [59]:
s > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [60]:
s[s > 5]

7     6
8     7
9     8
10    9
dtype: int32

In [61]:
s[s % 2 == 0]

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [62]:
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [63]:
s.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [64]:
s[s.index > 5]

6     5
7     6
8     7
9     8
10    9
dtype: int32

In [65]:
s[(s > 5) & (s < 8)]

7    6
8    7
dtype: int32

In [66]:
(s >= 7).sum()

3

In [67]:
(s[s >= 7]).sum()

24

## 학습목표
1. Pandas Series 이해하기

In [None]:
import numpy as np
import pandas as pd

**Series값 변경**
- 추가 및 업데이트: 인덱스를 이용
- 삭제: drop 함수를 이용

In [70]:
s = pd.Series(np.arange(100,105), ['a','b','c','d','e'])
s

a    100
b    101
c    102
d    103
e    104
dtype: int32

In [71]:
s['a'] = 200
s['k'] = 300
s

a    200
b    101
c    102
d    103
e    104
k    300
dtype: int64

In [72]:
s.drop('k') #반환값O 원본은 그대로 유지

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [73]:
s

a    200
b    101
c    102
d    103
e    104
k    300
dtype: int64

In [74]:
s.drop('k', inplace=True) #반환값X 원본 변경

In [76]:
s

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [77]:
s[['a','b']] = [300, 900]
s

a    300
b    900
c    102
d    103
e    104
dtype: int64

**Slicing**
- 리스트, ndarray와 동일하게 적용

In [79]:
s1 = pd.Series(np.arange(100, 105))
s1

0    100
1    101
2    102
3    103
4    104
dtype: int32

In [80]:
s1[1:3]

1    101
2    102
dtype: int32

In [84]:
s2 = pd.Series(np.arange(100,105), ['a','c','b','d','e'])
s2

a    100
c    101
b    102
d    103
e    104
dtype: int32

In [85]:
s2[1:3]

c    101
b    102
dtype: int32

In [86]:
s2['c':'d'] #문자열로 인덱싱한 경우 마지막값 포함

c    101
b    102
d    103
dtype: int32