> 패스트캠퍼스 바이트디그리 데이터사이언스 과정 Python Pandas 수업 내용을 정리한 자료입니다.

### Series 데이터 생성하기(index, value)

In [2]:
import numpy as np
import pandas as pd

#### Series
  - pandas의 기본이 되는 객체(또는 type) 
  - numpy의 ndarray 기반의 인덱싱 기능을 추가하여 1차원 배열 표현
  - index는 기본적으로 0부터 생성

In [4]:
s1 = pd.Series([1, 2, 3])
s1

0    1
1    2
2    3
dtype: int64

In [6]:
s2 = pd.Series(['a', 'b', 'c'])
s2

0    a
1    b
2    c
dtype: object

In [10]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

In [14]:
s4 = pd.Series([1, 2, 3], [100, 200, 300]) # index를 임의로 지정해줄 수 있다.
s4

100    1
200    2
300    3
dtype: int64

In [16]:
s5 = pd.Series([10, 20 , 30], ['x', 'y', 'z']) # 문자를 인덱스로 사용할 수도 있음
s5

x    10
y    20
z    30
dtype: int64

In [19]:
s6 = pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int16) # dtype 설정 가능
s6

100    0
101    1
102    2
103    3
104    4
dtype: int16

#### index 활용

In [21]:
s6.index # index 값 확인

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [24]:
s6.values # value 값 확인

array([0, 1, 2, 3, 4], dtype=int16)

In [25]:
s6[104] # index를 이용한 value 접근

4

In [28]:
s6[100] = 10 # index를 이용한 value 업데이트
s6[100]
s6

100    10
101     1
102     2
103     3
104     4
dtype: int16

In [29]:
s6[105] = 100 # 기존 데이터에 존재하지 않는 index에 접근하여 값을 업데이트하는 경우, index와 value가 추가된다.
s6

100     10
101      1
102      2
103      3
104      4
105    100
dtype: int64

In [31]:
s6[200] = 200
s6

100     10
101      1
102      2
103      3
104      4
105    100
200    200
dtype: int64

In [35]:
s7 = pd.Series(np.arange(7), s6.index) # 기존에 생성된 Series 데이터의 인덱스를 재사용할 수 있음
s7 # s6의 인덱스를 s7에서 재사용

100    0
101    1
102    2
103    3
104    4
105    5
200    6
dtype: int64

In [34]:
s6

100     10
101      1
102      2
103      3
104      4
105    100
200    200
dtype: int64

---

### Series 데이터 분석(데이터 개수, 빈도 등)

In [37]:
import numpy as np
import pandas as pd

#### Series size, shape, unique, count, value_counts 함수
  - size: 개수 반환
  - shape: 튜플형태의 shape 반환
  - unique: 유일한 값만 ndarray로 반환
  - count: NaN(Not a Number)을 제외한 개수 반환
  - mean: NaN을 제외한 평균
  - value_counts: NaN을 제외한 각 값들의 빈도 반환

In [40]:
s1 = pd.Series([1, 1, 2, 1, 1, 2, 2, 3, 4, 4, 3, 5, 5, 6, 7, np.NaN])
s1

0     1.0
1     1.0
2     2.0
3     1.0
4     1.0
5     2.0
6     2.0
7     3.0
8     4.0
9     4.0
10    3.0
11    5.0
12    5.0
13    6.0
14    7.0
15    NaN
dtype: float64

In [42]:
len(s1) # series 전체 크기

16

In [43]:
s1.size

16

In [44]:
s1.shape

(16,)

In [46]:
s1.unique() # 중복 제거

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7., nan])

In [48]:
s1.count() # NaN 값을 제외한 전체 데이터의 개수를 카운트

15

In [49]:
test = np.array([2,2,2,2,2,np.NaN])
test.mean()

nan

In [50]:
test2 = pd.Series(test)
test2.mean()

2.0

In [54]:
s1.value_counts() # 데이터별 개수 카운트

1.0    4
2.0    3
5.0    2
4.0    2
3.0    2
7.0    1
6.0    1
dtype: int64

#### index를 이용하여 여러개의 값에 접근하는 방법

In [60]:
s1[[1, 2, 3]] # 인덱스를 리스트 형태로 지정하여 여러개의 요소에 접근할 수 있음, ex) 1, 2, 3 인덱스의 값을 한 번헤 확인 가능

1    1.0
2    2.0
3    1.0
dtype: float64

#### head, tail 함수
  - head: 인덱스 상위 n개의 데이터 출력(기본값은 5개)
  - tail: 인덱스 하위 n개의 데이터 출력(기본값은 5개)

In [63]:
s1.head()

0    1.0
1    1.0
2    2.0
3    1.0
4    1.0
dtype: float64

In [64]:
s1.tail()

11    5.0
12    5.0
13    6.0
14    7.0
15    NaN
dtype: float64

---

### Series 데이터의 연산
  - 같은 인덱스를 기준으로 연산 수행

In [65]:
s1 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([6, 7, 8, 9, 0], ['e', 'd', 'c', 'b', 'a'])

In [66]:
s1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [67]:
s2

e    6
d    7
c    8
b    9
a    0
dtype: int64

In [69]:
s1 + s2 # 덧셈 연산, 같은 인덱스의 위치끼리 연산

a     1
b    11
c    11
d    11
e    11
dtype: int64

#### 산술연산
  - Series의 경우 스칼라와의 연산은 각 원소별로 스칼라 연산이 적용
  - 각 인덱스가 같은 값끼리 연산 적용(단, `인덱스의 pair가 같지 않은 경우 NaN 반환`)

In [70]:
s1 ** s2

a        1
b      512
c     6561
d    16384
e    15625
dtype: int64

In [71]:
s1 * s2

a     0
b    18
c    24
d    28
e    30
dtype: int64

#### index pair가 맞지 않는 경우 NaN 반환

In [72]:
s1['k'] = 7
s2['e'] = 9

In [73]:
s1

a    1
b    2
c    3
d    4
e    5
k    7
dtype: int64

In [74]:
s2

e    9
d    7
c    8
b    9
a    0
dtype: int64

In [76]:
s1 + s2 # k 인덱스는 짝이 맞지 않기 때문에 NaN으로 계산된 것을 확인할 수 있음

a     1.0
b    11.0
c    11.0
d    11.0
e    14.0
k     NaN
dtype: float64

---

### Series 데이터 Boolean Selection
  - index 값으로 True, False를 전달할 수 있다.
  - Condition을 넣는 것도 가능

In [9]:
import numpy as np
import pandas as pd

In [10]:
s = pd.Series(np.arange(10), np.arange(10) + 1)
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [11]:
s > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [12]:
s[s > 5]

7     6
8     7
9     8
10    9
dtype: int32

In [8]:
s[s % 2 == 0]

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [13]:
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [14]:
s.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [15]:
s[s.index > 5]

6     5
7     6
8     7
9     8
10    9
dtype: int32

In [19]:
# multiple condition
s[(s > 5) & (s < 8)]

7    6
8    7
dtype: int32

In [22]:
(s >= 7).sum() # 조건에 맞는 데이터 갯수를 반환

3

In [23]:
s[s>=7].sum() # 조건에 맞는 데이터의 총합을 반환

24

---

### Series 데이터 변경 및 슬라이싱

In [24]:
import numpy as np
import pandas as pd

#### Series 값 변경
  - 데이터 추가 및 업데이트: index 활용
  - 삭제: `drop` 함수 이용

In [41]:
s = pd.Series(np.arange(100, 105), ['a', 'b', 'c', 'd', 'e'])
s

a    100
b    101
c    102
d    103
e    104
dtype: int32

In [42]:
# 변경
s['a'] = 200
s

a    200
b    101
c    102
d    103
e    104
dtype: int32

In [43]:
# 추가
s['f'] = 110
s

a    200
b    101
c    102
d    103
e    104
f    110
dtype: int64

In [44]:
# 삭제
s.drop('f') # drop 함수를 이용하여 f 인덱스의 값을 삭제한 결과 -> s 자체에 영향 X, 복사본을 생성하여 삭제 수행

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [45]:
s # 위에서 drop 함수를 이용하여 f 인덱스를 제거했지만 f 인덱스가 그대로 남아 있는 것을 볼 수 있음

a    200
b    101
c    102
d    103
e    104
f    110
dtype: int64

In [46]:
# s 자체를 수정하는 방법 
s.drop('f', inplace=True) # inplace를 True로 설정하면 복사본을 생성하여 연산하는 것이 아닌 원본을 연산하여 처리
s # f 인덱스 값이 삭제된 것을 확인

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [49]:
# 여러개의 데이터를 동시에 변경
s[['a', 'b', 'c']] = [300, 400, 500]
s

a    300
b    400
c    500
d    103
e    104
dtype: int64

#### Series 데이터 Slicing
  - Python list와 동일한 방법

In [51]:
s1 = pd.Series(np.arange(100, 105))
s1

0    100
1    101
2    102
3    103
4    104
dtype: int32

In [52]:
s1[1:3]

1    101
2    102
dtype: int32

In [55]:
s1[-1:]

4    104
dtype: int32

In [56]:
s = pd.Series(np.arange(100, 105), ['a', 'b', 'c', 'd', 'e']) # index가 문자여도 Slicing 가능
s[1:4]

b    101
c    102
d    103
dtype: int32

In [58]:
s['c':'d'] # 단, 문자 인덱스로 접근할 경우 해당 문자 인덱스까지 출력(Python에서는 해당 숫자 -1 번째까지만 출력됨)

c    102
d    103
dtype: int32

---