# Series를 이용한 데이터 분석법

In [1]:
import numpy as np
import pandas as pd

### Series size, shape, unique, count, value_counts 함수
- size : 개수를 반환
- shape : tuple형태로 shape반환
- unique : 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean : NaN을 제외한 평균
- values_counts : NaN을 제외하고 각 값들의 빈도를 반환

In [3]:
s = pd.Series([1,2,4,4,1,2,3,6,1,2,3,4,7,4, np.NaN]) # NaN : not a number
s

0     1.0
1     2.0
2     4.0
3     4.0
4     1.0
5     2.0
6     3.0
7     6.0
8     1.0
9     2.0
10    3.0
11    4.0
12    7.0
13    4.0
14    NaN
dtype: float64

In [4]:
len(s)

15

In [6]:
s.size

15

In [7]:
s.shape

(15,)

In [8]:
s.unique()

array([ 1.,  2.,  4.,  3.,  6.,  7., nan])

In [10]:
s.count() # NaN은 개수로 치지 않음

14

#### 넘파이와의 차이점

In [12]:
a = np.array([2,2,2,2, np.NaN])
b = pd.Series(a)
a.mean(), b.mean() # 넘파이에서는 NaN이 있으면 연산이 안됨.
# 판다스는 NaN을 무시하고 연산을 진행함

(nan, 2.0)

In [13]:
s.value_counts() # 각 값들이 몇번씩 나왔는지 빈도순으로 정리해줌.

4.0    4
2.0    3
1.0    3
3.0    2
7.0    1
6.0    1
dtype: int64

index를 활용하여 multiple한 값에 접근

In [16]:
ss = s[[5,6,7]]
ss # 인덱스들을 통해 새로운 시리즈를 만들 수 있음.

5    2.0
6    3.0
7    6.0
dtype: float64

### head, tail 함수
데이터가 많아지면 중략되는 경우 있음. 그런 경우에서 볼때 편함
- head : 상위 n개 출력, 기본 5개
- tail : 하위 n개 출력, 기본 5개

In [18]:
s.head(), s.tail()

(0    1.0
 1    2.0
 2    4.0
 3    4.0
 4    1.0
 dtype: float64,
 10    3.0
 11    4.0
 12    7.0
 13    4.0
 14    NaN
 dtype: float64)

In [20]:
s.head(n=8) # n=int 로 몇개 볼지 선택가능함

0    1.0
1    2.0
2    4.0
3    4.0
4    1.0
5    2.0
6    3.0
7    6.0
dtype: float64

# Series 데이터 연산

### index를 기준으로 연산

In [27]:
n1 = pd.Series([1,2,3,4],['a','b','c','d'])
n2 = pd.Series([4,3,2,1],['a','d','b','c']) 

In [24]:
n1 + n2 # 같은 인덱스를 같은 값끼리 더해짐

a    5
b    4
c    4
d    7
dtype: int64

### 산술연산
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
    - 이때, 인덱스의 pair가 맞지 않으면, 결과는 NaN

In [29]:
n3 = pd.Series([1,2,3,4],['a','b','c','d'])
n4 = pd.Series([4,3,2,1],['e','g','d','a'])
n3 + n4 # NaN이 나옴.

a    2.0
b    NaN
c    NaN
d    6.0
e    NaN
g    NaN
dtype: float64

In [28]:
n1 ** 2, n2 ** n1 # 브로드캐스팅 적용, 각원소별 연산

(a     1
 b     4
 c     9
 d    16
 dtype: int64,
 a     4
 b     4
 c     1
 d    81
 dtype: int64)

### index pair가 맞지 않을 경우
- 해당 index에 대해선 NaN 값 생성