# Series 데이터 확인하기

In [23]:
import numpy as np
import pandas as pd

#### Series 와 함께 사용되는 속성 및 함수 
 - size : 전체 개수 반환
 - shape : 튜플 형태로 shape반환
 - unique: 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환
 - mean: NaN을 제외한 평균 
 - value_counts: NaN을 제외하고 각 값들의 빈도를 반환 

In [24]:
s = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [25]:
len(s)  # Series 전체의 길이

16

In [26]:
s.size  # Series 전체의 길이

16

In [27]:
s.shape  # shape 반환, 1차원

(16,)

In [28]:
s.unique()  # 중복 없이 유일한 값 반환

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [29]:
s.count()  # 실제 값이 있는 경우에만 카운트 함

15

In [30]:
a = np.array([2, 2, 2, np.NaN])   # numpy 의 경우 NaN이 있으면 연산을 못함
print(a.mean())

b = pd.Series(a)   # pandas 의 경우 NaN을 무시하고 평균을 구함
print(b.mean())

nan
2.0


In [31]:
s.mean()  # NaN 이 있어도 평균을 구할 수 있음

2.6666666666666665

In [33]:
s.value_counts()  # 각 값들의 빈도 반환

1.0    5
2.0    4
5.0    2
3.0    2
7.0    1
4.0    1
dtype: int64

#### index를 활용하여 멀티플한 값에 접근 가능

In [34]:
s[5]

2.0

In [35]:
s[[5, 7, 8, 10]]  # 인덱스 5, 7, 8, 10 번의 값을 가져 옴

5     2.0
7     1.0
8     1.0
10    3.0
dtype: float64

In [36]:
s[[5, 7, 8, 10]].value_counts()  # 새로 생긴 Series 를 기반으로 빈도 반환

1.0    2
3.0    1
2.0    1
dtype: int64

#### **head, tail 함수**
 - head : 상위 n개 출력(기본 5개)
 - tail : 하위 n개 출력(기본 5개)

In [37]:
s.head(n=7)  # 상위 7개 출력

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
dtype: float64

In [38]:
s.tail()  # 하위 기본 5개 출력

11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [39]:
s  # 전체를 보고 싶은 경우

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64