In [2]:
import numpy as np
import pandas as pd

### Seris란?
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타낸다.
- index를 지정하지 않을 시, 기보적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용한다.
- 같은 type의 0개 이상의 데이터를 가질 수 있다.

- data로만 생성하기
    - index는 기본적으로 0부터 자동적으로 생성된다.

In [3]:
s1 = pd.Series([1, 2, 3])
print(s1)

0    1
1    2
2    3
dtype: int64


In [6]:
s2 = pd.Series(['a','b','c'])
s2
#왼쪽은 index 오른쪽은 value를 나타내주는 것을 알 수 있다.

0    a
1    b
2    c
dtype: object

In [7]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

- data, index 함께 명시하기

In [9]:
s4 = pd.Series([1, 2, 3], [100, 200, 300])
s4

100    1
200    2
300    3
dtype: int64

In [11]:
# numpy와 다르게 pandas에서의 index는 제약사항이 없다.
s5 = pd.Series([1, 2, 3],['a', 'c','d'])
s5

a    1
c    2
d    3
dtype: int64

In [13]:
# dtype을 작성할 경우는 속도를 향상 시키기 위해서 
s6 = pd.Series(np.arange(5),np.arange(100, 105), dtype=np.int32)
s6

100    0
101    1
102    2
103    3
104    4
dtype: int32

### 인덱스 활용하기

In [14]:
s6.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [16]:
s6.values

array([0, 1, 2, 3, 4])

- index를 통한 데이터 접근

In [21]:
s6[104]

4

In [22]:
s6[104] = 60
s6

100     0
101     1
102     2
103     3
104    60
dtype: int32

In [24]:
s6[105] = 70
s6

100     0
101     1
102     2
103     3
104    60
105    70
dtype: int64

- index 재사용하기

In [27]:
#이런식으로 index의 번호를 재사용할 수도 있다.
s7 = pd.Series(np.arange(6), s6.index)
s7

100    0
101    1
102    2
103    3
104    4
105    5
dtype: int32

### 개수, 빈도 계산

### Series size, shape, unique, value_counts 함수
- size : 개수 반환
- shape : 튜플형태로 shape 반환
- unique : 유일한 값만 ndarray로 반환
- count : NaN를 제외한 개수를 반환
- mean : NaN를 제외한 평균
- value_counts : NaN를 제외하고 각 값들의 빈도를 반환★★


In [4]:
s = pd.Series([1,1,2,1,2,2,2,1,3,2,4,5,6,1,2, np.NaN])
print(s)

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     3.0
9     2.0
10    4.0
11    5.0
12    6.0
13    1.0
14    2.0
15    NaN
dtype: float64


In [31]:
len(s)

16

In [32]:
s.size

16

In [33]:
s.shape

(16,)

In [34]:
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  6., nan])

In [36]:
s.count()

15

In [39]:
a =np.array([2,2,2,2,np.NaN])
a.mean()

b = pd.Series(a)
b.mean()

2.0

In [6]:
s.mean()

2.3333333333333335

In [7]:
s.value_counts()

2.0    6
1.0    5
6.0    1
5.0    1
4.0    1
3.0    1
dtype: int64

index를 활용하여 멀티플한 값에 접근

In [None]:
#error
#s[5,7,8]

In [10]:
print(s[[5,7,8]])
print(s[[5,7,8]].value_counts())
print(s[[5,7,8]].mean())

5    2.0
7    1.0
8    3.0
dtype: float64
3.0    1
1.0    1
2.0    1
dtype: int64
2.0


### head, tail 함수
- head : 상위 n개 출력 기본 5개
- tail : 하위 n개 출력 기본 5개

In [11]:
print(s.head())
print(s.tail())

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
dtype: float64
11    5.0
12    6.0
13    1.0
14    2.0
15    NaN
dtype: float64


In [13]:
s.head(7) #이런식으로 몇개를 볼지 지정할수도 있다.

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
dtype: float64

In [18]:
s.tail(n = 8)

8     3.0
9     2.0
10    4.0
11    5.0
12    6.0
13    1.0
14    2.0
15    NaN
dtype: float64