In [2]:
import numpy as np
import pandas as pd

## 1. Series 정의

* index를 지정하지 않을 시, **ndarray와 같이 0-based index** 생성
* index를 지정할 경우 **명시적으로 지정된 index** 사용
* 같은 타입의 0개 이상 데이터를 가질 수 있음

#### 1) Series 생성

In [19]:
# 기본 생성
s1 = pd.Series([1,2,3])
s2 = pd.Series(np.arange(5))

print(s1)
print(s2)

0    1
1    2
2    3
dtype: int64
0    0
1    1
2    2
3    3
4    4
dtype: int32


In [50]:
# Index 값 지정
st = pd.Series([1,2,3], ['a', 'm', 'k'])
print(st)

# 데이터 타입을 선언하여 생성
sa = pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int16)
print(sa)

a    1
m    2
k    3
dtype: int64
100    0
101    1
102    2
103    3
104    4
dtype: int16


#### 2) index 활용

In [53]:
print(sa.index) # Index값 추출
print(sa.values)  # Value값 추출

print("sa.index[2] 값:", sa.index[2]) # 2번째 Index 값 추출
print("sa.values[3] 값:", sa.values[3]) # 3번째 데이터 값 추출

Int64Index([100, 101, 102, 103, 104], dtype='int64')
[0 1 2 3 4]
sa.index[2] 값: 102
sa.values[3] 값: 3


In [37]:
# 인덱스를 통한 데이터 Update
sa[102] = 70
print(sa)

100     0
101     1
102    70
103     3
104     4
dtype: int16


In [38]:
# 인덱스 재사용
s7 = pd.Series(np.arange(5), sa.index)
print(s7)

100    0
101    1
102    2
103    3
104    4
dtype: int32


## 2. Series 함수 및 연산

#### 1) Series 함수를 활용한 데이터 분석

In [4]:
s = pd.Series([1,2,3,5,3,3,3,2,5,1,5,7,np.NaN])
s

0     1.0
1     2.0
2     3.0
3     5.0
4     3.0
5     3.0
6     3.0
7     2.0
8     5.0
9     1.0
10    5.0
11    7.0
12    NaN
dtype: float64

In [9]:
print(s.size) # 객체의 길이
print(s.shape) # 튜플 형태 반환
print(s.unique()) # 중복이 제거된 uniq한 값 반환
print(s.count()) # Null을 제외한 개수 반환

13
(13,)
[ 1.  2.  3.  5.  7. nan]
12


In [15]:
# 아래 numpy로 생성할 경우, Nan값을 연산하지 못해 오류 발생
a = np.array([2,2,2,2,np.NaN])
a.mean() # 결과값으로 nan 출력됨

b = pd.Series(a)
b.mean()

2.0

In [6]:
# 데이터의 빈도수 Count (자주 사용)
s.value_counts()

# index 값을 이용하여 멀티값 추출
s[[5,7,8]]
print(s[[4,5,7]].value_counts())

s.head(n=2)
s.tail(n=2)

3.0    2
2.0    1
dtype: int64


11    7.0
12    NaN
dtype: float64

#### 2) Series 데이터 연산

In [23]:
s1 = pd.Series([1,2,3,4], ['a','b','c','d'])
s2 = pd.Series([6,3,2,1], ['d','c','b','a'])

In [24]:
# 기본 산술연산
s1 + s2

a     2
b     4
c     6
d    10
dtype: int64

In [25]:
s1 ** 2

a     1
b     4
c     9
d    16
dtype: int64

In [26]:
# 인덱스 pair가 맞지 않을 경우 Nan으로 생성됨
s1['k'] = 7
s2['e'] = 2

In [27]:
s1 + s2

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64

## 3. Series Boolean 활용

#### Boolean selection
* boolean Series가 []와 함께 사용되면 True에 해당하는 값만 새로 반환
* 다중 조건의 경우, & 또는 | 사용

In [9]:
s = pd.Series(np.arange(10), np.arange(10)+1)
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [11]:
print(s >= 7)s[s > 5] # s의 값이 5 이상인 True 값만 객체로 생성

7     6
8     7
9     8
10    9
dtype: int32

In [28]:
print(s >= 7)

# 단순 True임으로 True+Ture+Ture == (1+1+1) 과 같게 됨
(s >= 7).sum()

# Boolean Secection을 통해 True로 객체를 생성한 것으로
# 8+9+10 합계가 나옴
(s[s >= 7]).sum()

1     False
2     False
3     False
4     False
5     False
6     False
7     False
8      True
9      True
10     True
dtype: bool


24

## 4. Series 데이터 변경 & 슬라이싱

In [41]:
d = pd.Series(np.arange(100,105), ['a','b','c','d','e'])

#### 1) Update

In [39]:
# 단일값
d['a'] = 200

print(d)

# Multiple값
d[['a','b']] = [300, 900]

print(d)

a    200
b    900
c    102
e    104
dtype: int32
a    300
b    900
c    102
e    104
dtype: int32


#### 2) Delete

In [42]:
# 해당 객체에 수행하는 것 X -> 결과에 해당하는 Series 객체를 반환함
# 따라서 해당 객체에 수행할 경우 inplace=True 옵션을 같이 줘야함
d.drop('d', inplace=True)

print(d)

a    100
b    101
c    102
e    104
dtype: int32


#### 3) 슬라이싱

In [45]:
s1 = pd.Series(np.arange(100,105))
print(s1)

s1[0:3]

0    100
1    101
2    102
3    103
4    104
dtype: int32


0    100
1    101
2    102
dtype: int32

In [48]:
s2 = pd.Series([1,2,3,4], ['a','b','c','d'])

print(s2[1:3])

# 슬라이싱할 인덱스를 문자열로 줄 경우,
# 해당 문자열('c')까지 슬라이싱 처리 함.
print(s2['a':'c']) 

b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64
