# Series (시리즈)의 개념

# Pandas 라이브러리 import 하기

In [1]:
# Python의 리스트(list) 타입의 데이터 생성하기
data = [3,5,1,2]
data

[3, 5, 1, 2]

In [4]:
# Pandas의 Series 타입의 데이터 생성하기
pandas.Series([3,5,1])

0    3
1    5
2    1
dtype: int64

In [5]:
# pandas 라이브러리 임포트하기(1)
import pandas

In [6]:
# pandas 라이브러리 임포트하기(2) - 별칭
import pandas as pd

In [4]:
# pandas 라이브러리 임포트하기(3)
from pandas import Series
Series([3,5,1,2])

0    3
1    5
2    1
3    2
dtype: int64

# Series 생성
- 1차원 데이터를 저장하는 파이썬의 데이터타입인 리스트, 튜플, 사전 타입 등을 이용해서 Series 객체를 생성해 보고, Series 객체의 특징들을 살펴보도록 하겠습니다.

## 1) List를 사용하여 Series 생성하기

In [11]:
arr = [3,5,1,2] # 파이썬의 리스트 타입 변수
data1= Series(arr)

In [12]:
data1

0    3
1    5
2    1
3    2
dtype: int64

In [13]:
data1.index = ['a','b','c','d']

In [14]:
data1

a    3
b    5
c    1
d    2
dtype: int64

In [17]:
# data1 = Series([3,5,1,2],['a','b','c','d'])
data1 = Series(data=[3,5,1,2],index=['a','b','c','d'])

In [18]:
data1

a    3
b    5
c    1
d    2
dtype: int64

## 2) Tuple을 사용하여 Series 생성하기

In [19]:
arr2 = (3,5,1,2) # 튜플 타입의 데이터 생성
data2 = Series(arr2)
data2

0    3
1    5
2    1
3    2
dtype: int64

## 3) Dict 타입의 변수를 사용하여 Series 생성하기

In [21]:
arr3 = {
    'a':3,
    'b':5,
    'c':1,
    'd':2
}# Dict(사전) 타입의 데이터 생성
data3 = Series(arr3)
data3

a    3
b    5
c    1
d    2
dtype: int64

### ** 몇 가지 Series 특징들 **
- Series,values는 numpy의 ndarray 객체입니다.

In [22]:
data3

a    3
b    5
c    1
d    2
dtype: int64

In [23]:
# 값만 출력
data3.values

array([3, 5, 1, 2], dtype=int64)

In [25]:
# 타입 확인
type(data3.values)

numpy.ndarray

- 값에는 모든 데이터 타입 사용이 가능합니다.

In [28]:
Series(['big data',10,3.5,[1,2,3],{'a':5,'b':3},Series([1,2,3])])

0                             big data
1                                   10
2                                  3.5
3                            [1, 2, 3]
4                     {'a': 5, 'b': 3}
5    0    1
1    2
2    3
dtype: int64
dtype: object

## Series의 속성(Attributes)와 함수(Method)들

**샘플 데이터 생성**  
값과 Index 인자를 사용하여, Series 생성

In [5]:
sample = Series([85,90,75,55,45,90,95,85,90,100],
               index = ['a','b','c','d','e','f','g','h','i','j'])
sample

a     85
b     90
c     75
d     55
e     45
f     90
g     95
h     85
i     90
j    100
dtype: int64

### 속성(Attributes) = Series가 가지고 있는 객체, 속성(특징) 혹은 간단한 기능을 제공
1) index - Series의 인덱스 (혹은 인덱스 라벨)

In [31]:
sample.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')

2) values- Series의 데이터

In [32]:
sample.values

array([ 80,  90,  75,  55,  45,  90,  95,  85,  90, 100], dtype=int64)

3) size- Series의 크기(데이터의 길이)

In [34]:
# 샘플 Series 항목의 갯수
sample.size

10

4) dtype- Series의 데이터(Series,values)의 데이터 타입
- 정수형 숫자 : int64
- 실수형 숫자 : float64
- 문자열이거나 2개 이상의 데이터 타입으로 이루어진 경우: 'O' (Object)

In [35]:
sample.dtype

dtype('int64')

In [36]:
Series(['a','c'])

0    a
1    c
dtype: object

In [37]:
Series([3,5.3,'abc'])  # 두 가지의 데이터일 경우 Object

0      3
1    5.3
2    abc
dtype: object

In [38]:
Series([3,5.3])

0    3.0
1    5.3
dtype: float64

 # Series의 함수
 ### 함수(Methods) - Series가 제공하는 다양한 기능 활용
* 함수 호출 시 전달되는 자료들을 인자(argument, parameter)라고 합니다.
* 각 함수들은 정해진 인자들이 있으며, 인자값들을 토대로 함수가 실행됩니다. 
* 동일한 함수라고 하더라도 인자값을 어떻게 설정하느냐에 따라 동작방식은 달라질 수 있습니다. 


 1) describe() - 통계 정보를 한 눈에 제공해주는 함수

In [39]:
sample.describe()

count     10.000000
mean      80.500000
std       17.709069
min       45.000000
25%       76.250000
50%       87.500000
75%       90.000000
max      100.000000
dtype: float64

 2) 통계 함수들 - max(),min(),avg(), ...

In [40]:
sample.max()

100

In [41]:
sample.mean()

80.5

In [42]:
sample.agg('mean')

80.5

3) add_prefix(prefix) - 인덱스 라벨 앞에 prefix 문자열을 추가

In [43]:
sample.add_prefix('data-')

data-a     80
data-b     90
data-c     75
data-d     55
data-e     45
data-f     90
data-g     95
data-h     85
data-i     90
data-j    100
dtype: int64

In [44]:
# 원본에 반영 되지 않는다
sample 

a     80
b     90
c     75
d     55
e     45
f     90
g     95
h     85
i     90
j    100
dtype: int64

In [45]:
# 원본에 반영하고 싶다면
sample2= sample.add_prefix('data-')

In [46]:
sample2

data-a     80
data-b     90
data-c     75
data-d     55
data-e     45
data-f     90
data-g     95
data-h     85
data-i     90
data-j    100
dtype: int64

4) value_counts() - Series에 있는 데이터 값들의 개수

In [47]:
sample.value_counts()

90     3
80     1
100    1
85     1
55     1
75     1
45     1
95     1
dtype: int64

5) add(값) - Series의 데이터 각각에 값을 더하기

In [48]:
sample.add(100)

a    180
b    190
c    175
d    155
e    145
f    190
g    195
h    185
i    190
j    200
dtype: int64

**[Mini Quiz #1]** 앞에 5개의 데이터에는 5를 더하고, 나머지 5개의 데이터에는 10을 더하시오.

In [51]:
sample.add([5,5,5,5,5,10,10,10,10,10])

a     85
b     95
c     80
d     60
e     50
f    100
g    105
h     95
i    100
j    110
dtype: int64

6) append(series) - 인자로 받은 series를 기존 series 뒤에 이어 붙여서 하나의 series로 만든다.

In [55]:
sr = Series(80,index=['m'])
sr

m    80
dtype: int64

In [56]:
sample.append(sr)

a     80
b     90
c     75
d     55
e     45
f     90
g     95
h     85
i     90
j    100
m     80
dtype: int64

7) isin(val_list) - Series에 있는 각각의 데이터들이 val_list에 포함되어 있는지 여부를 확인

In [7]:
sample.isin([85])

a     True
b    False
c    False
d    False
e    False
f    False
g    False
h     True
i    False
j    False
dtype: bool

In [8]:
# data가 [85,90]에 포함여부 출력
sample.isin([85,90])

a     True
b     True
c    False
d    False
e    False
f     True
g    False
h     True
i     True
j    False
dtype: bool

**[Mini Quiz #2]** sample 데이터 내에 80이 있는지 확인하여 있으면 True, 없으면 False를 출력

In [12]:
80 in sample.values

False

**[Mini Quiz #3]** sample의 인덱스 내에 'h'가 있는지 확인하여 있으면 True, 없으면 False를 출력

In [15]:
'h' in sample.index

True

8) apply(func) - Series의 값에 func 함수를 적용

In [16]:
# 80 이상이면 Good, 80 미만이면 Bad로 변경하는 함수
def get_grade(val):
    if val>=80:
        return 'Good'
    else:
        return 'Bad'

In [17]:
sample.apply(get_grade)

a    Good
b    Good
c     Bad
d     Bad
e     Bad
f    Good
g    Good
h    Good
i    Good
j    Good
dtype: object

In [19]:
# 익명함수(람다 함수) 활용
sample.apply(lambda val: 'Good' if val>=80 else 'Bad')

a    Good
b    Good
c     Bad
d     Bad
e     Bad
f    Good
g    Good
h    Good
i    Good
j    Good
dtype: object

# Indexing
## Series 인덱싱 - 원하는 데이터만 선택하기
1) 특정 인덱스 선택하기
- 숫자 인덱스와 인덱스 라벨 모두 가능

In [21]:
# 숫자 인덱스
sample[2]

75

In [22]:
# 인덱스 라벨로 선택 가능
sample['c']

75

2) 여러 인덱스를 동시에 선택하기
- 선택하고자 하는 인덱스 목록을 리스트(List,[])로 전달

In [31]:
# 3,5,7번째 데이터를 선택하기
sample[[2,4,6]]

c    75
e    45
g    95
dtype: int64

In [30]:
# c부터 g까지의 데이터 선택
sample[[2,3,4,5,6]]

c    75
d    55
e    45
f    90
g    95
dtype: int64

In [29]:
sample

a     85
b     90
c     75
d     55
e     45
f     90
g     95
h     85
i     90
j    100
dtype: int64

3)인덱스 슬라이싱 - 주어진 범위에 해당하는 데이터 선택
- start idx와 end idx는 생략이 가능
- start idx를 생략 -> 맨 첫 데이터부터 선택
- end idx를 생략 -> 데이터 끝까지 선택

In [38]:
# 숫자 인데스 일 경우 마지막 숫자 -1
sample[2:7]

c    75
d    55
e    45
f    90
g    95
dtype: int64

In [37]:
sample['c':'g']

c    75
d    55
e    45
f    90
g    95
dtype: int64

In [41]:
# sample의 맨 뒤에 있는 3개의 데이터 선택
sample[-3:]

h     85
i     90
j    100
dtype: int64

In [42]:
# sample의 맨 뒤에 있는 3개의 데이터 선택
sample[7:10]
sample[7:]
sample[-3:]

h     85
i     90
j    100
dtype: int64

4) 조건 색인(불리언 색인) : 조건을 활용한 인덱스 선택
- 조건에 충족하는 데이터만 선택하는 방법
- 매우 많이 활용되므로, 꼭 알고 있어야 함!

In [43]:
boolean_idx = [False, False, False, False, False, 
               True, True, True, True, True]

In [45]:
# True 인 데이터만 선택 됨
sample[boolean_idx]

f     90
g     95
h     85
i     90
j    100
dtype: int64

- boolean index를 조건을 통해 생성할 수 있다. 

In [46]:
sample >=90

a    False
b     True
c    False
d    False
e    False
f     True
g     True
h    False
i     True
j     True
dtype: bool

In [47]:
# True 데이터만 출력됨
sample[sample >=90]

b     90
f     90
g     95
i     90
j    100
dtype: int64

<b>[Mini Quiz #4]</b> sample 데이터의 평균값보다 큰 데이터만 선택

In [53]:
# 1) 평균값 구하기
sample.mean()

81.0

In [55]:
# 2) 불리언 인덱스 생성
bool_idx=sample>sample.mean()

In [57]:
#3) 색인 기호에 넣기
sample[bool_idx]

a     85
b     90
f     90
g     95
h     85
i     90
j    100
dtype: int64

In [58]:
sample[sample>sample.mean()]

a     85
b     90
f     90
g     95
h     85
i     90
j    100
dtype: int64

<b>[Mini Quiz #5]</b> sample의 값이 50과 80 사이의 데이터만 선택

In [67]:
sample[(sample>=50) & (sample<=80)]

c    75
d    55
dtype: int64

=============================================================
# 실습 문제 

In [68]:
import random

In [71]:
# 실습 데이터 생성
sample = random.sample(range(1,100),26) # 1~100사이의 값을 26개 생성하여 list로 반환
data = Series(sample, index = list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))
data

A     7
B    84
C    44
D    40
E    83
F    20
G    53
H    32
I    28
J    71
K    92
L    14
M    98
N    81
O    15
P    76
Q    70
R    10
S    65
T    52
U    73
V    88
W    99
X    47
Y    23
Z    58
dtype: int64

In [74]:
# 1) 인덱스 라벨이 'K' 항목의 값 출력
data['K']

92

In [76]:
# 2) 인덱스 라벨이 'A','F','C' 항목의 값 출력
data[['A','F','C']]

A     7
F    20
C    44
dtype: int64

In [78]:
# 3) 5번 인덱스부터 15번 인덱스까지의 항목 출력
data[5:16]

F    20
G    53
H    32
I    28
J    71
K    92
L    14
M    98
N    81
O    15
P    76
dtype: int64

In [80]:
# 4) 뒤에서 5개 항목 출력
data[-5:]

V    88
W    99
X    47
Y    23
Z    58
dtype: int64

In [82]:
# 5) data의 항목의 갯수를 출력
data.count()

26

In [83]:
# 6) data 항목 값들의 평균보다 큰 항목만 출력 
## Hint. data 항목 값들의 평균은 data.mean()으로 구할 수 있다.
data[data>data.mean()]

B    84
E    83
J    71
K    92
M    98
N    81
P    76
Q    70
S    65
U    73
V    88
W    99
Z    58
dtype: int64

In [103]:
# 7) data의 항목 값 중에 50이 있는지 확인하여, 있으면 True, 없으면 False를 출력
50 in data.values

False

In [124]:
# 8) data의 인덱스 라벨과 각 항목 값을 아래와 같이 출력
# index: A, value: XX
# index: B, value: XX
# index: C, value: XX

for i in range(3):
    print("index:%s, value:%s"%(data.index[i],data.values[i]))

index:A, value:7
index:B, value:84
index:C, value:44
