# Series
- 값과 행으로 구성된 1열 데이터
- 특성 하나의 데이터

# 필요한 라이브러리

In [2]:
import numpy as np
import pandas as pd

## Series 생성
- Series는 list, tuple, ndarray로 생성할 수 있다.
- list, tuple 인 경우에는 ndarray로 생성한 다음 관리한다.
- ndarray인 경우에는 해당 행렬 데이터를 관리한다.

In [3]:
s1 = pd.Series([10, 20, 30, 40, 50])
print(s1)
display(s1)

0    10
1    20
2    30
3    40
4    50
dtype: int64


0    10
1    20
2    30
3    40
4    50
dtype: int64

## Series가 관리하는 데이터에 접근하기

In [5]:
print(s1[0])
print(s1[1])

10
20


In [7]:
# 관리하는 값들을 모두 가져온다.
array1 = s1.values
print(type(array1))
print(array1)

<class 'numpy.ndarray'>
[10 20 30 40 50]


In [8]:
# index를 추출한다.
array2 = s1.index
print(type(array2))
print(array2)

<class 'pandas.core.indexes.range.RangeIndex'>
RangeIndex(start=0, stop=5, step=1)


## index 지정하기
- Series 생성시 index를 지정하지 않으면 0부터 1씩 증가되는 값으로 지정된다.
- index를 지정하고 싶다면 생성시 지정하거나 생성 후 필요할 때 지정할 수 있다.

In [9]:
s1 = pd.Series([1000, 2000, 3000])
s1

0    1000
1    2000
2    3000
dtype: int64

In [11]:
# 생성한 Series에 인덱스를 변경한다.
# 새롭게 설정하는 인덱스의 개수는 Series의 전체 행의 개수와 일치해야 한다.
s1.index = ['값1', '값2', '값3']
display(s1)

값1    1000
값2    2000
값3    3000
dtype: int64

In [14]:
# 생성할 때 index를 지정한다.
s2 = pd.Series([1000, 2000, 3000], index=['값1','값2','값3'])
s2

값1    1000
값2    2000
값3    3000
dtype: int64

# 값을 가져온다.

In [15]:
# 기본 index
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [16]:
# index가 숫자로 되어 있을 경우 숫자를 지정하면 순서가 아닌 index 값을 통해 접근한다.
print(s1[0])
print(s1[1])
print(s1[2])

10
20
30


In [20]:
s2 = pd.Series([10, 20, 30, 40, 50,], index = [3,0,4,1,1])
s2

3    10
0    20
4    30
1    40
1    50
dtype: int64

In [21]:
s2[1]

1    40
1    50
dtype: int64

In [22]:
# 위와같이 index가 중복되면 값이 2개가 뽑히므로 주의하자
s2 = pd.Series([10, 20, 30, 40, 50,], index = [3,0,4,1,2])
s2

3    10
0    20
4    30
1    40
2    50
dtype: int64

In [23]:
s2[1]

40

In [24]:
# index를 지정하였더라도 숫자로 구성되어있으면 []의 숫자는 순서가 아닌 index의 값을 의미한다.
print(s2[0])
print(s2[1])
print(s2[2])

20
40
50


In [25]:
# 인덱스가 문자열인 series
a1 = ['값1','값2','값3','값4','값5']
s3 = pd.Series([10, 20, 30, 40, 50], index = a1)
s3

값1    10
값2    20
값3    30
값4    40
값5    50
dtype: int64

In [26]:
print(s3['값1'])
print(s3['값2'])
print(s3['값3'])

10
20
30


## Series의 연산
- Series는 내부적으로 1차원 ndarray를 관리하기 때문에 연산 드으이 작업은 ndarray와 동일하다.

In [27]:
s1 = pd.Series([10, 20, 30, 40, 50])
s2 = pd.Series([1, 2, 3, 4, 5])

In [28]:
# Series와 Series의 연산
# 각 Series의 데이터를 1:1 매칭하여 연산을 한다.
# 개수가 다르면 NaN 값을 결과값으로 설정한다.
s10 = s1 + s2
s11 = s1 - s2
s12 = s1 * s2
s13 = s1 // s2

print(s10)
print(s11)
print(s12)
print(s13)

0    11
1    22
2    33
3    44
4    55
dtype: int64
0     9
1    18
2    27
3    36
4    45
dtype: int64
0     10
1     40
2     90
3    160
4    250
dtype: int64
0    10
1    10
2    10
3    10
4    10
dtype: int64


In [29]:
# 개수가 다른 두 Series의 연산
# Pandas 는 연산이 성립하지 않는 상황이라면 오류가 발생하는 것이 아니라 NaN이라는 값을 결과로 결정한다.
# NaN : Not a Number. 결측치를 의미하는 값이다. 
# 결측치 : 측정이 되지 않는 값. 값이 비어있는 공간. 
a100 = pd.Series([1, 2, 3])
a200 = pd.Series([10, 20, 30, 40])
a100 + a200

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64

In [31]:
# Series와 특정 값의 계산
s20 = s1 + 10
s21 = s1 - 10
s22 = s1 * 10
s23 = s1 // 10

print(s20)
print(s21)
print(s22)
print(s23)

0    20
1    30
2    40
3    50
4    60
dtype: int64
0     0
1    10
2    20
3    30
4    40
dtype: int64
0    100
1    200
2    300
3    400
4    500
dtype: int64
0    1
1    2
2    3
3    4
4    5
dtype: int64


# 슬라이싱

In [32]:
s1 = pd.Series([10, 20, 30, 40, 50], index=['a1','a2','a3','a4','a5'])
s1

a1    10
a2    20
a3    30
a4    40
a5    50
dtype: int64

In [33]:
# a2 ~ a4 까지
s2 = s1['a2' : 'a4']
s2

a2    20
a3    30
a4    40
dtype: int64

In [34]:
# 순서 1 ~ 4 - 1 까지
s3 = s1[1:4]
s3

a2    20
a3    30
a4    40
dtype: int64

In [35]:
# a1, a3, a5만 가져온다.
# 원하는 것만 골라서 가져온다.
s4 = s1[['a1','a3','a5']]
s4

a1    10
a3    30
a5    50
dtype: int64

In [36]:
# True나 False를 넣으면 True 자리에 해당하는 것만 추출한다.
# 단 데이터의 개수와 일치해야 한다.
s6 = s1[[True, False, True, False, True]]
s6

a1    10
a3    30
a5    50
dtype: int64

In [37]:
# 조건에 따라 가져온다.
s7 = s1 > 30
s7

a1    False
a2    False
a3    False
a4     True
a5     True
dtype: bool

In [38]:
s9 = s1[s1>30]
s9

a4    40
a5    50
dtype: int64