### 필요한 라이브러리 로딩

In [2]:
import numpy as np
import pandas as pd

### pandas의 데이터 구조 개념
- Series: 컬럼 하나의 데이터를 관리하는 요소. 행의 개념만 존재함.
- DataFrame: 다수의 Series를 모아 하나로 관리하는 요소. 행과 열의 개념이 모두 존재함.
- index: Series나 DataFrame에서 각 행을 구분하기 위한 이름(0부터 1씩 증가하는 개념으로 생각하면 안됨!)
- 컬럼 이름: DataFrame에서 각 컬럼을 구분하기 위해 사용하는 이름

### Series
- 값과 인덱스로 구성된 1열 데이터
- 특성 하나의 데이터

### Series 생성
- 튜플, 리스트, ndarray등 순서값을 가지고 관리하는 요소
- 딕셔너리와 같은 이름을 가지고 관리하는 요소
- 관리할 데이터를 지정하면 데이터는 ndarray로 생성되고 이를 Series가 관리함

In [3]:
# 순서값으로 관리하는 요소를 통해 생성
a1 = [10, 20, 30, 40, 50]
a2 = (10, 20, 30, 40, 50)
a3 = np.array([10, 20, 30, 40, 50])

s1 = pd.Series(a1)
s2 = pd.Series(a2)
s3 = pd.Series(a3)

In [4]:
print(type(s1))
print(type(s2))
print(type(s3))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [5]:
# Series를 생성할때 index를 지정함
# 값의 개수와 반드시 일치해야 함
s1 = pd.Series([10, 20, 30, 40, 50], index=['a1', 'a2', 'a3', 'a4', 'a5'])
s1

a1    10
a2    20
a3    30
a4    40
a5    50
dtype: int64

In [6]:
# 생성할때 Series의 이름을 설정할 수 있음
s2 = pd.Series([10, 20, 30, 40, 50], name='Series 1')
s2

0    10
1    20
2    30
3    40
4    50
Name: Series 1, dtype: int64

In [7]:
# 생성할때 관리하는 값의 타입을 지정하면
# 그 타입으로 변환됨
s3 = pd.Series([10, 20, 30, 40, 50], dtype='float')
s3

0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
dtype: float64

In [8]:
s4 = pd.Series([10, 20, 30, 40, 50], dtype=np.float64)
s4

0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
dtype: float64

In [9]:
# 딕셔너리를 통한 Series 생성
d1 = {
    'a1':100,
    'a2':200,
    'a3':300,
    'a4':400,
    'a5':500,
}

s5 = pd.Series(d1)
s5

a1    100
a2    200
a3    300
a4    400
a5    500
dtype: int64

In [10]:
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [11]:
# index를 변경함
# 값의 개수와 동일해야 함
s1.index = ['a1', 'a2', 'a3', 'a4', 'a5']
s1

a1    10
a2    20
a3    30
a4    40
a5    50
dtype: int64

In [12]:
# 이름을 변경함
s1.name = 'Series 2'
s1

a1    10
a2    20
a3    30
a4    40
a5    50
Name: Series 2, dtype: int64

In [13]:
# 새로운 값의 타입을 적용한 새로운 Series를 생성
s3 = s2.astype(np.float64)
s3

0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
Name: Series 1, dtype: float64

### Series가 관리하는 데이터 접근하기

In [14]:
# index를 지정하지 않고 Series 생성
# index는 0부터 1씩 증가되는 값으로 자동 설정
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [15]:
# Series 생성시 index를 지정하지 않으면 Range Index라는 타입으로 지정됨
# 이때, []로 접근을 하면 순서를 의미함
display(s1.index)

# 위치값 0
display(s1[0])

# 위치값 1
display(s1[1])

# 위치값 1~4-1
display(s1[1:4])

# 위치값 처음부터~4-1
display(s1[:4])

# 위치값 1~끝까지
display(s1[1:])

RangeIndex(start=0, stop=5, step=1)

10

20

1    20
2    30
3    40
dtype: int64

0    10
1    20
2    30
3    40
dtype: int64

1    20
2    30
3    40
4    50
dtype: int64

In [16]:
# loc: index의 형태에 관계없이 index를 지정함

# index 0
display(s1.loc[0])

# index 1
display(s1.loc[1])

# index 1~4
display(s1.loc[1:4])

# index 처음~4
display(s1.loc[:4])

# index 1~끝까지
display(s1.loc[1:])

10

20

1    20
2    30
3    40
4    50
dtype: int64

0    10
1    20
2    30
3    40
4    50
dtype: int64

1    20
2    30
3    40
4    50
dtype: int64

In [17]:
# iloc: index의 형태에 관계없이 순서를 지정함

# 순서값 0
display(s1.iloc[0])

# 순서값 1
display(s1.iloc[1])

# 순서값 1~4-1
display(s1.iloc[1:4])

# 순서값 처음~4-1
display(s1.iloc[:4])

# 순서값 1~끝까지
display(s1.iloc[1:])

10

20

1    20
2    30
3    40
dtype: int64

0    10
1    20
2    30
3    40
dtype: int64

1    20
2    30
3    40
4    50
dtype: int64

In [18]:
# 숫자 인덱스를 가진 Series
s2 = pd.Series([10, 20, 30, 40, 50], index=[0, 1, 2, 3, 4])
s2

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [19]:
# index를 직접 지정했다고 하더라도
# index를 저정하지 않았을때와 동일하게 동작함
# [숫자] : index를 통해 가져옴
# [숫자:숫자]: 범위인 경우에는 순서값으로 가져옴

display(s2.index)
display(s2[0])
display(s2[1])
display(s2[1:4])
display(s2[:4])
display(s2[1:])

Int64Index([0, 1, 2, 3, 4], dtype='int64')

10

20

1    20
2    30
3    40
dtype: int64

0    10
1    20
2    30
3    40
dtype: int64

1    20
2    30
3    40
4    50
dtype: int64

In [20]:
# index 형태와 관계없이 index를 지정함
display(s2.loc[0])
display(s2.loc[1])
display(s2.loc[1:4])
display(s2.loc[:4])
display(s2.loc[1:])

10

20

1    20
2    30
3    40
4    50
dtype: int64

0    10
1    20
2    30
3    40
4    50
dtype: int64

1    20
2    30
3    40
4    50
dtype: int64

In [21]:
# index 형태에 관계없이 순서를 지정함
display(s2.iloc[0])
display(s2.iloc[1])
display(s2.iloc[1:4])
display(s2.iloc[:4])
display(s2.iloc[1:])

10

20

1    20
2    30
3    40
dtype: int64

0    10
1    20
2    30
3    40
dtype: int64

1    20
2    30
3    40
4    50
dtype: int64

In [22]:
# index가 연속적이지 않은 숫자인 경우
s3 = pd.Series([10, 20, 30, 40, 50], index=[4, 0, 3, 1, 2])
s3

4    10
0    20
3    30
1    40
2    50
dtype: int64

In [23]:
# index의 형태에 관계없이 숫자로 구성되어 있을 경우
# RangeIndex와 동일하게 동작함
# [숫자]: index를 통해 가져옴
# [숫자:숫자]: 범위인 경우에는 순서값으로 가져옴
display(s3.index)
display(s3[0])
display(s3[1])
display(s3[1:4])
display(s3[:4])
display(s3[1:])

Int64Index([4, 0, 3, 1, 2], dtype='int64')

20

40

0    20
3    30
1    40
dtype: int64

4    10
0    20
3    30
1    40
dtype: int64

0    20
3    30
1    40
2    50
dtype: int64

In [24]:
# index가 숫자가 아닌 경우
s4 = pd.Series([10, 20, 30, 40, 50], index=['a1', 'a2', 'a3', 'a4', 'a5'])
s4

a1    10
a2    20
a3    30
a4    40
a5    50
dtype: int64

In [25]:
display(s4.index)

# 숫자로 지정 - 위치값으로 사용
display(s4[0])
display(s4[1])
display(s4[1:4])
display(s4[:4])
display(s4[1:])

# index를 지정
display(s4['a2'])
display(s4['a3'])
display(s4['a1':'a4'])
display(s4[:'a4'])
display(s4['a1':])

Index(['a1', 'a2', 'a3', 'a4', 'a5'], dtype='object')

10

20

a2    20
a3    30
a4    40
dtype: int64

a1    10
a2    20
a3    30
a4    40
dtype: int64

a2    20
a3    30
a4    40
a5    50
dtype: int64

20

30

a1    10
a2    20
a3    30
a4    40
dtype: int64

a1    10
a2    20
a3    30
a4    40
dtype: int64

a1    10
a2    20
a3    30
a4    40
a5    50
dtype: int64

In [26]:
# index의 형태와 관계없이 index를 지정함
display(s4.loc['a1'])
display(s4.loc['a2'])
display(s4.loc['a2':'a4'])
display(s4.loc[:'a4'])
display(s4.loc['a2':])

10

20

a2    20
a3    30
a4    40
dtype: int64

a1    10
a2    20
a3    30
a4    40
dtype: int64

a2    20
a3    30
a4    40
a5    50
dtype: int64

In [27]:
# index의 형태와 관계없이 순서를 지정함
display(s4.iloc[0])
display(s4.iloc[1])
display(s4.iloc[1:4])
display(s4.iloc[:4])
display(s4.iloc[1:])

10

20

a2    20
a3    30
a4    40
dtype: int64

a1    10
a2    20
a3    30
a4    40
dtype: int64

a2    20
a3    30
a4    40
a5    50
dtype: int64

### Series 연산
- 기본적으로 1차원 ndarray 연산과 동일하게 동작함.
- index가 있다는 점, 연산에 사용되는 Series들의 데이터 개수가 다른 일이 매우 많이 있다는 점을 고려하여 연산을 수행함

In [28]:
s1 = pd.Series([10, 20, 30, 40, 50])
s2 = pd.Series([1, 2, 3, 4, 5])

In [29]:
# Series간의 연산
a1 = s1 + s2
a2 = s1 - s2
a3 = s1 * s2
a4 = s1 // s2

print(a1)
print(a2)
print(a3)
print(a4)

0    11
1    22
2    33
3    44
4    55
dtype: int64
0     9
1    18
2    27
3    36
4    45
dtype: int64
0     10
1     40
2     90
3    160
4    250
dtype: int64
0    10
1    10
2    10
3    10
4    10
dtype: int64


In [30]:
# Series와 숫자간의 연산
a1 = s1 + 10
a2 = s1 - 10
a3 = s1 * 10
a4 = s1 // 10

display(a1)
display(a2)
display(a3)
display(a4)

0    20
1    30
2    40
3    50
4    60
dtype: int64

0     0
1    10
2    20
3    30
4    40
dtype: int64

0    100
1    200
2    300
3    400
4    500
dtype: int64

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [31]:
# 두 Series의 index 형태가 다른 경우
# Series의 index 형태에 관계없이 index가 같은 데이터끼리 연산을 수행함
s3 = pd.Series([10, 20, 30, 40, 50], index=[0, 1, 2, 3, 4])
s4 = pd.Series([1, 2, 3, 4, 5], index=[4, 3, 2, 1, 0])

display(s3)
display(s4)

0    10
1    20
2    30
3    40
4    50
dtype: int64

4    1
3    2
2    3
1    4
0    5
dtype: int64

In [32]:
# Series간의 연산
a1 = s3 + s4
a2 = s3 - s4
a3 = s3 * s4
a4 = s3 // s4

display(a1)
display(a2)
display(a3)
display(a4)

0    15
1    24
2    33
3    42
4    51
dtype: int64

0     5
1    16
2    27
3    38
4    49
dtype: int64

0    50
1    80
2    90
3    80
4    50
dtype: int64

0     2
1     5
2    10
3    20
4    50
dtype: int64

In [33]:
# 각 Series의 index가 서로간에 없는 것이 존재할때
s5 = pd.Series([10, 20, 30, 40, 50], index=[0, 1, 2, 3, 4])
s6 = pd.Series([1, 2, 3, 4, 5], index=[2, 3, 4, 5, 6])

display(s5)
display(s6)

0    10
1    20
2    30
3    40
4    50
dtype: int64

2    1
3    2
4    3
5    4
6    5
dtype: int64

In [34]:
# pandas에서 제공하는 Series나 DataFrame의 경우 연산이 불가능한 상황에서는
# 결측치(NaN, Na, NaT)나 무한대(inf)를 의미하는 값을 결과로 반환해 줌
a1 = s5 + s6
a2 = s5 - s6
a3 = s5 * s6
a4 = s5 // s6

display(a1)
display(a2)
display(a3)
display(a4)

0     NaN
1     NaN
2    31.0
3    42.0
4    53.0
5     NaN
6     NaN
dtype: float64

0     NaN
1     NaN
2    29.0
3    38.0
4    47.0
5     NaN
6     NaN
dtype: float64

0      NaN
1      NaN
2     30.0
3     80.0
4    150.0
5      NaN
6      NaN
dtype: float64

0     NaN
1     NaN
2    30.0
3    20.0
4    16.0
5     NaN
6     NaN
dtype: float64

### Series의 정보 및 검색

In [35]:
s1 = pd.Series([10, 20, 30, 40, 50])
s2 = pd.Series([10, 20, 30, 40, 50], index=[10, 20, 30, 40, 50])
s3 = pd.Series([10, 20, 30, 40, 50], index=['a1', 'a2', 'a3', 'a4', 'a5'])

In [36]:
# index 추출
display(s1.index)
display(s2.index)
display(s3.index)

RangeIndex(start=0, stop=5, step=1)

Int64Index([10, 20, 30, 40, 50], dtype='int64')

Index(['a1', 'a2', 'a3', 'a4', 'a5'], dtype='object')

In [37]:
# 값 추출
# Series가 관리하는 값들을 ndarray로 반환해 줌
display(s1.values)
display(s2.values)
display(s3.values)

array([10, 20, 30, 40, 50])

array([10, 20, 30, 40, 50])

array([10, 20, 30, 40, 50])

In [38]:
# 값 하나만 가져오기

# index가 숫자인 경우 index를 지칭함
display(s1[1])
display(s2[10])

# index가 숫자가 아닌 경우
# 순서
display(s3[1])
# index
display(s3['a2'])

20

10

20

20

In [41]:
# 한번에 여려개를 가져옴
# index가 숫자로 되어 있는 경우
# index를 지칭함
display(s1[[0, 2, 4]])
display(s2[[10, 30, 50]])

# index가 숫자가 아닌 경우
# 순서
display(s3[[0, 2, 4]])
# index
display(s3[['a1', 'a3', 'a5']])

0    10
2    30
4    50
dtype: int64

10    10
30    30
50    50
dtype: int64

a1    10
a3    30
a5    50
dtype: int64

a1    10
a3    30
a5    50
dtype: int64

In [43]:
# index의 형태에 관계없이 순서
display(s1.iloc[[0, 2, 4]])
display(s2.iloc[[0, 2, 4]])
display(s3.iloc[[0, 2, 4]])

0    10
2    30
4    50
dtype: int64

10    10
30    30
50    50
dtype: int64

a1    10
a3    30
a5    50
dtype: int64

In [46]:
# index의 형태와 관계없이 index
display(s1.loc[[0, 2, 4]])
display(s2.loc[[10, 30, 50]])
display(s3.loc[['a1', 'a2', 'a3']])

0    10
2    30
4    50
dtype: int64

10    10
30    30
50    50
dtype: int64

a1    10
a2    20
a3    30
dtype: int64

In [47]:
# True나 False로 구성된 요소를 통해 데이터 추출이 가능
display(s1[[True, False, True, False, True]])

0    10
2    30
4    50
dtype: int64

In [48]:
s1[s1 > 30]

3    40
4    50
dtype: int64