In [3]:
import numpy as np
import pandas as pd

import datetime

# 판다스 렌더링 방식 제어 옵션
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 7) # 최대 몇개까지의 컬럼을 표시할 것인지 설정
pd.set_option('display.max_rows', 10) # 최대 몇개까지의 로우를 표시할 것인지 설정
pd.set_option('display.width', 60) # 한 셀에 최대 몇글자까지 표시할 것인지 설정

# Pandas Series

인덱스를 가지는 배열 형태의 자료구조

In [6]:
s = pd.Series([1, 2, 3, 4])

print(s)

0    1
1    2
2    3
3    4
dtype: int64


In [13]:
print(s[0])
print(s[[0]]) # 대괄호안에 인덱스 리스트를 입력해주면, series 형태로 결과가 출력된다.
print(s[[1, 3]]) # 여러 인덱스를 지정해 여러 값을 한번에 가져올 수 있다.

1
a    1
dtype: int64
b    2
d    4
dtype: int64


### 사용자 정의 인덱스 생성

In [10]:
# 시리즈의 값과 인덱스의 길이는 같아야 한다.
s = pd.Series([1, 2, 3, 4],
              index = ['a', 'b', 'c', 'd'])

print(s)

a    1
b    2
c    3
d    4
dtype: int64


In [19]:
print('인덱스 명으로 조회')
print('\n', s['a'])
print('\n', s[['a']])
print('\n', s[['b', 'd']])

print('-------------------------')
print('인덱스 위치 값으로 조회')
print('\n', s[0])
print('\n', s[[0]])
print('\n', s[[1, 3]])

인덱스 명으로 조회

 1

 a    1
dtype: int64

 b    2
d    4
dtype: int64
-------------------------
인덱스 위치 값으로 조회

 1

 a    1
dtype: int64

 b    2
d    4
dtype: int64


In [20]:
print(s.index) # 시리즈의 인덱스는 'index'라는 판다스 객체

Index(['a', 'b', 'c', 'd'], dtype='object')


### pd.date_range()

날짜 범위 생성

In [21]:
dates = pd.date_range('2023-07-01', '2023-07-07')
print(dates)

DatetimeIndex(['2023-07-01', '2023-07-02', '2023-07-03',
               '2023-07-04', '2023-07-05', '2023-07-06',
               '2023-07-07'],
              dtype='datetime64[ns]', freq='D')


In [23]:
# dates를 인덱스로 시리즈 생성 - 시계열 데이터
temps1 = pd.Series([80, 82, 85, 90, 83, 87, 88],
                   index = dates)

print(temps1)
print(temps1['2023-07-05'])

2023-07-01    80
2023-07-02    82
2023-07-03    85
2023-07-04    90
2023-07-05    83
2023-07-06    87
2023-07-07    88
Freq: D, dtype: int64
83


### 시리즈 간의 산술 연산

In [24]:
temps2 = pd.Series([70, 75, 69, 83, 79, 77, 71],
                   index = dates)

temp_diff = temps1 - temps2
print(temp_diff)

2023-07-01    10
2023-07-02     7
2023-07-03    16
2023-07-04     7
2023-07-05     4
2023-07-06    10
2023-07-07    17
Freq: D, dtype: int64


In [31]:
# 만약 갯수가 다르면? -> 부족한 부분에 대해서는 None으로 채워진다.
temps3 = pd.Series([70, 75, 69, 83, 79, 77],
                   index = dates[:-1])

temp_diff = temps1 - temps3
print(temp_diff)

2023-07-01    10.0
2023-07-02     7.0
2023-07-03    16.0
2023-07-04     7.0
2023-07-05     4.0
2023-07-06    10.0
2023-07-07     NaN
Freq: D, dtype: float64


In [33]:
# 스칼라 값이 아닌 Series 간의 산술 연산 결과는?
s1 = pd.Series(['a', 'b', 'c', 'd'])
s2 = pd.Series(['e', 'f', 'g', 'h'])

diff = s1 + s2
print(diff)

0    ae
1    bf
2    cg
3    dh
dtype: object


In [40]:
# 집계 계산 -e 집계를 위한 다양한 메서드 제공
print(temp_diff.mean())
print(temp_diff.sum())
print(temp_diff.max())
print(temp_diff.min())
print(temp_diff.median())

9.0
54.0
16.0
4.0
8.5
