## 3. pandas를 사용한 데이터 연산
- 판다스의 핵심 구조체 중 하나는 Series를 사용하여 다양한 데이터 연산을 수행할 수 있으며, 이는 일반적으로 빠르고 효율적인 벡터화 연산을 제공합니다.

In [6]:
import pandas as pd
data = pd.read_csv("../dataset/yfinance_aapl.csv", index_col=0) # index_col=0 은 index 컬럼을 어디다가 둘건지 지정
data.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-07-19,193.100006,198.229996,192.649994,195.100006,194.069351,80507300
1,2023-07-20,195.089996,196.470001,192.5,193.130005,192.109756,59581200
2,2023-07-21,194.100006,194.970001,191.229996,191.940002,190.926041,71917800


In [7]:
data.describe()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,252.0,252.0,252.0,252.0,252.0,252.0
mean,185.951428,187.58377,184.420873,186.027341,185.60256,60684940.0
std,14.391816,14.577876,14.124481,14.404462,14.50868,24645210.0
min,165.350006,166.399994,164.080002,165.0,164.776505,24048300.0
25%,175.277496,177.052502,173.700005,175.370007,174.801842,47424500.0
50%,183.735001,185.119995,182.014999,183.989998,183.502808,54303600.0
75%,192.592503,194.017498,191.277496,192.447498,191.941902,66153350.0
max,236.479996,237.229996,233.089996,234.820007,234.820007,246421400.0


## (2)산술 연산
`Serioes` 객체는 `+`, `-`, `*`, `/`등의 연산자를 사용하여 산술 연산을 수행할 수 있습니다. 이 때 인덱스가 동일한 요소끼리 연산이 수행됩니다.

In [8]:
data["Open"] / data["Close"]

0      0.989749
1      1.010149
2      1.011254
3      1.003424
4      0.998502
         ...   
247    0.992973
248    1.008874
249    1.000767
250    1.002490
251    1.027210
Length: 252, dtype: float64

In [9]:
data["Open"] + data["Close"]

0      388.200012
1      388.220001
2      386.040009
3      386.160004
4      386.949997
          ...    
247    459.459991
248    470.879990
249    469.820007
250    458.330002
251    454.459991
Length: 252, dtype: float64

## (2) 통계연산
`mean`, `sum`, `min`, `max` 등의 통계적 메서드를 사용하여 계산을 수행할 수 있습니다.

In [10]:
# 평균 계산하기
data["Open"].mean()

np.float64(185.9514284285288)

In [11]:
# 모든 값 더하기
data["Open"].sum()

np.float64(46859.75996398926)

In [12]:
# 최댓값 구하기
data["Open"].max()

np.float64(236.47999572753903)

In [13]:
# 최솟값 구하기
data["Open"].min()

np.float64(165.35000610351562)

In [14]:
# 매일 시초에 사서 고가에 팔았을 때를 가정하여 수익률 계산하기
profit = data["High"] / data["Open"]
profit.head(3)

0    1.026566
1    1.007074
2    1.004482
dtype: float64

In [15]:
# .cumprod()를 사용하여 누적 수익률 계산하기
profit.cumprod().head()

0    1.026566
1    1.033828
2    1.038462
3    1.046516
4    1.052524
dtype: float64

In [17]:
data.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-07-19,193.100006,198.229996,192.649994,195.100006,194.069351,80507300
1,2023-07-20,195.089996,196.470001,192.5,193.130005,192.109756,59581200
2,2023-07-21,194.100006,194.970001,191.229996,191.940002,190.926041,71917800
3,2023-07-24,193.410004,194.910004,192.25,192.75,191.731766,45377800
4,2023-07-25,193.330002,194.440002,192.919998,193.619995,192.597153,37283200


In [18]:
# .diff()를 사용하여 전날과의 시촛값 차이를 계산하기
data["Open"].diff().head()

0         NaN
1    1.989990
2   -0.989990
3   -0.690002
4   -0.080002
Name: Open, dtype: float64

In [19]:
# .diff(2)를 사용하여 이틀전과의 시촛값 차이를 계산하기
data["Open"].diff(2).head()

0         NaN
1         NaN
2    1.000000
3   -1.679993
4   -0.770004
Name: Open, dtype: float64

## (3) 정렬
`sort_values`, `sort_index` 메서드를 사용하여 값 또는 인덱스 기준으로 정렬할 수 있습니다.

In [20]:
data.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-07-19,193.100006,198.229996,192.649994,195.100006,194.069351,80507300
1,2023-07-20,195.089996,196.470001,192.5,193.130005,192.109756,59581200
2,2023-07-21,194.100006,194.970001,191.229996,191.940002,190.926041,71917800
3,2023-07-24,193.410004,194.910004,192.25,192.75,191.731766,45377800
4,2023-07-25,193.330002,194.440002,192.919998,193.619995,192.597153,37283200


In [21]:
# .sort_values()를 사용하여 DataFrame 전체를 거래량 열에 대해서 정렬하기
data.sort_values(by="Volume").head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
90,2023-11-24,190.869995,190.899994,189.25,189.970001,189.470901,24048300
111,2023-12-26,193.610001,193.889999,192.830002,193.050003,192.542816,28919300
113,2023-12-28,194.139999,194.660004,193.169998,193.580002,193.071426,34049900
213,2024-05-22,192.270004,192.820007,190.270004,190.899994,190.899994,34648500
9,2023-08-01,196.240005,196.729996,195.279999,195.610001,194.576645,35175100


In [22]:
# 내림차순
data.sort_values(by='Volume', ascending=False).head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
233,2024-06-21,210.389999,211.889999,207.110001,207.490005,207.490005,246421400
227,2024-06-12,207.369995,220.199997,206.899994,213.070007,213.070007,198134300
226,2024-06-11,193.649994,207.160004,193.630005,207.149994,207.149994,172373300
200,2024-05-03,186.649994,187.0,182.660004,183.380005,183.131607,163224100
155,2024-02-29,181.270004,182.570007,179.529999,180.75,180.505173,136682600


In [25]:
# 내림차순, 인덱스 정렬
data.sort_values(by='Volume', ascending=False).head().sort_index()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
233,2024-06-21,210.389999,211.889999,207.110001,207.490005,207.490005,246421400
227,2024-06-12,207.369995,220.199997,206.899994,213.070007,213.070007,198134300
226,2024-06-11,193.649994,207.160004,193.630005,207.149994,207.149994,172373300
200,2024-05-03,186.649994,187.0,182.660004,183.380005,183.131607,163224100
155,2024-02-29,181.270004,182.570007,179.529999,180.75,180.505173,136682600


In [27]:
# Colume 하나를 정렬하기
data["Open"].sort_values().head()

192    165.350006
191    165.520004
190    166.210007
193    166.539993
71     166.910004
Name: Open, dtype: float64

## 4. 결측치(Nan) 데이터 처리하기
- 결측치는 데이터가 누락되었거나 사용할 수 없음을 나타내며, 데이터 분석 과정에서 중요한 고려사항입니다.

In [31]:
import pandas as pd
import numpy as np

In [32]:
df = pd.DataFrame({
    "A": [1, 2, np.nan, 4],
    "B": [5, np.nan, np.nan, 8],
    "C": [10, 20, 30, 40],
})

df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


## 1) 결측치 확인하기

In [33]:
# 전체 데이터셋에서 결측치가 있는지 여부 확인
df.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,False,True,False
2,True,True,False
3,False,False,False


In [34]:
# 각 열별 결측치 개수 세기
df.isnull().sum()

A    1
B    2
C    0
dtype: int64

## 2) 결측치 데이터 채우기

In [36]:
# 모든 결측치를 0으로 채우기
df_filled_zero = df.fillna(0)
df_filled_zero

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,0.0,20
2,0.0,0.0,30
3,4.0,8.0,40


In [37]:
# 특정 값으로 결측치 대체
df_replaced = df.replace(np.nan, -1)
df_replaced

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,-1.0,20
2,-1.0,-1.0,30
3,4.0,8.0,40


In [38]:
df = pd.DataFrame({
    "A": [1, 2, np.nan, 4],
    "B": [5, np.nan, np.nan, 8],
    "C": [10, 20, 30, 40],
})

df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [41]:
# 결측치를 앞 방향 값으로 채우기
df_filled_forward = df.ffill()
df_filled_forward

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,5.0,20
2,2.0,5.0,30
3,4.0,8.0,40


In [44]:
# 결측치 뒷방향 값으로 채우기
df_filled_backward = df.bfill()
df_filled_backward

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,8.0,20
2,4.0,8.0,30
3,4.0,8.0,40


In [48]:
df = pd.DataFrame({
    "A": [1, 2, np.nan, 4],
    "B": [5, np.nan, np.nan, 8],
    "C": [10, 20, 30, 40],
})

df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [49]:
# 특정 열의 결측치를 해당 열의 평균 값으로 채우기
df_filled_mean = df.copy()

In [50]:
df_filled_mean["B"] = df_filled_mean["B"].fillna(df_filled_mean["B"].mean())

In [51]:
df_filled_mean

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,6.5,20
2,,6.5,30
3,4.0,8.0,40


## 3) 결측치를 보유한 행이나 열 제거

In [52]:
df = pd.DataFrame({
    "A": [1, 2, np.nan, 4],
    "B": [5, np.nan, np.nan, 8],
    "C": [10, 20, 30, 40],
})

df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [53]:
# 결측치가 하나라도 있는 행 제거
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,10
3,4.0,8.0,40


In [54]:
# 결측치가 하나라도 있는 열 제거
df.dropna(axis=1)

Unnamed: 0,C
0,10
1,20
2,30
3,40


In [55]:
# index를 기반으로 제거
df.drop(index=[1, 2])

Unnamed: 0,A,B,C
0,1.0,5.0,10
3,4.0,8.0,40
