In [1]:
import numpy as np
import pandas as pd
import yfinance as yf

pd.set_option("display.expand_frame_repr", False)

df = yf.download("NVDA", period="1y", interval="1d", multi_level_index=False)
df.head()

[*********************100%***********************]  1 of 1 completed


Unnamed: 0_level_0,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2025-01-13,133.193573,133.453512,129.474589,129.954469,204808900
2025-01-14,131.723953,136.3427,130.01443,136.012788,195590500
2025-01-15,136.202759,136.412693,131.2541,133.613455,185217300
2025-01-16,133.533478,138.712054,133.453498,138.602083,209235600
2025-01-17,137.672348,138.462125,135.422963,136.652623,201188800


In [2]:
# 문제 01. 기본 정보 확인하기.
print(f"=== Shape ===")
print(f"{df.shape}\n")

print(f"=== Info ===")
# print(f"{df.info()}\n")       info()는 print()를 사용하면 반환값인 None까지 같이 출력되기 때문에, 그냥 df.info()로만 사용하기.
df.info()

print(f"\n=== Describe ===")
print(f"{df.describe()}")

=== Shape ===
(252, 5)

=== Info ===
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 252 entries, 2025-01-13 to 2026-01-13
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Close   252 non-null    float64
 1   High    252 non-null    float64
 2   Low     252 non-null    float64
 3   Open    252 non-null    float64
 4   Volume  252 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 11.8 KB

=== Describe ===
            Close        High         Low        Open        Volume
count  252.000000  252.000000  252.000000  252.000000  2.520000e+02
mean   155.218970  157.532276  152.606673  155.243618  2.175738e+08
std     30.123911   30.200138   30.333066   30.434438  9.491049e+07
min     94.292885   99.421958   86.604280   87.444124  1.694973e+07
25%    129.880936  131.951933  125.123286  129.951964  1.573118e+08
50%    167.006294  169.975958  164.306600  167.771203  1.930086e+08
75%    181.479839  183.572188  179.1

In [3]:
# 문제 02. 컬럼명과 데이터 타입 확인하기.
print(f"컬럼명: {df.columns.tolist()}")
print(f"\n데이터 타입: \n{df.dtypes}")

# columns 메소드는 기본 반환값이 Index type임.
# df.columns라고만 사용해서 출력하면 ==> 'Index(['Close', 'High', 'Low', 'Open', 'Volume'], dtype='object')' 로 출력됨.
# 그래서 Index type의 출력값을 그냥 list로 표현해주기 위해서 '.tolist()'를 사용.
# .tolist() 메소드는 같은 레벨의 데이터들을 묶어 리스트의 원소로 만들어 리스트 형태로 출력함.

컬럼명: ['Close', 'High', 'Low', 'Open', 'Volume']

데이터 타입: 
Close     float64
High      float64
Low       float64
Open      float64
Volume      int64
dtype: object


In [4]:
# 문제 03. 처음 5개 행과 마지막 5개 행 출력하기.
print(f"<처음 5개 행> \n{df.head()}")
print(f"\n<마지막 5개 행> \n{df.tail()}")

# .head()와 .tail()의 기본값은 5임.

<처음 5개 행> 
                 Close        High         Low        Open     Volume
Date                                                                 
2025-01-13  133.193573  133.453512  129.474589  129.954469  204808900
2025-01-14  131.723953  136.342700  130.014430  136.012788  195590500
2025-01-15  136.202759  136.412693  131.254100  133.613455  185217300
2025-01-16  133.533478  138.712054  133.453498  138.602083  209235600
2025-01-17  137.672348  138.462125  135.422963  136.652623  201188800

<마지막 5개 행> 
                 Close        High         Low        Open     Volume
Date                                                                 
2026-01-07  189.110001  191.369995  186.559998  188.570007  153543200
2026-01-08  185.039993  189.550003  183.710007  189.110001  172457000
2026-01-09  184.860001  186.339996  183.669998  185.080002  131327500
2026-01-12  184.940002  187.119995  183.020004  183.220001  137624700
2026-01-13  184.339996  185.139999  183.631302  184.960007   16949

In [5]:
# 문제 04. 종가('Close')의 기본 통계 구하기. (최댓값, 최솟값, 평균)
print(f"종가(Close)의 최댓값: {df['Close'].max():,.0f}")
print(f"\n종가('Close')의 최솟값: {df['Close'].min():,.0f}")
print(f"\n종가('Close')의 평균값: {df['Close'].mean():,.0f}")

# print(f"종가(Close)의 최댓값: {df['Close'].max()}")
# print(f"\n종가('Close')의 최솟값: {df['Close'].min()}")
# print(f"\n종가('Close')의 평균값: {df['Close'].mean()}")

# f-string의 ':,.0f'의 의미
# 바로 앞에서 나온 값을 천 단위로 ','를 찍고, '.'를 사용해 소수점 자릿 수를 지정.
# '.' 뒤가 '0f'이기 때문에, 소수점 없이 반올림해서 출력하게 됨.

종가(Close)의 최댓값: 207

종가('Close')의 최솟값: 94

종가('Close')의 평균값: 155


In [6]:
# 문제 05. 거래량('Volume')의 평균, 중앙값, 표준편차 구하기.
print(f"거래량('Volume')의 평균: {df['Volume'].mean():,.0f}")
print(f"\n거래량('Volume')의 중앙값: {df['Volume'].median():,.0f}")
print(f"\n거래량('Volume')의 표준편차: {df['Volume'].std():,.0f}")

# print(f"거래량('Volume')의 평균: {df['Volume'].mean()}")
# print(f"\n거래량('Volume')의 중앙값: {df['Volume'].median()}")
# print(f"\n거래량('Volume')의 표준편차: {df['Volume'].std()}")

# 여기서도 ':,.0f'로 인해서
# 천 단위로 ','를 찍고, 소수점 자릿 수를 지정하기 위해 '.'를 사용.
# '0f'를 사용했기 때문에 소수점 없이 반올림해서 출력됨.

거래량('Volume')의 평균: 217,573,778

거래량('Volume')의 중앙값: 193,008,550

거래량('Volume')의 표준편차: 94,910,494


In [7]:
# 문제 06. 고가와 저가의 차이의 평균을 계산하기.
hilo_diff_mean = (df['High'] - df['Low']).mean()

print(f"고가와 저가의 차이의 평균: {hilo_diff_mean:,.0f}")

고가와 저가의 차이의 평균: 5


In [8]:
# 문제 07. 'Close', 'Volume' 컬럼만 선택하여 새 DateFrame을 만들기.
slt_df = df[['Close', 'Volume']].copy()

slt_df

# 한 번에 여러 개의 컬럼을 선택할 때는 이중으로 대괄호를 사용해야 함.
# 선택할 컬럼을 한 번 감싸고, 그 감싼 []를 다시 []로 감싸기.
# .copy()를 사용해 DataFrame을 복제해 새 DataFrame을 생성.

Unnamed: 0_level_0,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2025-01-13,133.193573,204808900
2025-01-14,131.723953,195590500
2025-01-15,136.202759,185217300
2025-01-16,133.533478,209235600
2025-01-17,137.672348,201188800
...,...,...
2026-01-07,189.110001,153543200
2026-01-08,185.039993,172457000
2026-01-09,184.860001,131327500
2026-01-12,184.940002,137624700


In [9]:
# 문제 08. DataFrame에서 최근 10개 행만 출력하기.
recent_10 = df.tail(10)

recent_10

# tail()은 마지막 행을 원하는 갯수만큼 출력하는 메소드.
# () 안에 개수를 입력하지 않으면, 기본값인 5개만 출력함.
# 원하는 개수를 () 안에 입력해서 사용하기.
# 오름차순이라 tail()을 사용했고, 내림차순이라면 head()를 사용해 최근 데이터 출력.

Unnamed: 0_level_0,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2025-12-30,187.539993,188.990005,186.929993,188.240005,97687300
2025-12-31,186.5,190.559998,186.490005,189.570007,120100500
2026-01-02,188.850006,192.929993,188.259995,189.839996,148240500
2026-01-05,188.119995,193.630005,186.149994,191.759995,183529700
2026-01-06,187.240005,192.169998,186.820007,190.520004,176862600
2026-01-07,189.110001,191.369995,186.559998,188.570007,153543200
2026-01-08,185.039993,189.550003,183.710007,189.110001,172457000
2026-01-09,184.860001,186.339996,183.669998,185.080002,131327500
2026-01-12,184.940002,187.119995,183.020004,183.220001,137624700
2026-01-13,184.339996,185.139999,183.631302,184.960007,16949730


In [10]:
# 문제 09. 종가('Close')가 상위 10% 이상인 데이터만 필터링하기.
threshold = df['Close'].quantile(0.9)
high_price = df[df['Close'] >= threshold]

print(f"종가의 상위 10% 값: {threshold}\n")
print(f"종가가 {threshold:.2f} 이상인 날의 수: {len(high_price)}일")
# print(f"\n{high_price}")

# 상위 10% == 백분위수 0.9(90)
# quantile()은 백분위수를 인자로 사용함. 보통 0.25, 0.5, 0.75를 많이 사용. (사분위수)
# 여기서는 상위 10%인 백분위수 0.9를 구해야 하기 때문에, 인자로 0.9를 입력함.

# 근데 하나 의문이 든 것은, 당장 이 문제에서는 필터링을 한 후 조건에 맞는 개수를 파악하는 것인데
# 왜 조건에 맞는 행을 DF 형태로 변수에 할당하는지 의문이 들었음.
# 그래서 GPT한테 물어보니
# 단순 개수만 파악하는 것은 DF 대입 없이 Bool만 사용해서 합계를 구하고,
# 이 'high_price'가 뒤에 더 필요할 때는 DF로 할당하는 것이 맞다고 함.
# 들어보니 그것이 맞는 것 같음.
# 그래서 아래에 개수만 구하는 방식과, DF를 구하는 방식 두 가지로 분류해서 정리해보기로 함.

종가의 상위 10% 값: 187.602587890625

종가가 187.60 이상인 날의 수: 26일


In [11]:
# 문제 09-01. 새 DF를 만들지 않고 개수만 세는 코드.
# 01. Boolean의 합계를 구하기.
# 가장 직관적이라 실무에서 제일 많이 사용한다고 함.
threshold = df['Close'].quantile(0.9)
count_high = (df['Close'] >= threshold).sum()

print("< Boolean과 sum을 사용해 조건에 맞는 값의 개수를 구하는 방법 >")
print(f"종가의 상위 10%의 값: {threshold}")
print(f"종가가 {threshold:.2f} 이상인 날짜의 수: {count_high}일")

# 02. '.ge()'와 '.sum()'을 사용하기.
# '.ge()'는 '>='와 동일한 기능을 하는 메소드.
# 기능에는 차이가 없고, 단지 가독성으로 메소드를 쓰느냐, 아니면 그냥 부등호를 쓰냐의 차이.
threshold02 = df['Close'].quantile(0.9)
count_high02 = df['Close'].ge(threshold02).sum()

print("\n< .ge()와 .sum()을 사용하는 방법 >")
print(f"종가의 상위 10%의 값: {threshold02}")
print(f"종가가 {threshold02:.2f} 이상인 날짜의 수: {count_high}일")

< Boolean과 sum을 사용해 조건에 맞는 값의 개수를 구하는 방법 >
종가의 상위 10%의 값: 187.602587890625
종가가 187.60 이상인 날짜의 수: 26일

< .ge()와 .sum()을 사용하는 방법 >
종가의 상위 10%의 값: 187.602587890625
종가가 187.60 이상인 날짜의 수: 26일


In [12]:
# 위의 방식 그대로 실무에서 사용하는 스타일로 생성된 코드.
# 지금이야 다 짧은 단문의 코드만 쓰지만, 나중에 실제 개발이나 프로젝트를 할 때는 작은 기능이라도 꼭 함수 생성을 하자.
def count_top_quantile_rows(
        df,
        col: str = "Close",
        q: float = 0.9,
        dropna: bool = True,
) -> tuple[float, int]:
    """
    col 컬럼의 q 분위수(threshold) 이상(>=)인 행 개수를 반환.
    """
    s = df[col]
    if dropna:
        s = s.dropna()

    threshold = s.quantile(q)
    count = (df[col] >= threshold).sum()

    return threshold, int(count)

threshold, cnt = count_top_quantile_rows(df, col='Close', q=0.9, dropna=True)

print(f"종가 상위 10%의 기준값: {threshold:.2f}")
print(f"종가가 {threshold:.2f} 이상인 날의 수: {cnt}일")

종가 상위 10%의 기준값: 187.60
종가가 187.60 이상인 날의 수: 26일


In [13]:
# 문제 09-02. 추가 상황을 대비해 새 DF를 만들고 개수를 구하는 방식의 코드.
# 실무에서 사용하는 형식대로 만들어 준 코드.
def filter_top_quantile_df(
        df,
        col: str = "Close",
        q: float = 0.9,
        dropna: bool = True,
        copy: bool = True,
):
        """
        col 컬럼의 q 분위수(threshold) 이상인 행만 필터링 한 DataFrame을 반환.
        실제 반환값: (threshold, filtered_df)
        """
        s = df[col]
        if dropna:
                s = s.dropna()
        
        threshold = s.quantile(q)
        mask = df[col] >= threshold

        out = df.loc[mask]              # 실무에서 df[]보다 df.loc을 더 선호.
        if copy:
                out = out.copy()
        
        return threshold, out

threshold, high_price = filter_top_quantile_df(df, "Close", 0.9, dropna=True, copy=True)

print(f"종가가 상위 10%를 넘긴 일수: {len(high_price)}일")
print(f"\n{high_price}")

종가가 상위 10%를 넘긴 일수: 26일

                 Close        High         Low        Open     Volume
Date                                                                 
2025-10-02  188.879486  191.039370  188.049530  189.589453  136805800
2025-10-03  187.609543  190.349396  185.369677  189.179463  137596900
2025-10-08  189.099472  189.589450  186.529608  186.559620  130168900
2025-10-09  192.559280  195.289124  191.049355  192.219288  182997200
2025-10-13  188.309525  190.099418  185.949655  187.959538  153482800
2025-10-27  191.479340  191.989306  188.419497  189.979423  153452700
2025-10-28  201.018814  203.138691  191.899326  193.039262  297986200
2025-10-29  207.028473  212.178195  204.768604  207.968423  308829600
2025-10-30  202.878708  206.148530  201.398795  205.138577  178864400
2025-10-31  202.478729  207.958420  202.058754  206.438500  179802200
2025-11-03  206.868484  211.328228  205.548551  208.068415  180267300
2025-11-04  198.678940  203.958645  197.918972  202.988697  188919

In [14]:
# 문제 10. 하루 거래량이 평균 거래량보다 많았던 날의 일수 구하기.
avg_vol = df['Volume'].mean()
cnt_more_avg = (df['Volume'] > avg_vol).sum()

print(f"평균 거래량: {avg_vol:,.2f}")
print(f"하루 거래량이 {avg_vol:,.2f}보다 많았던 날짜의 수: {cnt_more_avg}일")

# 만일 새 데이터프레임을 원하면, cnt_more_avg에 sum 안 쓰고 겉을 df[]로 감싸면 됨.

평균 거래량: 217,573,777.90
하루 거래량이 217,573,777.90보다 많았던 날짜의 수: 96일


In [15]:
# 문제 11. 거래량('Volume')을 기준으로 내림차순으로 정렬하기.
df_vol_dsc = df.sort_values('Volume', ascending=False)

df_vol_dsc

# df.sort_values() 메서드를 사용.
# 인자로 '기준 컬럼', '오름차순이면 ascending=True, 내림차순이면 ascending=False'
# 위 코드에서는 원본의 변형을 막기 위해 새 변수에 정렬한 DataFrame을 할당함.

Unnamed: 0_level_0,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2025-01-27,118.387619,128.364886,116.668088,124.765879,818830900
2025-04-09,114.309250,115.079107,97.512296,98.872050,612918300
2025-04-07,97.622276,101.731531,86.604280,87.444124,611041300
2025-01-28,128.954727,128.964719,116.218206,121.776683,579666400
2025-04-04,94.292885,100.111828,92.093287,98.892056,532273800
...,...,...,...,...,...
2025-12-29,188.220001,188.759995,185.910004,187.710007,120006100
2025-10-23,182.149857,183.019803,179.779978,180.409948,111363700
2025-12-30,187.539993,188.990005,186.929993,188.240005,97687300
2025-12-24,188.610001,188.910004,186.589996,187.940002,65528500


In [16]:
# 문제 12. 일일 변동폭(종가 - 시가)를 계산한 값을 'Daily_Change'라는 새 컬럼에 넣어 생성.
df['Daily_Change'] = df['Close'] - df['Open']

df

Unnamed: 0_level_0,Close,High,Low,Open,Volume,Daily_Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2025-01-13,133.193573,133.453512,129.474589,129.954469,204808900,3.239104
2025-01-14,131.723953,136.342700,130.014430,136.012788,195590500,-4.288835
2025-01-15,136.202759,136.412693,131.254100,133.613455,185217300,2.589304
2025-01-16,133.533478,138.712054,133.453498,138.602083,209235600,-5.068605
2025-01-17,137.672348,138.462125,135.422963,136.652623,201188800,1.019725
...,...,...,...,...,...,...
2026-01-07,189.110001,191.369995,186.559998,188.570007,153543200,0.539993
2026-01-08,185.039993,189.550003,183.710007,189.110001,172457000,-4.070007
2026-01-09,184.860001,186.339996,183.669998,185.080002,131327500,-0.220001
2026-01-12,184.940002,187.119995,183.020004,183.220001,137624700,1.720001


In [17]:
# 문제 13. 일일 변동률을 계산한 후 새 컬럼을 생성하기.
df['Change_Rate'] = (((df['Close'] - df['Open']) / df['Open']) * 100).round(2)

df

# 사실 '/ df['Open']) * 100)'에서 () 하나 없어도 연산 순서가 바뀌지는 않지만, 그래도 보기 쉬우라고 내가 따로 함.

Unnamed: 0_level_0,Close,High,Low,Open,Volume,Daily_Change,Change_Rate
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2025-01-13,133.193573,133.453512,129.474589,129.954469,204808900,3.239104,2.49
2025-01-14,131.723953,136.342700,130.014430,136.012788,195590500,-4.288835,-3.15
2025-01-15,136.202759,136.412693,131.254100,133.613455,185217300,2.589304,1.94
2025-01-16,133.533478,138.712054,133.453498,138.602083,209235600,-5.068605,-3.66
2025-01-17,137.672348,138.462125,135.422963,136.652623,201188800,1.019725,0.75
...,...,...,...,...,...,...,...
2026-01-07,189.110001,191.369995,186.559998,188.570007,153543200,0.539993,0.29
2026-01-08,185.039993,189.550003,183.710007,189.110001,172457000,-4.070007,-2.15
2026-01-09,184.860001,186.339996,183.669998,185.080002,131327500,-0.220001,-0.12
2026-01-12,184.940002,187.119995,183.020004,183.220001,137624700,1.720001,0.94


In [18]:
# 문제 14. 날짜 정보 추출하기. 연도, 월, 요일별 컬럼을 생성하기.
df['Year'] = df.index.year
df['Month'] = df.index.month
df['Weekday'] = df.index.day_name()

df

# df.info()로 확인했을 때, index의 dtype은 'datetime'이었음.
# 그래서 그냥 바로 pd의 DatetimeIndex의 method를 사용 가능했음.
# .day_name()은 요일을 숫자가 아닌 영문으로 출력함. (Monday ~ Sunday)

Unnamed: 0_level_0,Close,High,Low,Open,Volume,Daily_Change,Change_Rate,Year,Month,Weekday
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2025-01-13,133.193573,133.453512,129.474589,129.954469,204808900,3.239104,2.49,2025,1,Monday
2025-01-14,131.723953,136.342700,130.014430,136.012788,195590500,-4.288835,-3.15,2025,1,Tuesday
2025-01-15,136.202759,136.412693,131.254100,133.613455,185217300,2.589304,1.94,2025,1,Wednesday
2025-01-16,133.533478,138.712054,133.453498,138.602083,209235600,-5.068605,-3.66,2025,1,Thursday
2025-01-17,137.672348,138.462125,135.422963,136.652623,201188800,1.019725,0.75,2025,1,Friday
...,...,...,...,...,...,...,...,...,...,...
2026-01-07,189.110001,191.369995,186.559998,188.570007,153543200,0.539993,0.29,2026,1,Wednesday
2026-01-08,185.039993,189.550003,183.710007,189.110001,172457000,-4.070007,-2.15,2026,1,Thursday
2026-01-09,184.860001,186.339996,183.669998,185.080002,131327500,-0.220001,-0.12,2026,1,Friday
2026-01-12,184.940002,187.119995,183.020004,183.220001,137624700,1.720001,0.94,2026,1,Monday


In [19]:
# 문제 14는 많이 고민했음.
# 처음에는 index에서 슬라이싱으로 글자를 추출하면 되지 않을까 했는데, 전혀 그렇지 않았음.
# index[:] 형식을 사용하면, index의 값에서 글자를 추출하는 것이 아닌 지정한 범위의 index 행만 추출하게 됨.
# 14번 문제의 해결 방법을 아래에 적어보겠음.
print(f"< 해결 방법 01. DatetimeIndex이면, 바로 거기에 속한 method 사용하기. >")
df_cp = df.copy()           # .copy의 'deep=True'여야 복제 후 원본 DF의 값에 영향을 주지 않음.

df_cp['Year'] = df_cp.index.year
df_cp['Month'] = df_cp.index.month
df_cp['Weekday'] = df_cp.index.day_name()

print(df_cp.head(10))

print(f"\n\n< 해결 방법 02. index의 dtype을 DatatimeIndex로 변환 후 method 사용하기. >")
df_obj = df.copy()
df_obj.index = df_obj.index.astype("string")          # .astype() method를 사용해서 index의 dtype을 str로 변경하기.

dt_idx = pd.to_datetime(df_obj.index, errors="coerce")        # .to_datetime으로 DataFrame의 index dtype을 datetime으로 변환하고, 결측치 발생 시 'NaT'를 채워넣기 위해 'errors="corecr"' 옵션을 사용.
df_obj.index = dt_idx       # DatetimeIndex를 기존 DataFrame의 index에 할당. 이후 과정은 방법 01과 동일.

df_obj['Year'] = df_obj.index.year
df_obj['Month'] = df_obj.index.month
df_obj['Weekday'] = df_obj.index.day_name()

print(df_obj.head(10))
# df_obj.info()     # 일반 index는 'Index'라고 표기됨.
# df_cp.info()      datetime형 index는 'DatetimeIndex'로 표기됨.

print(f"\n\n< 해결 방법 03. 만일 문자열이지만 '-' 같은 기호가 없는 경우, .to_datetime의 format 옵션 사용하기. >")
df_format = df.copy()
df_format.index = df_format.index.strftime("%Y%m%d")
df_format.index = pd.to_datetime(df_format.index, format="%Y%m%d", errors="coerce")     # pd.to_datetime method를 사용해 format을 지정한 채로 DatetimeIndex로 변환함. 이후 연월요일 과정은 동일해서 작성 생략.


# (번외) object != str임.
# object type은 문자, 숫자, 혼합형, 자료형 등의 다양한 데이터 타입을 포함 가능한 타입.
# Pandas에서는 'Python 객체의 배열을 나타내는 Pandas의 기본 타입'이라고 정의함.
# GPT 말로는 거의 모든 객체를 '저장'은 가능하다고 함. 대신, 저장 후 '그룹 키, 중복 제거, 인덱스'로는 사용 못하는 값들은 존재한다고 함.
# 저장이 불가능한 타입은 사실상 없다라고 봄.
# astype()으로 문자열을 사용할 때는 "string" 이라고 ""까지 포함해 괄호 안에 적기.

< 해결 방법 01. DatetimeIndex이면, 바로 거기에 속한 method 사용하기. >
                 Close        High         Low        Open     Volume  Daily_Change  Change_Rate  Year  Month    Weekday
Date                                                                                                                    
2025-01-13  133.193573  133.453512  129.474589  129.954469  204808900      3.239104         2.49  2025      1     Monday
2025-01-14  131.723953  136.342700  130.014430  136.012788  195590500     -4.288835        -3.15  2025      1    Tuesday
2025-01-15  136.202759  136.412693  131.254100  133.613455  185217300      2.589304         1.94  2025      1  Wednesday
2025-01-16  133.533478  138.712054  133.453498  138.602083  209235600     -5.068605        -3.66  2025      1   Thursday
2025-01-17  137.672348  138.462125  135.422963  136.652623  201188800      1.019725         0.75  2025      1     Friday
2025-01-21  140.791489  141.791215  137.052506  139.121947  197749000      1.669541         1.20  2

In [None]:
# 문제 15. 월별로 그룹화를 해서 평균 종가와 총 거래량 구하기.
# 이건 GPT의 답안. 왜냐면, 나는 새 컬럼으로 값이 추가되는 방식을 원했기 때문.
df['Close_mean'] = df.groupby('Month')['Close'].transform('mean').round(0)
df['Volume_total'] = df.groupby('Month')['Volume'].transform('sum').round(0)

# 교재의 답안
monthly_stats = df.groupby('Month').agg({
    'Close': 'mean',
    'Volume': 'sum'
}).round(0)
print(monthly_stats)

# 교재 답안이 더 깔끔하긴 하네.
# 어차피 원본 DF는 훼손 안 됐으니까 괜찮고.

# agg vs transform
# agg는 그룹을 요약(축약)해서 그룹당 1행 또는 더 적은 행으로 만듦.
# 그룹 별로 단일 값(스칼라)을 만들면 보통 그룹 수 만큼의 행이 생김.
# 실무에서는 요약 테이블을 만들 때 보통 사용.
# 월별 평균 종가, 월별 총 거래량 같이 그룹 당 1행 짜리 리포트가 목적일 때 유용.
# dashboard용 summary 테이블, pivot 결과, 월별 KPI 테이블 등

# transform은 그룹 별 계산 결과를 원본 행 길이로 되돌려 원본 DataFrame에 붙일 수 있게 만듦.
# 원본 DF와 같은 인덱스 결과를 만듦.
# 그룹의 입력과 동일한 shape 또는 스칼라를 반환하면, 그 스칼라가 그룹 크기만큼 braodcasting 됨.
# 실무에서는 파생 변수를 만들거나 원본 행을 유지한 채 feature를 추가하는 ML 및 분석의 전처리에서 유용하게 사용함.

       Close      Volume
Month                   
1      153.0  5589254030
2      130.0  4755230400
3      115.0  6177950300
4      105.0  6811006400
5      127.0  4756803800
6      146.0  3821296800
7      168.0  3596804400
8      179.0  3608891200
9      176.0  3890495300
10     188.0  4031017400
11     188.0  4160148300
12     182.0  3629693700


In [None]:
# 문제 16. 연도별로 그룹화하여 최고가 및 최저가 구하기.
year_highest = df.groupby('Year').agg({
    'High': 'max',
    'Low': 'min'
}).round(0)

print(year_highest)

# 문제 15의 풀이를 이용하여 구해봤음.
# 연도별로 요약해서 최고가 및 최저가를 나타내면 되기에.

       High    Low
Year              
2025  212.0   87.0
2026  194.0  183.0


In [None]:
# 문제 17. 연속해서 상승한 날이 제일 많은 기간과 일수를 구하기.
# 교재 답안
df['Price_Up'] = (df['Close'] > df['Open']).astype(int)
df['Consecutive_Up'] = df['Price_Up'].groupby((df['Price_Up'] != df['Price_Up'].shift()).cumsum()).cumsum()
max_consecutive = df['Consecutive_Up'].max()

print(f"최대 연속 상승일: {max_consecutive}일")

# 1. 원래는 > 여서 True, False인데 이것을 int로 형변환을 함. 상승이면 1, 상승이 아니면 0.
# 2. 'df['Price_Up'].shift()를 사용해 Series를 한 칸 아래로 밀어 직전 행의 값을 가져옴.
# 3. shift를 한 직전 행과 shift를 안 한 현재의 'Price_Up' 컬럼의 값이 같은지를 비교. 다르면 True, 같으면 False.
# 4. True면 1이라서 가장 안 쪽의 cumsum이 동작해 값이 상승. 즉, 값이 다르면 누적합이 +1이 되기 때문에, 결과적으로 값이 바뀔 때 마다 그룹 번호가 증가함.
# 5. 예를 들어 'Price_Up'=[0, 0, 1, 1, 1, 0, 1, 1]이면 !=로 [T, F, T, F, F, T, T, F]가 되고, cumsum은 [1, 1, 2, 2, 2, 3, 4, 4]로 됨.
# 6. 즉, 누적합이 동일한 것 끼리 제일 오래 연속된 것을 찾으면 됨.
# 7. groupby는 cumsum이 만든 동일한 값들을 기준으로 Series를 묶음.
# 8. 제일 바깥의 .cumsum()은 각 그룹 내에서 'Price_Up'의 값이 1인 것들의 누적합을 구함.
# 9. 그 Series 안에서 max 값을 찾음. 최댓값이 최장 연속 상승일 수가 됨.

최대 연속 상승일: 10일


In [29]:
# 문제 17의 교재 답안도 좋지만, 뭔가 그냥 실무용으로 교재의 코드를 써도 될 지 GPT 한테 물어봄.
# 그래서 아래의 코드를 제시해 줌.
# 이것은 '여러 데이터 소스/컬럼명 변형/날짜 컬럼 유무 섞임' 등의 여러 가정이 있을 때 쓰는 범용 코드.
def longest_consecutive_up(
        df: pd.DataFrame,
        open_col: str = 'Open',
        close_col: str = 'Close',
        date_col: str | None = None,        # Date 컬럼이 있으면 지정함.
        strict: bool = True,                # True면 'Close > Open', False면 'Close >= Open'
        return_streak_series: bool = False,
):
    """
    최장 연속 상승(종가 vs 시가) 구간을 찾음.
    open_col과 close_col은 시가와 종가 각각의 컬럼명을 의미.
    date_col은 날짜 컬럼이 있으면 정렬하기 위해 지정을 하고, None이면 index 기준으로 진행함.
    strict는 True이면 'Close > Open'을 상승, False면 'Close >= Open'을 상승으로 취급함.
    return_streak_series는 True이면 각 행의 연속상승일차 Series도 같이 반환함.
    
    반환값은
    result : dict{
        'max_streak': int,
        'start_key': index_or_date,
        'end_key': index_or_date,
        'slice': pd.DataFrame
        }에 옵션으로 'streak_series'
        """
    if open_col not in df.columns or close_col not in df.columns:
        raise KeyError(f"필수 컬럼이 누락됨: {open_col=}, {close_col=}")
    
    work = df.copy()

    # 01. 정렬(연속을 정의하기.)
    if date_col is not None:
        if date_col not in work.columns:
            raise KeyError(f"date_col='{date_col}' 컬럼이 데이터프레임에 없습니다.")
        work = work.sort_values(date_col, kind="mergesort")         # 안정 정렬 옵션을 사용하기.
        key_series = work[date_col]
    else:
        # index가 시간 순이라고 가정. 불안하면 sort_index()의 주석을 해제해 정렬하면 됨.
        # work = work.sort_index()
        key_series = pd.Series(work.index, index=work.index)
    
    # 02. 상승일 정의 (0, 1)
    if strict:
        up = (work[close_col] > work[open_col])
    else:
        up = (work[close_col] >= work[open_col])
    
    # 결측치가 섞이면 비교 결과가 False가 될 수도 있어서, 정책적으로 NaN은 상승이 아닌 것(= 0)으로 처리하기.
    up = up.fillna(False).astype('int8')

    # 03. 연속 구간 id
    run_id = up.ne(up.shift()).cumsum()

    # 04. 연속상승일차(상승 구간은 1..n, 비상승 구간은 0)
    streak = up.groupby(run_id).cumsum()

    max_streak = int(streak.max())
    if max_streak == 0:
        result = {
            "max_streak": 0,
            "start_key": None,
            "end_key": None,
            "slice": work.iloc[0:0],        # 이것은 빈 DataFrame을 의미.
        }
        if return_streak_series:
            result["streak_series"] = streak
            
        return result
    # 05. 최장 구간의 끝 지점 (동률이라면, 첫번째 최대 위치가 해당.)
    end_pos = streak.to_numpy().argmax()            # 가장 먼저 등장한 max 값의 위치를 반환.
    start_pos = end_pos - max_streak + 1

    slice_df = work.iloc[start_pos:end_pos + 1]

    result = {
        "max_streak": max_streak,
        "start_key": key_series.iloc[start_pos],
        "end_key": key_series.iloc[end_pos],
        "slice": slice_df
    }
    if return_streak_series:
        result["streak_series"] = streak
    
    return result

longest_consecutive_up(df, 'Open', 'Close', None, True, True)

# 이 함수가 실무형인 이유
# 01. 정렬을 강제하거나 선택할 수 있음. 이는 연속성 정의를 보장함. (실무에서 제일 흔한 함정을 해결하는 용도)
# 02. 'Close > Open'과 'Close >= Open'정책을 옵션으로 명시함.
# 03. 결측치(NaN)을 어떻게 처리할지를 코드에 명시. (위에서는 상승이 아닌 경우)
# 04. 최대 연속 상승한 일 수 뿐만 아니라 시작과 끝의 기간도 같이 제공함.
# 05. 원본 DF에 'Price_Up', 'Consecutive_Up' 등의 컬럼을 지저분하게 연결하지 않음. (파이프라인 오염 방지용)
# shift()로 이전 행을 비교
# cumsum()으로 누적합을 구해 'run id' 및 streak을 계산.
# groupby()로 'run id'를 기준으로 split하고 apply 한 후 combine 함.

{'max_streak': 10,
 'start_key': Timestamp('2025-02-03 00:00:00'),
 'end_key': Timestamp('2025-02-14 00:00:00'),
 'slice':                  Close        High         Low        Open     Volume  Daily_Change  Change_Rate  Year  Month    Weekday  Close_mean  Volume_total  Price_Up  Consecutive_Up
 Date                                                                                                                                                                        
 2025-02-03  116.628105  118.537579  112.979102  114.718624  371235700      1.909481         1.66  2025      2     Monday       130.0    4755230400         1               1
 2025-02-04  118.617554  121.166852  116.668082  116.928013  256550000      1.689540         1.44  2025      2    Tuesday       130.0    4755230400         1               2
 2025-02-05  124.795868  124.965820  120.726981  121.726708  262230800      3.069160         2.52  2025      2  Wednesday       130.0    4755230400         1               3
 2025-02

In [31]:
# 문제 17.
# 범용 함수가 아닌 이 교재에서 사용하는 DF 전용으로 더 간단한 코드.
df_up = df.copy()

# 실무에서는 날짜순으로 정렬을 보장해야 함. (연속은 정렬에 의존하기 때문.)
df_up = df.sort_index()

# 01. 상승일 플래그 (True/False)
up = df['Close'].gt(df["Open"]).fillna(False)       # '.gt'는 > 와 동일함.

# 02. 값이 바뀌는 지점마다 run id가 증가함. (연속구간 id 지정)
run_id = up.ne(up.shift()).cumsum()

# 03. 연속 상승일차 (상승구간은 1..n, 비상승구간은 0)
streak = up.astype("int8").groupby(run_id).cumsum()

max_streak = int(streak.max())

if max_streak == 0:
    print("최대 연속 상승일이 0일 입니다. (해당 기간에 상승일이 존재하지 않습니다.)")
else:
    # 최장 streak의 끝의 날짜. (동률이면 가장 먼저 나온 최댓값을 사용)
    end_date = streak.idxmax()
    end_loc = df.index.get_loc(end_date)

    start_date = df.index[end_loc - max_streak + 1]

    print(f"최대 연속 상승일: {max_streak}일")
    print(f"기간: {start_date.date()} ~ {end_date.date()}")

    # (옵션) 해당 구간의 데이터를 확인하기.
    streak_df = df.loc[start_date:end_date, ['Open', 'Close', 'High', 'Low', 'Volume']]
    display(streak_df)

최대 연속 상승일: 10일
기간: 2025-02-03 ~ 2025-02-14


Unnamed: 0_level_0,Open,Close,High,Low,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2025-02-03,114.718624,116.628105,118.537579,112.979102,371235700
2025-02-04,116.928013,118.617554,121.166852,116.668082,256550000
2025-02-05,121.726708,124.795868,124.96582,120.726981,262230800
2025-02-06,127.385171,128.644821,128.734808,125.175776,251483600
2025-02-07,129.184664,129.804489,130.334343,124.965816,228186300
2025-02-10,130.054419,133.533478,134.963079,129.924464,216989100
2025-02-11,132.543761,132.763702,134.443236,130.98419,178902400
2025-02-12,129.984452,131.104141,132.203847,129.044707,160278600
2025-02-13,131.524015,135.252991,136.462666,131.134122,197430000
2025-02-14,136.442665,138.812027,139.211911,135.462937,195479600


In [33]:
# 문제 17. 또 다른 응용 버전.
# 포맷이 확정된 상태에서 쓸 수 있는 전용 함수 코드.
def longest_up_streak_yf(df):
    df = df.sort_index()

    up = df["Close"].gt(df["Open"]).fillna(False)
    run_id = up.ne(up.shift()).cumsum()
    streak = up.astype("int8").groupby(run_id).cumsum()

    max_streak = int(streak.max())
    if max_streak == 0:
        return 0, None, None
    
    end_date = streak.idxmax()
    end_loc = df.index.get_loc(end_date)
    start_date = df.index[end_loc - max_streak + 1]

    return max_streak, start_date, end_date

longest_up_streak_yf(df)

(10, Timestamp('2025-02-03 00:00:00'), Timestamp('2025-02-14 00:00:00'))