# WTI 유가 분석 프로젝트

본 프로젝트는 WTI 기준 유가 데이터를 분석하여 단기적인 가격 예측보다는 유가 변동의 구조와 원인을 파악하는 데 목적을 둔다.    
이를 통해 유가 변동에 따른 리스크를 사전에 인지하고 기업의 합리적인 의사결정을 지원할 수 있는 지표를 도출하고자 한다.    

각 데이터셋의 제공 시점 차이로 인한 불일치를 방지하기 위해 모든 변수들이 동시에 관측 가능한 기간인      
2016년 1월 1일부터 2025년 12월 12일까지의 데이터만을 분석에 사용하였다.

---

또는 본 분석의 목표는 WTI 원유 가격을 대상으로 환율·금리·재고·글로벌 시장 지표 및 주요 이벤트 정보를 결합하여    
단순 가격 예측이 아닌 ‘가격 변동 리스크가 확대되는 시점’을 사전에 탐지하는 것이다.

*둘중에 하나 선택해서 사용하기*

In [1]:
# 라이브러리
import pandas as pd
import numpy as np

# 데이터 만들기

## Data Source – WTI Crude Oil Price 
- Source: U.S. Energy Information Administration (EIA - https://www.eia.gov/)
- Indicator: Cushing, OK WTI Spot Price FOB
- Unit: USD per Barrel
- Frequency: Daily
- Period: 1986-01-02 ~

WTI는 미국 Cushing 지역을 기준으로 형성되는 가격으로 원유 수급과 금융 환경 변화에 대한 반응성이 높아 유가 변동 구조를 분석하는 데 적합하다.     
본 분석에서는 World Bank Commodity Price Data(Pink Sheet)를 통해 제공되는 EIA 기반 WTI 현물 가격 데이터를 활용하였으며,     
장기간에 걸쳐 일관된 기준으로 제공되는 시계열 데이터를 확보할 수 있다는 점에서 분석의 신뢰성과 재현성을 확보하고자 하였다.



In [2]:
# WTI 가격 테이블 가져오기
wti_raw = pd.read_csv('./data/cushing_wti.csv')

In [3]:
wti_raw.head(3)

Unnamed: 0,Date,"Cushing, OK WTI Spot Price FOB (Dollars per Barrel)",Europe Brent Spot Price FOB (Dollars per Barrel)
0,1986-01-02,25.56,
1,1986-01-03,26.0,
2,1986-01-06,26.53,


In [4]:
# 컬럼명 수정하기
wti_raw = (
    wti_raw.rename(
        columns = {'Cushing, OK WTI Spot Price FOB (Dollars per Barrel)' : 'WtiPrice'})
)

In [5]:
# 변경된 내용 확인하기
wti_raw.head(3)

Unnamed: 0,Date,WtiPrice,Europe Brent Spot Price FOB (Dollars per Barrel)
0,1986-01-02,25.56,
1,1986-01-03,26.0,
2,1986-01-06,26.53,


In [6]:
# 결측치 및 타입 확인하기
wti_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10233 entries, 0 to 10232
Data columns (total 3 columns):
 #   Column                                            Non-Null Count  Dtype  
---  ------                                            --------------  -----  
 0   Date                                              10233 non-null  object 
 1   WtiPrice                                          10060 non-null  float64
 2   Europe Brent Spot Price FOB (Dollars per Barrel)  9791 non-null   float64
dtypes: float64(2), object(1)
memory usage: 240.0+ KB


In [7]:
# Date 타입 datetime으로 변환하기
wti_raw['Date'] = pd.to_datetime(wti_raw['Date'])

분석에 사용되는 기간은 모든 설명 변수와 WTI 가격 데이터가 동시에 존재하는 공통 구간으로 한정하기 위해 2016년 1월 1일부터 2025년 12월 12일까지로 설정하였다.

In [8]:
# 데이터 사용범위 지정
wti_raw = wti_raw[
    wti_raw["Date"].between("2016-01-04", "2025-12-12")].reset_index(drop=True)

### 주간데이터로 변환하기

WTI 가격 데이터에는 일부 날짜에 결측치가 존재하는데 이는 데이터 수집 오류가 아니라      
미국 시장 휴장일 등으로 인해 해당 날짜에 공식 현물 가격이 산출되지 않은 경우에 해당한다.

본 프로젝트에서는 일별 단위의 단기 변동 분석이 아닌 주간 단위의 구조적 변동 분석을 목적으로 하므로    
일별 결측치는 주간 단위로 재샘플링하는 과정에서 의미적으로 자연스럽게 처리하였다.

뒤에 나오는 미국 원유 재고 지표가 금요일을 기준으로 주간 데이터로 집계되고 있어 resample을 'W-FRI'으로 지정하여 사용하겠습니다.

In [9]:
# 주간 데이터 변환
wti_weekly = (
    wti_raw
    [["Date", "WtiPrice"]] 
    .set_index("Date")
    .resample("W-FRI")
    .mean()
    .reset_index()
)

In [10]:
# 변환 데이터 확인
wti_weekly.head(3)

Unnamed: 0,Date,WtiPrice
0,2016-01-08,34.648
1,2016-01-15,30.586
2,2016-01-22,29.1925


In [11]:
# 변환 데이터 정보 확인
wti_weekly.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      519 non-null    datetime64[ns]
 1   WtiPrice  519 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 8.2 KB


## Data Source – DTWEXBGS (U.S. Dollar Index)

- Source: Federal Reserve Economic Data (FRED - https://fred.stlouisfed.org/)
- Indicator: Trade Weighted U.S. Dollar Index (Broad, Goods and Services)
- Frequency: Daily
- Period: 2016-01-01 ~

달러화의 전반적인 강세·약세를 나타내는 지표로 미국 연준에서 제공하는 무역가중 달러 지수(DTWEXBGS)를 사용하였다.  
해당 지표는 주요 교역국 통화 대비 달러 가치를 무역 비중으로 가중평균한 지수로 달러 표시 자산인 원유 가격과의 관계를 분석하는 데 적합하다고 판단하였다.    
일 단위로 제공되는 원본 데이터는 분석 목적에 맞게 주간 단위로 재구성하여 활용하였다.

In [12]:
# 데이터 불러오기
usd_raw = pd.read_csv('./data/DTWEXBGS.csv')

In [13]:
# 데이터 확인
usd_raw.head(3)

Unnamed: 0,observation_date,DTWEXBGS
0,2016-01-04,114.1595
1,2016-01-05,114.2649
2,2016-01-06,114.6177


In [14]:
# 결측치 및 타입 확인하기
usd_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2600 entries, 0 to 2599
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   observation_date  2600 non-null   object 
 1   DTWEXBGS          2485 non-null   float64
dtypes: float64(1), object(1)
memory usage: 40.8+ KB


In [15]:
# 컬럼명 수정하기
usd_raw = (
    usd_raw.rename(
        columns = {'observation_date' : 'Date', 'DTWEXBGS' : 'UsdIndex'}
    )
)

In [16]:
# 날짜를 datetime으로 타입 수정하기
usd_raw['Date'] = pd.to_datetime(usd_raw['Date'])

In [17]:
# 데이터 사용범위 지정
usd_raw = usd_raw[
    usd_raw["Date"].between("2016-01-04", "2025-12-12")].reset_index(drop=True)

In [18]:
# 주간 데이터로 변환
usd_weekly = (
    usd_raw
    .set_index('Date')
    .resample('W-FRI')
    .mean()
    .reset_index()
)

In [19]:
# 변환 데이터 확인
usd_weekly.head(3)

Unnamed: 0,Date,UsdIndex
0,2016-01-08,114.54064
1,2016-01-15,115.31884
2,2016-01-22,116.049533


In [20]:
# 변환 데이터 정보 확인
usd_weekly.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      519 non-null    datetime64[ns]
 1   UsdIndex  519 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 8.2 KB


## Data Source – DGS10 (U.S. 10-Year Treasury Yield)

- Source: Federal Reserve Economic Data (FRED - https://fred.stlouisfed.org/)
- Indicator: 10-Year Treasury Constant Maturity Rate
- Unit: Percent (%)
- Frequency: Daily
- Period: 2016-01-01 ~

미국 10년 만기 국채 수익률로 글로벌 금융시장의 대표적인 장기 금리 지표이다.    
금리 수준 변화는 자금 조달 비용과 위험자산 선호도에 영향을 미치며 원유를 포함한 원자재 가격 변동에 중요한 거시적 요인으로 작용한다.

In [21]:
# 데이터 불러오기
DGS_raw = pd.read_csv('./data/DGS10.csv')

In [22]:
# 데이터 확인
DGS_raw.head(3)

Unnamed: 0,observation_date,DGS10
0,2016-01-04,2.24
1,2016-01-05,2.25
2,2016-01-06,2.18


In [23]:
# 컬럼명 수정
DGS_raw = (
    DGS_raw.rename (
        columns = {'observation_date' : 'Date', 'DGS10' : 'US_10yRate'}
    )
)

In [24]:
# 날짜를 datetime으로 타입 수정하기
DGS_raw['Date'] = pd.to_datetime(DGS_raw['Date'])

In [25]:
# 데이터 사용범위 지정
DGS_raw = DGS_raw[
    DGS_raw["Date"].between("2016-01-04", "2025-12-12")].reset_index(drop=True)

In [26]:
# 주간 데이터로 변환
DGS_weekly = (
    DGS_raw
    .set_index('Date')
    .resample('W-FRI')
    .mean()
    .reset_index()
)

In [27]:
# 변환 데이터 확인
DGS_weekly.head(3)

Unnamed: 0,Date,US_10yRate
0,2016-01-08,2.192
1,2016-01-15,2.1
2,2016-01-22,2.04


In [28]:
# 변환 데이터 정보 확인
DGS_weekly.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Date        519 non-null    datetime64[ns]
 1   US_10yRate  519 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 8.2 KB


## Data Source – WCRSTUS1w (U.S. Crude Oil Inventories)

- Source: U.S. Energy Information Administration (EIA - https://www.eia.gov/)
- Indicator: Weekly U.S. Ending Stocks of Crude Oil
- Unit: Thousand Barrels
- Frequency: Weekly
- Period: 2016-01-01
  
본 프로젝트에서는 미국 원유 재고 데이터를 원유 수급 상황을 대표하는 핵심 지표로 활용하였다.  
원유 재고는 생산과 소비의 불균형이 누적된 결과를 반영하며 단기적인 수급 압력과 유가 변동의 방향성을 설명하는 데 중요한 역할을 한다.  
특히 EIA에서 발표하는 주간 원유 재고는 시장에서 가장 널리 참조되는 공식 통계로 WTI 가격 변동과의 관계를 분석하기에 적합한 지표라고 판단하였다.  

해당 데이터는 이미 주간 단위로 제공되므로 다른 설명 변수들과 동일한 주간 기준을 유지한 채 분석에 활용하였다.

In [29]:
# 데이터 불러오기
crude_raw = pd.read_csv('./data/WCRSTUS1w_1.csv')

In [30]:
# 데이터 확인
crude_raw.head(3)

Unnamed: 0,Date,Weekly U.S. Ending Stocks of Crude Oil (Thousand Barrels)
0,1982-08-20,609219
1,1982-08-27,608741
2,1982-09-24,612419


In [31]:
crude_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2255 entries, 0 to 2254
Data columns (total 2 columns):
 #   Column                                                      Non-Null Count  Dtype 
---  ------                                                      --------------  ----- 
 0   Date                                                        2255 non-null   object
 1   Weekly U.S. Ending Stocks of Crude Oil  (Thousand Barrels)  2255 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 35.4+ KB


In [32]:
# 컬럼명 수정하기
crude_raw = (
    crude_raw.rename(
        columns = {'Weekly U.S. Ending Stocks of Crude Oil  (Thousand Barrels)' : 'CrudeInventory'}
    )
)

In [33]:
# 날짜를 datetime으로 타입 수정하기
crude_raw['Date'] = pd.to_datetime(crude_raw['Date'])

In [34]:
# 데이터 사용범위 지정
crude_raw = crude_raw[
    crude_raw["Date"].between("2016-01-04", "2025-12-12")].reset_index(drop=True)

In [35]:
# 변환 데이터 확인
crude_raw.head(3)

Unnamed: 0,Date,CrudeInventory
0,2016-01-08,1146309
1,2016-01-15,1150287
2,2016-01-22,1158670


In [36]:
# 변환 데이터 정보 확인
crude_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 2 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Date            519 non-null    datetime64[ns]
 1   CrudeInventory  519 non-null    int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 8.2 KB


## Data Source – S&P 500 Index (FRED)

- Source: Federal Reserve Economic Data (FRED - https://fred.stlouisfed.org/)
- Indicator: S&P 500 Index
- Frequency: Daily
- Period: 2016-01-01 ~

본 프로젝트에서는 글로벌 금융시장의 전반적인 위험자산 선호도를 반영하는 지표로 S&P 500 지수를 활용하였다.  
S&P 500 지수는 미국 주식시장을 대표하는 주요 주가지수로 투자자들의 경기 기대와 위험 선호 심리를 종합적으로 반영하는 지표로 널리 사용된다. 

In [37]:
# 데이터 불러오기
snp_raw = pd.read_csv('./data/SP500.csv')

In [38]:
# 데이터 확인
snp_raw.head(3)

Unnamed: 0,observation_date,SP500
0,2016-01-04,2012.66
1,2016-01-05,2016.71
2,2016-01-06,1990.26


In [39]:
# 데이터 정보 확인
snp_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2601 entries, 0 to 2600
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   observation_date  2601 non-null   object 
 1   SP500             2508 non-null   float64
dtypes: float64(1), object(1)
memory usage: 40.8+ KB


In [40]:
# 컬럼명 수정하기
snp_raw = (
    snp_raw.rename(
        columns = {'observation_date' : 'Date', 'SP500' : 'Sp500Index'}
    )
)

In [41]:
# 날짜를 datetime으로 타입 수정하기
snp_raw['Date'] = pd.to_datetime(snp_raw['Date'])

In [42]:
# 데이터 사용범위 지정
snp_raw = snp_raw[
    snp_raw["Date"].between("2016-01-04", "2025-12-12")].reset_index(drop=True)

In [43]:
# 주간 데이터로 변환
snp_weekly = (
    snp_raw
    .set_index('Date')
    .resample('W-FRI')
    .mean()
    .reset_index()
)

In [44]:
# 변환 데이터 확인
snp_weekly.head(3)

Unnamed: 0,Date,Sp500Index
0,2016-01-08,1976.95
1,2016-01-15,1910.96
2,2016-01-22,1879.1375


In [45]:
# 변환 데이터 정보 확인
snp_weekly.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Date        519 non-null    datetime64[ns]
 1   Sp500Index  519 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 8.2 KB


## OPEC 회의 데이터

- Source : OPEC (https://www.opec.org/)
 
OPEC 회의 일정은 OPEC 공식 홈페이지에서 일정을 확인하여 직접 수기로 정리하였다.     
회의의 내용을 기반으로 감산, 증산, 유지 등에대해서 +1, -1, 0 으로 표기하였으며 188회 총회부터는     
공식홈페이지에서 정보가 기존의 형식으로 제공되지않아 OPEC에서 전반적으로 발표하는 내용과 기사를 참고하여 작성되었다.

In [46]:
# 데이터 가져오기
opec_raw = pd.read_csv('./data/OPEC_Meeting.csv', encoding='cp949')

In [47]:
# 데이터 확인
opec_raw.head(3)

Unnamed: 0,Date,OPEC_MeetingOrdinal,PolicyDirection
0,2025-11-30,제191차 OPEC 총회 개최,0
1,2025-05-31,제190차 OPEC 총회 개최,-1
2,2024-12-10,제189차 OPEC 총회 개회,0


In [48]:
# 데이터 정보 확인
opec_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Date                 23 non-null     object
 1   OPEC_MeetingOrdinal  23 non-null     object
 2   PolicyDirection      23 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 684.0+ bytes


In [49]:
# 날짜를 datetime으로 타입 수정하기
opec_raw['Date'] = pd.to_datetime(opec_raw['Date'])

#### 일자 데이터와 merge → 주간 데이터로 변경하기

In [50]:
# 마스터 테이블 생성하기
date_master = pd.DataFrame({
    'Date': pd.date_range(start='2016-01-04', 
                          end='2025-12-12', 
                          freq='D')
})

In [51]:
# 컬럼 정리하기
opec_event = (
    opec_raw
    .rename(columns={'PolicyDirection': 'OPEC_ProdDirection'})
    .assign(OpecEventDummy=1)
        [['Date', 'OpecEventDummy', 'OPEC_ProdDirection']]
)

In [52]:
# 정리한 컬럼 확인
opec_event.head(3)

Unnamed: 0,Date,OpecEventDummy,OPEC_ProdDirection
0,2025-11-30,1,0
1,2025-05-31,1,-1
2,2024-12-10,1,0


In [55]:
# 일 단위 기준으로 merge하기
event_daily = (
    date_master
    .merge(opec_event, on='Date', how='left')
    .assign(OpecEventDummy=lambda df: df['OpecEventDummy'].fillna(0).astype(int))
)

In [56]:
event_daily

Unnamed: 0,Date,OpecEventDummy,OPEC_ProdDirection
0,2016-01-04,0,
1,2016-01-05,0,
2,2016-01-06,0,
3,2016-01-07,0,
4,2016-01-08,0,
...,...,...,...
3626,2025-12-08,0,
3627,2025-12-09,0,
3628,2025-12-10,0,
3629,2025-12-11,0,


In [60]:
# 주간 데이터로 변경하기

opec_weekly = (
    event_daily
    .set_index('Date')
    .resample('W-FRI')
    .agg({
        'OpecEventDummy': 'max',
        'OPEC_ProdDirection': 'first'
    })
    .reset_index()
)

In [61]:
opec_weekly.head(3)

Unnamed: 0,Date,OpecEventDummy,OPEC_ProdDirection
0,2016-01-08,0,
1,2016-01-15,0,
2,2016-01-22,0,


In [62]:
opec_weekly.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Date                519 non-null    datetime64[ns]
 1   OpecEventDummy      519 non-null    int64         
 2   OPEC_ProdDirection  23 non-null     float64       
dtypes: datetime64[ns](1), float64(1), int64(1)
memory usage: 12.3 KB


# 최종 데이터 셋 만들기

In [63]:
# 나눠져 있는 데이터 셋 merge
final_weekly = (
    wti_weekly
    .merge(usd_weekly, on="Date", how="left")
    .merge(DGS_weekly, on="Date", how="left")
    .merge(crude_raw, on="Date", how="left")
    .merge(snp_weekly, on="Date", how="left")
    .merge(opec_weekly, on="Date", how="left")
)

In [64]:
final_weekly

Unnamed: 0,Date,WtiPrice,UsdIndex,US_10yRate,CrudeInventory,Sp500Index,OpecEventDummy,OPEC_ProdDirection
0,2016-01-08,34.6480,114.540640,2.1920,1146309,1976.9500,0,
1,2016-01-15,30.5860,115.318840,2.1000,1150287,1910.9600,0,
2,2016-01-22,29.1925,116.049533,2.0400,1158670,1879.1375,0,
3,2016-01-29,31.8080,115.434733,2.0000,1166461,1899.4520,0,
4,2016-02-05,31.2600,114.679040,1.8900,1165792,1910.0880,0,
...,...,...,...,...,...,...,...,...
514,2025-11-14,60.1625,121.419425,4.1150,835081,6800.3120,0,
515,2025-11-21,60.2740,121.862060,4.1080,838353,6614.7280,0,
516,2025-11-28,58.6875,121.834750,4.0175,839177,6783.1750,0,
517,2025-12-05,59.4840,121.222480,4.0980,837613,6843.8480,1,0.0


In [65]:
final_weekly.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Date                519 non-null    datetime64[ns]
 1   WtiPrice            519 non-null    float64       
 2   UsdIndex            519 non-null    float64       
 3   US_10yRate          519 non-null    float64       
 4   CrudeInventory      519 non-null    int64         
 5   Sp500Index          519 non-null    float64       
 6   OpecEventDummy      519 non-null    int64         
 7   OPEC_ProdDirection  23 non-null     float64       
dtypes: datetime64[ns](1), float64(5), int64(2)
memory usage: 32.6 KB


In [66]:
# 파일 저장하기
final_weekly.to_csv("./data/final_weekly.csv",
                    index=False,
                    encoding="utf-8")