# EDA (Análisis exploratorio de datos)

Con el fin de realizar un estudio de series de tiempo del comportamiento del mercado de futuros de combustibles, se requiere llevar a cabo el análisis exploratorio de datos (EDA). Antes de profundizar mediante el uso de modelos o métodos más sofisticados, primero es vital examinar y comprender la estructura, patrones y características de los datos. Este proceso incluye calcular estadísticas descriptivas, visualizar los datos y buscar tendencias o anomalías potenciales. Es esencial elegir el modelo adecuado, hacer predicciones precisas e identificar valores extremos o atípicos que puedan afectar el análisis y afectar la validez de los resultados. 

En este sentido, comenzaremos importando la base de datos completa y observaremos la información que tenemos disponible. 

## Preparación de los datos

In [251]:
# Step 1: Data Preparation
import pandas as pd

data = pd.read_csv('C:/Users/Johal/Documents/Uninorte/SeriesdeTiempo/MachineLearning/DataTarea1/individual_data/all_fuels_data.csv')
data['Date'] = pd.to_datetime(data['date'])
data.set_index('Date', inplace=True)

data.head()

Unnamed: 0_level_0,ticker,commodity,date,open,high,low,close,volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2000-08-23,CL=F,Crude Oil,2000-08-23,31.950001,32.799999,31.950001,32.049999,79385
2000-08-24,CL=F,Crude Oil,2000-08-24,31.9,32.240002,31.4,31.629999,72978
2000-08-25,CL=F,Crude Oil,2000-08-25,31.700001,32.099998,31.32,32.049999,44601
2000-08-28,CL=F,Crude Oil,2000-08-28,32.040001,32.919998,31.860001,32.869999,46770
2000-08-29,CL=F,Crude Oil,2000-08-29,32.82,33.029999,32.560001,32.720001,49131


Luego de importar y observas los datos se procede a identificar la estructura del conjunto de datos, sus variables y el tipo de información a la cual hace referencia:

In [252]:
print(f"The 'data' dataset contains {data.shape[0]} rows and {data.shape[1]} columns.")

data.info()

The 'data' dataset contains 28075 rows and 8 columns.
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 28075 entries, 2000-08-23 to 2024-06-24
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   ticker     28075 non-null  object 
 1   commodity  28075 non-null  object 
 2   date       28075 non-null  object 
 3   open       28075 non-null  float64
 4   high       28075 non-null  float64
 5   low        28075 non-null  float64
 6   close      28075 non-null  float64
 7   volume     28075 non-null  int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 1.9+ MB


## Resumen estadístico

Adicionalmente, se realiza un resumen estadístico que nos brinde las primeras pistas sobre la distribución que siguen los datos:

In [253]:
data.describe()

Unnamed: 0,open,high,low,close,volume
count,28075.0,28075.0,28075.0,28075.0,28075.0
mean,27.288994,27.68058,26.873389,27.287224,105992.6
std,36.085625,36.540236,35.599243,36.089001,148440.0
min,-14.0,0.507,-40.32,-37.630001,0.0
25%,2.031,2.06055,1.9982,2.03125,26411.0
50%,3.374,3.45,3.301,3.3759,49033.0
75%,54.895,55.745001,53.91,54.9,114724.5
max,146.080002,147.429993,144.270004,146.080002,2288230.0


## Visualización preliminar de los datos

Y luego, mediante el uso de gráficos pasaremos a la visualización preliminar de los datos:

1. Recuento de datos para cada producto

In [254]:
import plotly.express as px

# Suponiendo que 'data' es tu DataFrame original
# Aquí ajustamos el código para usar los nombres de columnas correctos
df_counts = data['commodity'].value_counts().reset_index()
df_counts.columns = ['commodity', 'count']  # Renombramos las columnas

fig = px.bar(df_counts, 
             x='commodity', 
             y='count', 
             labels={'commodity': 'Commodity', 'count': 'Count'}, 
             title='Data Distribution per Commodity')

fig.show()

2. Tendencia de los precios de cierre

En la búsqueda de un modelo predictivo del comportamiento del precio de cierre de algunos commodities, nos enfocaremos en el estudio y análisis del precio de cierre del *gas natural*.

In [255]:
commodity_sample = data[data['commodity'] == 'Natural Gas']

fig = px.line(commodity_sample, 
              x='date', 
              y='close', 
              title='Closing Price Trend for Natural Gas',
              labels={'date': 'Date', 'close': 'Closing Price'})
fig.show()

 3. Tendencia del volumen de operaciones a lo largo del tiempo

In [256]:
import pandas as pd
import plotly.express as px

# Carga de datos
natural_gas = pd.read_csv('C:/Users/Johal/Documents/Uninorte/SeriesdeTiempo/MachineLearning/DataTarea1/individual_data/Natural_Gas_data.csv')

# Verificar las columnas
print(natural_gas.columns)

# Conversión de la columna 'date' a tipo datetime
natural_gas['Date'] = pd.to_datetime(natural_gas['date'])

# Establecer la columna 'Date' como índice
natural_gas.set_index('Date', inplace=True)

# Crear el gráfico (sin 'commodity')
fig = px.line(natural_gas.reset_index(),  
              x='Date', 
              y='volume', 
              title='Trading Volume Trends Over Time')
fig.show()

Index(['date', 'open', 'high', 'low', 'close', 'volume'], dtype='object')


4. Boxplot precio de cierre

La visualización del precio de cierre del gas natural mediante un diagrama de cajas permitirá comprender la difusión de los datos e identificar valores atípicos

In [257]:
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Cargar datos
natural_gas = pd.read_csv('C:/Users/Johal/Documents/Uninorte/SeriesdeTiempo/MachineLearning/DataTarea1/individual_data/Natural_Gas_data.csv')

# Verificar las columnas
print(natural_gas.columns)  # Asegúrate de que la columna 'close' existe

# Crear la figura con una subgráfica
fig = make_subplots(
    rows=1, cols=1,
    subplot_titles=['Natural Gas'],
    shared_xaxes=True,
    vertical_spacing=0.1
)

# Agregar la traza de box plot para el gas natural
fig.add_trace(
    go.Box(y=natural_gas['close'], name='Natural Gas', showlegend=False),
    row=1, col=1
)

# Actualizar el layout
fig.update_layout(
    title_text="Distribution of Closing Prices for Natural Gas",
    height=500, width=800  # Ajusta el width si es necesario
)

# Mostrar la figura
fig.show()

Index(['date', 'open', 'high', 'low', 'close', 'volume'], dtype='object')


5. Visualización de los datos - Conclusiones

* **Variabilidad:** El precio de cierre del gas natural ha variado significativamente a lo largo de los anos, posiblemente por las fluctuaciones de las principales variables macroeconómicas como lo son la TRM (Tasa Representativa del Mercado), el IPC (Índice de Precios al Consumidor)y el IPP  (Índice de Precios al Productor).
* **Rango de Precios:** El gas natural muestra una dinámica de mercado muy diversa y voluble, encontrando un precio mínimo de 1,482 Usd, pero que pudo convertirse en 15,378 Usd con el tiempo.
* **Aumento en el volumen de las operaciones a lo largo del tiempo**

6. Distribución de cambios

In [258]:
import pandas as pd
import plotly.graph_objects as go

# Cargar datos
all_fuels = pd.read_csv('C:/Users/Johal/Documents/Uninorte/SeriesdeTiempo/MachineLearning/DataTarea1/individual_data/Natural_Gas_data.csv')

# Imprimir las columnas para verificar
print("Columnas disponibles:", all_fuels.columns)

# Asegúrate de que la columna 'close' existe
if 'date' in all_fuels.columns and 'close' in all_fuels.columns:
    # Calcular el cambio porcentual
    all_fuels['change_percent'] = all_fuels['close'].pct_change() * 100
    
    # Eliminar filas con NaN (resultado de pct_change en el primer elemento)
    all_fuels.dropna(subset=['change_percent'], inplace=True)

    # Crear la figura
    fig = go.Figure()

    # Agregar la traza para el gas natural
    fig.add_trace(
        go.Scatter(
            x=all_fuels['date'],
            y=all_fuels['change_percent'],
            name='Natural Gas',
            hovertemplate='%{y:.2f}% on %{x|%b %d, %Y}<extra></extra>'
        )
    )

    # Actualizar el layout
    fig.update_layout(
        title="Daily % Change in Closing Prices for Natural Gas",
        xaxis_title="Date",
        yaxis_title="% Change"
    )

    # Mostrar la figura
    fig.show()
else:
    print("Las columnas 'date' o 'close' no están presentes en el DataFrame.")


Columnas disponibles: Index(['date', 'open', 'high', 'low', 'close', 'volume'], dtype='object')


7. Boxplot de la distribución de cambios


In [259]:
import pandas as pd
import plotly.graph_objects as go

# Cargar datos
all_fuels = pd.read_csv('C:/Users/Johal/Documents/Uninorte/SeriesdeTiempo/MachineLearning/DataTarea1/individual_data/Natural_Gas_data.csv')

# Calcular el cambio porcentual
all_fuels['change_percent'] = all_fuels['close'].pct_change() * 100
all_fuels.dropna(subset=['change_percent'], inplace=True)

# Filtrar solo los datos de gas natural
gas_natural = all_fuels  # Asumiendo que el archivo solo tiene datos de gas natural

# Crear la figura
fig = go.Figure()

# Agregar la traza de box plot para el gas natural
fig.add_trace(go.Box(
    y=gas_natural['change_percent'], 
    name='Natural Gas', 
    hovertemplate='<b>Value</b>: %{y:.2f}%<extra></extra>'
))

# Actualizar el layout
fig.update_layout(
    title="Distribution of Daily % Change for Natural Gas",
    yaxis_title="% Change"
)

# Mostrar la figura
fig.show()

El análisis de la forma del diagrama de caja revela que los datos corresponden a una distribución leptocúrtica, lo que indica que los datos se concentran alrededor del valor de la mediana.

Estas distribuciones tienden a contener valores atípicos, que pueden deberse a diversas razones, incluidas fluctuaciones extremas de precios, cambios repentinos en la demanda y factores externos que afectan el suministro de combustible. La presencia de valores atípicos en la parte inferior y superior del diagrama de caja indica una situación excepcional en la que los precios del combustible pueden ser más bajos p más altos de lo esperado, lo que puede tener implicaciones importantes para el análisis y la planificación estratégica del sector energético.

 Por medio del rango intercuartílico (IQR) se comprueba que el gas natural es un commodity volátil, con cambios de precio significativos en cortos períodos de tiempo.

8. Precio de cierre del gas natural a lo largo del tiempo (Escala logarítmica)

In [260]:
import pandas as pd
import plotly.graph_objects as go

# Cargar datos
all_fuels = pd.read_csv('C:/Users/Johal/Documents/Uninorte/SeriesdeTiempo/MachineLearning/DataTarea1/individual_data/Natural_Gas_data.csv')

# Filtrar solo el gas natural
gas_natural = all_fuels  # Asumiendo que el archivo solo tiene datos de gas natural

# Crear la traza para el gas natural
trace = go.Scatter(
    x=gas_natural['date'],
    y=gas_natural['close'],
    mode='lines',
    name='Natural Gas'
)

# Crear el layout
layout = go.Layout(
    title=dict(text='Closing Prices of Natural Gas Over Time (Log Scale)', x=0.5, font=dict(size=24, color='black')),
    xaxis=dict(title='Date'),
    yaxis=dict(title='Closing Price (Log Scale)', type='log'),
    showlegend=True,
    legend=dict(orientation="h", x=0.5, y=-0.2, xanchor='center'),
    paper_bgcolor='rgba(0,0,0,0)',   # Fondo transparente
    plot_bgcolor='rgba(0,0,0,0)'     # Fondo de plot transparente
)

# Crear la figura y mostrar
fig = go.Figure(data=[trace], layout=layout)
fig.show()


La escala logarítmica nos permite observa como los datos varían en múltiples órdenes de magnitud. Esto permite que los cambios porcentuales sean más fáciles de interpretar, especialmente en estos casos que se presentan precios extremadamente altos o bajos.