# Predicciones simples con Machine Learning

## Regresion Lineal

In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import plotly.graph_objects as go

# Cargamos los datos limpios
df = pd.read_csv('../data/AAPL_limpio.csv', index_col='Date', parse_dates=True)

# Eliminamos filas con valores nulos que se generaron al calcular las medias móviles
df.dropna(inplace=True)

print("Datos cargados y librerías importadas.")
display(df.head())

Datos cargados y librerías importadas.


Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-08-31 00:00:00-04:00,124.099333,127.426026,122.562438,125.519493,225702700
2020-09-01 00:00:00-04:00,129.137999,131.122352,126.968843,130.519257,151948100
2020-09-02 00:00:00-04:00,133.836251,134.21561,123.535172,127.815125,200119000
2020-09-03 00:00:00-04:00,123.447625,125.324964,117.2125,117.58213,257599600
2020-09-04 00:00:00-04:00,116.794232,120.325195,107.864682,117.65995,332607200


In [6]:
# Definimos las columnas que serán nuestras características (variables de entrada)
features = ['Open', 'High', 'Low', 'Volume']

X = df[features]
y = df['Close']

In [7]:
# train_test_split divide los datos, pero por defecto los baraja.
# Para datos de tiempo, ponemos shuffle=False.
# test_size=0.2 significa que el 20% de los datos será para prueba.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

print(f"Tamaño del conjunto de entrenamiento: {len(X_train)} filas")
print(f"Tamaño del conjunto de prueba: {len(X_test)} filas")

Tamaño del conjunto de entrenamiento: 1004 filas
Tamaño del conjunto de prueba: 252 filas


Conjunto de Entrenamiento (80%): Lo usamos para que el modelo aprenda.

Conjunto de Prueba (20%): Lo guardamos para evaluar qué tan buenas son las predicciones del modelo en datos que nunca ha visto.

In [8]:
# Creamos una instancia del modelo de Regresión Lineal
modelo = LinearRegression()
# Entrenamos el modelo con nuestros datos de entrenamiento
modelo.fit(X_train, y_train)

print("Modelo entrenado exitosamente.")

Modelo entrenado exitosamente.


In [9]:
# Hacemos predicciones sobre el conjunto de prueba
predicciones = modelo.predict(X_test)

# Calculamos el error. El Error Cuadrático Medio (MSE) es una métrica común.
mse = mean_squared_error(y_test, predicciones)
# La raíz del MSE (RMSE) es más fácil de interpretar porque está en la misma unidad que el precio (USD).
rmse = np.sqrt(mse)

print(f"Error Cuadrático Medio (MSE): {mse:.2f}")
print(f"Raíz del Error Cuadrático Medio (RMSE): {rmse:.2f}")

Error Cuadrático Medio (MSE): 1.98
Raíz del Error Cuadrático Medio (RMSE): 1.41


En este caso obtuvimos estos valores

Error Cuadrático Medio (MSE): 1.98
Raíz del Error Cuadrático Medio (RMSE): 1.41

Esto significa que, en promedio, nuestras predicciones están a 1.41 USD de los valores reales. Lo que es bastante aceptable para un modelo de regresión lineal en el ámbito financiero.


## Graficas de las predicciones

In [10]:
resultados = pd.DataFrame(index=y_test.index)
resultados['Real'] = y_test
resultados['Predicción'] = predicciones

# Mostramos las primeras filas de nuestro nuevo DataFrame.
display(resultados.head())

Unnamed: 0_level_0,Real,Predicción
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-08-28 00:00:00-04:00,225.440781,226.606502
2024-08-29 00:00:00-04:00,228.72551,230.308751
2024-08-30 00:00:00-04:00,227.939163,227.048204
2024-09-03 00:00:00-04:00,221.738022,221.854879
2024-09-04 00:00:00-04:00,219.82692,217.317254


In [None]:
fig = go.Figure()

# Añadimos la línea de los precios reales
fig.add_trace(go.Scatter(x=resultados.index,
                         y=resultados['Real'],
                         mode='lines',
                         name='Precio Real'))

# Añadimos la línea de nuestras predicciones (Linea punteada)
fig.add_trace(go.Scatter(x=resultados.index,
                         y=resultados['Predicción'],
                         mode='lines',
                         name='Predicción del Modelo',
                         line=dict(dash='dot')))

# Mejoramos el diseño del gráfico
fig.update_layout(
    title='Comparación: Precio Real vs. Predicción del Modelo',
    xaxis_title='Fecha',
    yaxis_title='Precio de Cierre (USD)',
    template='plotly_dark',
    legend_title='Series'
)

fig.show()