In [None]:
import yfinance as yf
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Consulto los datos de la acción
data = yf.download("GOOGL", start='2023-01-01')
df = pd.DataFrame(data)
df.reset_index(inplace=True)

In [None]:
# Defino dos decimales para los datos flotantes
pd.options.display.float_format = '{:.2f}'.format

In [None]:
# Extraigo los datos de cierre de la acciones para los datos de entrada (data_in) y salida (data_out).
data_in = df[['Close']]
data_out = df[['Close']]

# Los datos de entrada serán los cierres de la acciones desde el primer dato hasta el anteúltimo.
data_in_subset = data_in.iloc[:len(data_in)-1]
# Los datos de salida serán los cierres de las acciones desde el segundo hasta el último.
data_out_subset = data_out.iloc[1:]

# Con esto logro que el primer dato (data_in[0]) sea la entrada del segundo dato (data_out[1])

print(data_in)
print(data_out)
print(data_in_subset)
print(data_out_subset)

In [None]:
from sklearn.model_selection import train_test_split
# Realizamos el split de X e Y en los sets de entrenamiento (train) y test
X_train, X_test, y_train, y_test = train_test_split(data_in_subset, data_out_subset, test_size=0.20, random_state=1992)

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# Creación del modelo de regreción lineal
model = LinearRegression(fit_intercept=True)
# Entrenamientod el modelo
model.fit(X_train, y_train)

In [None]:
# Coeficiente del modelo (Sería el parámetro 'a' de la ecuación 'y = ax + b')
model.coef_

In [None]:
# Intercepto del modelo (Sería el parámetro 'b' de la ecuación 'y = ax + b')
model.intercept_

In [None]:
from sklearn.metrics import mean_squared_error, r2_score
# Realizamos la predicción con los X_test
y_pred = model.predict(X_test)

# Calculamos el Error Cuadrático Medio
mse = mean_squared_error(y_test, y_pred)

# Calculamos el Coeficiente de Determinación
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse}')
print(f'R2: {r2}')

In [None]:
df_subset = df.iloc[-len(y_test):]

# Graficar Valores Reales y Predicciones
plt.figure(figsize=(12,6))
plt.plot(df_subset['Date'], y_test, label='Valores Reales', color='blue')
plt.plot(df_subset['Date'], y_pred, label='Predicciones', color='red')
plt.legend()
plt.title('Comparación de Valores Reales y Predicciones')
plt.show()

In [None]:
# Crear un DataFrame con los últimos 40 valores reales
df_test = df.iloc[-40:][['Date', 'Close']].copy()

# Crear un DataFrame para las predicciones
prediction = pd.DataFrame(y_pred, columns=['Predictions'])

# Asignar las predicciones al DataFrame df_test
df_test['Prediction'] = prediction['Predictions'].values

# Reiniciar el índice si es necesario
df_test.reset_index(drop=True, inplace=True)

# Calculo la diferencia entre los datos de cierre y predicciones
df_test['Diference'] = df_test['Close'] - df_test['Prediction']

# Mostrar el DataFrame
print(df_test)
print(f"Media de diferencia entre los datos de cierre y predicciones: {df_test['Diference'].mean()}")