# Predicci√≥n de Movimiento en el Precio de Acciones con Regresi√≥n Log√≠stica

Regresi√≥n Log√≠stica aplicada al conjunto de datos el cual contiene informaci√≥n hist√≥rica del mercado de valores extra√≠da de Yahoo Finance, abarcando un per√≠odo de cinco a√±os. Incluye registros diarios del desempe√±o burs√°til de las 500 principales compa√±√≠as seg√∫n su capitalizaci√≥n de mercado.

In [1]:
# üì¶ Cargar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# üé® Estilo visual
sns.set(style="darkgrid")

# üìÅ Cargar datos desde archivo Excel
df = pd.read_excel(
    r"C:\Machine_Learning\jbook_ml2025\docs\datos\stock_details_5_years_edit.xlsx",
    engine='openpyxl'
)

# üßπ Limpiar columnas num√©ricas con comas como separadores de miles
cols_to_clean = ['Open', 'High', 'Low', 'Close', 'Volume']
for col in cols_to_clean:
    df[col] = df[col].astype(str).str.replace(',', '')  # Elimina comas
    df[col] = pd.to_numeric(df[col], errors='coerce')    # Convierte a num√©rico

# ‚úÖ Verificar tipos de datos
print("\nTipos de datos despu√©s de limpiar:")
print(df[cols_to_clean].dtypes)

# üßº Eliminar filas con valores faltantes
df = df.dropna(subset=cols_to_clean)

# üéØ Crear variable objetivo: ¬øsube el precio al d√≠a siguiente?
df["Target"] = df.groupby("Company")["Close"].shift(-1) > df["Close"]
df["Target"] = df["Target"].astype(int)
df = df.dropna(subset=["Target"])

# üß† Entrenamiento del modelo
features = cols_to_clean
X = df[features]
y = df["Target"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, shuffle=True, random_state=42
)

model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# üìä Evaluaci√≥n del modelo
y_pred = model.predict(X_test)

print("\nüìà Accuracy:", accuracy_score(y_test, y_pred))
print("\nüìã Reporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred))

# üîç Mostrar coeficientes del modelo
coef_df = pd.DataFrame({
    'Variable': features,
    'Coeficiente': model.coef_[0]
}).sort_values(by='Coeficiente', key=abs, ascending=False)

print("\nüß™ Importancia de las variables (coeficientes):")
print(coef_df)

# üßØ Matriz de confusi√≥n
plt.figure(figsize=(6,4))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Blues')
plt.xlabel("Predicci√≥n")
plt.ylabel("Real")
plt.title("üîç Matriz de Confusi√≥n")
plt.tight_layout()
plt.show()


KeyboardInterrupt: 

## An√°lisis

A partir de los resultados obtenidos, se observa que el modelo de regresi√≥n log√≠stica alcanza una precisi√≥n de 0.54, lo cual indica un desempe√±o apenas superior al azar. La matriz de confusi√≥n refuerza esta observaci√≥n:

El modelo logra identificar correctamente 46,330 casos positivos (1) y 18,514 negativos (0).

Sin embargo, tambi√©n se presentan errores significativos: predice incorrectamente 40,310 negativos como positivos y 15,439 positivos como negativos.

Este desequilibrio muestra que el modelo tiene una alta tasa de falsos positivos, lo cual es preocupante si se desea hacer predicciones fiables sobre el comportamiento futuro de las acciones. Aunque el recall para la clase 1 es relativamente alto (0.75), la f1-score general (0.51) es baja, confirmando que el modelo no tiene una capacidad predictiva s√≥lida en este contexto.

## Conclusi√≥n

El modelo no es adecuado para predecir movimientos burs√°tiles con precisi√≥n aceptable. Este resultado sugiere que las variables utilizadas (Open, High, Low, Close, Volume, etc.) podr√≠an no ser suficientes para capturar la complejidad del mercado financiero, o que se requiere un modelo m√°s robusto, posiblemente no lineal, como Random Forest o redes neuronales.