In [1]:
import pandas as pd, numpy as np, traceback, sys
from pathlib import Path

fp = Path("Assets") / "detalle_ventas.xlsx"
print("Archivo existe:", fp.exists())

try:
    df = pd.read_excel(fp)
    print("Shape:", df.shape)
    print("Columnas:", list(df.columns))
    print("DTypes:\n", df.dtypes)
    print("Nulos por columna:\n", df.isna().sum())
    display(df.head())

    # Normalizar nombres para evitar KeyError
    cols_norm = {c: c.strip().lower().replace(" ", "_") for c in df.columns}
    df = df.rename(columns=cols_norm)
    print("Columnas normalizadas:", list(df.columns))

    req = ['cantidad', 'precio_unitario', 'importe']
    missing = [c for c in req if c not in df.columns]
    print("Faltan columnas requeridas:", missing)
    if missing:
        raise KeyError(f"Faltan columnas: {missing}")

    # Verificar NaN / inf en X/y
    X = df[['cantidad', 'precio_unitario']]
    y = df['importe']
    print("NaN en X:", X.isna().sum().to_dict())
    print("NaN en y:", y.isna().sum())
    print("Tipos X:\n", X.dtypes)

    # Convertir a numérico y contar conversiones inválidas
    X = X.apply(pd.to_numeric, errors='coerce')
    y = pd.to_numeric(y, errors='coerce')
    print("NaN después de to_numeric - X:", X.isna().sum().to_dict(), " y:", y.isna().sum())

except Exception as e:
    print("ERROR diagnóstico:")
    traceback.print_exc(file=sys.stdout)

Archivo existe: True
Shape: (343, 6)
Columnas: ['id_venta', 'id_producto', 'nombre_producto', 'cantidad', 'precio_unitario', 'importe']
DTypes:
 id_venta            int64
id_producto         int64
nombre_producto    object
cantidad            int64
precio_unitario     int64
importe             int64
dtype: object
Nulos por columna:
 id_venta           0
id_producto        0
nombre_producto    0
cantidad           0
precio_unitario    0
importe            0
dtype: int64


Unnamed: 0,id_venta,id_producto,nombre_producto,cantidad,precio_unitario,importe
0,1,90,Toallas Húmedas x50,1,2902,2902
1,2,82,Aceitunas Negras 200g,5,2394,11970
2,2,39,Helado Vainilla 1L,5,469,2345
3,2,70,Fernet 750ml,2,4061,8122
4,2,22,Medialunas de Manteca,1,2069,2069


Columnas normalizadas: ['id_venta', 'id_producto', 'nombre_producto', 'cantidad', 'precio_unitario', 'importe']
Faltan columnas requeridas: []
NaN en X: {'cantidad': 0, 'precio_unitario': 0}
NaN en y: 0
Tipos X:
 cantidad           int64
precio_unitario    int64
dtype: object
NaN después de to_numeric - X: {'cantidad': 0, 'precio_unitario': 0}  y: 0


In [2]:
# Ejecución directa en una celda de Jupyter Notebook

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error

# --- Inicio del análisis ---

try:
    df = pd.read_excel('Assets/detalle_ventas.xlsx') # ruta 
    
    # 1. Preparar los datos
    X = df[['cantidad', 'precio_unitario']].fillna(0) # Características
    y = df['importe'] # Etiqueta (variable a predecir)
    
   
    # Entrenar con el dataset completo y predecir para todas las filas
    from sklearn.linear_model import LinearRegression

    modelo_regresion_full = LinearRegression()
    modelo_regresion_full.fit(X, y)

    df['Importe Predicho ML'] = modelo_regresion_full.predict(X)

    # Guardar resultado (archivo nuevo para no sobrescribir el original)
    salida = r"Assets\detalle_ventas_predicho.xlsx"
    df.to_excel(salida, index=False)
    print(f"Archivo guardado: {salida}")

except FileNotFoundError:
    print("⚠️ ERROR: No se encontró el archivo de datos. Revisa la ruta.")
except Exception as e:
    print(f"❌ ERROR al ejecutar el análisis: {e}")

Archivo guardado: Assets\detalle_ventas_predicho.xlsx
