In [None]:
# -*- coding: utf-8 -*-
"""
Created on Wed Nov 29 16:47:31 2023

@author: osdroix
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics

# Cargar datos desde el conjunto proporcionado
data = pd.read_csv('DATAVH.csv', delimiter=';', low_memory=False)

# Convertir la columna de fecha a un formato adecuado
data['fecha'] = pd.to_datetime(data['fecha'])

# Extraer el año como variable independiente
data['año'] = data['fecha'].dt.year

# Seleccionar características para la regresión múltiple
features = ['año', 'columna_5', 'otra_columna']

# Separar las columnas en variables independientes (X) y dependientes (y)
X = data[features]
y = data['cantidad'].values.reshape(-1, 1)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Crear un modelo de regresión lineal múltiple
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en los datos de prueba
y_pred = model.predict(X_test)

# Evaluar el rendimiento del modelo
print('Coeficientes:', model.coef_)
print('Término Independiente (b):', model.intercept_)
print('Error Cuadrático Medio:', metrics.mean_squared_error(y_test, y_pred))

# Visualizar los resultados
plt.scatter(X_test['año'], y_test, color='black', label='Real')
plt.scatter(X_test['año'], y_pred, color='blue', label='Predicción')
plt.title('Regresión Lineal Múltiple')
plt.xlabel('Año')
plt.ylabel('Cantidad Vendida')
plt.legend()
plt.show()
