In [44]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

In [45]:
#cargar los datos de ventas con el comportamiento normal
sales_data = pd.read_csv('C:/Users/willi/OneDrive/Escritorio/Proyectos/Insumos_Tecnologicos_SA/Datasets/Fch_vts_online_n.csv')
sales_data

Unnamed: 0,Fecha,Ventas
0,2015-01-31,112
1,2015-02-28,123
2,2015-03-31,106
3,2015-04-30,95
4,2015-05-31,117
...,...,...
58,2019-11-30,350
59,2019-12-31,341
60,2020-06-30,379
61,2020-10-31,367


In [46]:
#agregar un columna llamada Mes donde se va a enumarar los meses
mes = list(range(1, 64))
sales_data.insert(1, 'Mes', mes)

In [47]:
#Dividir los datos en características (X) y variable objetivo (y)
X = sales_data.drop(['Ventas','Fecha'], axis=1)
y = sales_data['Ventas']

In [48]:
#Dividir datos en conjuntos de entrenamiento y prueba
#establecemos que los datos de prueba seran el 20% de los datos (test_size=0.2)
#establecemos que la division sea reproducible (random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [49]:
#creamos el modelo de regresion lineal
model = LinearRegression()

In [50]:
y_train

13    151
34    207
49    323
3      95
17    141
48    382
8      75
6      99
33    256
4     117
46    286
19    159
53    343
41    309
54    350
31    224
30    227
58    350
59    341
15    162
27    259
26    237
24    232
45    275
11     92
32    213
56    366
44    259
37    231
29    187
47    284
1     123
21    165
2     106
50    351
39    273
35    248
23    159
52    338
10     85
22    189
18    169
62    422
20    184
7     129
42    259
14    161
28    232
51    340
38    280
Name: Ventas, dtype: int64

In [51]:
#entrenar el modelo utilizando los datos de entrenamiento
model.fit(X_train, y_train)

In [52]:
#realizar predicciones con el conjunto de prueba
y_pred = model.predict(X_test)

In [53]:
X_test

Unnamed: 0,Mes
61,62
57,58
0,1
43,44
5,6
36,37
16,17
12,13
25,26
60,61


In [54]:
y_pred

array([379.67871177, 359.78706114,  76.33103967, 290.16628394,
       101.19560296, 255.35589534, 155.89764219, 136.00599156,
       200.65385611, 374.70579912, 349.84123583, 121.08725359,
       275.24754597])

In [55]:
sales_data

Unnamed: 0,Fecha,Mes,Ventas
0,2015-01-31,1,112
1,2015-02-28,2,123
2,2015-03-31,3,106
3,2015-04-30,4,95
4,2015-05-31,5,117
...,...,...,...
58,2019-11-30,59,350
59,2019-12-31,60,341
60,2020-06-30,61,379
61,2020-10-31,62,367


In [56]:
#calcular el error cuadratico medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print('Error cuadrático medio (MSE): {:.2f}'.format(mse))

Error cuadrático medio (MSE): 786.66


In [57]:
#calcular el coeficiente de determinación
r2 = r2_score(y_test, y_pred)
print('Coeficiente de determinación (R²):',r2)

Coeficiente de determinación (R²): 0.9249935863958074


In [58]:
# Crear un data frame con los meses del año 2021
indices = range(64, 77)

# Crear la columna 'Mes'
columna_mes = pd.Series(indices, name='Mes')

# Crear el DataFrame
X_pred_2021 = pd.DataFrame(columna_mes)

X_pred_2021

Unnamed: 0,Mes
0,64
1,65
2,66
3,67
4,68
5,69
6,70
7,71
8,72
9,73


In [59]:
#predecir la cantidad de ventas para el año 2021
y_pred_2021 = model.predict(X_pred_2021)
y_pred_2021 = np.round(y_pred_2021).astype(int)
y_pred_2021


array([390, 395, 400, 405, 410, 414, 419, 424, 429, 434, 439, 444, 449])

In [64]:
#crear un data frame con la predicción de ventas para el 2021
#Crear la primera columna 'Fecha'
fecha_inicio = pd.Timestamp('2020-12-31')
fecha_fin = pd.Timestamp('2021-12-31')
fechas = pd.date_range(start=fecha_inicio, end=fecha_fin, freq='M')
vts_2021 = pd.DataFrame({'Fecha': fechas})

#Crear la segunda columna 'Mes'
mes = np.arange(64, 77)
vts_2021['Mes'] = mes

#Crear la tercera columna 'Ventas'
ventas = y_pred_2021
vts_2021['Ventas'] = ventas

vts_2021

Unnamed: 0,Fecha,Mes,Ventas
0,2020-12-31,64,390
1,2021-01-31,65,395
2,2021-02-28,66,400
3,2021-03-31,67,405
4,2021-04-30,68,410
5,2021-05-31,69,414
6,2021-06-30,70,419
7,2021-07-31,71,424
8,2021-08-31,72,429
9,2021-09-30,73,434


In [65]:
# Eliminar la primera fila ya que pertenece al año 2020
vts_2021 = vts_2021.drop(vts_2021.index[0])

# Reindexar el DataFrame
vts_2021 = vts_2021.reset_index(drop=True)

vts_2021

Unnamed: 0,Fecha,Mes,Ventas
0,2021-01-31,65,395
1,2021-02-28,66,400
2,2021-03-31,67,405
3,2021-04-30,68,410
4,2021-05-31,69,414
5,2021-06-30,70,419
6,2021-07-31,71,424
7,2021-08-31,72,429
8,2021-09-30,73,434
9,2021-10-31,74,439


In [66]:
vts_2021.to_csv('C:/Users/willi/OneDrive/Escritorio/Proyectos/Insumos_Tecnologicos_SA/Datasets/vts_2021.csv', index=False)