In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Cargar datos
file_path_ingresos = 'IngresosMt.xlsx'
df_ingresos = pd.read_excel(file_path_ingresos)

# Mostrar las primeras filas
print(df_ingresos.head())

# Convertir los datos en formato largo
df_long = df_ingresos.melt(id_vars='GESTION', var_name='Mes', value_name='Ingresos')

# Limpiar datos
df_long['Mes'] = df_long['Mes'].str.strip()  # Eliminar espacios en blanco
df_long['GESTION'] = df_long['GESTION'].str.extract('(\d+)').astype(int)  # Extraer el año
df_long['Fecha'] = df_long['Mes'] + '-' + df_long['GESTION'].astype(str)  # Combinar mes y año

# Crear una columna de tiempo ajustando el formato
df_long['Tiempo'] = pd.to_datetime(df_long['Fecha'], format='%B-%Y', errors='coerce')

# Verificar si hay valores nulos en 'Tiempo' después de la conversión
print(df_long[df_long['Tiempo'].isna()])

# Ajustar el modelo de regresión lineal
X = np.array(df_long['Tiempo'].dropna().map(pd.Timestamp.toordinal)).reshape(-1, 1)
y = df_long['Ingresos'][df_long['Tiempo'].notna()].values


  GESTION   01-ENERO  02-FEBRERO   03-MARZO    04-ABRIL  05-MAYO   06-JUNIO  \
0  A 2014        NaN         NaN        NaN         NaN   174177  1425039.0   
1  A 2015  4613394.0   1924792.0  2334180.0   2090472.0  2057468  1903510.0   
2  A 2016  2428060.0   3546595.0  2916190.0   3342947.0  3585165  3479915.0   
3  A 2017  4411306.0   4434270.0  6437589.0   7235003.0  5662510  4929192.0   
4  A 2018  8740594.0   8550225.0  9917654.0  10742658.0  8805521  9094375.0   

     07-JULIO  08-AGOSTO  09-SEPTIEMBRE  10-OCTUBRE  11-NOVIEMBRE  \
0  22348335.0   599838.0     11719175.0  15407995.0    13927855.0   
1   2231353.0  2065124.0      2242148.0   1935489.0     2297223.0   
2   4282477.0  3661441.0      3476142.0   3175091.0     3530893.0   
3   6323512.0  4670559.0      4660370.0   6769051.0     8160707.0   
4  10219802.0  9682444.0      9788273.0  12528040.0    11584486.0   

   12-DICIEMBRE  
0     4187123.0  
1     4337546.0  
2     4120955.0  
3     8584325.0  
4    13516881.0  
  

In [21]:
df_long

Unnamed: 0,GESTION,Mes,Ingresos,Fecha,Tiempo
0,2014,01-ENERO,,01-ENERO-2014,NaT
1,2015,01-ENERO,4613394.0,01-ENERO-2015,NaT
2,2016,01-ENERO,2428060.0,01-ENERO-2016,NaT
3,2017,01-ENERO,4411306.0,01-ENERO-2017,NaT
4,2018,01-ENERO,8740594.0,01-ENERO-2018,NaT
...,...,...,...,...,...
127,2020,12-DICIEMBRE,13797571.0,12-DICIEMBRE-2020,NaT
128,2021,12-DICIEMBRE,15469845.0,12-DICIEMBRE-2021,NaT
129,2022,12-DICIEMBRE,15776523.0,12-DICIEMBRE-2022,NaT
130,2023,12-DICIEMBRE,13955419.0,12-DICIEMBRE-2023,NaT


In [17]:
y

array([], dtype=float64)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2)
model = LinearRegression()
model.fit(X_train, y_train)

# Predicción
y_pred = model.predict(X_test)

# Evaluar el modelo
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

# Predecir ingresos futuros
future_dates = pd.date_range(start=df_long['Tiempo'].max(), periods=12, freq='M')
future_ordinal = future_dates.map(pd.Timestamp.toordinal).values.reshape(-1, 1)
future_pred = model.predict(future_ordinal)

# Graficar resultados
plt.figure(figsize=(10, 6))
plt.plot(df_long['Tiempo'], df_long['Ingresos'], label='Datos Históricos')
plt.plot(future_dates, future_pred, label='Predicción Futura', linestyle='--')
plt.xlabel('Tiempo')
plt.ylabel('Ingresos')
plt.title('Predicción de Ingresos Futuros')
plt.legend()
plt.show()

In [13]:
y

array([], dtype=float64)