# **FORECAST CREDITOS GENERALES | PACHUCA**

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

In [2]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

In [3]:
dataframes = {} # Crear un diccionario para almacenar los DataFrames
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [4]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres para obtener solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]
# Imprimir la lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)

Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2022_tulancingo', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jul_2023_tulancingo', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_jun_2023_tulancingo', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_mar_2023_tulancingo', 'df_alfa_q_may_2022_tulancingo', 'df_alfa_q_may_2023_tulancingo', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_oct_2022_tulancingo', 'df_alfa_q_oct_2023_tulancingo', 'df_alfa_q_puebla', 'df_alfa_q_sep_2023_pachuca', 'df_alfa_q_sep_2023_tulancingo', 'df_enero_2024_querertaro', 'df_financiamientos_2019_pachuca', 'df_financiamientos_2019_puebla', 'df_financiamientos_2019_tulancingo', 'df_financiamientos_2020_pachuca', 'df_financiamientos_2020_puebla', 'df_financiamientos_2020_tulancingo', 'df_financiamientos_2021_pachuca', 'df_financiamientos_2021_puebla', 'df_financiamientos_2021_tulancingo', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2022_puebla', 'df_financiamientos_2022_

# **Forecast créditos generales (cantidad)**

### BASE

In [5]:
creditos_2019_pachuca = df_financiamientos_2019_pachuca[['id','año','mes','modalidad','monto']]
creditos_2020_pachuca = df_financiamientos_2020_pachuca[['id','año','mes','modalidad','monto']]
creditos_2021_pachuca = df_financiamientos_2021_pachuca[['id','año','mes','modalidad','monto']]
creditos_2022_pachuca = df_financiamientos_2022_pachuca[['id','año','mes','modalidad','monto']]
creditos_2023_pachuca = df_financiamientos_2023_pachuca[['id','año','mes','modalidad','monto']]

In [8]:
total_creditos_2019_pachuca = creditos_2019_pachuca.groupby('mes').count().reset_index()
total_creditos_2019_pachuca.rename(columns={'monto': 'num_registros'}, inplace=True)
total_creditos_2019_pachuca['año'] = 2019
total_creditos_2019_pachuca = total_creditos_2019_pachuca[['año', 'mes', 'num_registros']]

total_creditos_2020_pachuca = creditos_2020_pachuca.groupby('mes').count().reset_index()
total_creditos_2020_pachuca.rename(columns={'monto': 'num_registros'}, inplace=True)
total_creditos_2020_pachuca['año'] = 2020
total_creditos_2020_pachuca = total_creditos_2020_pachuca[['año', 'mes', 'num_registros']]

total_creditos_2021_pachuca = creditos_2021_pachuca.groupby('mes').count().reset_index()
total_creditos_2021_pachuca.rename(columns={'monto': 'num_registros'}, inplace=True)
total_creditos_2021_pachuca['año'] = 2021
total_creditos_2021_pachuca = total_creditos_2021_pachuca[['año', 'mes', 'num_registros']]

total_creditos_2022_pachuca = creditos_2022_pachuca.groupby('mes').count().reset_index()
total_creditos_2022_pachuca.rename(columns={'monto': 'num_registros'}, inplace=True)
total_creditos_2022_pachuca['año'] = 2022
total_creditos_2022_pachuca = total_creditos_2022_pachuca[['año', 'mes', 'num_registros']]

total_creditos_2023_pachuca = creditos_2023_pachuca.groupby('mes').count().reset_index()
total_creditos_2023_pachuca.rename(columns={'monto': 'num_registros'}, inplace=True)
total_creditos_2023_pachuca['año'] = 2023
total_creditos_2023_pachuca = total_creditos_2023_pachuca[['año', 'mes', 'num_registros']]

total_conteo_creditos_pachuca = pd.concat([total_creditos_2019_pachuca, total_creditos_2020_pachuca, total_creditos_2021_pachuca, total_creditos_2022_pachuca, total_creditos_2023_pachuca], ignore_index=True)
total_conteo_creditos_pachuca.head()

Unnamed: 0,año,mes,num_registros
0,2019,1,78
1,2019,2,87
2,2019,3,88
3,2019,4,79
4,2019,5,103


In [9]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Preparar datos para el modelo
X = total_conteo_creditos_pachuca[['año', 'mes']]
y = total_conteo_creditos_pachuca['num_registros']
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [10]:
from sklearn.metrics import r2_score
import numpy as np

# Hacer predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)
# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)
print("Coeficiente de determinación (R^2):", r2)

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio (MSE):", mse)

from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)
print("Error absoluto medio (MAE):", mae)
rmse = np.sqrt(mse)
print("Raíz del error cuadrático medio (RMSE):", rmse)

Coeficiente de determinación (R^2): 0.08071049610327774
Error cuadrático medio (MSE): 377.9875322137994
Error absoluto medio (MAE): 13.82700695981252
Raíz del error cuadrático medio (RMSE): 19.441901455716707


In [13]:
# DF con todas las combinaciones posibles de año y mes para 2023 FALTANTES (AUG-DEC)
fechas_2023 = pd.DataFrame({'año': np.repeat(2023, 5),
                            'mes': range(8, 13)})

# DF con todas las combinaciones posibles de año y mes para 2024-2026
fechas_2024_2026 = pd.DataFrame({'año': np.repeat(range(2024, 2027), 12),
                                  'mes': np.tile(range(1, 13), 3)})
nuevas_fechas = pd.concat([fechas_2023, fechas_2024_2026]) # Concatenamos 

# Realizamos predicciones con el modelo entrenado
predicciones = modelo.predict(nuevas_fechas)

# Redondear las predicciones a números enteros
predicciones_enteros = np.round(predicciones).astype(int)

# Agregamos las predicciones redondeadas al DataFrame de nuevas fechas
nuevas_fechas['num_registros'] = predicciones_enteros
nuevas_fechas.head()

total_conteo_pachuca = pd.concat([total_conteo_creditos_pachuca, nuevas_fechas], ignore_index=True)
total_conteo_pachuca

Unnamed: 0,año,mes,num_registros
0,2019,1,78
1,2019,2,87
2,2019,3,88
3,2019,4,79
4,2019,5,103
...,...,...,...
91,2026,8,131
92,2026,9,134
93,2026,10,138
94,2026,11,142


In [14]:
total_conteo_pachuca = total_conteo_pachuca.groupby('año')['num_registros'].sum().reset_index()
# Agregar una nueva columna 'vivienda' con el valor 'Usada'
total_conteo_pachuca['modalidad'] = 'Créditos (todos)'
# Función para formatear números con separadores de coma y sin decimales
def format_number(x):
    return '{:,.0f}'.format(x)  # Formatear sin decimales
# Formatear la columna 'montos' con la función personalizada
total_conteo_pachuca['num_registros'] = total_conteo_pachuca['num_registros'].map(format_number)
total_conteo_pachuca

Unnamed: 0,año,num_registros,modalidad
0,2019,1215,Créditos (todos)
1,2020,1178,Créditos (todos)
2,2021,1430,Créditos (todos)
3,2022,1388,Créditos (todos)
4,2023,1326,Créditos (todos)
5,2024,1417,Créditos (todos)
6,2025,1456,Créditos (todos)
7,2026,1496,Créditos (todos)


In [16]:
# Filtrar los datos donde 'modalidad' sea igual a '1'
creditos_2019_pachuca_modalidad_1 = creditos_2019_pachuca[creditos_2019_pachuca['modalidad'] == 1]
# Agrupar por mes y contar los registros
total_creditos_2019_pachuca = creditos_2019_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2019_pachuca['año'] = 2019
total_creditos_2019_pachuca = total_creditos_2019_pachuca[['año', 'mes', 'num_registros']] # Reordenar las columnas

creditos_2020_pachuca_modalidad_1 = creditos_2020_pachuca[creditos_2020_pachuca['modalidad'] == 1]
total_creditos_2020_pachuca = creditos_2020_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2020_pachuca['año'] = 2020
total_creditos_2020_pachuca = total_creditos_2020_pachuca[['año', 'mes', 'num_registros']]

creditos_2021_pachuca_modalidad_1 = creditos_2021_pachuca[creditos_2021_pachuca['modalidad'] == 1]
total_creditos_2021_pachuca = creditos_2021_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2021_pachuca['año'] = 2021
total_creditos_2021_pachuca = total_creditos_2021_pachuca[['año', 'mes', 'num_registros']]

creditos_2022_pachuca_modalidad_1 = creditos_2022_pachuca[creditos_2022_pachuca['modalidad'] == 1]
total_creditos_2022_pachuca = creditos_2022_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2022_pachuca['año'] = 2022
total_creditos_2022_pachuca = total_creditos_2022_pachuca[['año', 'mes', 'num_registros']]

creditos_2023_pachuca_modalidad_1 = creditos_2023_pachuca[creditos_2023_pachuca['modalidad'] == 1]
total_creditos_2023_pachuca = creditos_2023_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2023_pachuca['año'] = 2023
total_creditos_2023_pachuca = total_creditos_2023_pachuca[['año', 'mes', 'num_registros']]

nueva_conteo_creditos_pachuca = pd.concat([total_creditos_2019_pachuca, total_creditos_2020_pachuca, total_creditos_2021_pachuca, total_creditos_2022_pachuca, total_creditos_2023_pachuca], ignore_index=True)
nueva_conteo_creditos_pachuca.head()

Unnamed: 0,año,mes,num_registros
0,2019,1,50
1,2019,2,49
2,2019,3,50
3,2019,4,38
4,2019,5,44


In [17]:
# Preparar datos para el modelo
X = nueva_conteo_creditos_pachuca[['año', 'mes']]
y = nueva_conteo_creditos_pachuca['num_registros']
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [20]:
# DF con todas las combinaciones posibles de año y mes para 2023 FALTANTES (AUG-DEC)
fechas_2023 = pd.DataFrame({'año': np.repeat(2023, 5),
                            'mes': range(8, 13)})

# DF con todas las combinaciones posibles de año y mes para 2024-2026
fechas_2024_2026 = pd.DataFrame({'año': np.repeat(range(2024, 2027), 12),
                                  'mes': np.tile(range(1, 13), 3)})
nuevas_fechas = pd.concat([fechas_2023, fechas_2024_2026]) # Concatenamos 

# Realizamos predicciones con el modelo entrenado
predicciones = modelo.predict(nuevas_fechas)
predicciones_enteros = np.round(predicciones).astype(int) # Redondear las predicciones a números enteros
# Agregamos las predicciones redondeadas al DataFrame de nuevas fechas
nuevas_fechas['num_registros'] = predicciones_enteros

nueva_conteo_pachuca = pd.concat([nueva_conteo_creditos_pachuca, nuevas_fechas], ignore_index=True)
nueva_conteo_pachuca = nueva_conteo_pachuca.groupby('año')['num_registros'].sum().reset_index()
# Agregar una nueva columna 'vivienda' con el valor 'Usada'
nueva_conteo_pachuca['modalidad'] = 'Nueva'

# Función para formatear números con separadores de coma y sin decimales
def format_number(x):
    return '{:,.0f}'.format(x)  # Formatear sin decimales

# Formatear la columna 'num_registros' con la función personalizada
nueva_conteo_pachuca['num_registros'] = nueva_conteo_pachuca['num_registros'].map(format_number)
nueva_conteo_pachuca

Unnamed: 0,año,num_registros,modalidad
0,2019,620,Nueva
1,2020,629,Nueva
2,2021,699,Nueva
3,2022,624,Nueva
4,2023,535,Nueva
5,2024,571,Nueva
6,2025,556,Nueva
7,2026,540,Nueva


In [22]:
# Filtrar los datos donde 'modalidad' sea igual a '2'
creditos_2019_pachuca_modalidad_1 = creditos_2019_pachuca[creditos_2019_pachuca['modalidad'] == 2]
# Agrupar por mes y contar los registros
total_creditos_2019_pachuca = creditos_2019_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2019_pachuca['año'] = 2019
total_creditos_2019_pachuca = total_creditos_2019_pachuca[['año', 'mes', 'num_registros']] # Reordenar las columnas

creditos_2020_pachuca_modalidad_1 = creditos_2020_pachuca[creditos_2020_pachuca['modalidad'] == 2]
total_creditos_2020_pachuca = creditos_2020_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2020_pachuca['año'] = 2020
total_creditos_2020_pachuca = total_creditos_2020_pachuca[['año', 'mes', 'num_registros']]

creditos_2021_pachuca_modalidad_1 = creditos_2021_pachuca[creditos_2021_pachuca['modalidad'] == 2]
total_creditos_2021_pachuca = creditos_2021_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2021_pachuca['año'] = 2021
total_creditos_2021_pachuca = total_creditos_2021_pachuca[['año', 'mes', 'num_registros']]

creditos_2022_pachuca_modalidad_1 = creditos_2022_pachuca[creditos_2022_pachuca['modalidad'] == 2]
total_creditos_2022_pachuca = creditos_2022_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2022_pachuca['año'] = 2022
total_creditos_2022_pachuca = total_creditos_2022_pachuca[['año', 'mes', 'num_registros']]

creditos_2023_pachuca_modalidad_1 = creditos_2023_pachuca[creditos_2023_pachuca['modalidad'] == 2]
total_creditos_2023_pachuca = creditos_2023_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2023_pachuca['año'] = 2023
total_creditos_2023_pachuca = total_creditos_2023_pachuca[['año', 'mes', 'num_registros']]

# Concatenar los DataFrames resultantes para cada año
mejoramiento_conteo_pachuca = pd.concat([total_creditos_2019_pachuca, total_creditos_2020_pachuca,total_creditos_2021_pachuca,total_creditos_2022_pachuca,total_creditos_2023_pachuca], ignore_index=True)
mejoramiento_conteo_pachuca.head()

Unnamed: 0,año,mes,num_registros
0,2019,1,3
1,2019,2,6
2,2019,3,3
3,2019,4,6
4,2019,5,6


In [23]:
# Preparar datos para el modelo
X = mejoramiento_conteo_pachuca[['año', 'mes']]
y = mejoramiento_conteo_pachuca['num_registros']
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [24]:
# DF con todas las combinaciones posibles de año y mes para 2023 FALTANTES (AUG-DEC)
fechas_2023 = pd.DataFrame({'año': np.repeat(2023, 5),
                            'mes': range(8, 13)})

# DF con todas las combinaciones posibles de año y mes para 2024-2026
fechas_2024_2026 = pd.DataFrame({'año': np.repeat(range(2024, 2027), 12),
                                  'mes': np.tile(range(1, 13), 3)})
nuevas_fechas = pd.concat([fechas_2023, fechas_2024_2026]) # Concatenamos 

# Realizamos predicciones con el modelo entrenado
predicciones = modelo.predict(nuevas_fechas)

# Redondear las predicciones a números enteros
predicciones_enteros = np.round(predicciones).astype(int)

# Agregamos las predicciones redondeadas al DataFrame de nuevas fechas
nuevas_fechas['num_registros'] = predicciones_enteros
mejoramiento_conteo_pachuca = pd.concat([mejoramiento_conteo_pachuca, nuevas_fechas], ignore_index=True)
mejoramiento_conteo_pachuca = mejoramiento_conteo_pachuca.groupby('año')['num_registros'].sum().reset_index()
# Agregar una nueva columna 'vivienda' con el valor 'Usada'
mejoramiento_conteo_pachuca['modalidad'] = 'Mejoramientos'

# Función para formatear números con separadores de coma y sin decimales
def format_number(x):
    return '{:,.0f}'.format(x)  # Formatear sin decimales

# Formatear la columna 'num_registros' con la función personalizada
mejoramiento_conteo_pachuca['num_registros'] = mejoramiento_conteo_pachuca['num_registros'].map(format_number)
mejoramiento_conteo_pachuca

Unnamed: 0,año,num_registros,modalidad
0,2019,75,Mejoramientos
1,2020,94,Mejoramientos
2,2021,89,Mejoramientos
3,2022,152,Mejoramientos
4,2023,187,Mejoramientos
5,2024,210,Mejoramientos
6,2025,243,Mejoramientos
7,2026,276,Mejoramientos


In [25]:
# Filtrar los datos donde 'modalidad' sea igual a '2'
creditos_2019_pachuca_modalidad_1 = creditos_2019_pachuca[creditos_2019_pachuca['modalidad'] == 3]
# Agrupar por mes y contar los registros
total_creditos_2019_pachuca = creditos_2019_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2019_pachuca['año'] = 2019
total_creditos_2019_pachuca = total_creditos_2019_pachuca[['año', 'mes', 'num_registros']] # Reordenar las columnas

creditos_2020_pachuca_modalidad_1 = creditos_2020_pachuca[creditos_2020_pachuca['modalidad'] == 3]
total_creditos_2020_pachuca = creditos_2020_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2020_pachuca['año'] = 2020
total_creditos_2020_pachuca = total_creditos_2020_pachuca[['año', 'mes', 'num_registros']]

creditos_2021_pachuca_modalidad_1 = creditos_2021_pachuca[creditos_2021_pachuca['modalidad'] == 3]
total_creditos_2021_pachuca = creditos_2021_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2021_pachuca['año'] = 2021
total_creditos_2021_pachuca = total_creditos_2021_pachuca[['año', 'mes', 'num_registros']]

creditos_2022_pachuca_modalidad_1 = creditos_2022_pachuca[creditos_2022_pachuca['modalidad'] == 3]
total_creditos_2022_pachuca = creditos_2022_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2022_pachuca['año'] = 2022
total_creditos_2022_pachuca = total_creditos_2022_pachuca[['año', 'mes', 'num_registros']]

creditos_2023_pachuca_modalidad_1 = creditos_2023_pachuca[creditos_2023_pachuca['modalidad'] == 3]
total_creditos_2023_pachuca = creditos_2023_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2023_pachuca['año'] = 2023
total_creditos_2023_pachuca = total_creditos_2023_pachuca[['año', 'mes', 'num_registros']]

# Concatenar los DataFrames resultantes para cada año
usada_conteo_pachuca = pd.concat([total_creditos_2019_pachuca, total_creditos_2020_pachuca,total_creditos_2021_pachuca,total_creditos_2022_pachuca,total_creditos_2023_pachuca], ignore_index=True)
usada_conteo_pachuca.head()

Unnamed: 0,año,mes,num_registros
0,2019,1,19
1,2019,2,30
2,2019,3,30
3,2019,4,32
4,2019,5,51


In [26]:
# Preparar datos para el modelo
X = usada_conteo_pachuca[['año', 'mes']]
y = usada_conteo_pachuca['num_registros']
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [27]:
from sklearn.metrics import r2_score
# Hacer predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)
# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)
print("Coeficiente de determinación (R^2):", r2)

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio (MSE):", mse)

from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)
print("Error absoluto medio (MAE):", mae)
rmse = np.sqrt(mse)
print("Raíz del error cuadrático medio (RMSE):", rmse)

Coeficiente de determinación (R^2): -0.24750495642062442
Error cuadrático medio (MSE): 53.384964168148706
Error absoluto medio (MAE): 5.602267114520559
Raíz del error cuadrático medio (RMSE): 7.306501499907374


In [28]:
# DF con todas las combinaciones posibles de año y mes para 2023 FALTANTES (AUG-DEC)
fechas_2023 = pd.DataFrame({'año': np.repeat(2023, 5),
                            'mes': range(8, 13)})

# DF con todas las combinaciones posibles de año y mes para 2024-2026
fechas_2024_2026 = pd.DataFrame({'año': np.repeat(range(2024, 2027), 12),
                                  'mes': np.tile(range(1, 13), 3)})
nuevas_fechas = pd.concat([fechas_2023, fechas_2024_2026]) # Concatenamos 

# Realizamos predicciones con el modelo entrenado
predicciones = modelo.predict(nuevas_fechas)

# Redondear las predicciones a números enteros
predicciones_enteros = np.round(predicciones).astype(int)

# Agregamos las predicciones redondeadas al DataFrame de nuevas fechas
nuevas_fechas['num_registros'] = predicciones_enteros
usada_conteo_pachuca = pd.concat([usada_conteo_pachuca, nuevas_fechas], ignore_index=True)
usada_conteo_pachuca = usada_conteo_pachuca.groupby('año')['num_registros'].sum().reset_index()
# Agregar una nueva columna 'vivienda' con el valor 'Usada'
usada_conteo_pachuca['modalidad'] = 'Usada'

# Función para formatear números con separadores de coma y sin decimales
def format_number(x):
    return '{:,.0f}'.format(x)  # Formatear sin decimales

# Formatear la columna 'num_registros' con la función personalizada
usada_conteo_pachuca['num_registros'] = usada_conteo_pachuca['num_registros'].map(format_number)
usada_conteo_pachuca

Unnamed: 0,año,num_registros,modalidad
0,2019,454,Usada
1,2020,385,Usada
2,2021,535,Usada
3,2022,517,Usada
4,2023,505,Usada
5,2024,544,Usada
6,2025,567,Usada
7,2026,588,Usada


In [29]:
# Filtrar los datos donde 'modalidad' sea igual a '2'
creditos_2019_pachuca_modalidad_1 = creditos_2019_pachuca[creditos_2019_pachuca['modalidad'] == 4]
# Agrupar por mes y contar los registros
total_creditos_2019_pachuca = creditos_2019_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2019_pachuca['año'] = 2019
total_creditos_2019_pachuca = total_creditos_2019_pachuca[['año', 'mes', 'num_registros']] # Reordenar las columnas

creditos_2020_pachuca_modalidad_1 = creditos_2020_pachuca[creditos_2020_pachuca['modalidad'] == 4]
total_creditos_2020_pachuca = creditos_2020_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2020_pachuca['año'] = 2020
total_creditos_2020_pachuca = total_creditos_2020_pachuca[['año', 'mes', 'num_registros']]

creditos_2021_pachuca_modalidad_1 = creditos_2021_pachuca[creditos_2021_pachuca['modalidad'] == 4]
total_creditos_2021_pachuca = creditos_2021_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2021_pachuca['año'] = 2021
total_creditos_2021_pachuca = total_creditos_2021_pachuca[['año', 'mes', 'num_registros']]

creditos_2022_pachuca_modalidad_1 = creditos_2022_pachuca[creditos_2022_pachuca['modalidad'] == 4]
total_creditos_2022_pachuca = creditos_2022_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2022_pachuca['año'] = 2022
total_creditos_2022_pachuca = total_creditos_2022_pachuca[['año', 'mes', 'num_registros']]

creditos_2023_pachuca_modalidad_1 = creditos_2023_pachuca[creditos_2023_pachuca['modalidad'] == 4]
total_creditos_2023_pachuca = creditos_2023_pachuca_modalidad_1.groupby('mes').size().reset_index(name='num_registros')
total_creditos_2023_pachuca['año'] = 2023
total_creditos_2023_pachuca = total_creditos_2023_pachuca[['año', 'mes', 'num_registros']]

# Concatenar los DataFrames resultantes para cada año
otros_conteo_pachuca = pd.concat([total_creditos_2019_pachuca, total_creditos_2020_pachuca,total_creditos_2021_pachuca,total_creditos_2022_pachuca,total_creditos_2023_pachuca], ignore_index=True)
otros_conteo_pachuca.head()

Unnamed: 0,año,mes,num_registros
0,2019,1,6
1,2019,2,2
2,2019,3,5
3,2019,4,3
4,2019,5,2


In [30]:
# Preparar datos para el modelo
X = otros_conteo_pachuca[['año', 'mes']]
y = otros_conteo_pachuca['num_registros']
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [31]:
# DF con todas las combinaciones posibles de año y mes para 2023 FALTANTES (AUG-DEC)
fechas_2023 = pd.DataFrame({'año': np.repeat(2023, 5),
                            'mes': range(8, 13)})

# DF con todas las combinaciones posibles de año y mes para 2024-2026
fechas_2024_2026 = pd.DataFrame({'año': np.repeat(range(2024, 2027), 12),
                                  'mes': np.tile(range(1, 13), 3)})
nuevas_fechas = pd.concat([fechas_2023, fechas_2024_2026]) # Concatenamos 

# Realizamos predicciones con el modelo entrenado
predicciones = modelo.predict(nuevas_fechas)

# Redondear las predicciones a números enteros
predicciones_enteros = np.round(predicciones).astype(int)

# Agregamos las predicciones redondeadas al DataFrame de nuevas fechas
nuevas_fechas['num_registros'] = predicciones_enteros
otros_conteo_pachuca = pd.concat([otros_conteo_pachuca, nuevas_fechas], ignore_index=True)
otros_conteo_pachuca = otros_conteo_pachuca.groupby('año')['num_registros'].sum().reset_index()
# Agregar una nueva columna 'vivienda' con el valor 'Usada'
otros_conteo_pachuca['modalidad'] = 'Otros'

# Función para formatear números con separadores de coma y sin decimales
def format_number(x):
    return '{:,.0f}'.format(x)  # Formatear sin decimales

# Formatear la columna 'num_registros' con la función personalizada
otros_conteo_pachuca['num_registros'] = otros_conteo_pachuca['num_registros'].map(format_number)
otros_conteo_pachuca

Unnamed: 0,año,num_registros,modalidad
0,2019,66,Otros
1,2020,70,Otros
2,2021,107,Otros
3,2022,95,Otros
4,2023,104,Otros
5,2024,119,Otros
6,2025,122,Otros
7,2026,132,Otros


In [32]:
conteo_pachuca = pd.concat([
    total_conteo_pachuca,
    nueva_conteo_pachuca,
    mejoramiento_conteo_pachuca,
    usada_conteo_pachuca,
    otros_conteo_pachuca,
])

In [33]:
# Datos
año = conteo_pachuca['año']
modalidades = conteo_pachuca['modalidad']
creditos = conteo_pachuca['num_registros']

fig = go.Figure()
# Agregar líneas para cada modalidad
for modalidad in modalidades.unique():
    df_modalidad = conteo_pachuca[conteo_pachuca['modalidad'] == modalidad]
    fig.add_trace(go.Scatter(
        x=df_modalidad['año'],
        y=df_modalidad['num_registros'].apply(lambda x: float(x.replace(',', ''))),  # Usar los montos limpios
        mode='markers+lines',
        name=modalidad
    ))
fig.update_layout(
    title='Créditos',
    yaxis=dict(gridcolor='#dddcda'),
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Agregar etiquetas de texto a los puntos
#for trace in fig.data:
#    df_modalidad = conteo_pachuca[conteo_pachuca['modalidad'] == trace.name]
#    for i, point in enumerate(trace.y):
#        fig.add_annotation(
#            x=trace.x[i], 
#            y=point, 
#            text=f'{df_modalidad.iloc[i]["num_registros"]}', 
#            showarrow=False,
#            font=dict(color='black', size=10),
#            yshift=10
#        )
# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

guardar_grafico_como_html(fig, 'g_scatt_forecastcreditgral_conteo_pachuca', carpeta='graficas')
fig.show()

In [34]:
conteo_tres_pachuca = pd.concat([
    total_conteo_pachuca,
    nueva_conteo_pachuca,
    usada_conteo_pachuca
])
# Datos
año = conteo_tres_pachuca['año']
modalidades = conteo_tres_pachuca['modalidad']
creditos = conteo_tres_pachuca['num_registros']

fig = go.Figure()
# Agregar líneas para cada modalidad
for modalidad in modalidades.unique():
    df_modalidad = conteo_tres_pachuca[conteo_tres_pachuca['modalidad'] == modalidad]
    fig.add_trace(go.Scatter(
        x=df_modalidad['año'],
        y=df_modalidad['num_registros'].apply(lambda x: float(x.replace(',', ''))),  # Usar los montos limpios
        mode='markers+lines',
        name=modalidad
    ))
fig.update_layout(
    title='Créditos',
    yaxis=dict(gridcolor='#dddcda'),
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)
for trace in fig.data:
    df_modalidad = conteo_tres_pachuca[conteo_tres_pachuca['modalidad'] == trace.name]
    for i, point in enumerate(trace.y):
        # No formatear el valor del monto como moneda
        fig.add_annotation(
            x=trace.x[i], 
            y=point, 
            text=f'{point}',  # Mostrar el valor simple del punto
            showarrow=False,
            font=dict(color='black', size=10),
            yshift=10
        )


# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

guardar_grafico_como_html(fig, 'g_scatt_forecastcredit_conteo_pachuca', carpeta='graficas')
fig.show()
