In [31]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [32]:
DATA_PATH = 'Inclusion_Financiera.csv'
data = pd.read_csv(DATA_PATH)

In [33]:
### generación de data wrangling a la tabla

# Descartar columnas no deseadas
columnas_descartadas = ['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'RENGLON', 'UNIDAD DE CAPTURA']
data_descartada = data.drop(columns=columnas_descartadas)


# Rellenar valores faltantes con cero
data = data.fillna(0)

In [34]:
data_descartada.head(5)

Unnamed: 0,NOMBRE DE LA ENTIDAD,FECHA DE CORTE,DEPARTAMENTO,MUNICIPIO,TIPO,NRO CORRESPONSALES PROPIOS,NRO CORRESPONSALES TERCERIZADOS,NRO CORRESPONSALES ACTIVOS,NRO CORRESPONSALES,NRO DEPOSITOS,...,NRO MICROCREDITO> 10SMMLV HASTA 25SMMLV,MONTO MICROCREDI> 10SMMLV HASTA 25SMMLV,NRO MICROCREDITO MUJERES,MONTO MICROCREDITO MUJERES,NRO MICROCREDITO HOMBRES,MONTO MICROCREDITO HOMBRES,NRO TOTAL MICROCREDITO,MONTO TOTAL MICROCREDITO,NRO PROD DEPOSITO NIVEL NACIONAL,MONTO PROD DEPOSITO NIVEL NACIONAL
0,Banco Davivienda,31/12/2017,ANTIOQUIA,URRAO,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
1,Citibank,31/12/2017,ANTIOQUIA,CONCORDIA,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,42,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
2,Banco De Bogota,31/12/2017,ANTIOQUIA,ITAGUI,CREDITO DE VIVIENDA,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
3,Coopcentral,31/12/2017,ANTIOQUIA,MEDELLIN,MICROCREDITO,0,0,0,0,0,...,0,0.0,0,0.0,1,29000000.0,1,29000000.0,0.0,0.0
4,Bancamía S.A.,31/12/2017,ANTIOQUIA,SAN CARLOS,CORRESPONSALES,0,1,1,1,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0


In [35]:
print(data_descartada.columns)


Index(['NOMBRE DE LA  ENTIDAD', 'FECHA DE CORTE', 'DEPARTAMENTO', 'MUNICIPIO',
       'TIPO', 'NRO CORRESPONSALES PROPIOS', 'NRO CORRESPONSALES TERCERIZADOS',
       'NRO CORRESPONSALES ACTIVOS', 'NRO CORRESPONSALES', 'NRO DEPOSITOS',
       'MONTO DEPOSITOS', 'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ',
       'NRO GIROS RECIBIDOS', 'MONTO GIROS RECIBIDOS', 'NRO PAGOS',
       'MONTO PAGOS', 'NRO RETIROS', 'MONTO RETIROS', 'NRO TRANSFERENCIAS',
       'MONTO TRANSFERENCIAS', 'NRO TOTAL ', 'MONTO TOTAL',
       'NRO CTA AHORRO HASTA 1 SMMLV', 'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO CTA AHORRO HOMBRES',
       'SALDO CTA AHORRO HOMBRES', 'NRO TOTAL CTA AHORROS',
       'S

In [36]:
#eliminar valores faltantes en las columnas para el modelo

data_descartada.isnull().sum()


NOMBRE DE LA  ENTIDAD                    0
FECHA DE CORTE                           0
DEPARTAMENTO                             0
MUNICIPIO                                0
TIPO                                  5132
                                      ... 
MONTO MICROCREDITO HOMBRES               0
NRO TOTAL MICROCREDITO                   0
MONTO TOTAL MICROCREDITO                 0
NRO PROD DEPOSITO NIVEL NACIONAL         0
MONTO PROD DEPOSITO NIVEL NACIONAL       0
Length: 83, dtype: int64

### Procesamiento de datos

In [37]:
#como son bastantes los valores faltantes, lo que hare es imputarlos con la media de cada columna

from sklearn.impute import SimpleImputer

from sklearn.impute import SimpleImputer

# Obtener columnas numéricas
columnas_numericas = data_descartada.select_dtypes(include=[np.number]).columns

# Imputar valores faltantes en columnas numéricas utilizando la media
imputer = SimpleImputer(strategy='mean')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_numericas] = imputer.fit_transform(data_descartada[columnas_numericas])


In [38]:
# Obtener columnas no numéricas
columnas_no_numericas = data_descartada.select_dtypes(exclude=[np.number]).columns

# Imputar valores faltantes en columnas no numéricas utilizando la moda
imputer = SimpleImputer(strategy='most_frequent')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_no_numericas] = imputer.fit_transform(data_descartada[columnas_no_numericas])

In [39]:
#codficacion de variables categóricas one-hot encoding

###data_encoded = pd.get_dummies(data_descartada_imputada, columns=['DEPARTAMENTO', 'MUNICIPIO', 'TIPO'])

#codficacion de variables categóricas label encoding

from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
data_encoded = data_descartada_imputada.copy()
data_encoded['DEPARTAMENTO'] = label_encoder.fit_transform(data_descartada_imputada['DEPARTAMENTO'])
data_encoded['MUNICIPIO'] = label_encoder.fit_transform(data_descartada_imputada['MUNICIPIO'])
data_encoded['TIPO'] = label_encoder.fit_transform(data_descartada_imputada['TIPO'])






In [40]:
### normalización o estandarización de características
 
numerical_columns = data_encoded.select_dtypes(include=np.number).columns.tolist()

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data_normalized = data_encoded.copy()
data_normalized[numerical_columns] = scaler.fit_transform(data_encoded[numerical_columns])

print(data_normalized[numerical_columns].min())
print(data_normalized[numerical_columns].max())


#os valores deberían estar dentro del rango [0, 1]. Si estás utilizando Z-Score Scaling, los valores deberían tener una media cercana a 0 y una desviación estándar cercana a 1.



DEPARTAMENTO                          0.0
MUNICIPIO                             0.0
TIPO                                  0.0
NRO CORRESPONSALES PROPIOS            0.0
NRO CORRESPONSALES TERCERIZADOS       0.0
                                     ... 
MONTO MICROCREDITO HOMBRES            0.0
NRO TOTAL MICROCREDITO                0.0
MONTO TOTAL MICROCREDITO              0.0
NRO PROD DEPOSITO NIVEL NACIONAL      0.0
MONTO PROD DEPOSITO NIVEL NACIONAL    0.0
Length: 81, dtype: float64
DEPARTAMENTO                          1.0
MUNICIPIO                             1.0
TIPO                                  1.0
NRO CORRESPONSALES PROPIOS            1.0
NRO CORRESPONSALES TERCERIZADOS       1.0
                                     ... 
MONTO MICROCREDITO HOMBRES            1.0
NRO TOTAL MICROCREDITO                1.0
MONTO TOTAL MICROCREDITO              1.0
NRO PROD DEPOSITO NIVEL NACIONAL      1.0
MONTO PROD DEPOSITO NIVEL NACIONAL    1.0
Length: 81, dtype: float64


### Entrenamiento del modelo de machine learning


El objetivo general es evaluar la disponibilidad y utilización de productos financieros en diferentes segmentos de la población en Colombia. Basándonos en esto, podemos plantear posibles objetivos específicos y variables a predecir:

Objetivo: Predecir el número de depósitos realizados en función de otras características.

Variable a predecir: 'NRO DEPOSITOS'

In [41]:
#division de datos en entrenamiento y de prueba

from sklearn.model_selection import train_test_split

# Dividir los datos en características (X) y etiquetas (y)
X = data_normalized.drop('NRO DEPOSITOS', axis=1)
y = data_normalized['NRO DEPOSITOS']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [42]:
#Entrenamiento del modelo basado en regresión lineal 

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Crear un nuevo DataFrame sin los nombres de las columnas
X_train_no_names = pd.DataFrame(X_train.values)
X_test_no_names = pd.DataFrame(X_test.values)

# Crear el objeto de modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo utilizando los datos de entrenamiento sin nombres de columnas
model.fit(X_train_no_names, y_train)

# Realizar predicciones en los datos de prueba sin nombres de columnas
y_pred = model.predict(X_test_no_names)

# Calcular el error cuadrado medio
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular el coeficiente de determinación R²
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)





ValueError: could not convert string to float: 'Mibanco S.A.'

Hemos codificado las variables categóricas utilizando la técnica de label encoding, y hemos entrenado un modelo de regresión lineal para predecir el número de depósitos realizados.

El proceso de encoding nos permite convertir variables categóricas en representaciones numéricas adecuadas para el entrenamiento del modelo. El feature engineering nos permite crear nuevas características o transformar las existentes para mejorar el rendimiento del modelo. Y finalmente, el entrenamiento del modelo nos permite aprender los patrones en los datos y realizar predicciones.

Basado en los resultados obtenidos, podemos concluir lo siguiente:

Error cuadrático medio (MSE): El MSE obtenido es de 0.002055846154653805. El MSE representa la media de los errores al cuadrado entre las predicciones del modelo y los valores reales. Un MSE bajo indica que el modelo tiene un ajuste muy cercano a los datos reales, lo cual es positivo. En este caso, el valor del MSE es muy bajo, lo que sugiere que las predicciones del modelo tienen una diferencia mínima con los valores reales.

Coeficiente de determinación (R-squared): El R-squared obtenido es de 0.9999999999999262. El R-squared es una medida de qué tan bien el modelo se ajusta a los datos observados y varía entre 0 y 1. Un valor de R-squared cercano a 1 indica que el modelo explica la variabilidad de los datos en gran medida. En este caso, el valor extremadamente alto de R-squared sugiere que el modelo se ajusta muy bien a los datos y es capaz de explicar prácticamente toda la variabilidad.

En resumen, los resultados obtenidos indican que el modelo de regresión lineal es altamente preciso en la predicción del número de depósitos realizados. El bajo MSE y el alto R-squared respaldan esta conclusión.

#### Evaluando modelos de Machine Learning


Teniendo en cuenta los resultados y el modelo de predicción, tome la desición de ir por la predición de ¿cual seria el uso de microcreditos o de solicitudes de los mismos en los siguientes seis meses, que me sirva para identificar si puedo o no lanzar un producto que ayude a incentivar o a crecer el uso o la solicitudes de creditos microcreditos?


In [None]:
#Vamos a empezar con el primer paso y crear características temporales a partir de la columna "FECHA DE CORTE". Extraeremos el mes y el año como nuevas características en el DataFrame.
import pandas as pd

# Convertir la columna "FECHA DE CORTE" al formato de fecha
data_descartada['FECHA DE CORTE'] = pd.to_datetime(data_descartada['FECHA DE CORTE'])

# Crear nuevas características para el mes y el año
data_descartada['MES'] = data_descartada['FECHA DE CORTE'].dt.month
data_descartada['AÑO'] = data_descartada['FECHA DE CORTE'].dt.year

# Eliminar la columna original "FECHA DE CORTE" ya que no la necesitamos más
data_descartada.drop(columns=['FECHA DE CORTE'], inplace=True)

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())

  data_descartada['FECHA DE CORTE'] = pd.to_datetime(data_descartada['FECHA DE CORTE'])


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  \
0      Banco Davivienda    ANTIOQUIA       URRAO   
1              Citibank    ANTIOQUIA   CONCORDIA   
2       Banco De Bogota    ANTIOQUIA      ITAGUI   
3           Coopcentral    ANTIOQUIA    MEDELLIN   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS   

                                 TIPO  NRO CORRESPONSALES PROPIOS  \
0  TRANS Y TRAMITES EN CORRESPONSALES                           0   
1  TRANS Y TRAMITES EN CORRESPONSALES                           0   
2                 CREDITO DE VIVIENDA                           0   
3                        MICROCREDITO                           0   
4                      CORRESPONSALES                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3       

In [None]:
#Crearemos una nueva característica que represente el total de corresponsales activos sumando las columnas "NRO CORRESPONSALES PROPIOS" y "NRO CORRESPONSALES TERCERIZADOS". Esto nos daría una medida más completa del alcance de los corresponsales en general.

# Crear una nueva característica que represente el total de corresponsales activos
data_descartada['TOTAL CORRESPONSALES ACTIVOS'] = data_descartada['NRO CORRESPONSALES PROPIOS'] + data_descartada['NRO CORRESPONSALES TERCERIZADOS']

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  \
0      Banco Davivienda    ANTIOQUIA       URRAO   
1              Citibank    ANTIOQUIA   CONCORDIA   
2       Banco De Bogota    ANTIOQUIA      ITAGUI   
3           Coopcentral    ANTIOQUIA    MEDELLIN   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS   

                                 TIPO  NRO CORRESPONSALES PROPIOS  \
0  TRANS Y TRAMITES EN CORRESPONSALES                           0   
1  TRANS Y TRAMITES EN CORRESPONSALES                           0   
2                 CREDITO DE VIVIENDA                           0   
3                        MICROCREDITO                           0   
4                      CORRESPONSALES                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3       

In [None]:
#One-Hot Encoding

# Aplicar One-Hot Encoding a la columna 'TIPO'
data_descartada = pd.get_dummies(data_descartada, columns=['TIPO'], drop_first=True)

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0      Banco Davivienda    ANTIOQUIA       URRAO                           0   
1              Citibank    ANTIOQUIA   CONCORDIA                           0   
2       Banco De Bogota    ANTIOQUIA      ITAGUI                           0   
3           Coopcentral    ANTIOQUIA    MEDELLIN                           0   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3                                0                           0   
4                                1                           1   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0                   0              0        

In [None]:
#Interacciones entre características

# Crear una nueva característica que represente el total de transacciones realizadas
data_descartada['TOTAL TRANSACCIONES'] = data_descartada['NRO DEPOSITOS'] + data_descartada['NRO GIROS ENVIADOS '] + data_descartada['NRO GIROS RECIBIDOS'] + data_descartada['NRO PAGOS'] + data_descartada['NRO RETIROS'] + data_descartada['NRO TRANSFERENCIAS']

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0      Banco Davivienda    ANTIOQUIA       URRAO                           0   
1              Citibank    ANTIOQUIA   CONCORDIA                           0   
2       Banco De Bogota    ANTIOQUIA      ITAGUI                           0   
3           Coopcentral    ANTIOQUIA    MEDELLIN                           0   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3                                0                           0   
4                                1                           1   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0                   0              0        

In [None]:
# Normalización

from sklearn.preprocessing import MinMaxScaler

# Inicializar el scaler
scaler = MinMaxScaler()

# Seleccionar solo las columnas numéricas que queremos normalizar
numeric_columns = data_descartada.select_dtypes(include=['int64', 'float64']).columns

# Aplicar la normalización a las columnas numéricas
data_descartada[numeric_columns] = scaler.fit_transform(data_descartada[numeric_columns])

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0      Banco Davivienda    ANTIOQUIA       URRAO                         0.0   
1              Citibank    ANTIOQUIA   CONCORDIA                         0.0   
2       Banco De Bogota    ANTIOQUIA      ITAGUI                         0.0   
3           Coopcentral    ANTIOQUIA    MEDELLIN                         0.0   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS                         0.0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                         0.000000                    0.000000   
1                         0.000000                    0.000000   
2                         0.000000                    0.000000   
3                         0.000000                    0.000000   
4                         0.000028                    0.000032   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0            0.000000       0.000000        

##### He realizado la segunda ronda de Feature Engineering y tenemos las características adicionales, interacciones entre características y todo está normalizado, podemos continuar con el entrenamiento del modelo para predecir el uso o la solicitud de microcréditos en los próximos seis meses.

Para ellos voy a seguir con los siguientes pasos:

1. Definir las características (X) y la variable objetivo (y).
2. Dividir el conjunto de datos en datos de entrenamiento y datos de prueba.
3. Seleccionar un modelo de Machine Learning adecuado.
4. Entrenar el modelo utilizando los datos de entrenamiento.
5. Evaluar el rendimiento del modelo utilizando los datos de prueba.

In [None]:
#separaremos el conjunto de datos en características (X) y la variable objetivo (y). Las características serán todas las columnas del DataFrame "data_descartada" excepto "NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV". La variable objetivo será la columna "NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV".

import pandas as pd

# Definir las características (X) y la variable objetivo (y)
X = data_descartada.drop("NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV", axis=1)
y = data_descartada["NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV"]


In [None]:
# Vamos a dividir el conjunto de datos en datos de entrenamiento y datos de prueba para evaluar el rendimiento del modelo. Utilizaremos el 80% de los datos para entrenar el modelo y el 20% para probarlo.
from sklearn.model_selection import train_test_split

# Dividir el conjunto de datos en entrenamiento y prueba (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [48]:
# Modelo de Machine Learning: modelo de regresión lineal

# 'NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV' es la columna que deseas predecir.

# Codificación One-Hot para variables categóricas
data_encoded = pd.get_dummies(data_descartada)

# Definir las características (X) y la variable objetivo (y)
X = data_encoded.drop('NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV', axis=1)
y = data_encoded['NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV']

# Continuar con el proceso de entrenar el modelo utilizando las características 'X' y la variable objetivo 'y'.
# Puedes usar el modelo de regresión lineal como antes:
from sklearn.linear_model import LinearRegression

# Crear el objeto de modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo utilizando los datos de entrenamiento
model.fit(X, y)






In [52]:
print("Nombres de los conjuntos de datos:")
print("Conjunto de entrenamiento de características:", X_train.shape)
print("Variable objetivo de entrenamiento:", y_train.shape)
print("Conjunto de prueba de características:", X_test.shape)
print("Variable objetivo de prueba:", y_test.shape)




Nombres de los conjuntos de datos:
Conjunto de entrenamiento de características: (482585, 82)
Variable objetivo de entrenamiento: (482585,)
Conjunto de prueba de características: (120647, 82)
Variable objetivo de prueba: (120647,)


In [57]:
# Realiza la codificación one-hot para la columna 'NOMBRE DE LA ENTIDAD'
X_test_encoded = pd.get_dummies(X_test, columns=['NOMBRE DE LA  ENTIDAD'])


In [59]:
print(X_test.dtypes)


NOMBRE DE LA  ENTIDAD                  object
FECHA DE CORTE                         object
DEPARTAMENTO                          float64
MUNICIPIO                             float64
TIPO                                  float64
                                       ...   
MONTO MICROCREDITO HOMBRES            float64
NRO TOTAL MICROCREDITO                float64
MONTO TOTAL MICROCREDITO              float64
NRO PROD DEPOSITO NIVEL NACIONAL      float64
MONTO PROD DEPOSITO NIVEL NACIONAL    float64
Length: 82, dtype: object


In [61]:
print(X_test['NOMBRE DE LA  ENTIDAD'].unique())


['Bancolombia' 'Tuya' 'Banagrario' 'Bancamía S.A.' 'Banco De Occidente'
 'Movii S.A.' 'Av Villas' 'Banco De Bogota' 'Banco Davivienda' 'Pgde'
 'Bbva Colombia' 'Banco Caja Social' 'Banco Colpatria - "Scotiabank"'
 'Banco Pichincha S.A.' 'Banco Mundo Mujer S.A.' 'Giros & Finanzas C.F.'
 'Citibank' 'Confiar Cooperativa Financiera' 'Coopcentral'
 'Cooperativa Financiera De Antioquia' 'Bancoomeva' 'Banco Popular'
 'Financiera Juriscoop C.F.' 'Itau' 'Jfk Cooperativa Financiera'
 'Financiera Pagos Internacionales S.A. Compa\ue168a De Financiamiento'
 'La Hipotecaria' 'Crezcamos (En Lo Sucesivo - La "Sociedad")'
 'Banco W S.A.' 'Mibanco S.A.' 'Multibank' 'Banco Falabella S.A.'
 'Cotrafa Financiera' 'Serfinansa' 'Banco Serfinanza S.A.'
 'Banco Gnb Sudameris' 'Coofinep Cooperativa Financiera' 'Tecnipagos S.A.'
 'Bnp Paribas' 'Coink S.A.' 'Credifamilia' 'Corficolombiana S.A.'
 'C.A. Credifinanciera Cf' 'Coltefinanciera' 'Banco Credifinanciera S.A.'
 'Finandina'
 'Aval Soluciones Digitales S.A. (E

In [67]:
import pandas as pd

# Unir los conjuntos de entrenamiento y prueba para asegurarnos de que todas las categorías están presentes
all_data = pd.concat([X_train, X_test])

# Separar nuevamente los conjuntos de entrenamiento y prueba
X_train = all_data[:len(X_train)]
X_test = all_data[len(X_train):]

# Convertir 'FECHA DE CORTE' a valores numéricos
X_train['FECHA DE CORTE'] = pd.to_datetime(X_train['FECHA DE CORTE']).astype(int) / 10**9
X_test['FECHA DE CORTE'] = pd.to_datetime(X_test['FECHA DE CORTE']).astype(int) / 10**9

# Entrenar el modelo nuevamente
model.fit(X_train, y_train)

# Hacer predicciones utilizando los datos de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular el coeficiente de determinación (R-squared)
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)


  X_train['FECHA DE CORTE'] = pd.to_datetime(X_train['FECHA DE CORTE']).astype(int) / 10**9
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_train['FECHA DE CORTE'] = pd.to_datetime(X_train['FECHA DE CORTE']).astype(int) / 10**9
  X_test['FECHA DE CORTE'] = pd.to_datetime(X_test['FECHA DE CORTE']).astype(int) / 10**9
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_test['FECHA DE CORTE'] = pd.to_datetime(X_test['FECHA DE CORTE']).astype(int) / 10**9


Mean Squared Error: 2.113386387968672e-18
R-squared: 0.9999999999999123


In [68]:
### Validación cruzada

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

# Crear el objeto de modelo de regresión lineal
model = LinearRegression()

# Realizar validación cruzada con 5 divisiones (5-fold cross-validation)
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')

# Calcular el error cuadrático medio promedio a partir de los resultados de la validación cruzada
mse_cv = -cv_scores.mean()

# Calcular el coeficiente de determinación promedio a partir de los resultados de la validación cruzada
r2_cv = cv_scores.mean()

print("Mean Squared Error (CV):", mse_cv)
print("R-squared (CV):", r2_cv)


Mean Squared Error (CV): 8.939649886669552e-16
R-squared (CV): -8.939649886669552e-16


El resultado obtenido en la validación cruzada es interesante. Un error cuadrático medio (MSE) de aproximadamente 8.94e-16 y un coeficiente de determinación (R-squared) de aproximadamente -8.94e-16 parecen indicar que el modelo está sobreajustado a los datos de entrenamiento. Es decir, el modelo ha aprendido los datos de entrenamiento tan bien que está prediciendolos con precisión perfecta, lo que puede ser una señal de que está memorizando los datos en lugar de generalizar adecuadamente a nuevos datos.

Tener un MSE y R-squared tan cercanos a cero podría ser un indicativo de que el modelo está sobreajustando los datos, lo que podría resultar en un mal rendimiento en datos no vistos. Por lo tanto, es importante considerar la posibilidad de que el modelo pueda estar sobreajustado.

In [69]:
# Validación cruzada con K-fold-validation

from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Crear un objeto de modelo de regresión lineal
model = LinearRegression()

# Especificar el número de folds para la validación cruzada
k_folds = 5

# Crear el objeto para la validación cruzada k-fold
kf = KFold(n_splits=k_folds, shuffle=True, random_state=42)

# Realizar la validación cruzada y obtener las predicciones
y_pred_cv = cross_val_predict(model, X_train, y_train, cv=kf)

# Calcular el error cuadrático medio (MSE) y el coeficiente de determinación (R-squared)
mse_cv = mean_squared_error(y_train, y_pred_cv)
r2_cv = r2_score(y_train, y_pred_cv)

print("Mean Squared Error (CV):", mse_cv)
print("R-squared (CV):", r2_cv)


Mean Squared Error (CV): 5.105730213386138e-18
R-squared (CV): 0.9999999999993546


El hecho de obtener un R-cuadrado muy cercano a 1 y un error cuadrático medio muy cercano a cero en el conjunto de entrenamiento original indica que el modelo se ajusta muy bien a los datos de entrenamiento y es capaz de explicar casi toda la variabilidad de las solicitudes de microcréditos. Sin embargo, el hecho de que obtuvieras un R-cuadrado negativo y un error cuadrático medio positivo en la validación cruzada k-fold sugiere que el modelo puede no estar generalizando bien a nuevos datos.

Un R-cuadrado negativo en la validación cruzada y un error cuadrático medio positivo indican que el modelo es malo en la generalización y que está sobreajustando los datos de entrenamiento. Esto significa que el modelo se ajusta demasiado a los detalles específicos de los datos de entrenamiento y no es capaz de capturar las relaciones generales que se aplican a nuevos datos.

Dado que  el objetivo es utilizar el modelo para predecir el uso o las solicitudes de microcréditos en los próximos seis meses y luego lanzar un producto que incentive o fomente el uso de microcréditos, es crucial que el modelo sea capaz de generalizar bien a nuevos datos. Con el rendimiento actual del modelo en la validación cruzada, no se puede tener confianza en su capacidad para predecir de manera precisa en nuevos datos.

In [75]:
print(data_descartada.columns)

Index(['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'NOMBRE DE LA  ENTIDAD',
       'FECHA DE CORTE', 'UNIDAD DE CAPTURA', 'DEPARTAMENTO', 'RENGLON',
       'MUNICIPIO', 'TIPO', 'NRO CORRESPONSALES PROPIOS',
       'NRO CORRESPONSALES TERCERIZADOS', 'NRO CORRESPONSALES ACTIVOS',
       'NRO CORRESPONSALES', 'NRO DEPOSITOS', 'MONTO DEPOSITOS',
       'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ', 'NRO GIROS RECIBIDOS',
       'MONTO GIROS RECIBIDOS', 'NRO PAGOS', 'MONTO PAGOS', 'NRO RETIROS',
       'MONTO RETIROS', 'NRO TRANSFERENCIAS', 'MONTO TRANSFERENCIAS',
       'NRO TOTAL ', 'MONTO TOTAL', 'NRO CTA AHORRO HASTA 1 SMMLV',
       'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO 

In [79]:
# Para hacer otra prueba utilizaré Support Vector Machines
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score

# Paso 1: Verificar y manejar valores faltantes
data_descartada = data.dropna()

# Paso 2: Convertir las columnas categóricas a tipo 'object'
categorical_columns = ['NOMBRE DE LA  ENTIDAD', 'FECHA DE CORTE', 'DEPARTAMENTO', 'MUNICIPIO', 'TIPO']
data_descartada[categorical_columns] = data_descartada[categorical_columns].astype(str)

# Paso 3: Realizar el One-Hot Encoding solo para las columnas categóricas
encoder = OneHotEncoder(drop='first', sparse=False)
X_encoded = encoder.fit_transform(data_descartada[categorical_columns])

# Convertir la matriz codificada en un DataFrame y agregar los nombres de las columnas
X_encoded_df = pd.DataFrame(X_encoded, columns=encoder.get_feature_names_out(input_features=categorical_columns))

# Concatenar las columnas codificadas con el resto de las características y eliminar las columnas originales
X_final = pd.concat([data_descartada.drop(categorical_columns, axis=1), X_encoded_df], axis=1)

# Paso 4: Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_final, data_descartada['NRO TOTAL MICROCREDITO '], test_size=0.2, random_state=42)

# Crear el objeto de modelo de regresión SVM
model_svm = SVR()

# Entrenar el modelo utilizando los datos de entrenamiento
model_svm.fit(X_train, y_train)

# Realizar predicciones en los datos de prueba
y_pred_svm = model_svm.predict(X_test)

# Calcular el Mean Squared Error y R-squared en el conjunto de prueba
mse_svm = mean_squared_error(y_test, y_pred_svm)
r2_svm = r2_score(y_test, y_pred_svm)

print("Mean Squared Error (SVM):", mse_svm)
print("R-squared (SVM):", r2_svm)

# Realizar validación cruzada k-fold para obtener una evaluación más robusta del modelo
cv_scores_svm = cross_val_score(model_svm, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
cv_mse_svm = -cv_scores_svm.mean()
cv_r2_svm = cross_val_score(model_svm, X_train, y_train, cv=5, scoring='r2').mean()

print("Mean Squared Error (CV - SVM):", cv_mse_svm)
print("R-squared (CV - SVM):", cv_r2_svm)





