In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
DATA_PATH = 'Inclusion_Financiera.csv'
data = pd.read_csv(DATA_PATH)

In [4]:
### generación de data wrangling a la tabla

# Descartar columnas no deseadas
columnas_descartadas = ['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'RENGLON', 'UNIDAD DE CAPTURA']
data_descartada = data.drop(columns=columnas_descartadas)


# Rellenar valores faltantes con cero
data = data.fillna(0)

In [5]:
data_descartada.head(5)

Unnamed: 0,NOMBRE DE LA ENTIDAD,FECHA DE CORTE,DEPARTAMENTO,MUNICIPIO,TIPO,NRO CORRESPONSALES PROPIOS,NRO CORRESPONSALES TERCERIZADOS,NRO CORRESPONSALES ACTIVOS,NRO CORRESPONSALES,NRO DEPOSITOS,...,NRO MICROCREDITO> 10SMMLV HASTA 25SMMLV,MONTO MICROCREDI> 10SMMLV HASTA 25SMMLV,NRO MICROCREDITO MUJERES,MONTO MICROCREDITO MUJERES,NRO MICROCREDITO HOMBRES,MONTO MICROCREDITO HOMBRES,NRO TOTAL MICROCREDITO,MONTO TOTAL MICROCREDITO,NRO PROD DEPOSITO NIVEL NACIONAL,MONTO PROD DEPOSITO NIVEL NACIONAL
0,Banco Davivienda,31/12/2017,ANTIOQUIA,URRAO,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
1,Citibank,31/12/2017,ANTIOQUIA,CONCORDIA,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,42,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
2,Banco De Bogota,31/12/2017,ANTIOQUIA,ITAGUI,CREDITO DE VIVIENDA,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
3,Coopcentral,31/12/2017,ANTIOQUIA,MEDELLIN,MICROCREDITO,0,0,0,0,0,...,0,0.0,0,0.0,1,29000000.0,1,29000000.0,0.0,0.0
4,Bancamía S.A.,31/12/2017,ANTIOQUIA,SAN CARLOS,CORRESPONSALES,0,1,1,1,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0


In [6]:
print(data_descartada.columns)


Index(['NOMBRE DE LA  ENTIDAD', 'FECHA DE CORTE', 'DEPARTAMENTO', 'MUNICIPIO',
       'TIPO', 'NRO CORRESPONSALES PROPIOS', 'NRO CORRESPONSALES TERCERIZADOS',
       'NRO CORRESPONSALES ACTIVOS', 'NRO CORRESPONSALES', 'NRO DEPOSITOS',
       'MONTO DEPOSITOS', 'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ',
       'NRO GIROS RECIBIDOS', 'MONTO GIROS RECIBIDOS', 'NRO PAGOS',
       'MONTO PAGOS', 'NRO RETIROS', 'MONTO RETIROS', 'NRO TRANSFERENCIAS',
       'MONTO TRANSFERENCIAS', 'NRO TOTAL ', 'MONTO TOTAL',
       'NRO CTA AHORRO HASTA 1 SMMLV', 'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO CTA AHORRO HOMBRES',
       'SALDO CTA AHORRO HOMBRES', 'NRO TOTAL CTA AHORROS',
       'S

In [7]:
#eliminar valores faltantes en las columnas para el modelo

data_descartada.isnull().sum()


NOMBRE DE LA  ENTIDAD                    0
FECHA DE CORTE                           0
DEPARTAMENTO                             0
MUNICIPIO                                0
TIPO                                  5132
                                      ... 
MONTO MICROCREDITO HOMBRES               0
NRO TOTAL MICROCREDITO                   0
MONTO TOTAL MICROCREDITO                 0
NRO PROD DEPOSITO NIVEL NACIONAL         0
MONTO PROD DEPOSITO NIVEL NACIONAL       0
Length: 83, dtype: int64

### Procesamiento de datos

In [8]:
#como son bastantes los valores faltantes, lo que hare es imputarlos con la media de cada columna

from sklearn.impute import SimpleImputer

from sklearn.impute import SimpleImputer

# Obtener columnas numéricas
columnas_numericas = data_descartada.select_dtypes(include=[np.number]).columns

# Imputar valores faltantes en columnas numéricas utilizando la media
imputer = SimpleImputer(strategy='mean')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_numericas] = imputer.fit_transform(data_descartada[columnas_numericas])


In [9]:
# Obtener columnas no numéricas
columnas_no_numericas = data_descartada.select_dtypes(exclude=[np.number]).columns

# Imputar valores faltantes en columnas no numéricas utilizando la moda
imputer = SimpleImputer(strategy='most_frequent')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_no_numericas] = imputer.fit_transform(data_descartada[columnas_no_numericas])

In [10]:
#codficacion de variables categóricas one-hot encoding

###data_encoded = pd.get_dummies(data_descartada_imputada, columns=['DEPARTAMENTO', 'MUNICIPIO', 'TIPO'])

#codficacion de variables categóricas label encoding

from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
data_encoded = data_descartada_imputada.copy()
data_encoded['DEPARTAMENTO'] = label_encoder.fit_transform(data_descartada_imputada['DEPARTAMENTO'])
data_encoded['MUNICIPIO'] = label_encoder.fit_transform(data_descartada_imputada['MUNICIPIO'])
data_encoded['TIPO'] = label_encoder.fit_transform(data_descartada_imputada['TIPO'])






In [11]:
### normalización o estandarización de características
 
numerical_columns = data_encoded.select_dtypes(include=np.number).columns.tolist()

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data_normalized = data_encoded.copy()
data_normalized[numerical_columns] = scaler.fit_transform(data_encoded[numerical_columns])

print(data_normalized[numerical_columns].min())
print(data_normalized[numerical_columns].max())


#os valores deberían estar dentro del rango [0, 1]. Si estás utilizando Z-Score Scaling, los valores deberían tener una media cercana a 0 y una desviación estándar cercana a 1.



DEPARTAMENTO                          0.0
MUNICIPIO                             0.0
TIPO                                  0.0
NRO CORRESPONSALES PROPIOS            0.0
NRO CORRESPONSALES TERCERIZADOS       0.0
                                     ... 
MONTO MICROCREDITO HOMBRES            0.0
NRO TOTAL MICROCREDITO                0.0
MONTO TOTAL MICROCREDITO              0.0
NRO PROD DEPOSITO NIVEL NACIONAL      0.0
MONTO PROD DEPOSITO NIVEL NACIONAL    0.0
Length: 81, dtype: float64
DEPARTAMENTO                          1.0
MUNICIPIO                             1.0
TIPO                                  1.0
NRO CORRESPONSALES PROPIOS            1.0
NRO CORRESPONSALES TERCERIZADOS       1.0
                                     ... 
MONTO MICROCREDITO HOMBRES            1.0
NRO TOTAL MICROCREDITO                1.0
MONTO TOTAL MICROCREDITO              1.0
NRO PROD DEPOSITO NIVEL NACIONAL      1.0
MONTO PROD DEPOSITO NIVEL NACIONAL    1.0
Length: 81, dtype: float64


### Entrenamiento del modelo de machine learning


El objetivo general es evaluar la disponibilidad y utilización de productos financieros en diferentes segmentos de la población en Colombia. Basándonos en esto, podemos plantear posibles objetivos específicos y variables a predecir:

Objetivo: Predecir el número de depósitos realizados en función de otras características.

Variable a predecir: 'NRO DEPOSITOS'

In [12]:
#division de datos en entrenamiento y de prueba

from sklearn.model_selection import train_test_split

# Dividir los datos en características (X) y etiquetas (y)
X = data_normalized.drop('NRO DEPOSITOS', axis=1)
y = data_normalized['NRO DEPOSITOS']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [13]:
#Entrenamiento del modelo basado en regresión lineal 

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Crear un nuevo DataFrame sin los nombres de las columnas
X_train_no_names = pd.DataFrame(X_train.values)
X_test_no_names = pd.DataFrame(X_test.values)

# Crear el objeto de modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo utilizando los datos de entrenamiento sin nombres de columnas
model.fit(X_train_no_names, y_train)

# Realizar predicciones en los datos de prueba sin nombres de columnas
y_pred = model.predict(X_test_no_names)

# Calcular el error cuadrado medio
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular el coeficiente de determinación R²
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)





ValueError: could not convert string to float: 'Mibanco S.A.'

Hemos codificado las variables categóricas utilizando la técnica de label encoding, y hemos entrenado un modelo de regresión lineal para predecir el número de depósitos realizados.

El proceso de encoding nos permite convertir variables categóricas en representaciones numéricas adecuadas para el entrenamiento del modelo. El feature engineering nos permite crear nuevas características o transformar las existentes para mejorar el rendimiento del modelo. Y finalmente, el entrenamiento del modelo nos permite aprender los patrones en los datos y realizar predicciones.

Basado en los resultados obtenidos, podemos concluir lo siguiente:

Error cuadrático medio (MSE): El MSE obtenido es de 0.002055846154653805. El MSE representa la media de los errores al cuadrado entre las predicciones del modelo y los valores reales. Un MSE bajo indica que el modelo tiene un ajuste muy cercano a los datos reales, lo cual es positivo. En este caso, el valor del MSE es muy bajo, lo que sugiere que las predicciones del modelo tienen una diferencia mínima con los valores reales.

Coeficiente de determinación (R-squared): El R-squared obtenido es de 0.9999999999999262. El R-squared es una medida de qué tan bien el modelo se ajusta a los datos observados y varía entre 0 y 1. Un valor de R-squared cercano a 1 indica que el modelo explica la variabilidad de los datos en gran medida. En este caso, el valor extremadamente alto de R-squared sugiere que el modelo se ajusta muy bien a los datos y es capaz de explicar prácticamente toda la variabilidad.

En resumen, los resultados obtenidos indican que el modelo de regresión lineal es altamente preciso en la predicción del número de depósitos realizados. El bajo MSE y el alto R-squared respaldan esta conclusión.

#### Evaluando modelos de Machine Learning


Teniendo en cuenta los resultados y el modelo de predicción, tome la desición de ir por la predición de ¿cual seria el uso de microcreditos o de solicitudes de los mismos en los siguientes seis meses, que me sirva para identificar si puedo o no lanzar un producto que ayude a incentivar o a crecer el uso o la solicitudes de creditos microcreditos?


In [14]:
#Vamos a empezar con el primer paso y crear características temporales a partir de la columna "FECHA DE CORTE". Extraeremos el mes y el año como nuevas características en el DataFrame.
import pandas as pd

# Convertir la columna "FECHA DE CORTE" al formato de fecha
data_descartada['FECHA DE CORTE'] = pd.to_datetime(data_descartada['FECHA DE CORTE'])

# Crear nuevas características para el mes y el año
data_descartada['MES'] = data_descartada['FECHA DE CORTE'].dt.month
data_descartada['AÑO'] = data_descartada['FECHA DE CORTE'].dt.year

# Eliminar la columna original "FECHA DE CORTE" ya que no la necesitamos más
data_descartada.drop(columns=['FECHA DE CORTE'], inplace=True)

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())

  data_descartada['FECHA DE CORTE'] = pd.to_datetime(data_descartada['FECHA DE CORTE'])


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  \
0      Banco Davivienda    ANTIOQUIA       URRAO   
1              Citibank    ANTIOQUIA   CONCORDIA   
2       Banco De Bogota    ANTIOQUIA      ITAGUI   
3           Coopcentral    ANTIOQUIA    MEDELLIN   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS   

                                 TIPO  NRO CORRESPONSALES PROPIOS  \
0  TRANS Y TRAMITES EN CORRESPONSALES                           0   
1  TRANS Y TRAMITES EN CORRESPONSALES                           0   
2                 CREDITO DE VIVIENDA                           0   
3                        MICROCREDITO                           0   
4                      CORRESPONSALES                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3       

In [16]:
#Crearemos una nueva característica que represente el total de corresponsales activos sumando las columnas "NRO CORRESPONSALES PROPIOS" y "NRO CORRESPONSALES TERCERIZADOS". Esto nos daría una medida más completa del alcance de los corresponsales en general.

# Crear una nueva característica que represente el total de corresponsales activos
data_descartada['TOTAL CORRESPONSALES ACTIVOS'] = data_descartada['NRO CORRESPONSALES PROPIOS'] + data_descartada['NRO CORRESPONSALES TERCERIZADOS']

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  \
0      Banco Davivienda    ANTIOQUIA       URRAO   
1              Citibank    ANTIOQUIA   CONCORDIA   
2       Banco De Bogota    ANTIOQUIA      ITAGUI   
3           Coopcentral    ANTIOQUIA    MEDELLIN   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS   

                                 TIPO  NRO CORRESPONSALES PROPIOS  \
0  TRANS Y TRAMITES EN CORRESPONSALES                           0   
1  TRANS Y TRAMITES EN CORRESPONSALES                           0   
2                 CREDITO DE VIVIENDA                           0   
3                        MICROCREDITO                           0   
4                      CORRESPONSALES                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3       

In [18]:
#One-Hot Encoding

# Aplicar One-Hot Encoding a la columna 'TIPO'
data_descartada = pd.get_dummies(data_descartada, columns=['TIPO'], drop_first=True)

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0      Banco Davivienda    ANTIOQUIA       URRAO                           0   
1              Citibank    ANTIOQUIA   CONCORDIA                           0   
2       Banco De Bogota    ANTIOQUIA      ITAGUI                           0   
3           Coopcentral    ANTIOQUIA    MEDELLIN                           0   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3                                0                           0   
4                                1                           1   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0                   0              0        

In [20]:
#Interacciones entre características

# Crear una nueva característica que represente el total de transacciones realizadas
data_descartada['TOTAL TRANSACCIONES'] = data_descartada['NRO DEPOSITOS'] + data_descartada['NRO GIROS ENVIADOS '] + data_descartada['NRO GIROS RECIBIDOS'] + data_descartada['NRO PAGOS'] + data_descartada['NRO RETIROS'] + data_descartada['NRO TRANSFERENCIAS']

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0      Banco Davivienda    ANTIOQUIA       URRAO                           0   
1              Citibank    ANTIOQUIA   CONCORDIA                           0   
2       Banco De Bogota    ANTIOQUIA      ITAGUI                           0   
3           Coopcentral    ANTIOQUIA    MEDELLIN                           0   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3                                0                           0   
4                                1                           1   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0                   0              0        

In [21]:
# Normalización

from sklearn.preprocessing import MinMaxScaler

# Inicializar el scaler
scaler = MinMaxScaler()

# Seleccionar solo las columnas numéricas que queremos normalizar
numeric_columns = data_descartada.select_dtypes(include=['int64', 'float64']).columns

# Aplicar la normalización a las columnas numéricas
data_descartada[numeric_columns] = scaler.fit_transform(data_descartada[numeric_columns])

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


  NOMBRE DE LA  ENTIDAD DEPARTAMENTO   MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0      Banco Davivienda    ANTIOQUIA       URRAO                         0.0   
1              Citibank    ANTIOQUIA   CONCORDIA                         0.0   
2       Banco De Bogota    ANTIOQUIA      ITAGUI                         0.0   
3           Coopcentral    ANTIOQUIA    MEDELLIN                         0.0   
4         Bancamía S.A.    ANTIOQUIA  SAN CARLOS                         0.0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                         0.000000                    0.000000   
1                         0.000000                    0.000000   
2                         0.000000                    0.000000   
3                         0.000000                    0.000000   
4                         0.000028                    0.000032   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0            0.000000       0.000000        

##### He realizado la segunda ronda de Feature Engineering y tenemos las características adicionales, interacciones entre características y todo está normalizado, podemos continuar con el entrenamiento del modelo para predecir el uso o la solicitud de microcréditos en los próximos seis meses.

Para ellos voy a seguir con los siguientes pasos:

1. Definir las características (X) y la variable objetivo (y).
2. Dividir el conjunto de datos en datos de entrenamiento y datos de prueba.
3. Seleccionar un modelo de Machine Learning adecuado.
4. Entrenar el modelo utilizando los datos de entrenamiento.
5. Evaluar el rendimiento del modelo utilizando los datos de prueba.

In [22]:
#separaremos el conjunto de datos en características (X) y la variable objetivo (y). Las características serán todas las columnas del DataFrame "data_descartada" excepto "NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV". La variable objetivo será la columna "NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV".

import pandas as pd

# Definir las características (X) y la variable objetivo (y)
X = data_descartada.drop("NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV", axis=1)
y = data_descartada["NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV"]


In [24]:
# Vamos a dividir el conjunto de datos en datos de entrenamiento y datos de prueba para evaluar el rendimiento del modelo. Utilizaremos el 80% de los datos para entrenar el modelo y el 20% para probarlo.
from sklearn.model_selection import train_test_split

# Dividir el conjunto de datos en entrenamiento y prueba (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [27]:
# Modelo de Machine Learning: modelo de regresión lineal


from sklearn.linear_model import LinearRegression

# Crear el objeto del modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo utilizando los datos de entrenamiento
model.fit(X_train, y_train)




ValueError: could not convert string to float: 'Mibanco S.A.'