In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
DATA_PATH = 'Inclusion_Financiera.csv'
data = pd.read_csv(DATA_PATH)

In [4]:
### generación de data wrangling a la tabla

# Descartar columnas no deseadas
columnas_descartadas = ['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'RENGLON', 'UNIDAD DE CAPTURA']
data_descartada = data.drop(columns=columnas_descartadas)


# Rellenar valores faltantes con cero
data = data.fillna(0)

In [5]:
data_descartada.head(5)

Unnamed: 0,NOMBRE DE LA ENTIDAD,FECHA DE CORTE,DEPARTAMENTO,MUNICIPIO,TIPO,NRO CORRESPONSALES PROPIOS,NRO CORRESPONSALES TERCERIZADOS,NRO CORRESPONSALES ACTIVOS,NRO CORRESPONSALES,NRO DEPOSITOS,...,NRO MICROCREDITO> 10SMMLV HASTA 25SMMLV,MONTO MICROCREDI> 10SMMLV HASTA 25SMMLV,NRO MICROCREDITO MUJERES,MONTO MICROCREDITO MUJERES,NRO MICROCREDITO HOMBRES,MONTO MICROCREDITO HOMBRES,NRO TOTAL MICROCREDITO,MONTO TOTAL MICROCREDITO,NRO PROD DEPOSITO NIVEL NACIONAL,MONTO PROD DEPOSITO NIVEL NACIONAL
0,Banco Davivienda,31/12/2017,ANTIOQUIA,URRAO,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
1,Citibank,31/12/2017,ANTIOQUIA,CONCORDIA,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,42,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
2,Banco De Bogota,31/12/2017,ANTIOQUIA,ITAGUI,CREDITO DE VIVIENDA,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
3,Coopcentral,31/12/2017,ANTIOQUIA,MEDELLIN,MICROCREDITO,0,0,0,0,0,...,0,0.0,0,0.0,1,29000000.0,1,29000000.0,0.0,0.0
4,Bancamía S.A.,31/12/2017,ANTIOQUIA,SAN CARLOS,CORRESPONSALES,0,1,1,1,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0


In [6]:
print(data_descartada.columns)


Index(['NOMBRE DE LA  ENTIDAD', 'FECHA DE CORTE', 'DEPARTAMENTO', 'MUNICIPIO',
       'TIPO', 'NRO CORRESPONSALES PROPIOS', 'NRO CORRESPONSALES TERCERIZADOS',
       'NRO CORRESPONSALES ACTIVOS', 'NRO CORRESPONSALES', 'NRO DEPOSITOS',
       'MONTO DEPOSITOS', 'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ',
       'NRO GIROS RECIBIDOS', 'MONTO GIROS RECIBIDOS', 'NRO PAGOS',
       'MONTO PAGOS', 'NRO RETIROS', 'MONTO RETIROS', 'NRO TRANSFERENCIAS',
       'MONTO TRANSFERENCIAS', 'NRO TOTAL ', 'MONTO TOTAL',
       'NRO CTA AHORRO HASTA 1 SMMLV', 'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO CTA AHORRO HOMBRES',
       'SALDO CTA AHORRO HOMBRES', 'NRO TOTAL CTA AHORROS',
       'S

In [7]:
#eliminar valores faltantes en las columnas para el modelo

data_descartada.isnull().sum()


NOMBRE DE LA  ENTIDAD                    0
FECHA DE CORTE                           0
DEPARTAMENTO                             0
MUNICIPIO                                0
TIPO                                  5132
                                      ... 
MONTO MICROCREDITO HOMBRES               0
NRO TOTAL MICROCREDITO                   0
MONTO TOTAL MICROCREDITO                 0
NRO PROD DEPOSITO NIVEL NACIONAL         0
MONTO PROD DEPOSITO NIVEL NACIONAL       0
Length: 83, dtype: int64

### Procesamiento de datos

In [9]:
#como son bastantes los valores faltantes, lo que hare es imputarlos con la media de cada columna

from sklearn.impute import SimpleImputer

from sklearn.impute import SimpleImputer

# Obtener columnas numéricas
columnas_numericas = data_descartada.select_dtypes(include=[np.number]).columns

# Imputar valores faltantes en columnas numéricas utilizando la media
imputer = SimpleImputer(strategy='mean')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_numericas] = imputer.fit_transform(data_descartada[columnas_numericas])


In [10]:
# Obtener columnas no numéricas
columnas_no_numericas = data_descartada.select_dtypes(exclude=[np.number]).columns

# Imputar valores faltantes en columnas no numéricas utilizando la moda
imputer = SimpleImputer(strategy='most_frequent')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_no_numericas] = imputer.fit_transform(data_descartada[columnas_no_numericas])

In [25]:
#codficacion de variables categóricas one-hot encoding

###data_encoded = pd.get_dummies(data_descartada_imputada, columns=['DEPARTAMENTO', 'MUNICIPIO', 'TIPO'])

#codficacion de variables categóricas label encoding

from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
data_encoded = data_descartada_imputada.copy()
data_encoded['DEPARTAMENTO'] = label_encoder.fit_transform(data_descartada_imputada['DEPARTAMENTO'])
data_encoded['MUNICIPIO'] = label_encoder.fit_transform(data_descartada_imputada['MUNICIPIO'])
data_encoded['TIPO'] = label_encoder.fit_transform(data_descartada_imputada['TIPO'])






In [21]:
### normalización o estandarización de características
 
numerical_columns = data_encoded.select_dtypes(include=np.number).columns.tolist()

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data_normalized = data_encoded.copy()
data_normalized[numerical_columns] = scaler.fit_transform(data_encoded[numerical_columns])

print(data_normalized[numerical_columns].min())
print(data_normalized[numerical_columns].max())


#os valores deberían estar dentro del rango [0, 1]. Si estás utilizando Z-Score Scaling, los valores deberían tener una media cercana a 0 y una desviación estándar cercana a 1.



DEPARTAMENTO                          0.0
MUNICIPIO                             0.0
TIPO                                  0.0
NRO CORRESPONSALES PROPIOS            0.0
NRO CORRESPONSALES TERCERIZADOS       0.0
                                     ... 
MONTO MICROCREDITO HOMBRES            0.0
NRO TOTAL MICROCREDITO                0.0
MONTO TOTAL MICROCREDITO              0.0
NRO PROD DEPOSITO NIVEL NACIONAL      0.0
MONTO PROD DEPOSITO NIVEL NACIONAL    0.0
Length: 81, dtype: float64
DEPARTAMENTO                          1.0
MUNICIPIO                             1.0
TIPO                                  1.0
NRO CORRESPONSALES PROPIOS            1.0
NRO CORRESPONSALES TERCERIZADOS       1.0
                                     ... 
MONTO MICROCREDITO HOMBRES            1.0
NRO TOTAL MICROCREDITO                1.0
MONTO TOTAL MICROCREDITO              1.0
NRO PROD DEPOSITO NIVEL NACIONAL      1.0
MONTO PROD DEPOSITO NIVEL NACIONAL    1.0
Length: 81, dtype: float64


### Entrenamiento del modelo de machine learning


El objetivo general es evaluar la disponibilidad y utilización de productos financieros en diferentes segmentos de la población en Colombia. Basándonos en esto, podemos plantear posibles objetivos específicos y variables a predecir:

Objetivo: Predecir el número de depósitos realizados en función de otras características.

Variable a predecir: 'NRO DEPOSITOS'

In [22]:
#division de datos en entrenamiento y de prueba

from sklearn.model_selection import train_test_split

# Dividir los datos en características (X) y etiquetas (y)
X = data_normalized.drop('NRO DEPOSITOS', axis=1)
y = data_normalized['NRO DEPOSITOS']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [31]:
#Entrenamiento del modelo basado en regresión lineal 

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Crear un nuevo DataFrame sin los nombres de las columnas
X_train_no_names = pd.DataFrame(X_train.values)
X_test_no_names = pd.DataFrame(X_test.values)

# Crear el objeto de modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo utilizando los datos de entrenamiento sin nombres de columnas
model.fit(X_train_no_names, y_train)

# Realizar predicciones en los datos de prueba sin nombres de columnas
y_pred = model.predict(X_test_no_names)

# Calcular el error cuadrado medio
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular el coeficiente de determinación R²
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)





Mean Squared Error: 0.002055846154653805
R-squared: 0.9999999999999262


Hemos codificado las variables categóricas utilizando la técnica de label encoding, y hemos entrenado un modelo de regresión lineal para predecir el número de depósitos realizados.

El proceso de encoding nos permite convertir variables categóricas en representaciones numéricas adecuadas para el entrenamiento del modelo. El feature engineering nos permite crear nuevas características o transformar las existentes para mejorar el rendimiento del modelo. Y finalmente, el entrenamiento del modelo nos permite aprender los patrones en los datos y realizar predicciones.

Basado en los resultados obtenidos, podemos concluir lo siguiente:

Error cuadrático medio (MSE): El MSE obtenido es de 0.002055846154653805. El MSE representa la media de los errores al cuadrado entre las predicciones del modelo y los valores reales. Un MSE bajo indica que el modelo tiene un ajuste muy cercano a los datos reales, lo cual es positivo. En este caso, el valor del MSE es muy bajo, lo que sugiere que las predicciones del modelo tienen una diferencia mínima con los valores reales.

Coeficiente de determinación (R-squared): El R-squared obtenido es de 0.9999999999999262. El R-squared es una medida de qué tan bien el modelo se ajusta a los datos observados y varía entre 0 y 1. Un valor de R-squared cercano a 1 indica que el modelo explica la variabilidad de los datos en gran medida. En este caso, el valor extremadamente alto de R-squared sugiere que el modelo se ajusta muy bien a los datos y es capaz de explicar prácticamente toda la variabilidad.

En resumen, los resultados obtenidos indican que el modelo de regresión lineal es altamente preciso en la predicción del número de depósitos realizados. El bajo MSE y el alto R-squared respaldan esta conclusión.