In [22]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [23]:
DATA_PATH = 'Inclusion_Financiera.csv'
data = pd.read_csv(DATA_PATH)

In [24]:
### generación de data wrangling a la tabla

# Descartar columnas no deseadas
columnas_descartadas = ['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'RENGLON', 'UNIDAD DE CAPTURA']
data_descartada = data.drop(columns=columnas_descartadas)


# Rellenar valores faltantes con cero
data = data.fillna(0)

In [25]:
data_descartada.head(5)

Unnamed: 0,NOMBRE DE LA ENTIDAD,FECHA DE CORTE,DEPARTAMENTO,MUNICIPIO,TIPO,NRO CORRESPONSALES PROPIOS,NRO CORRESPONSALES TERCERIZADOS,NRO CORRESPONSALES ACTIVOS,NRO CORRESPONSALES,NRO DEPOSITOS,...,NRO MICROCREDITO> 10SMMLV HASTA 25SMMLV,MONTO MICROCREDI> 10SMMLV HASTA 25SMMLV,NRO MICROCREDITO MUJERES,MONTO MICROCREDITO MUJERES,NRO MICROCREDITO HOMBRES,MONTO MICROCREDITO HOMBRES,NRO TOTAL MICROCREDITO,MONTO TOTAL MICROCREDITO,NRO PROD DEPOSITO NIVEL NACIONAL,MONTO PROD DEPOSITO NIVEL NACIONAL
0,Banco Davivienda,31/12/2017,ANTIOQUIA,URRAO,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
1,Citibank,31/12/2017,ANTIOQUIA,CONCORDIA,TRANS Y TRAMITES EN CORRESPONSALES,0,0,0,0,42,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
2,Banco De Bogota,31/12/2017,ANTIOQUIA,ITAGUI,CREDITO DE VIVIENDA,0,0,0,0,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0
3,Coopcentral,31/12/2017,ANTIOQUIA,MEDELLIN,MICROCREDITO,0,0,0,0,0,...,0,0.0,0,0.0,1,29000000.0,1,29000000.0,0.0,0.0
4,Bancamía S.A.,31/12/2017,ANTIOQUIA,SAN CARLOS,CORRESPONSALES,0,1,1,1,0,...,0,0.0,0,0.0,0,0.0,0,0.0,0.0,0.0


In [26]:
print(data_descartada.columns)


Index(['NOMBRE DE LA  ENTIDAD', 'FECHA DE CORTE', 'DEPARTAMENTO', 'MUNICIPIO',
       'TIPO', 'NRO CORRESPONSALES PROPIOS', 'NRO CORRESPONSALES TERCERIZADOS',
       'NRO CORRESPONSALES ACTIVOS', 'NRO CORRESPONSALES', 'NRO DEPOSITOS',
       'MONTO DEPOSITOS', 'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ',
       'NRO GIROS RECIBIDOS', 'MONTO GIROS RECIBIDOS', 'NRO PAGOS',
       'MONTO PAGOS', 'NRO RETIROS', 'MONTO RETIROS', 'NRO TRANSFERENCIAS',
       'MONTO TRANSFERENCIAS', 'NRO TOTAL ', 'MONTO TOTAL',
       'NRO CTA AHORRO HASTA 1 SMMLV', 'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO CTA AHORRO HOMBRES',
       'SALDO CTA AHORRO HOMBRES', 'NRO TOTAL CTA AHORROS',
       'S

In [27]:
#eliminar valores faltantes en las columnas para el modelo

data_descartada.isnull().sum()


NOMBRE DE LA  ENTIDAD                    0
FECHA DE CORTE                           0
DEPARTAMENTO                             0
MUNICIPIO                                0
TIPO                                  5132
                                      ... 
MONTO MICROCREDITO HOMBRES               0
NRO TOTAL MICROCREDITO                   0
MONTO TOTAL MICROCREDITO                 0
NRO PROD DEPOSITO NIVEL NACIONAL         0
MONTO PROD DEPOSITO NIVEL NACIONAL       0
Length: 83, dtype: int64

### Procesamiento de datos

In [28]:
#como son bastantes los valores faltantes, lo que hare es imputarlos con la media de cada columna

from sklearn.impute import SimpleImputer

from sklearn.impute import SimpleImputer

# Obtener columnas numéricas
columnas_numericas = data_descartada.select_dtypes(include=[np.number]).columns

# Imputar valores faltantes en columnas numéricas utilizando la media
imputer = SimpleImputer(strategy='mean')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_numericas] = imputer.fit_transform(data_descartada[columnas_numericas])


In [29]:
# Obtener columnas no numéricas
columnas_no_numericas = data_descartada.select_dtypes(exclude=[np.number]).columns

# Imputar valores faltantes en columnas no numéricas utilizando la moda
imputer = SimpleImputer(strategy='most_frequent')
data_descartada_imputada = data_descartada.copy()
data_descartada_imputada[columnas_no_numericas] = imputer.fit_transform(data_descartada[columnas_no_numericas])

In [30]:
#codficacion de variables categóricas one-hot encoding

###data_encoded = pd.get_dummies(data_descartada_imputada, columns=['DEPARTAMENTO', 'MUNICIPIO', 'TIPO'])

#codficacion de variables categóricas label encoding

from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
data_encoded = data_descartada_imputada.copy()
data_encoded['DEPARTAMENTO'] = label_encoder.fit_transform(data_descartada_imputada['DEPARTAMENTO'])
data_encoded['MUNICIPIO'] = label_encoder.fit_transform(data_descartada_imputada['MUNICIPIO'])
data_encoded['TIPO'] = label_encoder.fit_transform(data_descartada_imputada['TIPO'])






In [31]:
### normalización o estandarización de características
 
numerical_columns = data_encoded.select_dtypes(include=np.number).columns.tolist()

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data_normalized = data_encoded.copy()
data_normalized[numerical_columns] = scaler.fit_transform(data_encoded[numerical_columns])

print(data_normalized[numerical_columns].min())
print(data_normalized[numerical_columns].max())


#os valores deberían estar dentro del rango [0, 1]. Si estás utilizando Z-Score Scaling, los valores deberían tener una media cercana a 0 y una desviación estándar cercana a 1.



DEPARTAMENTO                          0.0
MUNICIPIO                             0.0
TIPO                                  0.0
NRO CORRESPONSALES PROPIOS            0.0
NRO CORRESPONSALES TERCERIZADOS       0.0
                                     ... 
MONTO MICROCREDITO HOMBRES            0.0
NRO TOTAL MICROCREDITO                0.0
MONTO TOTAL MICROCREDITO              0.0
NRO PROD DEPOSITO NIVEL NACIONAL      0.0
MONTO PROD DEPOSITO NIVEL NACIONAL    0.0
Length: 81, dtype: float64
DEPARTAMENTO                          1.0
MUNICIPIO                             1.0
TIPO                                  1.0
NRO CORRESPONSALES PROPIOS            1.0
NRO CORRESPONSALES TERCERIZADOS       1.0
                                     ... 
MONTO MICROCREDITO HOMBRES            1.0
NRO TOTAL MICROCREDITO                1.0
MONTO TOTAL MICROCREDITO              1.0
NRO PROD DEPOSITO NIVEL NACIONAL      1.0
MONTO PROD DEPOSITO NIVEL NACIONAL    1.0
Length: 81, dtype: float64


### Entrenamiento del modelo de machine learning


El objetivo general es evaluar la disponibilidad y utilización de productos financieros en diferentes segmentos de la población en Colombia. Basándonos en esto, podemos plantear posibles objetivos específicos y variables a predecir:

Objetivo: Predecir el número de depósitos realizados en función de otras características.

Variable a predecir: 'NRO DEPOSITOS'

In [32]:
#division de datos en entrenamiento y de prueba

from sklearn.model_selection import train_test_split

# Dividir los datos en características (X) y etiquetas (y)
X = data_normalized.drop('NRO DEPOSITOS', axis=1)
y = data_normalized['NRO DEPOSITOS']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [33]:
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score

# Tu código para cargar los datos aquí...

# Convertir las columnas categóricas a tipo 'object'
categorical_columns = ['NOMBRE DE LA  ENTIDAD', 'FECHA DE CORTE', 'DEPARTAMENTO', 'MUNICIPIO', 'TIPO']
data_descartada[categorical_columns] = data_descartada[categorical_columns].astype(str)

# Utilizar LabelEncoder para codificar las variables categóricas como números enteros
label_encoder = LabelEncoder()
for column in categorical_columns:
    data_descartada[column] = label_encoder.fit_transform(data_descartada[column])

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(data_descartada.drop('NRO TOTAL MICROCREDITO ', axis=1),
                                                    data_descartada['NRO TOTAL MICROCREDITO '],
                                                    test_size=0.2, random_state=42)

# Agregar una columna de unos para el intercepto del modelo lineal
X_train = sm.add_constant(X_train)
X_test = sm.add_constant(X_test)

# Crear el objeto de modelo de regresión lineal
model = sm.OLS(y_train, X_train)

# Entrenar el modelo utilizando los datos de entrenamiento
result = model.fit()

# Realizar predicciones en los datos de prueba
y_pred = result.predict(X_test)

# Calcular el Mean Squared Error y R-squared en el conjunto de prueba
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mean Squared Error (Linear Regression):", mse)
print("R-squared (Linear Regression):", r2)


Mean Squared Error (Linear Regression): 7.626245143225783
R-squared (Linear Regression): 0.9999916702432035


Hemos codificado las variables categóricas utilizando la técnica de label encoding, y hemos entrenado un modelo de regresión lineal para predecir el número de depósitos realizados.

El proceso de encoding nos permite convertir variables categóricas en representaciones numéricas adecuadas para el entrenamiento del modelo. El feature engineering nos permite crear nuevas características o transformar las existentes para mejorar el rendimiento del modelo. Y finalmente, el entrenamiento del modelo nos permite aprender los patrones en los datos y realizar predicciones.

Basado en los resultados obtenidos, podemos concluir lo siguiente:

Error cuadrático medio (MSE): El MSE obtenido es de 0.002055846154653805. El MSE representa la media de los errores al cuadrado entre las predicciones del modelo y los valores reales. Un MSE bajo indica que el modelo tiene un ajuste muy cercano a los datos reales, lo cual es positivo. En este caso, el valor del MSE es muy bajo, lo que sugiere que las predicciones del modelo tienen una diferencia mínima con los valores reales.

Coeficiente de determinación (R-squared): El R-squared obtenido es de 0.9999999999999262. El R-squared es una medida de qué tan bien el modelo se ajusta a los datos observados y varía entre 0 y 1. Un valor de R-squared cercano a 1 indica que el modelo explica la variabilidad de los datos en gran medida. En este caso, el valor extremadamente alto de R-squared sugiere que el modelo se ajusta muy bien a los datos y es capaz de explicar prácticamente toda la variabilidad.

En resumen, los resultados obtenidos indican que el modelo de regresión lineal es altamente preciso en la predicción del número de depósitos realizados. El bajo MSE y el alto R-squared respaldan esta conclusión.

#### Evaluando modelos de Machine Learning


Teniendo en cuenta los resultados y el modelo de predicción, tome la desición de ir por la predición de ¿cual seria el uso de microcreditos o de solicitudes de los mismos en los siguientes seis meses, que me sirva para identificar si puedo o no lanzar un producto que ayude a incentivar o a crecer el uso o la solicitudes de creditos microcreditos?


In [34]:
#Vamos a empezar con el primer paso y crear características temporales a partir de la columna "FECHA DE CORTE". Extraeremos el mes y el año como nuevas características en el DataFrame.
import pandas as pd

# Convertir la columna "FECHA DE CORTE" al formato de fecha
data_descartada['FECHA DE CORTE'] = pd.to_datetime(data_descartada['FECHA DE CORTE'])

# Crear nuevas características para el mes y el año
data_descartada['MES'] = data_descartada['FECHA DE CORTE'].dt.month
data_descartada['AÑO'] = data_descartada['FECHA DE CORTE'].dt.year

# Eliminar la columna original "FECHA DE CORTE" ya que no la necesitamos más
data_descartada.drop(columns=['FECHA DE CORTE'], inplace=True)

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())

   NOMBRE DE LA  ENTIDAD  DEPARTAMENTO  MUNICIPIO  TIPO  \
0                      8             2       1104     8   
1                     24             2        228     8   
2                      9             2        463     3   
3                     29             2        574     6   
4                      4             2        835     0   

   NRO CORRESPONSALES PROPIOS  NRO CORRESPONSALES TERCERIZADOS  \
0                           0                                0   
1                           0                                0   
2                           0                                0   
3                           0                                0   
4                           0                                1   

   NRO CORRESPONSALES ACTIVOS  NRO CORRESPONSALES  NRO DEPOSITOS  \
0                           0                   0              0   
1                           0                   0             42   
2                           0               

In [35]:
#Crearemos una nueva característica que represente el total de corresponsales activos sumando las columnas "NRO CORRESPONSALES PROPIOS" y "NRO CORRESPONSALES TERCERIZADOS". Esto nos daría una medida más completa del alcance de los corresponsales en general.

# Crear una nueva característica que represente el total de corresponsales activos
data_descartada['TOTAL CORRESPONSALES ACTIVOS'] = data_descartada['NRO CORRESPONSALES PROPIOS'] + data_descartada['NRO CORRESPONSALES TERCERIZADOS']

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


   NOMBRE DE LA  ENTIDAD  DEPARTAMENTO  MUNICIPIO  TIPO  \
0                      8             2       1104     8   
1                     24             2        228     8   
2                      9             2        463     3   
3                     29             2        574     6   
4                      4             2        835     0   

   NRO CORRESPONSALES PROPIOS  NRO CORRESPONSALES TERCERIZADOS  \
0                           0                                0   
1                           0                                0   
2                           0                                0   
3                           0                                0   
4                           0                                1   

   NRO CORRESPONSALES ACTIVOS  NRO CORRESPONSALES  NRO DEPOSITOS  \
0                           0                   0              0   
1                           0                   0             42   
2                           0               

In [36]:
#One-Hot Encoding

# Aplicar One-Hot Encoding a la columna 'TIPO'
data_descartada = pd.get_dummies(data_descartada, columns=['TIPO'], drop_first=True)

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


   NOMBRE DE LA  ENTIDAD  DEPARTAMENTO  MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0                      8             2       1104                           0   
1                     24             2        228                           0   
2                      9             2        463                           0   
3                     29             2        574                           0   
4                      4             2        835                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3                                0                           0   
4                                1                           1   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0                   0              0  

In [37]:
#Interacciones entre características

# Crear una nueva característica que represente el total de transacciones realizadas
data_descartada['TOTAL TRANSACCIONES'] = data_descartada['NRO DEPOSITOS'] + data_descartada['NRO GIROS ENVIADOS '] + data_descartada['NRO GIROS RECIBIDOS'] + data_descartada['NRO PAGOS'] + data_descartada['NRO RETIROS'] + data_descartada['NRO TRANSFERENCIAS']

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


   NOMBRE DE LA  ENTIDAD  DEPARTAMENTO  MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0                      8             2       1104                           0   
1                     24             2        228                           0   
2                      9             2        463                           0   
3                     29             2        574                           0   
4                      4             2        835                           0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                                0                           0   
1                                0                           0   
2                                0                           0   
3                                0                           0   
4                                1                           1   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0                   0              0  

In [38]:
# Normalización

from sklearn.preprocessing import MinMaxScaler

# Inicializar el scaler
scaler = MinMaxScaler()

# Seleccionar solo las columnas numéricas que queremos normalizar
numeric_columns = data_descartada.select_dtypes(include=['int64', 'float64']).columns

# Aplicar la normalización a las columnas numéricas
data_descartada[numeric_columns] = scaler.fit_transform(data_descartada[numeric_columns])

# Mostrar las primeras filas del DataFrame para verificar los cambios
print(data_descartada.head())


   NOMBRE DE LA  ENTIDAD  DEPARTAMENTO  MUNICIPIO  NRO CORRESPONSALES PROPIOS  \
0               0.153846       0.04878   0.946827                         0.0   
1               0.461538       0.04878   0.195540                         0.0   
2               0.173077       0.04878   0.397084                         0.0   
3               0.557692       0.04878   0.492281                         0.0   
4               0.076923       0.04878   0.716123                         0.0   

   NRO CORRESPONSALES TERCERIZADOS  NRO CORRESPONSALES ACTIVOS  \
0                         0.000000                    0.000000   
1                         0.000000                    0.000000   
2                         0.000000                    0.000000   
3                         0.000000                    0.000000   
4                         0.000028                    0.000032   

   NRO CORRESPONSALES  NRO DEPOSITOS  MONTO DEPOSITOS  NRO GIROS ENVIADOS   \
0            0.000000       0.000000  

##### He realizado la segunda ronda de Feature Engineering y tenemos las características adicionales, interacciones entre características y todo está normalizado, podemos continuar con el entrenamiento del modelo para predecir el uso o la solicitud de microcréditos en los próximos seis meses.

Para ellos voy a seguir con los siguientes pasos:

1. Definir las características (X) y la variable objetivo (y).
2. Dividir el conjunto de datos en datos de entrenamiento y datos de prueba.
3. Seleccionar un modelo de Machine Learning adecuado.
4. Entrenar el modelo utilizando los datos de entrenamiento.
5. Evaluar el rendimiento del modelo utilizando los datos de prueba.

In [39]:
#separaremos el conjunto de datos en características (X) y la variable objetivo (y). Las características serán todas las columnas del DataFrame "data_descartada" excepto "NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV". La variable objetivo será la columna "NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV".

import pandas as pd

# Definir las características (X) y la variable objetivo (y)
X = data_descartada.drop("NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV", axis=1)
y = data_descartada["NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV"]


In [40]:
# Vamos a dividir el conjunto de datos en datos de entrenamiento y datos de prueba para evaluar el rendimiento del modelo. Utilizaremos el 80% de los datos para entrenar el modelo y el 20% para probarlo.
from sklearn.model_selection import train_test_split

# Dividir el conjunto de datos en entrenamiento y prueba (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [41]:
# Modelo de Machine Learning: modelo de regresión lineal

# 'NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV' es la columna que deseas predecir.

# Codificación One-Hot para variables categóricas
data_encoded = pd.get_dummies(data_descartada)

# Definir las características (X) y la variable objetivo (y)
X = data_encoded.drop('NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV', axis=1)
y = data_encoded['NRO MICROCREDITO > 1 SMMLV HASTA 2 SMMLV']

# Continuar con el proceso de entrenar el modelo utilizando las características 'X' y la variable objetivo 'y'.
# Puedes usar el modelo de regresión lineal como antes:
from sklearn.linear_model import LinearRegression

# Crear el objeto de modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo utilizando los datos de entrenamiento
model.fit(X, y)






In [42]:
print("Nombres de los conjuntos de datos:")
print("Conjunto de entrenamiento de características:", X_train.shape)
print("Variable objetivo de entrenamiento:", y_train.shape)
print("Conjunto de prueba de características:", X_test.shape)
print("Variable objetivo de prueba:", y_test.shape)




Nombres de los conjuntos de datos:
Conjunto de entrenamiento de características: (482585, 93)
Variable objetivo de entrenamiento: (482585,)
Conjunto de prueba de características: (120647, 93)
Variable objetivo de prueba: (120647,)


In [43]:
# Realiza la codificación one-hot para la columna 'NOMBRE DE LA ENTIDAD'
X_test_encoded = pd.get_dummies(X_test, columns=['NOMBRE DE LA  ENTIDAD'])


In [44]:
print(X_test.dtypes)


NOMBRE DE LA  ENTIDAD              float64
DEPARTAMENTO                       float64
MUNICIPIO                          float64
NRO CORRESPONSALES PROPIOS         float64
NRO CORRESPONSALES TERCERIZADOS    float64
                                    ...   
TIPO_6                                bool
TIPO_7                                bool
TIPO_8                                bool
TIPO_9                                bool
TOTAL TRANSACCIONES                float64
Length: 93, dtype: object


In [45]:
print(X_test['NOMBRE DE LA  ENTIDAD'].unique())


[0.36538462 1.         0.05769231 0.07692308 0.19230769 0.88461538
 0.01923077 0.17307692 0.15384615 0.92307692 0.40384615 0.09615385
 0.11538462 0.26923077 0.25       0.75       0.46153846 0.51923077
 0.55769231 0.57692308 0.38461538 0.28846154 0.69230769 0.78846154
 0.80769231 0.71153846 0.82692308 0.65384615 0.34615385 0.86538462
 0.90384615 0.21153846 0.61538462 0.96153846 0.32692308 0.23076923
 0.53846154 0.98076923 0.42307692 0.48076923 0.63461538 0.59615385
 0.44230769 0.5        0.13461538 0.73076923 0.03846154 0.94230769
 0.30769231 0.76923077 0.         0.84615385 0.67307692]


In [46]:
print(data_descartada.columns)

Index(['NOMBRE DE LA  ENTIDAD', 'DEPARTAMENTO', 'MUNICIPIO',
       'NRO CORRESPONSALES PROPIOS', 'NRO CORRESPONSALES TERCERIZADOS',
       'NRO CORRESPONSALES ACTIVOS', 'NRO CORRESPONSALES', 'NRO DEPOSITOS',
       'MONTO DEPOSITOS', 'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ',
       'NRO GIROS RECIBIDOS', 'MONTO GIROS RECIBIDOS', 'NRO PAGOS',
       'MONTO PAGOS', 'NRO RETIROS', 'MONTO RETIROS', 'NRO TRANSFERENCIAS',
       'MONTO TRANSFERENCIAS', 'NRO TOTAL ', 'MONTO TOTAL',
       'NRO CTA AHORRO HASTA 1 SMMLV', 'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO CTA AHORRO HOMBRES',
       'SALDO CTA AHORRO HOMBRES', 'NRO TOTAL CTA AHORROS',
       'SALDO TOTAL CTA AHORROS', '

In [48]:
import pandas as pd

# Unir los conjuntos de entrenamiento y prueba para asegurarnos de que todas las categorías están presentes
all_data = pd.concat([X_train, X_test])

# Separar nuevamente los conjuntos de entrenamiento y prueba
X_train = all_data[:len(X_train)]
X_test = all_data[len(X_train):]



# Entrenar el modelo nuevamente
model.fit(X_train, y_train)

# Hacer predicciones utilizando los datos de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular el coeficiente de determinación (R-squared)
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)


Mean Squared Error: 1.440153242680545e-08
R-squared: 0.9992043025462128


In [49]:
### Validación cruzada

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

# Crear el objeto de modelo de regresión lineal
model = LinearRegression()

# Realizar validación cruzada con 5 divisiones (5-fold cross-validation)
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')

# Calcular el error cuadrático medio promedio a partir de los resultados de la validación cruzada
mse_cv = -cv_scores.mean()

# Calcular el coeficiente de determinación promedio a partir de los resultados de la validación cruzada
r2_cv = cv_scores.mean()

print("Mean Squared Error (CV):", mse_cv)
print("R-squared (CV):", r2_cv)


Mean Squared Error (CV): 1.667532253144185e-08
R-squared (CV): -1.667532253144185e-08


El resultado obtenido en la validación cruzada es interesante. Un error cuadrático medio (MSE) de aproximadamente 8.94e-16 y un coeficiente de determinación (R-squared) de aproximadamente -8.94e-16 parecen indicar que el modelo está sobreajustado a los datos de entrenamiento. Es decir, el modelo ha aprendido los datos de entrenamiento tan bien que está prediciendolos con precisión perfecta, lo que puede ser una señal de que está memorizando los datos en lugar de generalizar adecuadamente a nuevos datos.

Tener un MSE y R-squared tan cercanos a cero podría ser un indicativo de que el modelo está sobreajustando los datos, lo que podría resultar en un mal rendimiento en datos no vistos. Por lo tanto, es importante considerar la posibilidad de que el modelo pueda estar sobreajustado.

In [50]:
# Validación cruzada con K-fold-validation

from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Crear un objeto de modelo de regresión lineal
model = LinearRegression()

# Especificar el número de folds para la validación cruzada
k_folds = 5

# Crear el objeto para la validación cruzada k-fold
kf = KFold(n_splits=k_folds, shuffle=True, random_state=42)

# Realizar la validación cruzada y obtener las predicciones
y_pred_cv = cross_val_predict(model, X_train, y_train, cv=kf)

# Calcular el error cuadrático medio (MSE) y el coeficiente de determinación (R-squared)
mse_cv = mean_squared_error(y_train, y_pred_cv)
r2_cv = r2_score(y_train, y_pred_cv)

print("Mean Squared Error (CV):", mse_cv)
print("R-squared (CV):", r2_cv)


Mean Squared Error (CV): 1.859020020341225e-08
R-squared (CV): 0.9994157504670683


El hecho de obtener un R-cuadrado muy cercano a 1 y un error cuadrático medio muy cercano a cero en el conjunto de entrenamiento original indica que el modelo se ajusta muy bien a los datos de entrenamiento y es capaz de explicar casi toda la variabilidad de las solicitudes de microcréditos. Sin embargo, el hecho de que obtuvieras un R-cuadrado negativo y un error cuadrático medio positivo en la validación cruzada k-fold sugiere que el modelo puede no estar generalizando bien a nuevos datos.

Un R-cuadrado negativo en la validación cruzada y un error cuadrático medio positivo indican que el modelo es malo en la generalización y que está sobreajustando los datos de entrenamiento. Esto significa que el modelo se ajusta demasiado a los detalles específicos de los datos de entrenamiento y no es capaz de capturar las relaciones generales que se aplican a nuevos datos.

Dado que  el objetivo es utilizar el modelo para predecir el uso o las solicitudes de microcréditos en los próximos seis meses y luego lanzar un producto que incentive o fomente el uso de microcréditos, es crucial que el modelo sea capaz de generalizar bien a nuevos datos. Con el rendimiento actual del modelo en la validación cruzada, no se puede tener confianza en su capacidad para predecir de manera precisa en nuevos datos.

In [None]:
print(data_descartada.columns)

Index(['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'NOMBRE DE LA  ENTIDAD',
       'FECHA DE CORTE', 'UNIDAD DE CAPTURA', 'DEPARTAMENTO', 'RENGLON',
       'MUNICIPIO', 'TIPO', 'NRO CORRESPONSALES PROPIOS',
       'NRO CORRESPONSALES TERCERIZADOS', 'NRO CORRESPONSALES ACTIVOS',
       'NRO CORRESPONSALES', 'NRO DEPOSITOS', 'MONTO DEPOSITOS',
       'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ', 'NRO GIROS RECIBIDOS',
       'MONTO GIROS RECIBIDOS', 'NRO PAGOS', 'MONTO PAGOS', 'NRO RETIROS',
       'MONTO RETIROS', 'NRO TRANSFERENCIAS', 'MONTO TRANSFERENCIAS',
       'NRO TOTAL ', 'MONTO TOTAL', 'NRO CTA AHORRO HASTA 1 SMMLV',
       'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO 

## Ingeniería de atributos y selección de variables

In [52]:
import pandas as pd

# Convertir 'FECHA DE CORTE' a objeto de fecha
data['FECHA DE CORTE'] = pd.to_datetime(data['FECHA DE CORTE'])

# Extraer características de tiempo
data['MES'] = data['FECHA DE CORTE'].dt.month
data['DIA_SEMANA'] = data['FECHA DE CORTE'].dt.dayofweek
data['ESTACION'] = (data['FECHA DE CORTE'].dt.month % 12 + 3) // 3

# Mapear los valores de estación a nombres más descriptivos
estaciones_dict = {1: 'Invierno', 2: 'Primavera', 3: 'Verano', 4: 'Otoño'}
data['ESTACION'] = data['ESTACION'].map(estaciones_dict)

# Eliminar la columna 'FECHA DE CORTE' si ya no es necesaria
data = data.drop('FECHA DE CORTE', axis=1)

# Mostrar las primeras filas del DataFrame con las nuevas características
print(data.head())


  data['FECHA DE CORTE'] = pd.to_datetime(data['FECHA DE CORTE'])


   TIPO DE ENTIDAD  CODIGO DE LA  ENTIDAD NOMBRE DE LA  ENTIDAD  \
0                1                     39      Banco Davivienda   
1                1                      9              Citibank   
2                1                      1       Banco De Bogota   
3                1                     58           Coopcentral   
4                1                     52         Bancamía S.A.   

   UNIDAD DE CAPTURA DEPARTAMENTO  RENGLON   MUNICIPIO  \
0                  1    ANTIOQUIA      847       URRAO   
1                  1    ANTIOQUIA      209   CONCORDIA   
2                  1    ANTIOQUIA      360      ITAGUI   
3                  1    ANTIOQUIA        1    MEDELLIN   
4                  1    ANTIOQUIA      649  SAN CARLOS   

                                 TIPO  NRO CORRESPONSALES PROPIOS  \
0  TRANS Y TRAMITES EN CORRESPONSALES                           0   
1  TRANS Y TRAMITES EN CORRESPONSALES                           0   
2                 CREDITO DE VIVIENDA    

In [53]:
# Calcular la columna "PORCENTAJE_CUENTAS_AHORRO_ACTIVAS"
data_descartada['PORCENTAJE_CUENTAS_AHORRO_ACTIVAS'] = data_descartada['NRO CTA AHORRO ACTIVAS'] / data_descartada['NRO TOTAL CTA AHORROS']

# Calcular la columna "PORCENTAJE_CUENTAS_AHORRO_MUJERES"
data_descartada['PORCENTAJE_CUENTAS_AHORRO_MUJERES'] = data_descartada['NRO CTA AHORRO MUJERES'] / data_descartada['NRO TOTAL CTA AHORROS']


In [58]:
# Imputar los valores faltantes con la media de cada columna
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean')
X = imputer.fit_transform(X)


In [61]:
# Calcular el porcentaje de créditos de consumo para mujeres
data['PORCENTAJE_CREDITOS_CONSUMO_MUJERES'] = data['NRO CREDITO CONSUMO MUJERES'] / data['NRO TOTAL CREDITO CONSUMO']

# Verificar el resultado
print(data[['NRO CREDITO CONSUMO MUJERES', 'NRO TOTAL CREDITO CONSUMO', 'PORCENTAJE_CREDITOS_CONSUMO_MUJERES']])



        NRO CREDITO CONSUMO MUJERES  NRO TOTAL CREDITO CONSUMO  \
0                                 0                          0   
1                                 0                          0   
2                                 0                          0   
3                                 0                          0   
4                                 0                          0   
...                             ...                        ...   
603227                            0                          0   
603228                            0                          0   
603229                            0                          0   
603230                            0                          0   
603231                            0                          0   

        PORCENTAJE_CREDITOS_CONSUMO_MUJERES  
0                                       NaN  
1                                       NaN  
2                                       NaN  
3                      

In [63]:
# Calcular el porcentaje de microcréditos para mujeres
data['PORCENTAJE_MICROCREDITO_MUJERES'] = data['NRO MICROCREDITO MUJERES'] / data['NRO TOTAL MICROCREDITO ']

# Verificar el resultado
print(data[['NRO MICROCREDITO MUJERES', 'NRO TOTAL MICROCREDITO ', 'PORCENTAJE_MICROCREDITO_MUJERES']])


        NRO MICROCREDITO MUJERES  NRO TOTAL MICROCREDITO   \
0                              0                        0   
1                              0                        0   
2                              0                        0   
3                              0                        1   
4                              0                        0   
...                          ...                      ...   
603227                         0                        0   
603228                         0                        0   
603229                         0                        0   
603230                         0                        0   
603231                         0                        0   

        PORCENTAJE_MICROCREDITO_MUJERES  
0                                   NaN  
1                                   NaN  
2                                   NaN  
3                                   0.0  
4                                   NaN  
...            

In [65]:
import numpy as np

# Agregar una constante positiva (1) a la característica para evitar ceros
data['NRO DEPOSITOS_LOG'] = np.log(data['NRO DEPOSITOS'] + 1)

# Verificar la distribución después de la transformación
print(data['NRO DEPOSITOS_LOG'].describe())



count    603232.000000
mean          0.736831
std           1.996027
min           0.000000
25%           0.000000
50%           0.000000
75%           0.000000
max          17.342028
Name: NRO DEPOSITOS_LOG, dtype: float64


Para probar distintos modelos y elegir el mejor, primero, recordemos que tenemos las siguientes características en nuestro conjunto de datos:

Características relacionadas con cuentas de ahorro:

- "NRO CTA AHORRO HASTA 1 SMMLV"
- "NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV"
- "NRO CTA AHORRO > 3 SMMLV HASTA 5 SMMLV"
- "NRO CTA AHORRO ACTIVAS"
- "NRO CTA AHORRO MUJERES"
- "NRO CTA AHORRO HOMBRES"

Características relacionadas con créditos de consumo:

- "NRO CREDITO CONSUMO MUJERES"
- "NRO CREDITO CONSUMO HOMBRES"
-"NRO TOTAL CREDITO CONSUMO"

Características relacionadas con microcréditos:

- "NRO MICROCREDITO MUJERES"
- "NRO MICROCREDITO HOMBRES"
- "NRO TOTAL MICROCREDITO"

Características transformadas:

- "NRO DEPOSITOS_LOG"
- "MONTO GIROS ENVIADOS_LOG"
- "NRO GIROS RECIBIDOS_LOG"

In [67]:
print(data_descartada.columns)


Index(['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'NOMBRE DE LA  ENTIDAD',
       'FECHA DE CORTE', 'UNIDAD DE CAPTURA', 'DEPARTAMENTO', 'RENGLON',
       'MUNICIPIO', 'TIPO', 'NRO CORRESPONSALES PROPIOS',
       'NRO CORRESPONSALES TERCERIZADOS', 'NRO CORRESPONSALES ACTIVOS',
       'NRO CORRESPONSALES', 'NRO DEPOSITOS', 'MONTO DEPOSITOS',
       'NRO GIROS ENVIADOS ', 'MONTO GIROS ENVIADOS ', 'NRO GIROS RECIBIDOS',
       'MONTO GIROS RECIBIDOS', 'NRO PAGOS', 'MONTO PAGOS', 'NRO RETIROS',
       'MONTO RETIROS', 'NRO TRANSFERENCIAS', 'MONTO TRANSFERENCIAS',
       'NRO TOTAL ', 'MONTO TOTAL', 'NRO CTA AHORRO HASTA 1 SMMLV',
       'SALDO CTA AHORRO HASTA 1 SMMLV',
       'NRO CTA AHORRO > 1 SMMLV HASTA 3 SMMLV',
       'SALDO CTA AHORRO> 1 SMMLV HASTA 3 SMMLV',
       'NRO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV',
       'SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV', 'NRO CTA AHORRO ACTIVAS',
       'SALDO CTA AHORRO ACTIVAS', 'NRO CTA AHORRO MUJERES',
       'SALDO CTA AHORRO MUJERES', 'NRO 

In [82]:
# Eliminar columnas innecesarias solo si existen en el DataFrame
columns_to_drop = ['TIPO DE ENTIDAD', 'CODIGO DE LA  ENTIDAD', 'UNIDAD DE CAPTURA', 'RENGLON']
existing_columns = [col for col in columns_to_drop if col in data_descartada.columns]
data_descartada = data_descartada.drop(columns=existing_columns)

# Eliminar espacios adicionales en los nombres de las columnas
data_descartada.columns = data_descartada.columns.str.strip()

# Dividir los datos en características (X) y variable objetivo (y)
X = data_descartada.drop(columns=['NRO TOTAL MICROCREDITO', 'NRO DEPOSITOS', 'NRO GIROS ENVIADOS', 'NRO GIROS RECIBIDOS'])
y = data_descartada['NRO TOTAL MICROCREDITO']



In [91]:
# Eliminar filas con valores faltantes
X = X.dropna()
y = y[X.index]  # Asegúrate de eliminar las mismas filas en la variable objetivo 'y'


In [93]:
from sklearn.impute import SimpleImputer

# Crear el objeto SimpleImputer
imputer = SimpleImputer(strategy='mean')  # Puedes usar 'median' o 'constant' si prefieres

# Imputar los valores faltantes en X
X_imputed = imputer.fit_transform(X)

# Convertir de nuevo a DataFrame
X = pd.DataFrame(X_imputed, columns=X.columns)


In [95]:
# Verificar si hay valores no numéricos en las columnas
non_numeric_cols = X.select_dtypes(include=[object]).columns
print(non_numeric_cols)


Index([], dtype='object')


In [96]:
from sklearn.impute import SimpleImputer

# Crear un imputador que reemplace los NaN con la media de cada columna
imputer = SimpleImputer(strategy='mean')

# Ajustar y transformar los datos de entrenamiento
X_train_imputed = imputer.fit_transform(X_train)

# Transformar los datos de prueba
X_test_imputed = imputer.transform(X_test)

# Crear un objeto de modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo utilizando los datos de entrenamiento imputados
model.fit(X_train_imputed, y_train)

# Hacer predicciones en los datos de prueba imputados
y_pred = model.predict(X_test_imputed)

# Calcular el error cuadrático medio (MSE) y el coeficiente de determinación (R-squared)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mean Squared Error:", mse)
print("R-squared:", r2)


Mean Squared Error: 7.6258259197104055
R-squared: 0.9999916707010998


Un Mean Squared Error (MSE) de 7.63 indica que el modelo tiene un ajuste muy cercano a los datos de prueba, ya que el error cuadrático medio es bajo. Además, un R-cuadrado de 0.99999 sugiere que el modelo explica prácticamente toda la variabilidad en los datos de prueba, lo cual es un resultado excepcional.

El resultado que se obtuvo muestra un modelo que tiene un error cuadrático medio (MSE) muy bajo y un coeficiente de determinación (R-cuadrado) cercano a 1. Estos son indicadores positivos y sugieren que el modelo tiene un bajo sesgo (bias) y una baja varianza, lo que es deseable en términos del tradeoff entre bias-variance.

Un bajo sesgo (bias) significa que el modelo se ajusta bien a los datos de entrenamiento y puede capturar relaciones complejas en los datos.

Una baja varianza indica que el modelo generaliza bien a nuevos datos y no es sensible a pequeñas fluctuaciones en el conjunto de entrenamiento.

Sin embargo, es importante tener en cuenta que los resultados pueden ser demasiado buenos para ser ciertos, y es posible que el modelo esté sobreajustando los datos. Para confirmar que el modelo generaliza bien, es esencial evaluarlo en un conjunto de prueba independiente y realizar técnicas de validación cruzada para obtener estimaciones más robustas del rendimiento del modelo.

### Modelo  Gradient Boosting

In [116]:

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.impute import SimpleImputer

# Llenar los valores faltantes con la media
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y, test_size=0.2, random_state=42)

# Crear un objeto de modelo de Gradient Boosting
gb_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)

# Entrenar el modelo utilizando los datos de entrenamiento
gb_model.fit(X_train, y_train)

# Hacer predicciones en los datos de prueba
y_pred_gb = gb_model.predict(X_test)

# Calcular el error cuadrático medio (MSE) y el coeficiente de determinación (R-squared)
mse_gb = mean_squared_error(y_test, y_pred_gb)
r2_gb = r2_score(y_test, y_pred_gb)

print("Gradient Boosting - Mean Squared Error:", mse_gb)
print("Gradient Boosting - R-squared:", r2_gb)

Gradient Boosting - Mean Squared Error: 971.9667989486945
Gradient Boosting - R-squared: 0.9989383704696735


El resultado parece ser bastante bueno, ya que el valor del coeficiente de determinación (R-squared) es cercano a 1, lo que indica que el modelo es capaz de explicar una gran cantidad de la varianza en los datos de prueba. Además, el valor del error cuadrático medio (Mean Squared Error) es relativamente bajo, lo que sugiere que las predicciones del modelo son cercanas a los valores reales.

Los dos modelos: Regresión Lineal y Gradient Boosting Regressor. Los resultados obtenidos indican que ambos modelos tienen un rendimiento muy alto, ya que el valor del coeficiente de determinación (R-squared) es cercano a 1 y el error cuadrático medio (MSE) es bajo. Esto sugiere que los modelos han capturado bien las relaciones en los datos y tienen una buena capacidad de predicción.

### PCA sobre las variables usadas 

In [127]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.impute import KNNImputer

# Utilizar solo las primeras 10000 filas de datos para agilizar el proceso
data_sample = data_descartada.head(10000)

# Extraer las variables numéricas y estandarizar los datos
X = data_sample.drop(columns=['NRO TOTAL MICROCREDITO', 'NRO DEPOSITOS', 'NRO GIROS ENVIADOS', 'NRO GIROS RECIBIDOS'])
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

# Imputar los valores faltantes utilizando KNNImputer
imputer = KNNImputer(n_neighbors=5)
X_imputed = imputer.fit_transform(X_std)

# Aplicar PCA con 2 componentes principales
pca = PCA(n_components=2)
principal_components = pca.fit_transform(X_imputed)

# Obtener las cargas de las variables en los dos primeros componentes
loadings = pd.DataFrame(pca.components_.T, index=X.columns, columns=['PC1', 'PC2'])

# Ordenar las variables según sus cargas en el primer componente
loadings_pc1 = loadings['PC1'].sort_values(ascending=False)

# Ordenar las variables según sus cargas en el segundo componente
loadings_pc2 = loadings['PC2'].sort_values(ascending=False)

print("Loadings PC1:")
print(loadings_pc1)

print("\nLoadings PC2:")
print(loadings_pc2)


Loadings PC1:
NRO CTA AHORRO ACTIVAS                      0.270800
SALDO CTA AHORRO HASTA 1 SMMLV              0.270758
SALDO CTA AHORRO MUJERES                    0.269671
SALDO CTA AHORRO HOMBRES                    0.269587
SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV     0.269572
                                              ...   
MONTO MICROCREDITO> 2SMMLV HASTA 3SMMLV    -0.002692
NRO MICROCREDITO> 4 SMMLV HASTA 10 SMMLV   -0.002750
MONTO MICROCREDITO> 4SMMLV HASTA 10SMML    -0.002758
MUNICIPIO                                  -0.007270
NOMBRE DE LA  ENTIDAD                      -0.010334
Name: PC1, Length: 81, dtype: float64

Loadings PC2:
MONTO MICROCREDITO> 2SMMLV HASTA 3SMMLV     0.311778
NRO MICROCREDITO> 2 SMMLV HASTA 3 SMMLV     0.310647
MONTO MICROCREDITO> 4SMMLV HASTA 10SMML     0.307476
NRO MICROCREDITO> 4 SMMLV HASTA 10 SMMLV    0.307402
MONTO MICROCREDITO> 1SMMLV HASTA 2SMMLV     0.293503
                                              ...   
MONTO TOTAL                     

Loadings PC1:

El componente principal 1 (PC1) está más influenciado por las siguientes variables con cargas positivas:

- NRO CTA AHORRO ACTIVAS: Mayor número de cuentas de ahorro activas.
- SALDO CTA AHORRO HASTA 1 SMMLV: Mayor saldo promedio de cuentas de ahorro con montos menores a 1 SMMLV.
- SALDO CTA AHORRO MUJERES: Mayor saldo promedio de cuentas de ahorro para mujeres.
- SALDO CTA AHORRO HOMBRES: Mayor saldo promedio de cuentas de ahorro para hombres.
- SALDO CTA AHORRO> 3 SMMLV HASTA 5 SMMLV: Mayor saldo promedio de cuentas de ahorro con montos entre 3 y 5 SMMLV.

Las siguientes variables tienen cargas negativas, lo que indica que están inversamente relacionadas con PC1:

- MONTO MICROCREDITO> 2SMMLV HASTA 3SMMLV: Mayor monto promedio de microcréditos con montos entre 2 y 3 SMMLV.
- NRO MICROCREDITO> 2 SMMLV HASTA 3 SMMLV: Mayor número de microcréditos con montos entre 2 y 3 SMMLV.
- MONTO MICROCREDITO> 4SMMLV HASTA 10SMML: Mayor monto promedio de microcréditos con montos entre 4 y 10 SMMLV.
- NRO MICROCREDITO> 4 SMMLV HASTA 10 SMMLV: Mayor número de microcréditos con montos entre 4 y 10 SMMLV.
- MONTO MICROCREDITO> 1SMMLV HASTA 2SMMLV: Mayor monto promedio de microcréditos con montos entre 1 y 2 SMMLV.

Loadings PC2:

El componente principal 2 (PC2) está más influenciado por las siguientes variables con cargas positivas:

- MONTO MICROCREDITO> 2SMMLV HASTA 3SMMLV: Mayor monto promedio de microcréditos con montos entre 2 y 3 SMMLV.
- NRO MICROCREDITO> 2 SMMLV HASTA 3 SMMLV: Mayor número de microcréditos con montos entre 2 y 3 SMMLV.
- MONTO MICROCREDITO> 4SMMLV HASTA 10SMML: Mayor monto promedio de microcréditos con montos entre 4 y 10 SMMLV.
- NRO MICROCREDITO> 4 SMMLV HASTA 10 SMMLV: Mayor número de microcréditos con montos entre 4 y 10 SMMLV.

Las siguientes variables tienen cargas negativas, lo que indica que están inversamente relacionadas con PC2:

- MONTO MICROCREDITO HASTA 1 SMMLV: Mayor monto promedio de microcréditos con montos menores o iguales a 1 SMMLV.
- NRO MICROCREDITO HASTA 1 SMMLV: Mayor número de microcréditos con montos menores o iguales a 1 SMMLV.
- MONTO MICROCREDITO MUJERES: Mayor monto promedio de microcréditos para mujeres.
- NRO MICROCREDITO MUJERES: Mayor número de microcréditos para mujeres.
- MONTO CREDITO CONSUMO MUJERES: Mayor monto promedio de créditos de consumo para mujeres.