In [3]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.ensemble import RandomForestClassifier

import pandas as pd

In [4]:
prestamos = pd.read_csv('prestamos.csv')
prestamos.head()

Unnamed: 0,funded_amnt,loan_term_year,int_rate,grade_code,purpose_code,addr_state_code,home_ownership_code,annual_inc,dti,revol_util,pub_rec_bankruptcies,repaid,total_pymnt
0,2400,3,15.96,2,11,2,4,12252,8.72,98.5,0,1,3005.666844
1,10000,3,13.49,2,9,0,4,49200,20.0,21.0,0,1,12231.89
2,3000,3,18.64,4,0,0,4,48000,5.35,87.5,0,1,3939.135294
3,5600,5,21.28,5,11,0,3,40000,5.55,32.6,0,0,647.5
4,5375,5,12.69,1,9,5,4,15000,18.08,36.5,0,0,1484.59


In [5]:
# columnas necesarias para entrenar el modelo de clasificacion
model_columns = ['funded_amnt', "int_rate", "grade_code", 'purpose_code', 'addr_state_code',
                 'home_ownership_code', 'annual_inc', 'dti', 'revol_util',
                 'pub_rec_bankruptcies']

In [6]:
X = prestamos[model_columns]  # Selección de características
y = prestamos["repaid"]  # Variable objetivo

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

In [7]:
X_train.head()

Unnamed: 0,funded_amnt,int_rate,grade_code,purpose_code,addr_state_code,home_ownership_code,annual_inc,dti,revol_util,pub_rec_bankruptcies
17433,4400,11.83,1,6,0,0,48000,3.52,58.3,0
7540,8000,12.99,2,2,0,4,99000,23.93,93.4,0
4913,10000,5.42,0,4,0,0,96000,1.69,16.8,0
3679,19850,12.69,1,2,3,0,67000,18.84,24.5,0
17388,24250,16.7,4,2,4,4,126000,17.14,97.9,0


## Selección de características (feature selection) con scikit-learn

Utilizar las bibliotecas scikit-learn para realizar selección de características (feature selection) mediante el método de Eliminación Recursiva de Características (RFE) con un modelo de Máquina de Vectores de Soporte (SVC).

- RFE (Recursive Feature Elimination): Algoritmo que selecciona características de forma iterativa eliminando las menos importantes según un modelo base.
- SVC (Support Vector Classifier): Un clasificador basado en máquinas de soporte vectorial. En este caso, se usará como modelo base para evaluar la importancia de las características.

    - El modelo SVC se usa para determinar la importancia de las características.
    - El parametro n_features_to_select=4: Indica que RFE debe seleccionar las 4 características más importantes.
    - EL parametro step=1: En cada iteración, se eliminará una característica (la menos importante).

In [8]:
# variables predictoras a evaluar

w = prestamos[['funded_amnt', "int_rate", "grade_code", 'purpose_code', 'addr_state_code',
                 'home_ownership_code', 'annual_inc', 'dti', 'revol_util', 'pub_rec_bankruptcies']]
z = prestamos["repaid"]


In [10]:
# Estimador para regresion logistica
# SELECCIONAR 5 CARACTERISTICAS O VARIABLES

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Definir el estimador de tipo LogisticRegression
estimator = LogisticRegression()

# Crear RFE con el estimador
selector = RFE(estimator=estimator, n_features_to_select = 7, step = 5 )
X_rfe = selector.fit_transform(w, z)

# Resultados
print("Características seleccionadas:", selector.support_)
print("Ranking de características:", selector.ranking_)

Características seleccionadas: [False  True  True  True  True  True False  True False  True]
Ranking de características: [2 1 1 1 1 1 2 1 2 1]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### Estimador para RandomForestClassifier

In [None]:
# Importar librerías necesarias

from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

# Definir el estimador de tipo  Random Forest
estimator = RandomForestClassifier()

# Aplicar RFE para seleccionar las 7 características más importantes
selector = RFE(estimator= estimator, n_features_to_select = 7)
X_rfe = selector.fit(w, z)

# Resultados
print("Características seleccionadas:", selector.support_)
print("Ranking de características:", selector.ranking_)


Características seleccionadas: [ True  True False  True  True False  True  True  True False]
Ranking de características: [1 1 2 1 1 3 1 1 1 4]


In [11]:
# Importar librerías necesarias
# SELECCIONAR 5 CARACTERISTICAS O VARIABLES

from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

# Definir el estimador de tipo  Random Forest
estimator = RandomForestClassifier()

# Aplicar RFE para seleccionar las 5 características más importantes
selector = RFE(estimator= estimator, n_features_to_select = 5 )
X_rfe = selector.fit(w, z)

# Resultados
print("Características seleccionadas:", selector.support_)
print("Ranking de características:", selector.ranking_)

Características seleccionadas: [ True  True False False False False  True  True  True False]
Ranking de características: [1 1 4 2 3 5 1 1 1 6]
