# Ejercicio de modelamiento -- Challenge

En este ejercicio se busca realizar un modelamiento predictivo sobre la variable "BM" que se encuentra en el archivo "Entidad.csv". Para esto se realizara una serie de pasos que se describen a continuacion:

## Preprocesamiento de datos

Importamos a continuacion todas las librerias necesarias para el projecto, todos los modulos de python en el proyecto. Y creamos una instancia de la clase FeatureBuilder, que se encarga de cargar los datos y hacer las transformaciones necesarias para el proyecto.

In [1]:
import features
# Se crea una instancia de la clase FeatureBuilder la cual contiene los metodos necesarios para cargar los datos y hacer las transformaciones necesarias

feature_builder = features.FeatureBuilder(
    '/Users/miguel.acosta/Downloads/Entidad (3) (2) (3).csv'
)

Las transformaciones iniciales consisten en eliminar las columnas que no se van a utilizar, y en renombrar las columnas que se van a utilizar. Tambien calcular la variable dependiente de interes "target" para realizar los modelos


In [2]:
df = feature_builder.read_data()
df = feature_builder.preprocess_column_names(df)
df = feature_builder.create_target(df)

  df = pd.read_csv(self.file_path, sep=";", encoding="latin-1")


Realizamos ingenieria de attributos "feature engineering" sobre los valores para cada columna, para esto se utilizo la siguiente serie de pasos:
1. Convertir cada variable categorica en valores enteros applicando un mapa, este mapa ayuda a identificar la relacion entre el valor de la variable categorica y un valor entero. ejemplo, si la variable categorica es "A", el valor entero es 1, si la variable categorica es "B", el valor entero es 2, y asi sucesivamente.
2. Debido a la informacion dada en la ficha tecnica de la tarea, se applico un mapa ordinal sobre la variable "estrato" ya que esta variable tiene un orden natural, y se asigno un valor entero a cada estrato.
3. Se convirtieron las variables con fechas en respectivos objetos en python que contengan fecha usando el modulo `datetime`.

In [3]:
df = feature_builder.apply_feature_engineering(df)

## Seleccion de variables

Para realizar la seleccion de variables se utiliza el algoritmo de [Recursive Feature Elimination](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html)

El algoritmo de eliminación recursiva de características (RFE, por sus siglas en inglés) es un método de selección de características que funciona eliminando gradualmente las características que no son importantes. Se utiliza comúnmente en Machine Learning para mejorar el rendimiento de los modelos y reducir la dimensionalidad de los datos.

RFE iterativamente entrena un modelo, evalúa la importancia de cada característica y elimina la menos importante. Luego, repite el proceso con el conjunto de características restante hasta que se alcance un número deseado de características o se cumpla un criterio de parada.

Para realizar lo anterior se necesitan inputar los datos faltantes, para esto se utilizo el siguiente metodo:
1. Se normalizan las variables de tal manera que esten entre el intervalo 0 y 1
2. Para identificar la "ausencia" de datos, se inputa con -1 en los valores faltantes. Esto permite a los modelos identificar los casos en donde se desconoce o se tiene incertiudumbre sobre el valor de una variable, en vez de asumir de manera arbitraria un valor en particular*

*Ya que el objetivo inicial es encontrar que variables son mas importantes se realiza el procedimiento descrito con anterioridad. Luego en el caso del modelamiento los datos faltantes se inputaran con el algoritmo `KNNImputer`, que se encarga de inputar los valores faltantes basados en los valores de las variables mas cercanas.


In [4]:
# Normalizacion de variables de tipo continuo
df = features.normalize_data(df)

# Crear una copia de los datos con -1 imputado en los faltantes
feature_selection_df = features.get_minus_one_imputed_data(df)

# Aplicamos el RFE en los datos con -1 imputado para identificar las 10 variables mas importantes
# esto se hace para reducir el tiempo de computo en el modelamiento
important_features = list(
    features.apply_recursive_feature_elimination(
        feature_selection_df,
        target="BM",
        num_features=10
    ).columns
)
print(important_features)

['fondeador', 'saldo_anterior', 'total_fianza', 'pagaduría', 'cartera_vencida', 'cartera_deteriorada', 'cartera_deteriorada_2', 'altura', 'edad_cliente', 'mora_máxima']


Se computaron las variables mas importantes, cabe resaltar que por simplicidad y tiempo se uso un arbol de decisicion para esta seleccion `DecisionTreeClassifier`

## Modelamiento

Para el modelamiento se requiere realizar una serie de pasos, los cuales se describen a continuacion:

### Inputacion sobre variables seleccionadas 

Como se menciono anteriormente, para evitar el costo computacional exesivo se realizo un inputamiento inicial de -1 para la seleccion de variables, sin embargo para el modelamiento, dado que la cantidad de variables disminuyo significativamente se prodecede a inputar los valores faltantes usando el algoritmo de KNN.

KNNImputer (también conocido como KNN Inputer) es una técnica utilizada en el aprendizaje automático para abordar los valores faltantes dentro de los conjuntos de datos. Aprovecha el algoritmo de los k-Nearest Neighbors (KNN) para estimar las entradas faltantes.

Así es como funciona:

Identificar valores faltantes: El KNNImputer primero escanea el conjunto de datos para localizar todos los valores faltantes (a menudo representados por NaN o null).

Encontrar los vecinos más cercanos: Para cada punto de datos con un valor faltante, KNNImputer identifica el número especificado de vecinos más cercanos (k) en el conjunto de datos basado en una métrica de distancia elegida (como la distancia euclidiana). Esta métrica de distancia calcula qué tan similar es cada punto de datos al que tiene el valor faltante.

Imputar el valor faltante: Una vez que se encuentran los k vecinos más cercanos, KNNImputer calcula un valor apropiado para reemplazar la entrada faltante. Este valor puede ser:

El promedio (media) de los valores de los k vecinos (enfoque más común).
La mediana de los valores de los k vecinos.
Un promedio ponderado que considera las distancias de los vecinos (los vecinos más cercanos contribuyen con más peso).


### Seleccion del modelo
 
Existe una gran cantidad de alternativas para realizar el modelamiento. Dada la cantidad de datos lo mas adecuado es intentar una primera aproximacion usando modelos clasicos de machine learning y redes neuronales sencillas. Para esto la libreria de `lazypredict` nos permite realizar una busqueda rapida de los modelos mas adecuados para el problema con una configuracion inicial.

 

In [5]:
import lazypredict