<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/3_Analisis_y_visualizacion_datos/6_Preprocesamiento_y_feature_engineering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# üîßüß©**Preprocesamiento y feature engineering**

üëâ √öltimo paso antes de machine learning: adaptar los datos para los algoritmos.

‚úÖ Resultado: dataset listo para modelar con aprendizaje supervisado o no supervisado.

**Objetivos de Aprendizaje**

Al finalizar este notebook, ser√°s capaz de:

1.  **Dise√±ar nuevas variables (`features`)** relevantes para problemas econ√≥micos a partir de datos existentes.
2.  **Preprocesar y limpiar datos** para que sean consumibles por algoritmos de machine learning, manejando variables categ√≥ricas y valores at√≠picos (`outliers`).
3.  **Transformar y escalar variables num√©ricas** para mejorar el rendimiento y la interpretabilidad de los modelos.

**Introducci√≥n**

Imagina que trabajas como analista cuantitativo en un banco comercial. Tu tarea es decidir si aprobar o rechazar solicitudes de cr√©dito. Una mala decisi√≥n (aprobar un cr√©dito a alguien que no pagar√°) genera p√©rdidas. Otra mala decisi√≥n (rechazar un cr√©dito a alguien que s√≠ pagar√≠a) implica un costo de oportunidad. Tu objetivo es construir un modelo que automatice y mejore esta decisi√≥n.

Recibes un conjunto de datos hist√≥ricos de clientes, con informaci√≥n demogr√°fica (edad, sexo), financiera (cuentas de ahorro, historial crediticio) y del pr√©stamo solicitado (monto, duraci√≥n, prop√≥sito). Estos son los "datos crudos".

Un modelo de machine learning no puede simplemente "leer" esta informaci√≥n. No entiende qu√© significa "prop√≥sito: auto nuevo" o qu√© implicaciones tiene una edad de 25 a√±os frente a una de 60. Tu labor es actuar como un **traductor** y un **arquitecto**: traduces los datos a un lenguaje num√©rico que el modelo entienda y construyes nuevas variables que capturen de forma m√°s precisa el **riesgo econ√≥mico** de cada solicitante.

-   Cuando un analista de cr√©dito calcula el **ratio de endeudamiento** (deuda total / ingreso anual), est√° haciendo **feature engineering**.
-   Cuando clasifica a un cliente como 'joven', 'adulto' o 'senior', est√° **discretizando una variable continua** (la edad) para capturar efectos no lineales del ciclo de vida.
-   Cuando convierte el prop√≥sito del cr√©dito ('auto', 'educaci√≥n', 'vacaciones') a un formato num√©rico, est√° **codificando variables categ√≥ricas**.

En resumen, estamos transformando datos en bruto en **indicadores de riesgo con significado econ√≥mico** que un algoritmo pueda aprovechar. La calidad de nuestro modelo de scoring depender√° cr√≠ticamente de la calidad de estas variables. Un buen conjunto de *features* puede hacer que un modelo simple supere a un modelo complejo con datos mal preparados.

**"Basura entra, basura sale" (`Garbage In, Garbage Out`)**. La calidad de nuestro modelo depende cr√≠ticamente de la calidad de nuestras variables.

## Importar librer√≠as

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

## Mejorar visualizaci√≥n de los dataframes y los gr√°ficos

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
# Configuraciones para una mejor visualizaci√≥n de los gr√°ficos
sns.set_style("whitegrid")
%matplotlib inline

## Cargar el dataset

Usaremos el dataset **German Credit Data** (https://archive.ics.uci.edu/dataset/144/statlog+german+credit+data), el cual contiene informaci√≥n sobre 1000 solicitantes de cr√©dito. El conjunto de datos incluye a individuos a quienes efectivamente se les otorg√≥ un cr√©dito. No contiene informaci√≥n sobre los solicitantes que fueron rechazados.

Para cada uno de estos 1000 individuos, el banco ya realiz√≥ una clasificaci√≥n de riesgo a posteriori, es decir, despu√©s de observar su comportamiento de pago. **La columna objetivo es Risk (o 'Riesgo')** indica si, con el tiempo, el cliente result√≥ ser un buen pagador (cumpli√≥ con sus obligaciones) o un mal pagador (incurri√≥ en impago o default).

Por lo tanto, el objetivo de un modelo entrenado con estos datos no es decidir si se aprueba o no un cr√©dito (ya que todos fueron aprobados), sino predecir, en el momento de la solicitud, la probabilidad de que un cliente aprobado se convierta en un mal pagador en el futuro.

**Fuente Original:** Los datos fueron donados al repositorio de Machine Learning de la UCI (University of California, Irvine) por el Profesor Dr. Hans Hofmann del Instituto de Estad√≠stica y Econometr√≠a de la Universidad de Hamburgo.

**Banco**: Aunque la informaci√≥n proviene de un banco real, el nombre del banco no se ha hecho p√∫blico para mantener la confidencialidad. Los datos fueron anonimizados.

**Per√≠odo de Tiempo:** La informaci√≥n corresponde a cr√©ditos otorgados en Alemania aproximadamente entre 1973 y 1975. Esto es importante tenerlo en cuenta, ya que el contexto econ√≥mico y social de esa √©poca (Alemania Occidental antes de la reunificaci√≥n) es muy diferente al actual. Por ejemplo, los montos en Marcos Alemanes (DM) y los perfiles de empleo pueden no ser directamente extrapolables a la econom√≠a de hoy, pero los patrones de comportamiento de riesgo crediticio siguen siendo muy valiosos para el aprendizaje.

In [None]:
# Cargar el dataset desde una URL p√∫blica
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data'
# Los nombres de las columnas se encuentran en la documentaci√≥n del dataset
columns = ['Estado de la cuenta corriente existente', 'Duraci√≥n en meses', 'Historia de cr√©dito', 'Prop√≥sito',
           'Monto del cr√©dito',
           'Cuenta de ahorros/bonos', 'Empleo actual desde',
           'Tasa de pago a plazos en porcentaje del ingreso disponible',
           'Estado personal y sexo', 'Otros deudores/fiadores', 'Residencia actual desde', 'Propiedad',
           'Edad', 'Otros planes de pago', 'Alojamiento', 'N√∫mero de cr√©ditos existentes en este banco',
           'Trabajo', 'N√∫mero de personas obligadas a prestar manutenci√≥n a', 'Tel√©fono', 'Trabajador extranjero',
           'Riesgo']

df = pd.read_csv(url, sep=' ', header=None, names=columns)

# Vistazo inicial a los datos
print("Dimensiones del dataset:", df.shape)
df.head()

In [None]:
# --- 1. Definici√≥n de los Diccionarios de Mapeo ---

# Atributo 1: Estado de la cuenta corriente existente
estado_cuenta_corriente_map = {
    'A11': 'Menos de 0 DM',
    'A12': 'Entre 0 y 200 DM',
    'A13': 'M√°s de 200 DM / Salario asignado',
    'A14': 'Sin cuenta corriente'
}

# Atributo 3: Historial crediticio
historial_crediticio_map = {
    'A30': 'Sin cr√©ditos / Todos pagados',
    'A31': 'Todos los cr√©ditos en este banco pagados',
    'A32': 'Cr√©ditos existentes pagados hasta ahora',
    'A33': 'Retraso en pagos en el pasado',
    'A34': 'Cuenta cr√≠tica / Otros cr√©ditos'
}

# Atributo 4: Prop√≥sito del cr√©dito
proposito_map = {
    'A40': 'Autom√≥vil (nuevo)',
    'A41': 'Autom√≥vil (usado)',
    'A42': 'Muebles / Equipo',
    'A43': 'Radio / Televisi√≥n',
    'A44': 'Electrodom√©sticos',
    'A45': 'Reparaciones',
    'A46': 'Educaci√≥n',
    'A48': 'Reciclaje',
    'A49': 'Negocios',
    'A410': 'Otros'
}

# Atributo 6: Cuenta de ahorros/bonos
cuenta_ahorros_map = {
    'A61': 'Menos de 100 DM',
    'A62': 'Entre 100 y 500 DM',
    'A63': 'Entre 500 y 1000 DM',
    'A64': 'M√°s de 1000 DM',
    'A65': 'Desconocido / Sin cuenta'
}

# Atributo 7: Empleo actual desde
empleo_actual_map = {
    'A71': 'Desempleado',
    'A72': 'Menos de 1 a√±o',
    'A73': 'Entre 1 y 4 a√±os',
    'A74': 'Entre 4 y 7 a√±os',
    'A75': 'M√°s de 7 a√±os'
}

# Atributo 9: Estado civil y sexo
estado_civil_sexo_map = {
    'A91': 'Hombre: divorciado/separado',
    'A92': 'Mujer: divorciada/separada/casada',
    'A93': 'Hombre: soltero',
    'A94': 'Hombre: casado/viudo',
    'A95': 'Mujer: soltera'
}

# Atributo 10: Otros deudores/fiadores
otros_deudores_map = {
    'A101': 'Ninguno',
    'A102': 'Co-solicitante',
    'A103': 'Garante'
}

# Atributo 12: Propiedad
propiedad_map = {
    'A121': 'Bienes inmuebles',
    'A122': 'Seguro de vida / Ahorro para vivienda',
    'A123': 'Autom√≥vil u otro',
    'A124': 'Desconocido / Sin propiedad'
}

# Atributo 14: Otros planes de pago
otros_planes_pago_map = {
    'A141': 'Banco',
    'A142': 'Tiendas',
    'A143': 'Ninguno'
}

# Atributo 15: Alojamiento
vivienda_map = {
    'A151': 'Alquiler',
    'A152': 'Propia',
    'A153': 'Gratuita'
}

# Atributo 17: Trabajo
empleo_map = {
    'A171': 'Desempleado / No cualificado - no residente',
    'A172': 'No cualificado - residente',
    'A173': 'Empleado cualificado / Funcionario',
    'A174': 'Directivo / Aut√≥nomo / Altamente cualificado'
}

# Atributo 19: Tel√©fono
telefono_map = {
    'A191': 'No tiene',
    'A192': 'S√≠, a su nombre'
}

# Atributo 20: trabajador extranjero
trabajador_extranjero_map = {
    'A201': 'S√≠',
    'A202': 'No'
}

# --- 2. Aplicaci√≥n de los Mapeos al DataFrame ---
# Creamos una copia para trabajar de forma segura
df_mapeado = df.copy()

# Se aplica el mapeo a cada columna usando los nombres en espa√±ol
df_mapeado['Estado de la cuenta corriente existente'] = df_mapeado['Estado de la cuenta corriente existente'].map(estado_cuenta_corriente_map)
df_mapeado['Historia de cr√©dito'] = df_mapeado['Historia de cr√©dito'].map(historial_crediticio_map)
df_mapeado['Prop√≥sito'] = df_mapeado['Prop√≥sito'].map(proposito_map)
df_mapeado['Cuenta de ahorros/bonos'] = df_mapeado['Cuenta de ahorros/bonos'].map(cuenta_ahorros_map)
df_mapeado['Empleo actual desde'] = df_mapeado['Empleo actual desde'].map(empleo_actual_map)
df_mapeado['Estado personal y sexo'] = df_mapeado['Estado personal y sexo'].map(estado_civil_sexo_map)
df_mapeado['Otros deudores/fiadores'] = df_mapeado['Otros deudores/fiadores'].map(otros_deudores_map)
df_mapeado['Propiedad'] = df_mapeado['Propiedad'].map(propiedad_map)
df_mapeado['Otros planes de pago'] = df_mapeado['Otros planes de pago'].map(otros_planes_pago_map)
df_mapeado['Alojamiento'] = df_mapeado['Alojamiento'].map(vivienda_map)
df_mapeado['Trabajo'] = df_mapeado['Trabajo'].map(empleo_map)
df_mapeado['Tel√©fono'] = df_mapeado['Tel√©fono'].map(telefono_map)
df_mapeado['Trabajador extranjero'] = df_mapeado['Trabajador extranjero'].map(trabajador_extranjero_map)

# --- 3. Verificaci√≥n de los Resultados ---
print("DataFrame con valores reemplazados y columnas en espa√±ol:")
display(df_mapeado.head())

In [None]:
df_mapeado.info()

## Recategorizacion variable objetivo

La variable `Riesgo` est√° codificada como 1 para 'Bueno' y 2 para 'Malo'. Vamos a recodificarla a 0 para 'Bueno' y 1 para 'Malo', que es la convenci√≥n en problemas de clasificaci√≥n de riesgo (el evento de inter√©s, el 'default', es 1).

In [None]:
# Usamos .map() para la recodificaci√≥n
df_mapeado['Riesgo'] = df_mapeado['Riesgo'].map({1: 0, 2: 1})

print("Distribuci√≥n de la variable objetivo 'Riesgo':")
print(df_mapeado['Riesgo'].value_counts(normalize=True))

Vemos un desbalance: 70% de los clientes son buenos y 30% son malos.

## Feature Engineering

**Creaci√≥n de nuevas variables a partir de las existentes.**

Ejemplos:

- PIB per c√°pita = PIB / poblaci√≥n
- Tasa de dependencia = poblaci√≥n joven + mayor / poblaci√≥n en edad de trabajar
- √çndice de concentraci√≥n = exportaciones top 3 pa√≠ses / exportaciones totales

T√©cnicas:

- Transformaciones matem√°ticas (log, ra√≠z cuadrada).
- Variables de interacci√≥n (multiplicar dos variables).
- Variables temporales (d√≠a, mes, trimestre, a√±o).

### Creaci√≥n de variables a partir de operaciones entre columnas

Una variable muy com√∫n en el an√°lisis de cr√©dito es la relaci√≥n entre el monto del cr√©dito y su duraci√≥n. Un cr√©dito muy grande a un plazo muy corto puede ser m√°s riesgoso.

**Hip√≥tesis Econ√≥mica:** La "cuota mensual impl√≠cita" (aunque no es exacta sin la tasa de inter√©s) puede ser un indicador de la carga financiera.

In [None]:
df_mapeado['Proxy pago mensual'] = df_mapeado['Monto del cr√©dito'] / df_mapeado['Duraci√≥n en meses']

In [None]:
df_mapeado[['Proxy pago mensual']].head(3)

In [None]:
# Visualicemos la relaci√≥n entre esta nueva variable y el riesgo
sns.boxplot(x='Riesgo', y='Proxy pago mensual', data=df_mapeado)
plt.title('Proxy de Cuota Mensual vs. Riesgo de Cr√©dito')
plt.xticks([0, 1], ['Buen Pagador', 'Mal Pagador'])
plt.yscale('log')
plt.show()

# Interpretaci√≥n: La mediana de la cuota mensual impl√≠cita es ligeramente m√°s baja para los malos pagadores.
# por lo que no parece que una mayor carga financiera mensual est√© asociada con un mayor riesgo de incumplimiento.


### Transformaciones matem√°ticas

In [None]:
df_mapeado['Log Monto del cr√©dito'] = np.log(df_mapeado['Monto del cr√©dito'])
df_mapeado[['Monto del cr√©dito', 'Log Monto del cr√©dito']].head()

### Asignaci√≥n de valores seg√∫n los valores de otra columna



In [None]:
df_mapeado['Trabajador extranjero'].value_counts(dropna=False)

In [None]:
df_mapeado['Trabajador extranjero 2'] = np.where(df_mapeado['Trabajador extranjero'] == 'S√≠', 1, 0)
df_mapeado[['Trabajador extranjero', 'Trabajador extranjero 2']].sample(5)

### Ejercicio

Crea una nueva variable llamada "Cantidad de cr√©ditos" donde tenga la etiqueta "Pocos cr√©ditos" si la persona solo tiene 1 o 2 cr√©ditos y "Muchos cr√©ditos" si tiene 3 o m√°s. Utiliza np.where y los valores de la columna 'N√∫mero de cr√©ditos existentes en este banco'.

### Crear variables utilizando funciones

#### Utilizando una funci√≥n que se aplica al valor de una columna

In [None]:
df_mapeado['Empleo actual desde'].value_counts(dropna=False)

In [None]:
def categoria_empleo(categoria):
  if categoria == 'Menos de 1 a√±o':
    return 0
  elif categoria == 'Entre 1 y 4 a√±os':
    return 1
  elif categoria == 'Entre 4 y 7 a√±os':
    return 2
  elif categoria == 'M√°s de 7 a√±os':
    return 3
  else:
    return -1

df_mapeado['Empleo actual desde 2'] = df_mapeado['Empleo actual desde'].apply(categoria_empleo)
df_mapeado[['Empleo actual desde', 'Empleo actual desde 2']].head()

#### Utilizando una funci√≥n que se aplica al valor de varias columnas

In [None]:
df_mapeado['N√∫mero de personas obligadas a prestar manutenci√≥n a'].value_counts(dropna=False)

In [None]:
df_mapeado['Alojamiento'].value_counts(dropna=False)

In [None]:
def nivel_gastos(alojamiento, personas):
  if alojamiento == 'Propia' and personas == 1:
    return 'Gastos bajos'
  elif alojamiento == 'Gratuita' and personas == 1:
    return 'Gastos bajos'
  elif alojamiento == 'Gratuita' and personas == 2:
    return 'Gastos altos'
  else:
    return 'Gastos altos'

df_mapeado['Nivel gastos'] = df_mapeado.apply(lambda x: nivel_gastos(x['Alojamiento'], x['N√∫mero de personas obligadas a prestar manutenci√≥n a']), axis=1)
df_mapeado[['Alojamiento', 'N√∫mero de personas obligadas a prestar manutenci√≥n a', 'Nivel gastos']].head()

#### Ejercicio

Utiliza funciones para crear una columna llamada "Bienes inmuebles" que tenga el valor de 1 si en la columna "Propiedad" dice "Bienes inmuebles" y cero si no.


### A partir de fechas

In [None]:
# df_mapeado['A√±o'] = df_mapeado['Fecha'].dt.year
# df_mapeado['Mes'] = df_mapeado['Fecha'].dt.month
# df_mapeado['Dia'] = df_mapeado['Fecha'].dt.dayofweek
# df_mapeado['Hora de la transacci√≥n'].dt.hour
# df_mapeado['Minuto de la transacci√≥n'].dt.minute

### Crear variables categ√≥ricas a partir de num√©ricas (Binning)

La edad es una variable continua, pero su efecto sobre el riesgo puede no ser lineal. Por ejemplo, tanto los muy j√≥venes (poca experiencia financiera) como los muy mayores (ingresos inciertos post-retiro) pueden ser m√°s riesgosos. Podemos agrupar la edad en categor√≠as.

In [None]:
# Usamos pd.cut para crear los "bins" o categor√≠as de edad
bins = [18, 30, 50, 100]
labels = ['Joven', 'Adulto', 'Senior']
df_mapeado['Grupo edad'] = pd.cut(df_mapeado['Edad'], bins=bins, labels=labels, right=False)

df_mapeado[['Edad', 'Grupo edad']].head()

In [None]:
# Visualizamos su impacto
sns.barplot(x='Grupo edad', y='Riesgo', data=df_mapeado)
plt.title('Tasa de Default por Grupo de Edad')
plt.ylabel('Probabilidad de ser Mal Pagador')
plt.show()

# Interpretaci√≥n: Los solicitantes m√°s j√≥venes tienen una tasa de incumplimiento m√°s alta.
# Esta nueva variable captura este efecto del ciclo de vida de una forma muy clara.

### Ejercicio

Usando el `df_mapeado`, crea una nueva variable categ√≥rica llamada `'Grupo monto cr√©dito'` que clasifique el monto del cr√©dito (`Monto del cr√©dito`) en:
- 'Bajo' (monto < 2000)
- 'Medio' (2000 <= monto < 5000)
- 'Alto' (monto >= 5000)

Luego, crea un gr√°fico de barras para visualizar la relaci√≥n entre `'Grupo monto cr√©dito'` y `'Riesgo'`. ¬øQu√© grupo parece ser m√°s riesgoso?

## Codificaci√≥n de Variables Categ√≥ricas

Los modelos de machine learning son funciones matem√°ticas; no entienden texto como "carro nuevo" o "educaci√≥n". Debemos convertir estas categor√≠as en n√∫meros de forma inteligente.

### Reemplazo de dos categor√≠as por 1 y 0

### Ejercicio

Recategoriza la columna "Tel√©fono" colocando 1 si no tiene tel√©fono y 0 si lo tiene.

### One-Hot Encoding: Para variables nominales

Se usa cuando las categor√≠as no tienen un orden inherente. Por ejemplo, el Prop√≥sito del cr√©dito. Crear una columna binaria (0/1) para cada prop√≥sito evita que el modelo asuma un orden falso (ej. que 'educaci√≥n' es "mayor" que 'autom√≥vil').

**Notas:**
- En los modelos de regresi√≥n hay que borrar una de las dummies, para √°rboles de decisi√≥n no es necesario.
- Lo m√°s conveniente es quitar aquella dummy que tenga m√°s observaciones.
- Los NA deben ser otra variable dummy.

In [None]:
df_mapeado['Prop√≥sito'].value_counts(dropna=False)

In [None]:
# Aplicamos One-Hot Encoding a la variable 'Prop√≥sito'
dummies = pd.get_dummies(df_mapeado['Prop√≥sito'], prefix='Prop√≥sito', drop_first=True, dtype=int, dummy_na=True) # drop_first para evitar multicolinealidad perfecta

# Unimos los dummies al DataFrame original y eliminamos la columna original
df_mapeado = pd.concat([df_mapeado, dummies], axis=1)
df_mapeado.drop('Prop√≥sito', axis=1, inplace=True)

print("DataFrame con One-Hot Encoding para 'Prop√≥sito':")
df_mapeado.head()

### Ejercicio

Aplica One-Hot Encoding a la variable "Estado personal y sexo".

### Label Encoding (Mapeo Manual): Para variables ordinales

Se usa cuando las categor√≠as S√ç tienen un orden claro. Por ejemplo, `Cuenta de ahorros/bonos`. La documentaci√≥n nos dice que A61 = < 100 DM, A62 = 100 <= ... < 500 DM, etc. Hay un orden claro.

**¬°Cuidado!** Usar el `LabelEncoder` de scikit-learn puede asignar n√∫meros alfab√©ticamente (A61=0, A62=1, ...), lo que podr√≠a ser correcto por casualidad. Es m√°s seguro y expl√≠cito hacer un mapeo manual para garantizar que el orden econ√≥mico se preserve.

In [None]:
df_mapeado['Cuenta de ahorros/bonos'].value_counts(dropna=False)

In [None]:
# Mapeo expl√≠cito para asegurar el orden correcto
savings_map = {'Menos de 100 DM': 0, 'Entre 100 y 500 DM': 1,
               'Entre 500 y 1000 DM': 2, 'M√°s de 1000 DM': 3,
               'Desconocido / Sin cuenta': -1} # Asignamos -1 a desconocido

df_mapeado['Cuenta de ahorros codificada'] = df_mapeado['Cuenta de ahorros/bonos'].map(savings_map)

print("DataFrame con Label Encoding para Cuentas de Ahorro:")
df_mapeado[['Cuenta de ahorros/bonos', 'Cuenta de ahorros codificada']].head()

In [None]:
# Ejemplo de c√≥mo se har√≠a con LabelEncoder
from sklearn.preprocessing import LabelEncoder

# Inicializar el LabelEncoder
# Creamos una instancia del codificador.
le = LabelEncoder()

df_mapeado['Cuenta de ahorros codificada le'] = le.fit_transform(df_mapeado['Cuenta de ahorros/bonos'])
df_mapeado[['Cuenta de ahorros/bonos', 'Cuenta de ahorros codificada', 'Cuenta de ahorros codificada le']].head()

¬øCu√°ndo usar LabelEncoder y cu√°ndo tener cuidado? ‚ö†Ô∏è

- **Ideal para la variable objetivo (y):** Es la herramienta perfecta para codificar la variable que quieres predecir en un problema de clasificaci√≥n. Por ejemplo, si quieres predecir ['Perro', 'Gato', 'P√°jaro'], LabelEncoder los convertir√° a [2, 0, 1], lo cual es perfecto.

- **Cuidado al usarlo en variables predictoras (X):** Debes tener precauci√≥n al usar LabelEncoder en tus variables de entrada. El problema es que crea una relaci√≥n ordinal artificial, basada en un orden alfab√©tico.

## Tratamiento de Outliers (Valores At√≠picos)

Los outliers son observaciones extremas que pueden distorsionar nuestros modelos, especialmente los lineales. Imagina analizar el 'Monto del cr√©dito'; un cr√©dito inusualmente grande puede sesgar las relaciones que el modelo aprende.

In [None]:
# Detectemos outliers en la variable 'Monto del cr√©dito'
sns.boxplot(x=df_mapeado['Monto del cr√©dito'])
plt.title('Detecci√≥n de Outliers en el Monto del Cr√©dito')
plt.show()

In [None]:
# C√°lculo de los l√≠mites con el Rango Intercuart√≠lico (IQR)
Q1 = df_mapeado['Monto del cr√©dito'].quantile(0.25)
Q3 = df_mapeado['Monto del cr√©dito'].quantile(0.75)
IQR = Q3 - Q1
limite_superior = Q3 + 1.5 * IQR

print(f"L√≠mite superior para Monto del cr√©dito: {limite_superior:.2f}")

outliers = df_mapeado[df_mapeado['Monto del cr√©dito'] > limite_superior]
print(f"\nN√∫mero de outliers detectados: {len(outliers)}")

### Tratamiento de Outliers: Capping (Acotamiento)

Una estrategia com√∫n es el "capping", que consiste en reemplazar los valores at√≠picos con el valor del l√≠mite superior. As√≠ no perdemos la observaci√≥n completa, solo reducimos su influencia extrema.

In [None]:
# Hacemos una copia para el ejemplo
df_capped = df_mapeado.copy()

# Aplicamos el capping
df_capped['Monto del cr√©dito'] = np.where(df_capped['Monto del cr√©dito'] > limite_superior,
                                      limite_superior,
                                      df_capped['Monto del cr√©dito'])

In [None]:
# Comprobamos visualmente
sns.boxplot(x=df_capped['Monto del cr√©dito'])
plt.title('Monto del Cr√©dito despu√©s del Capping')
plt.show()

### Tratamiento de Outliers: logaritmo natural

In [None]:
# Previamente ya hab√≠amos calculado el logaritmo natural del monto del cr√©dito
#df_mapeado['Log Monto del cr√©dito'] = np.log(df_mapeado['Monto del cr√©dito'])
df_mapeado[['Monto del cr√©dito', 'Log Monto del cr√©dito']].head()

In [None]:
sns.boxplot(x=df_mapeado['Log Monto del cr√©dito'])
plt.title('Logaritmo natural Monto del cr√©dito')
plt.show()

## Escalado y Normalizaci√≥n de Variables

Muchos algoritmos son sensibles a la escala. Si la edad va de 18 a 75 y el monto del cr√©dito de 2.500 a 180.000, el modelo podr√≠a darle m√°s importancia al monto solo por su magnitud num√©rica. Por eso, debemos poner las variables en una escala comparable. Es como comparar el PIB per c√°pita (en miles de USD) con la tasa de desempleo (en %), sus escalas son muy diferentes.

El escalado y la normalizaci√≥n son t√©cnicas de preprocesamiento de datos que ajustan la escala de las variables num√©ricas para que todas est√©n en un rango espec√≠fico.

- Se aplica cuando hay m√°s de una variable predictora, para evitar efectos de escala entre variables que pueden tener rangos de valores muy distintos.
- No siempre es necesario, pero no perjudica aplicarlo.
- S√≠ es necesario para todos los algoritmos basados en distancia, como KNN y K_means, y sensibles a la escala como redes neuronales y m√°quinas de soporte vectorial.

### Estandarizaci√≥n (StandardScaler)

Transforma los datos para que tengan una media de 0 y una desviaci√≥n est√°ndar de 1.

Es la t√©cnica m√°s com√∫n y robusta.

Permite ver cu√°ntas desviaciones est√°ndar se aleja cada individuo de la media en cada indicador.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

# Seleccionamos las columnas num√©ricas que queremos escalar
cols_to_scale = ['Duraci√≥n en meses', 'Monto del cr√©dito', 'Edad', 'Proxy pago mensual']

# Creamos los nombres para las nuevas columnas escaladas
scaled_cols = [col + '_scaled' for col in cols_to_scale]

# Ajustamos y transformamos
df_capped[scaled_cols] = scaler.fit_transform(df_capped[cols_to_scale])

print("Media y Desv. Est. de las variables escaladas:")
print(df_capped[scaled_cols].describe().loc[['mean', 'std']])

df_capped[cols_to_scale + scaled_cols].head()

### Normalizaci√≥n (MinMaxScaler)

Ajusta la escala de las variables num√©ricas para que todas est√©n en un rango entre 0 y 1.

En otras palabras, toma cada columna num√©rica, encuentra el valor m√≠nimo y m√°ximo, y reescala todos los valores de esa columna de la siguiente manera:

- El valor m√≠nimo original se convierte en 0.
- El valor m√°ximo original se convierte en 1.
- Todos los dem√°s valores se transforman a un decimal proporcional dentro de ese rango.

In [None]:
from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()

# Seleccionamos las columnas num√©ricas que queremos escalar
cols_to_norm = ['Duraci√≥n en meses', 'Monto del cr√©dito', 'Edad', 'Proxy pago mensual']

# Creamos los nombres para las nuevas columnas escaladas
norm_cols = [col + '_norm' for col in cols_to_norm]

# Ajustamos y transformamos
df_capped[norm_cols] = min_max_scaler.fit_transform(df_capped[cols_to_norm])

print("M√≠nimo y m√°ximo de las variables normalizadas:")
print(df_capped[norm_cols].describe().loc[['min', 'max']])

df_capped[cols_to_norm + norm_cols].head()
#df_escalado = pd.DataFrame(data=df_escalado, columns=df.columns)

In [None]:
df_capped.info()