Autor:  
Manuel Eugenio Morocho Cayamcela, PhD

# **Caso práctico 1:** 
## Procesamiento y Transformación de Datos para Análisis de Crédito

Este tutorial cubrirá tres fases clave en el procesamiento y transformación de datos para el análisis de crédito: limpieza de datos, transformación de datos y selección de características. Utilizaremos un conjunto de datos de solicitudes de crédito para este tutorial.

### **Fase I:** Limpieza de Datos

#### Carga de Datos

Primero, necesitamos cargar nuestro conjunto de datos. Supongamos que nuestros datos están en un archivo CSV llamado 'credit_data.csv'.

In [None]:
import pandas as pd

data = pd.read_csv('credit_data.csv')


#### Exploración de Tipos de Datos

Para entender qué tipo de datos tenemos, podemos usar el método `info()`.

In [None]:
data.info()

#### Identificación y Manejo de Valores Faltantes

Los valores faltantes pueden ser identificados con el método `isnull()`. Para manejarlos, podemos usar la imputación (rellenar los valores faltantes con la media, mediana, o moda) o simplemente eliminar las filas con valores faltantes.



In [None]:
# Identificar valores faltantes
missing_values = data.isnull().sum()

# Imputar valores faltantes con la media
data.fillna(data.mean(), inplace=True)


#### Identificación y Manejo de Outliers

Los outliers pueden ser identificados utilizando métodos estadísticos, como el método del rango intercuartil (IQR). Una vez identificados, pueden ser eliminados o ajustados.



In [None]:
# Identificar outliers con el método IQR
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1

# Eliminar outliers
data = data[~((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)]

#### Identificación y Manejo de Datos Inconsistentes

Los datos inconsistentes pueden ser identificados revisando los valores únicos de cada característica. Una vez identificados, pueden ser corregidos o eliminados.



In [None]:
# Identificar datos inconsistentes
for column in data.columns:
    print(data[column].unique())

#### Balanceo de Datos

El balanceo de datos puede ser necesario si nuestra variable objetivo está desbalanceada. Podemos usar técnicas como el oversampling o el undersampling.



In [None]:
from imblearn.over_sampling import SMOTE

smote = SMOTE()
X_res, y_res = smote.fit_resample(data.drop('target', axis=1), data['target'])



### **Fase II:** Transformación de Datos

#### 1. Normalización

La normalización ajusta los valores en un rango común.



In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data_normalized = pd.DataFrame(scaler.fit_transform(data), columns=data.columns)



#### Discretización

La discretización convierte las variables continuas en variables discretas.



In [None]:
data['age'] = pd.cut(data['age'], bins=3, labels=['young', 'middle-aged', 'old'])



#### Codificación de Variables

La codificación de variables convierte las variables categóricas en variables numéricas.



In [None]:
data_encoded = pd.get_dummies(data, drop_first=True)



### **Fase III:** Selección de Características

La selección de características identifica las variables más relevantes para nuestro análisis.



In [None]:
from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(f_classif, k=5)
selector.fit_transform(data_encoded, data_encoded['target'])



Finalmente, podemos usar una regresión lineal (o cualquier otro modelo de aprendizaje automático) para predecir si a un cliente se le otorgará crédito o no.



In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_res, y_res)



Este tutorial es solo una introducción a las técnicas de procesamiento y transformación de datos. Hay muchas otras técnicas y métodos disponibles, y la elección de las técnicas a utilizar dependerá de la naturaleza de tus datos y del problema que estés tratando de resolver.

### **Resolución:**