## 1.- Preprocesamiento

#### Pipeline para imputar, normalizar y codificar

In [2]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline

# Definimos las columnas numéricas y categóricas para cada
numeric_features = x_train.select_dtypes(include=['float64', 'int64']).columns
categorical_features = x_train.select_dtypes(include=['object']).columns

# Creamos transformers para imputación y escala
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Creamos transformer para codificación de variables categóricas
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Creamos un preprocesador que aplique los transformers apropiados a las columnas correctas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Creamos el pipeline completo
pipeline = Pipeline(steps=[('preprocessor', preprocessor)])

En el caso de que no se quiera usar un tipo de preprocesamiento, solo hay que borrar la linea donde lo ponde en los transformadores

In [3]:
# asi se usa el pipeline 
x_train_prep = pipeline.fit_transform(x_train)
x_test_prep = pipeline.transform(x_test)
x_val_prep = pipeline.transform(x_val)

#### Para transformar a un df despues de aplicar el pipeline

In [4]:
# x_train_prep es la variable donde se guardo el df transformado al usar el pipeline 

x_train = pd.DataFrame(x_train_prep, columns=list(pd.get_dummies(x_train)), index=x_train.index)

In [6]:
x_train

Unnamed: 0,Age,Income,Gender_Female,Gender_Male
4,1.59285,1.153113,1.0,0.0
2,0.0,-0.524142,0.0,1.0
0,-0.48478,-1.36277,0.0,1.0
3,-1.108069,0.733799,0.0,1.0


## 2.- Visualizaciones

#### Para ver la importancia de cada caracteristica

In [None]:
feature_importances = tree_model.feature_importances_

# Crea un DataFrame para visualizar las importancias junto con los nombres de las características
feature_importance_df = pd.DataFrame({'Feature': x_train.columns, 'Importance': feature_importances})

# Ordena el DataFrame por importancia en orden descendente
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

# Plotea las importancias de las características
plt.figure(figsize=(10, 6))
plt.bar(feature_importance_df['Feature'], feature_importance_df['Importance'])
plt.xticks(rotation=90)
plt.xlabel('Feature')
plt.ylabel('Importance')
plt.title('Feature Importances')
plt.show()

#### hacer un tipo de visualizacion en cada columna

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Suponiendo que 'df' es tu DataFrame

# Obtener el número de columnas en el DataFrame
num_cols = len(df.columns)

# Calcular el número de filas y columnas para el grid
num_rows = (num_cols // 3) + (num_cols % 3 > 0)  # Asegura al menos una fila
num_cols_grid = 3

# Crear el grid de subgráficos
fig, axes = plt.subplots(num_rows, num_cols_grid, figsize=(15, 5*num_rows))

# Aplanar los ejes si solo hay una fila
if num_rows == 1:
    axes = [axes]

# Iterar sobre cada columna y graficar
for i, col in enumerate(df.columns):
    ax = axes[i // num_cols_grid][i % num_cols_grid]
    sns.histplot(df[col], ax=ax, kde=True)  # Puedes cambiar a sns.histplot() si necesitas más funcionalidades
    ax.set_title(f'Histograma de {col}')

# Eliminar los ejes vacíos
for i in range(num_cols, num_rows * num_cols_grid):
    fig.delaxes(axes[i // num_cols_grid][i % num_cols_grid])

plt.tight_layout()
plt.show()


#### Para concatenar dos hist en uno

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

features = df.drop("Class", axis=1)

plt.figure(figsize=(12, 32))

# Usamos subplots para crear los ejes
num_plots = len(features.columns)
num_rows = (num_plots + 1) // 2  # Número de filas
num_cols = 2  # Dos subgráficos por fila

for i, f in enumerate(features.columns):
    plt.subplot(num_rows, num_cols, i + 1)
    # Usando histplot para los casos donde Class == 1
    sns.histplot(data=df[df["Class"] == 1], x=f, kde=True, color="red", stat="density", label="Fraud", alpha=0.5)
    # Usando histplot para los casos donde Class == 0
    sns.histplot(data=df[df["Class"] == 0], x=f, kde=True, color="blue", stat="density", label="Legit", alpha=0.5)
    plt.xlabel('')
    plt.title(f"Feature: {f}")
    plt.legend()

plt.tight_layout()
plt.show()