# Apuntes SAPA

## Definición del problema

Un resumen breve de los objetivos del ejercicio, como implementar un algoritmo, evaluar un modelo, o entender un concepto teórico.
Ejemplo: "Entrenar un modelo de clasificación para predecir si un cliente comprará un producto basado en sus datos demográficos".

Librerías: 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score,cross_val_predict, RandomizedSearchCV, GridSearchCV
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder,  StandardScaler, FunctionTransformer
from sklearn.pipeline import make_pipeline
from sklearn import set_config
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression,LinearRegression, SGDClassifier, Ridge, Lasso, LogisticRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import SGDRegressor
from sklearn.svm import SVR, SVC
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier
from scipy.stats import randint
from sklearn.metrics import confusion_matrix, accuracy_score ,mean_squared_error, precision_score, recall_score, f1_score, roc_auc_score, make_scorer, roc_curve
from sklearn.tree import DecisionTreeClassifier

import joblib
import warnings

In [None]:
warnings.filterwarnings("ignore", category=FutureWarning)
set_config(display="diagram")

## Carga de datos

Cargaremos los datos de un CSV o de un dataset de Seaborn

CSV:

In [None]:
def load_housing_data():
    try:
        return pd.read_csv("2_8/loan_data.csv")
    except:
        print("Fichero no encontrado")

loan_data = load_housing_data()

Dataset de Seaborn:

In [None]:
dataframe = sns.load_dataset('titanic')

## Exploración de datos

Funciones para analizar los datos:

In [None]:
dataframe.head()
dataframe.describe()
dataframe.info()
# Contar valores por clase
dataframe["class"].value_counts()
# Para saber cuales son los posibles valores de class
dataframe["class"].unique()

Eliminar columnas innecesarias

In [None]:
columnas = ['class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone'] # Columnas a eliminar
dataframe = dataframe.drop(columns=columnas, axis=1)

Seleccionar solo columnas numéricas

In [None]:
columnas_numericas = dataframe.select_dtypes(include=['int64', 'float64']).columns

Seleccionar solo columnas categóricas

In [None]:
columnas_categoricas = dataframe.select_dtypes(include=['object', 'category']).columns

### Gráficos

In [None]:
categoricas = ['pclass', 'sex', 'embarked', 'survived','sibsp','parch']  
continuas = ['fare','age']  


Gráficos para variables categóricas

In [None]:
# Gráfico de barras para variables categóricas
plt.figure(figsize=(20, 12))
for i, var in enumerate(categoricas):
    plt.subplot(4, 2, i+1)
    sns.countplot(x=var, data=dataframe)
    plt.title(f'{var}')
    plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

Gráficos para variables continuas

In [None]:
# Gráfico de histograma para variables continuas
plt.figure(figsize=(20, 12))
for i, var in enumerate(continuas):
    plt.subplot(4, 2, i+1)
    sns.histplot(dataframe[var], kde=True)
    plt.title(f'{var}')
    plt.xlabel(var)
    plt.ylabel('Frecuencia')

plt.tight_layout()
plt.show()

Gráficos con diferentes valores
Ejemplo número de supervivientes según la clase de billete y por sexos

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(data=dataframe, x='pclass', y='survived', hue='sex')

# Añadir títulos y etiquetas
plt.title('Grafico de barras para representar el número de supervivientes según la clase de billete y por sexos')
plt.xlabel('Clase')
plt.ylabel('Número de Supervivientes')
plt.legend(title='Sexo')

# Mostrar el gráfico
plt.show()


Subplots con variables numéricas y categóricas

In [None]:
# Separar las columnas numéricas y categóricas
numericas = dataframe.select_dtypes(include=['int64', 'float64']).columns
categoricas = dataframe.select_dtypes(include=['object', 'category']).columns

# Configuración de estilo de gráficos
plt.rc('font', size=14)
plt.rc('axes', labelsize=14, titlesize=14)
plt.rc('legend', fontsize=14)
plt.rc('xtick', labelsize=8)
plt.rc('ytick', labelsize=10)

# Crear subplots para las variables numéricas
num_cols = len(numericas)
num_rows = Math.ceil(num_cols / 3)
plt.figure(figsize=(18, 6 * num_rows))

for i, col in enumerate(numericas, 1):
    plt.subplot(num_rows, 3, i)
    plt.hist(numericas = dataframe.select_dtypes(include=['int64', 'float64']).columns
[col].dropna(), bins=40, color='blue', alpha=0.7, edgecolor='black')
    plt.title(f'Histograma de {col}')
    plt.xlabel(col)
    plt.ylabel('Frecuencia')
    plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

# Crear subplots para las variables categóricas
cat_cols = len(categoricas)
cat_rows = Math.ceil(cat_cols / 3)
plt.figure(figsize=(18, 6 * cat_rows))

for i, col in enumerate(categoricas, 1):
    plt.subplot(cat_rows, 3, i)
    sns.countplot(data=dataframe, x=col, hue=col, palette='viridis', dodge=False, order=dataframe[col].value_counts().index)
    plt.title(f'Countplot de {col}')
    plt.xlabel(col)
    plt.ylabel('Frecuencia')
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

Gráfico de cajas

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Relación entre variables clave y el pago del préstamo', fontsize=16)

sns.boxplot(x='not.fully.paid', y='int.rate', data=loan_data, ax=axes[0, 0])
axes[0, 0].set_title('Tasa de interés vs Pago completo')

sns.boxplot(x='not.fully.paid', y='fico', data=loan_data, ax=axes[0, 1])
axes[0, 1].set_title('Puntaje FICO vs Pago completo')

sns.boxplot(x='not.fully.paid', y='dti', data=loan_data, ax=axes[1, 0])
axes[1, 0].set_title('DTI vs Pago completo')

sns.countplot(x='purpose', hue='not.fully.paid', data=loan_data, ax=axes[1, 1])
axes[1, 1].set_title('Propósito del préstamo vs Pago completo')
axes[1, 1].set_xticklabels(axes[1, 1].get_xticklabels(), rotation=45, ha='right')

plt.tight_layout()
plt.show()

### Matríz de correlación

In [None]:
# Solo con los numericos
correlaciones = dataframe.corr(numeric_only=True)
# Establecer la columna objetivo
correlaciones["survived"].sort_values(ascending=False)

Mostrar la matríz

In [None]:
correlaciones.style.background_gradient()

A veces es útil eliminar las columnas con poca correlación

In [None]:
target_corr = correlaciones['survived'].abs()
target_corr
# columas com menos correlación que 0.04
eliminar = target_corr[target_corr<0.04].index.to_list()
# Eliminar columnas 
dataframe = dataframe.drop(columns=eliminar)

## Dividir los datos

Para dividir los datos, tenemos que separar la columna objetivo del resto del dataframe. En X guardar todo el dataframe menos la columna objetivo, y en y guardar la columna objetivo

In [None]:
X = dataframe.drop('survived', axis=1)

y = dataframe['survived']

Después aplico la función train_test_split para separar los datos de entrenamiento de los de prueba, respentando X e y, establecemos también el test_size (0.2 es un %20 de los datos para probar), random state se usa para obtener siempre los mismos datos en el aleatorio.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3, stratify=y)

### Preparar los datos

Para las categoricas, ponemos most_frecuent y aplicamos one hot encoding. Para las numéricas, ponemos la media, y escalamos los datos.

In [None]:
categoricas_pipeline = make_pipeline(
    SimpleImputer(strategy='most_frequent'), 
    OneHotEncoder(sparse_output=False, handle_unknown='ignore')
)

numericas_pipeline = make_pipeline(
    SimpleImputer(strategy='mean'), 
    StandardScaler() 
)

 Hay columnas que pueden necesitar más transformación (ejemplo 2_4)
 #### Crear columna a partir de otra

In [None]:
# Crear una columna familia que sea la suma de las columans parch y sibsp
def crearFamilia(X):
     X=pd.DataFrame(X,columns=['parch','sibsp'])
     X['familia'] = X['sibsp'] + X['parch'] 
     return X['familia'].values.reshape(-1,1)
 
# Cuando lo hacemos así, necesitamos darle un nombre de salida a la columna, si no, se queda solo con los datos
def familia_name(function_transformer, feature_names_in):
     return ['familia']
 
# pipeline
familia_pipeline = make_pipeline(
     SimpleImputer(strategy='most_frequent'),
     FunctionTransformer(crearFamilia,feature_names_out=familia_name,validate=False)
)

#### Valores categoricos a 1 y 0

In [None]:
# Si es female 1 si no 0
def sexNumeros(X):
     return np.where(X == 'female',1,0)
 
# nombre para la columna
def formatearSex(function_transformer, feature_names_in):
     return ['sex']
 
# pipeline
sex_pipeline=make_pipeline(
     SimpleImputer(strategy="most_frequent"), 
     FunctionTransformer(sexNumeros,feature_names_out=formatearSex)
)

#### Rangos de valores

En este caso queríamos esto 
- 1 - <=16
- 2 - (16,32]
- 3 - (32,48]
- 4 - (48,64]
- 5 - >64)
Por lo que establecemos los límites en bin (np.inf es infinito), y aplicamos cut para categorizarlos

In [None]:
def separar_age(X):
     X=pd.DataFrame(X,columns=['age'])
     X['age'] = pd.cut(X['age'], bins=[-1,16,32,48,64,np.inf], labels=[1,2,3,4,5]).to_numpy().reshape(-1,1)  
     return X
 
# Nombre de columna
def age_name(function_transformer, feature_names_in):
     return ['age']
 
# pipeline
age_pipeline=make_pipeline(
     SimpleImputer(strategy='mean'),
     FunctionTransformer(separar_age,feature_names_out=age_name)
)

#### Variables con cola larga y ceros

Aplicamos la raíz cuadrada

In [None]:
fare_pipeline = make_pipeline(
     SimpleImputer(strategy="mean"),
     FunctionTransformer(np.sqrt, feature_names_out="one-to-one"),
     StandardScaler()
)

Después debemos combinar todas estas pipelines

In [None]:
pipeline_titanic = ColumnTransformer([
     ('pclass', numericas_pipeline, ['pclass']), 
     ('sex', sex_pipeline, ['sex']),
     ('age', age_pipeline, ['age']), 
     ('familia', familia_pipeline,['sibsp', 'parch']), 
     ('fare',fare_pipeline, ['fare']), 
     ('embarked', categoricas_pipeline, ['embarked']) 
 ],
 remainder='passthrough',verbose_feature_names_out=False
 )

Una vez tenemos la pipeline hecha, hacemos la transformación

In [None]:
X_test_copy = X_test.copy()
df_test = pipeline_titanic.fit_transform(X_test_copy)

column_names = pipeline_titanic.get_feature_names_out()
df_test = pd.DataFrame(df_test, columns=column_names)

print(df_test.head())

## Entrenamiento y evaluación del modelo
### Tipos de modelos

##### 1. Modelos de Regresión: 
Estos modelos se utilizan para predecir valores continuos, como precios, temperaturas o cantidades.

- Regresión Lineal: Modela la relación entre una variable dependiente y una o más independientes mediante una línea recta.
- Regresión Polinómica: Amplía la regresión lineal para capturar relaciones no lineales.
- Regresión Ridge/Lasso: Variantes de regresión lineal que incluyen regularización para evitar el sobreajuste.

##### 2. Modelos de Clasificación: 
Usados para categorizar datos en clases discretas.

- Regresión Logística: Aunque lleva el nombre "regresión", es un modelo de clasificación binaria.
- Máquinas de Soporte Vectorial (SVM): Separa datos mediante hiperplanos.
- Árboles de Decisión y Bosques Aleatorios: Modelos basados en particiones de datos para clasificación (y regresión).
- k-Nearest Neighbors (k-NN): Clasifica puntos según sus vecinos más cercanos.
- Redes Neuronales Artificiales: Usadas para problemas complejos como imágenes y texto.

##### 3. Modelos de Agrupamiento (Clustering):
Estos modelos no supervisados agrupan datos según similitudes.

- k-Means: Divide los datos en k grupos basados en sus características.
- Jerárquico: Agrupa datos en un formato jerárquico.
- DBSCAN: Detecta grupos y puntos ruidosos en datos con distribuciones arbitrarias.

##### 4. Modelos de Reducción de Dimensionalidad: 
Usados para preprocesar datos antes de aplicar otros modelos.

- Análisis de Componentes Principales (PCA).
- TSNE: Representación visual para datos complejos.

### Cuándo usar cada modelo

##### 1. Modelos de Regresión
Usados cuando el objetivo es predecir un valor continuo.

##### Regresión Lineal:

Úsalo si los datos muestran una relación lineal clara entre las variables independientes (X) y la dependiente (y).
Ideal para problemas simples como predecir precios o cantidades.
Ejemplo: Predecir el precio de una casa basado en su tamaño.

##### Regresión Polinómica:

Úsalo si la relación entre las variables no es lineal pero sigue una tendencia suave.
Requiere cuidado con el grado del polinomio para evitar sobreajuste.
Ejemplo: Predicción de la trayectoria de un proyectil.

##### Ridge y Lasso:

Úsalo cuando hay colinealidad entre las variables independientes o demasiados atributos.
Ayudan a prevenir sobreajuste aplicando regularización.
Ejemplo: Modelos predictivos en datos económicos con múltiples factores.

##### 2. Modelos de Clasificación
Utilizados cuando el objetivo es asignar una clase o categoría.

##### Regresión Logística:

Para problemas binarios donde hay dos clases posibles (e.g., 1 o 0).
Ideal para problemas como detección de spam.
Ejemplo: Predecir si un cliente realizará una compra (Sí/No).
SVM (Máquinas de Soporte Vectorial):

Cuando las clases están bien separadas o deseas encontrar un margen óptimo.
Es útil en problemas con datos de alta dimensionalidad.
Ejemplo: Clasificación de imágenes de dígitos escritos a mano.

##### Árboles de Decisión y Bosques Aleatorios:

Úsalo si buscas interpretabilidad o estás trabajando con datos categóricos y numéricos mezclados.
Los Bosques Aleatorios son ideales para datos ruidosos o con alta varianza.
Ejemplo: Clasificación de pacientes según síntomas médicos.

##### k-Nearest Neighbors (k-NN):

Para problemas con pocos datos y relaciones complejas entre características.
No requiere entrenamiento, pero puede ser costoso computacionalmente para grandes conjuntos de datos.
Ejemplo: Recomendación de productos basada en similitudes.

##### 3. Modelos de Agrupamiento (Clustering)
Usados para explorar patrones en datos sin etiquetas.

##### k-Means:

Úsalo si los grupos tienen formas esféricas y la cantidad de clusters es conocida.
Es rápido y fácil de implementar.
Ejemplo: Agrupar clientes según comportamientos de compra.

##### DBSCAN:

Útil para identificar grupos de formas arbitrarias y detectar valores atípicos.
No requiere especificar un número exacto de clusters.
Ejemplo: Agrupamiento de puntos geográficos en mapas.

##### Jerárquico:

Cuando deseas una estructura de cluster jerárquica y un gráfico dendrograma para análisis.
Escalable a datos de tamaño pequeño o moderado.
Ejemplo: Clasificación de especies biológicas.

##### 4. Modelos de Reducción de Dimensionalidad
Usados para simplificar datos manteniendo la mayor parte de la información.

##### PCA:

Úsalo cuando trabajas con datos de alta dimensionalidad y deseas eliminar redundancias.
Es muy útil como paso previo para otros modelos.
Ejemplo: Visualización de datos complejos en 2D o 3D.

##### TSNE:

Ideal para visualizar datos complejos en pocas dimensiones.
Menos utilizado para modelado directo, pero útil para análisis exploratorio.
Ejemplo: Exploración de datos en problemas de imágenes.

#### Decisión sobre el modelo

##### ¿Es supervisado o no supervisado?

Si tienes etiquetas (datos conocidos de salida), usa modelos supervisados (regresión o clasificación).
Si no tienes etiquetas, usa modelos no supervisados (clustering).

##### ¿Es un valor continuo o discreto?

Continuo: Modelos de regresión.
Discreto: Modelos de clasificación.

##### Tamaño y tipo de datos:

Grandes dimensiones: PCA para reducción antes de clasificar.
Datos ruidosos: Bosques Aleatorios o SVM.

In [None]:
# Definir modelos a evaluar
modelos = {
    # Regresiones
    "Regresión Logística": LogisticRegression(random_state=42, max_iter=1000),
    "SGDRegressor":SGDRegressor(random_state=42),
    "Ridge":Ridge(random_state=42),
    "Lasso":Lasso(random_state=42),
    "SVR":SVR(),
    "Random forest":RandomForestRegressor(random_state=42),    
    # Clasificadores
    "SGDClassifier": SGDClassifier(random_state=42),
    "KNN": KNeighborsClassifier(),
    "Random Forest": RandomForestClassifier(random_state=42)    
}

### Métricas de evaluación

##### Accuracy

Definición: Proporción de predicciones correctas sobre el total de predicciones.

Uso: Útil para problemas balanceados, pero puede ser engañosa en datasets desbalanceados.


##### Precisión


Definición: Proporción de verdaderos positivos entre todos los resultados positivos predichos.

Uso: Importante cuando el costo de los falsos positivos es alto.

#### Recall
Definición: Proporción de verdaderos positivos identificados correctamente.

Uso: Crucial cuando el costo de los falsos negativos es alto.

#### F1-score
Definición: Media armónica de precision y recall.

Uso: Proporciona un balance entre precision y recall.

### Técnicas de validación cruzada

#### K-Fold Cross-Validation
Descripción: Divide los datos en k subconjuntos, entrenando en k-1 y validando en el restante.

#### Stratified K-Fold
Descripción: Similar a K-Fold, pero mantiene la proporción de clases en cada fold.

Uso: Preferible para problemas de clasificación desbalanceados.

#### RMSE

In [None]:
for nombre, modelo in modelos.items():
    print(f"Modelo {nombre}")

    pipeline = make_pipeline(pipeline_titanic,modelo)
    
    y_pred = cross_val_predict(pipeline, X_train, y_train, cv=5)
    
    rmse = np.sqrt(mean_squared_error(y_train, y_pred))
    print(f"- RMSE: {rmse:.2f}")

Si calculamos el minimo y el máximo, podemos ver el porcentaje de error y decidir si es aceptable o no

In [None]:
max_y = np.max(y)
min_y = np.min(y)

print(f"Máximo de y: {max_y:.2f}")
print(f"Mínimo de y: {min_y:.2f}")

Iteración sobre los modelos para calcular diferentes parámetros

In [None]:
# Iterar sobre cada modelo
for nombre, modelo in modelos.items():
    print(f"Evaluación de {nombre}")
    
    # Crear pipeline
    pipeline = make_pipeline(pipeline_titanic, modelo)
    
    # Validación cruzada: obtener predicciones
    y_train_pred = cross_val_predict(pipeline, X_train, y_train, cv=3)
    
    # Calcular métricas
    exactitud = accuracy_score(y_train, y_train_pred)
    precision = precision_score(y_train, y_train_pred)
    sensibilidad = recall_score(y_train, y_train_pred)
    f1 = f1_score(y_train, y_train_pred)
    
    # Imprimir resultados
    print(f"  - Exactitud: {exactitud:.2f}")
    print(f"  - Precisión: {precision:.2f}")
    print(f"  - Sensibilidad: {sensibilidad:.2f}")
    print(f"  - F1-Score: {f1:.2f}")

### Curva ROC

La curva ROC (Receiver Operating Characteristic) se utiliza principalmente para evaluar la capacidad de un modelo de clasificación binaria para distinguir entre las clases positivas y negativas. Es una herramienta fundamental para medir el rendimiento de un clasificador, especialmente cuando los datos están desequilibrados o cuando los costos de los errores varían entre falsos positivos y falsos negativos.

Definición: Área bajo la curva ROC (Receiver Operating Characteristic).

Uso: Mide la capacidad del modelo para distinguir entre clases.

#### Cuándo se utiliza la curva ROC
##### Problemas de clasificación binaria:

Cuando tienes dos clases (positiva y negativa) y quieres evaluar el desempeño del modelo más allá de una métrica como la precisión.

Ejemplo: Diagnosticar si un paciente tiene una enfermedad (positivo) o no (negativo).

##### Análisis del umbral de decisión:

La curva ROC evalúa cómo cambia la sensibilidad (verdaderos positivos) y la especificidad (1 - falsos positivos) al variar el umbral de clasificación.
Útil para seleccionar un umbral óptimo según el caso de uso.

##### Datos desequilibrados:

Si una clase es mucho más frecuente que la otra, métricas como la precisión pueden ser engañosas. La curva ROC es robusta ante este problema.

##### Comparar modelos:

Permite comparar modelos en términos de su capacidad discriminativa mediante el área bajo la curva (AUC-ROC).

Esto va dentro del bucle

In [None]:
# Evaluar probabilidades para curva ROC
if hasattr(modelo, 'decision_function'):
    y_train_proba = cross_val_predict(pipeline, X_train, y_train, cv=3, method='decision_function')
elif hasattr(modelo, 'predict_proba'):
    y_train_proba = cross_val_predict(pipeline, X_train, y_train, cv=3, method='predict_proba')[:, 1]
else:
    print(f"{nombre} no soporta cálculo de probabilidades. Se omite la curva ROC.")
    print("")
    #continue desxomentar esto en el bucle 
    
# Calcular curva ROC
fpr, tpr, _ = roc_curve(y_train, y_train_proba)
auc = roc_auc_score(y_train, y_train_proba)
print(f"  - Área bajo la curva ROC (AUC): {auc:.2f}")
print("  - Curva de ROC")
# Graficar curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'{nombre} (AUC = {auc:.2f})', lw=2)
plt.plot([0, 1], [0, 1], linestyle='--', color='gray', lw=1)
plt.title(f'Curva ROC - {nombre}')
plt.xlabel('Tasa de Falsos Positivos (FPR)')
plt.ylabel('Tasa de Verdaderos Positivos (TPR)')
plt.legend(loc='lower right')
plt.grid(alpha=0.3)
plt.show()

### Matríz de confusión

In [None]:
y_train_predict = cross_val_predict(pipeline_titanic, X_train, y_train, cv=5)
accuracy = accuracy_score(y_train, y_train_predict)

print(f"Accuracy:{accuracy:.4f}")

matriz = confusion_matrix(y_train,y_train_predict)

accuracy = accuracy_score(y_train, y_train_predict)
precision = precision_score(y_train, y_train_predict, average='macro')
recall = recall_score(y_train, y_train_predict, average='macro')
f1 = f1_score(y_train, y_train_predict, average='macro')


plt.figure(figsize=(9, 6))
sns.heatmap(matriz, annot=True, fmt='d', cmap='Blues')
plt.title('Matriz de Confusión')
plt.xlabel('Predicción')
plt.ylabel('Valor real')
plt.show()

print(f"Exactitud: {accuracy:.4f}")
print(f"Precisión: {precision:.4f}")
print(f"Sensibilidad: {recall:.4f}")
print(f"F1: {f1:.4f}")

## Optimización de modelo

### Linear Regresion

In [None]:
lr_param_grid = {
    "linearregression__fit_intercept": [True, False],
    "linearregression__normalize": [True, False]
}

lr_pipeline = make_pipeline(pipeline_titanic, StandardScaler(), LinearRegression())

lr_grid_search = GridSearchCV(
    lr_pipeline, lr_param_grid, cv=3, scoring='neg_mean_squared_error', n_jobs=-1
)

### Logistic Regresion

In [None]:

# Espacio de hiperparámetros para RandomizedSearchCV
param_grid = {
    "logisticregression__C": [0.01, 0.1, 1, 10, 100],  # Regularización
    "logisticregression__penalty": ["l2", None],  # Penalty válido (None o l2)
    "logisticregression__solver": ["lbfgs", "saga"]  # Solvers compatibles
}

# Crear el pipeline con el modelo base (Regresión Logística en este caso)
pipeline = make_pipeline(pipeline_titanic, LogisticRegression(random_state=42, max_iter=1000))

# Configuración de RandomizedSearchCV
random_search = RandomizedSearchCV(
    estimator=pipeline,
    param_distributions=param_grid,
    n_iter=10,  # Número de combinaciones aleatorias a probar
    scoring=make_scorer(f1_score),  # Optimizar F1-Score
    cv=3,  # Validación cruzada de 3 pliegues
    random_state=42,  # Reproducibilidad
    verbose=2,
    n_jobs=-1  # Usar todos los núcleos disponibles
)

# Ajustar la búsqueda en los datos de entrenamiento
random_search.fit(X_train, y_train)

# Resultados de la búsqueda
print("Mejores hiperparámetros:", random_search.best_params_)
print("Mejor F1-Score en validación cruzada:", random_search.best_score_)

# Guardar el mejor modelo encontrado
mejor_modelo = random_search.best_estimator_

### Random Forest Clasifier

In [None]:
# Crear un pipeline con make_pipeline
pipeline = make_pipeline(pipeline_titanic,RandomForestClassifier())

param_dist = {
    'randomforestclassifier__n_estimators': randint(10, 200),
    'randomforestclassifier__max_features': ['sqrt', 'log2', None]
}

# Crear el objeto de búsqueda aleatoria
random_search = RandomizedSearchCV(estimator=pipeline, param_distributions=param_dist, scoring='accuracy', cv=5)

# Ajustar el modelo a los datos de entrenamiento
random_search.fit(X_train, y_train)

# Mejor estimador encontrado

#### Random Forest Regressor

In [None]:
param_grid = [
    {
        "preprocessing__log__functiontransformer__func": [np.log, np.log1p],
        "random_forest__max_features": [4, 6, 8, 10],
    }
]
grid_search = GridSearchCV(pipeline, param_grid, cv=3, scoring='neg_root_mean_squared_error')
grid_search.fit(X_train, y_train)

### Laso

In [None]:
lasso_param_grid = {
    "lasso__alpha": np.logspace(-4, 4, 20),
    "lasso__max_iter": [1000, 5000, 10000]
}

lasso_pipeline = make_pipeline(pipeline_titanic, StandardScaler(), Lasso(random_state=42))

lasso_grid_search = GridSearchCV(
    lasso_pipeline, lasso_param_grid, cv=3, scoring='neg_mean_squared_error', n_jobs=-1
)

#### KNeighbors (Regresor)


In [None]:
knn_regressor_param_grid = {
    "kneighborsregressor__n_neighbors": range(1, 31),
    "kneighborsregressor__weights": ['uniform', 'distance'],
    "kneighborsregressor__metric": ['euclidean', 'manhattan', 'minkowski']
}

knn_regressor_pipeline = make_pipeline(pipeline_titanic, StandardScaler(), KNeighborsRegressor())

knn_regressor_random_search = RandomizedSearchCV(
    knn_regressor_pipeline, knn_regressor_param_grid, n_iter=20, cv=3, 
    scoring='neg_mean_squared_error', random_state=42, n_jobs=-1
)

#### KNeighbors (Clasifier)


In [None]:
knn_classifier_param_grid = {
    "kneighborsclassifier__n_neighbors": range(1, 31),
    "kneighborsclassifier__weights": ['uniform', 'distance'],
    "kneighborsclassifier__metric": ['euclidean', 'manhattan', 'minkowski']
}

knn_classifier_pipeline = make_pipeline(pipeline_titanic, StandardScaler(), KNeighborsClassifier())

knn_classifier_random_search = RandomizedSearchCV(
    knn_classifier_pipeline, knn_classifier_param_grid, n_iter=20, cv=3, 
    scoring=make_scorer(f1_score), random_state=42, n_jobs=-1
)

#### K-Mean

In [None]:
kmeans_param_grid = {
    "kmeans__n_clusters": range(2, 11),
    "kmeans__init": ['k-means++', 'random'],
    "kmeans__max_iter": [100, 200, 300],
    "kmeans__n_init": [10, 20, 30]
}

kmeans_pipeline = make_pipeline(pipeline_titanic, StandardScaler(), KMeans(random_state=42))

kmeans_random_search = RandomizedSearchCV(
    kmeans_pipeline, kmeans_param_grid, n_iter=20, cv=3, scoring='neg_mean_squared_error', random_state=42, n_jobs=-1
)

#### K-NN

In [None]:
knn_param_grid = {
    "kneighborsclassifier__n_neighbors": range(1, 31),
    "kneighborsclassifier__weights": ['uniform', 'distance'],
    "kneighborsclassifier__metric": ['euclidean', 'manhattan', 'minkowski']
}

knn_pipeline = make_pipeline(pipeline_titanic, StandardScaler(), KNeighborsClassifier())

knn_random_search = RandomizedSearchCV(
    knn_pipeline, knn_param_grid, n_iter=20, cv=3, scoring=make_scorer(f1_score), random_state=42, n_jobs=-1
)

#### Árbol de decisión

In [None]:
dt_param_grid = {
    "decisiontreeclassifier__max_depth": [None] + list(range(5, 31, 5)),
    "decisiontreeclassifier__min_samples_split": range(2, 11),
    "decisiontreeclassifier__min_samples_leaf": range(1, 11)
}

dt_pipeline = make_pipeline(pipeline_titanic, DecisionTreeClassifier(random_state=42))

dt_grid_search = GridSearchCV(
    dt_pipeline, dt_param_grid, cv=3, scoring=make_scorer(f1_score), n_jobs=-1
)

#### SVM

In [None]:
svm_param_grid = {
    "svc__C": np.logspace(-3, 3, 7),
    "svc__kernel": ['rbf', 'poly', 'sigmoid'],
    "svc__gamma": ['scale', 'auto'] + list(np.logspace(-3, 3, 5))
}

svm_pipeline = make_pipeline(pipeline_titanic, StandardScaler(), SVC(random_state=42))

svm_random_search = RandomizedSearchCV(
    svm_pipeline, svm_param_grid, n_iter=20, cv=3, scoring=make_scorer(f1_score), random_state=42, n_jobs=-1
)

### Ridge

In [None]:
modelo = Ridge()

param_grid = {
    'alpha': [0.1, 1.0, 10.0, 100.0, 200.0]
}

# Configurar GridSearchCV
grid_search = GridSearchCV(
    modelo,
    param_grid,
    cv=5,
    scoring='neg_mean_squared_error',
    n_jobs=-1
)

grid_search.fit(X_train, y_train)

print("Mejores hiperparámetros:", grid_search.best_params_)

## Evalucación en el conjunto de prueba

Evaluar el mejor modelo en el conjunto de prueba

In [None]:
mejor_modelo = grid_search.best_estimator_
y_pred = cross_val_predict(mejor_modelo, X_test, y_test, cv=5)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"- RMSE: {rmse:.2f}")

Con métricas y ROC

In [None]:
y_test_pred = mejor_modelo.predict(X_test)

# Calcular métricas
test_accuracy = accuracy_score(y_test, y_test_pred)
test_precision = precision_score(y_test, y_test_pred)
test_recall = recall_score(y_test, y_test_pred)
test_f1 = f1_score(y_test, y_test_pred)

print("Evaluación en el conjunto de pruebas:")
print(f"  - Exactitud: {test_accuracy:.2f}")
print(f"  - Precisión: {test_precision:.2f}")
print(f"  - Sensibilidad: {test_recall:.2f}")
print(f"  - F1-Score: {test_f1:.2f}")

# Evaluar el área bajo la curva ROC (AUC)
if hasattr(mejor_modelo.named_steps['logisticregression'], 'predict_proba'):
    y_test_proba = mejor_modelo.predict_proba(X_test)[:, 1]
    test_roc_auc = roc_auc_score(y_test, y_test_proba)
    print(f"  - Área bajo la curva ROC (AUC): {test_roc_auc:.2f}")
    
    # Calcular la curva ROC
    fpr, tpr, _ = roc_curve(y_test, y_test_proba)
    
    # Hacer el gráfico
    plt.plot(fpr, tpr, label=f'AUC = {test_roc_auc:.2f}', lw=2)
    plt.plot([0, 1], [0, 1], linestyle='--', color='gray', lw=1)
    plt.title('Curva ROC - Modelo')
    plt.xlabel('Tasa de Falsos Positivos (FPR)')
    plt.ylabel('Tasa de Verdaderos Positivos (TPR)')
    plt.legend(loc='lower right')
    plt.grid(alpha=0.3)
    plt.show()
else:
    print("El modelo no soporta cálculo de probabilidades para la curva ROC.")



## Presentación de modelo

In [None]:
joblib.dump(mejor_modelo, "./modelo.pkl")