# Reducción de Dimensionalidad y Benchmarking de Modelos

### Paso 1: Selección y Carga del Dataset

In [None]:

import pandas as pd
import numpy as np

# Cargar el dataset
file_path = "dataset.csv"  # Cambia esta ruta al archivo adecuado
df = pd.read_csv(file_path)

# Inspeccionar los datos
print("Primeras filas del dataset:")
print(df.head())

# Información del dataset
print("\nInformación del dataset:")
print(df.info())

# Resumen estadístico
print("\nResumen estadístico:")
print(df.describe())

# Verificar valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Separar características y variable objetivo
X = df.drop(columns=['target'])  # Cambia 'target' por el nombre de tu variable objetivo
y = df['target']


### Paso 2: Reducción de Dimensionalidad con PCA

In [None]:

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicar PCA
pca = PCA()
X_pca = pca.fit_transform(X_scaled)

# Explicación de la varianza acumulada
explained_variance = np.cumsum(pca.explained_variance_ratio_)

# Visualizar la varianza explicada
plt.figure(figsize=(10, 6))
plt.plot(range(1, len(explained_variance) + 1), explained_variance, marker='o', linestyle='--')
plt.title('Varianza Explicada Acumulada por Número de Componentes Principales')
plt.xlabel('Número de Componentes')
plt.ylabel('Varianza Explicada Acumulada')
plt.grid(True)
plt.show()

# Seleccionar componentes que expliquen al menos el 90% de la varianza
n_components = np.argmax(explained_variance >= 0.9) + 1
print(f"Seleccionando {n_components} componentes principales que explican el 90% de la varianza.")

# Reducir dimensionalidad
pca = PCA(n_components=n_components)
X_reduced = pca.fit_transform(X_scaled)


### Paso 3: Benchmarking de Modelos

In [None]:

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# Definir modelos a comparar
models = {
    "Regresión Logística": LogisticRegression(max_iter=1000),
    "Árbol de Decisión": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier(),
    "SVM": SVC(probability=True)
}

# Validación cruzada para cada modelo
results = {}
for name, model in models.items():
    scores = cross_val_score(model, X_reduced, y, cv=5, scoring='accuracy')
    results[name] = scores
    print(f"{name}: Precisión promedio = {scores.mean():.4f} (+/- {scores.std():.4f})")


### Paso 4: Análisis Comparativo de Modelos

In [None]:

import matplotlib.pyplot as plt

# Comparar los resultados
mean_scores = {name: scores.mean() for name, scores in results.items()}
std_scores = {name: scores.std() for name, scores in results.items()}

# Visualizar las precisiones promedio
plt.figure(figsize=(10, 6))
plt.bar(mean_scores.keys(), mean_scores.values(), yerr=std_scores.values(), capsize=5)
plt.title('Comparación de Modelos: Precisión Promedio')
plt.xlabel('Modelos')
plt.ylabel('Precisión Promedio')
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()


### Paso 5: Conclusiones y Recomendaciones


- **Reducción de Dimensionalidad**: La técnica de PCA permitió reducir el número de características a un subconjunto que explica al menos el 90% de la variabilidad del dataset, simplificando así el problema sin perder información relevante.

- **Benchmarking de Modelos**: Los modelos fueron evaluados mediante validación cruzada, y los resultados mostraron que:
  - [Completa aquí con los hallazgos específicos de cada modelo].

- **Recomendaciones**: Basado en el análisis comparativo, el modelo [modelo seleccionado] es el más adecuado para este problema debido a su [razones específicas, como precisión alta, estabilidad, tiempo de entrenamiento, etc.].
