# 4- Identificación y eliminación de características altamente correlacionadas

Objetivo del Paso 4
Usaremos el mapa de calor generado previamente para identificar pares de características con alta correlación (por ejemplo, coeficientes > 0.9).

Eliminaremos las características redundantes para evitar problemas de multicolinealidad, mejorar la eficiencia computacional y garantizar que cada característica aporte información única al modelo.

In [2]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

# Cargar el dataset limpio desde el archivo guardado
df = pd.read_csv("visualizacion_limpieza_eda.csv")
print("Dataset cargado exitosamente.")
print("Dimensiones del dataset antes de eliminar características correlacionadas:", df.shape)

# Paso 1: Calcular la matriz de correlación
correlation_matrix = df.corr().abs()  # Usamos valores absolutos para evaluar magnitud

# Paso 2: Crear la matriz triangular superior para identificar correlaciones redundantes
upper = correlation_matrix.where(np.triu(np.ones(correlation_matrix.shape), k=1).astype(bool))

# Paso 3: Identificar las características con alta correlación (> 0.9)
highly_correlated = [column for column in upper.columns if any(upper[column] > 0.9)]
print("Características altamente correlacionadas identificadas:", highly_correlated)

# Paso 4: Eliminar características redundantes del dataset
df_cleaned = df.drop(columns=highly_correlated)
print("Dimensiones del dataset después de eliminar características correlacionadas:", df_cleaned.shape)

# Guardar el nuevo dataset limpio para los siguientes pasos
df_cleaned.to_csv("4_dataset_sin_correlaciones_altas.csv", index=False)
print("El dataset sin características correlacionadas se ha guardado como '4_dataset_sin_correlaciones_altas.csv'.")


Dataset cargado exitosamente.
Dimensiones del dataset antes de eliminar características correlacionadas: (569, 31)
Características altamente correlacionadas identificadas: ['Mean_Perimeter', 'Mean_Area', 'Mean_Concave_Points', 'SE_Perimeter', 'SE_Area', 'Worst_Radius', 'Worst_Texture', 'Worst_Perimeter', 'Worst_Area', 'Worst_Concave_Points']
Dimensiones del dataset después de eliminar características correlacionadas: (569, 21)
El dataset sin características correlacionadas se ha guardado como '4_dataset_sin_correlaciones_altas.csv'.


## Características Eliminadas:

Hemos eliminado 10 columnas con alta correlación, como Mean_Perimeter, Mean_Area, SE_Perimeter, Worst_Radius, y otras. Estas eran redundantes porque aportaban información muy similar a otras características en el dataset (por ejemplo, el perímetro y el área están fuertemente correlacionados con el radio).

### Impacto en el Dataset:

Las dimensiones del dataset pasaron de 31 columnas a 21 columnas.

Esto reduce la complejidad del modelo, minimiza el riesgo de sobreajuste y mejora la eficiencia computacional.

### Preservación de Información:

Aunque se eliminaron columnas, los datos principales y las características más relevantes para el diagnóstico (según el EDA previo) permanecen intactos.