# Actividad Práctica: Taller de Creación y Selección de Características

## Objetivos de la Actividad
- Aplicar técnicas de creación de características para mejorar la representación de los datos.
- Utilizar métodos de selección de características para identificar las más relevantes.
- Evaluar el impacto de las características seleccionadas en el rendimiento de un modelo de Machine Learning.

##Descripción General

En esta actividad, trabajarás con un conjunto de datos real para practicar la ingeniería y selección de características. Seguirás un flujo de trabajo que incluye la carga y exploración del dataset, la creación de nuevas características basadas en las existentes, la aplicación de métodos de selección de características y la evaluación del impacto en un modelo de clasificación.

## Dataset
Utilizaremos el conjunto de datos "Heart Disease UCI" disponible en Kaggle. Este dataset contiene información médica de pacientes y se utiliza para predecir la presencia de enfermedad cardíaca.

- Enlace al dataset: [Heart Disease UCI Dataset](https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data?resource=download)

## Instrucciones

### Paso 1: Cargar y Explorar el Dataset
1. Importa las librerías necesarias para análisis de datos y Machine Learning, como pandas, numpy, matplotlib, seaborn y scikit-learn.

2. Carga el dataset en un DataFrame de pandas.

- Si el dataset está en formato CSV, utiliza pd.read_csv('ruta_del_archivo.csv').

3. Explora el dataset:

- Visualiza las primeras filas para familiarizarte con las variables.
- Obtén información sobre el número de filas, columnas y tipos de datos.
- Identifica si hay valores faltantes o datos anómalos.
- Utiliza estadísticas descriptivas para entender la distribución de las variables numéricas.

4. Realiza un análisis exploratorio:

- Genera gráficos (histogramas, boxplots, scatter plots) para visualizar las distribuciones y relaciones entre variables.
- Analiza la correlación entre las variables y la variable objetivo.


### Paso 2: Creación de Nuevas Características

1. Analiza las variables existentes y piensa en cómo podrían combinarse o transformarse para crear nuevas características que puedan mejorar el modelo.

2. Crea al menos tres nuevas características. Algunas ideas pueden ser:

- Ratios o relaciones entre variables (por ejemplo, colesterol dividido por edad).
- Frecuencia cardíaca durante el ejercicio menos en reposo `(df['thalach'] - df['restecg'])`
- Agrupaciones o categorizaciones de variables numéricas en categorías (por ejemplo, categorizar la edad en rangos).
- Variable indicadora de alta presión arterial (si sobrepasa 130)

3. Añade las nuevas características al DataFrame.

4. Documenta y justifica cada nueva característica creada:

- Explica el razonamiento detrás de su creación.
- Describe cómo podría aportar valor al modelo.

## Paso 3: Selección de Características

1. Prepara los datos para la selección de características:

- Separa el DataFrame en la matriz de características (X) y la variable objetivo (y).
- Asegúrate de que todas las variables estén en el formato adecuado (por ejemplo, convierte variables categóricas en numéricas si es necesario).

2. Aplica el método SelectKBest:

- Elige una función de puntuación adecuada según el tipo de problema (clasificación o regresión).
- Selecciona un valor para k (número de características a seleccionar).
- Ejecuta SelectKBest para identificar las características más relevantes.
- Anota cuáles son las características seleccionadas.

3. Aplica el método Recursive Feature Elimination (RFE):

- Selecciona un estimador (modelo) para evaluar la importancia de las - características (por ejemplo, regresión logística, árbol de decisión).
- Define el número de características a seleccionar.
- Ejecuta RFE para identificar las características más importantes.
- Anota cuáles son las características seleccionadas.

4. Comparación de resultados:

- Compara las características seleccionadas por ambos métodos.
- Reflexiona sobre las similitudes y diferencias.
- Considera por qué ciertos métodos pueden seleccionar características diferentes.

