# **Proyecto Final**

**Materia**: Análisis Exploratorio de Datos

**Profesor**: Miguel Ángel Porta García

### **Introducción**
##### **Abalone dataset**


##### ¿Qué es un abulón?


Los abulones son caracoles marinos. Su taxonomía los ubica en la familia Haliotidae, que contiene solo un género, Haliotis, que alguna vez contenía seis subgéneros. Estos subgéneros se han convertido en representaciones alternativas de Haliotis. El número de especies reconocidas en todo el mundo varía entre 30 y 130, con más de 230 taxones a nivel de especie descritos. El tratamiento más completo de la familia considera válidas 56 especies, con 18 subespecies adicionales.

Este análisis evalúa el conjunto de datos de abulón e intenta aplicar una técnica de  clustering para ver si los modelos predictivos se pueden mejorar con los agrupamientos. Este análisis concluye que si se aplica un buen clustering, se puede mejorar el rendimiento de un modelo predictivo.

El conjunto de datos de abulón es antiguo y la edad (o la cantidad de anillos) se predice a partir de características que se pueden medir con mayor facilidad. 

Se compone de los siguientes atributos:

<table>
<thead>
<tr>
<th>Nombre</th>
<th>Tipo de datos</th>
<th>Medidas</th>
<th>Descripción</th>
</tr>
<tbody>
<tr><td>Sexo</td> <td>nominal</td> <td></td> <td>M, F e I (infante)</td></tr>
<tr><td>Longitud</td> <td>continua</td> <td>mm</td> <td>Medida de la concha más larga</td></tr>
<tr><td>Diámetro</td> <td>continuo</td> <td>mm</td> <td>perpendicular a la longitud</td></tr>
<tr><td>Altura</td> <td>continuo</td> <td>mm</td> <td>con carne en cáscara</td></tr>
<tr><td>Peso entero</td> <td>continuo</td> <td>gramos</td> <td>abulón entero</td></tr>
<tr><td>Peso descascarado</td> <td>continuo</td> <td>gramos</td> <td>peso de la carne</td></tr>
<tr><td>Peso de las vísceras</td> <td>continuo</td> <td>gramos</td> <td>peso de la tripa (después del desangrado)</td></tr>
<tr><td>Peso de la cáscara</td> <td>continuo</td> <td>gramos</td> <td>después de secarse</td></tr>
<tr><td>Anillos</td> <td>entero</td> <td></td> <td>+1,5 da la edad en años</td></tr>
</tbody>
</thead>
</table>

En este estudio se analizaran cada uno de estos atributos, así como las relaciones entre ellos.


## Instrucciones Generales

Este notebook contiene una serie de pasos detallados para analizar el conjunto de datos **abalone_new.csv**, que proporciona información sobre dimensiones físicas, peso y edad de los abulones. A continuación, se presentan las instrucciones a seguir en el proyecto final.

1. Lee atentamente las instruciones y relaiza el análsis exploratorio del dataset de "abulone_new.csv"
2. Elabora un resumen ejecutuvo de los hallazgos obtenidos
    a. Introducción
    b. Analisis de las proyecciones
    c. Conclusiones
    d. Referencias
3. Guarda tu archivo en formato .iypnb, de la siguiente manera: Actividad_1_Nombre_Apellido.pdf

4. Entrega tu actividad en el espacio correspondiente.

## Instrucciones del análisis

### 📌 1. Preparación del entorno, instalación y configuración inicial

* Abre un entorno Jupyter Notebook o JupyterLab.
* Crea un nuevo notebook para Python 3.
* Instala las bibliotecas necesarias ejecutando la siguiente celda:

```bash
!pip install ydata-profiling pyclustertend seaborn numpy pandas matplotlib scikit-learn
```
### 📌 2. Introducción y Contexto

* Familiarízate con el contexto y los objetivos del análisis:
- Los abulones son caracoles marinos cuyo número de anillos indica su edad.
- El objetivo del análisis es determinar si se puede mejorar la precisión de modelos predictivos sobre la edad mediante técnicas de clustering.

### 📌 3. Importación de Librerías necesarias

```python
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from ydata_profiling import ProfileReport
from pyclustertend import vat, ivat, hopkins
from IPython.display import display, HTML
import warnings

# Configuración de visualización
pd.set_option('display.max_columns', None)
%matplotlib inline
warnings.filterwarnings('ignore')
```

### 📌 4. Carga del conjunto de datos

* Descarga el archivo `abalone_new.csv` y cárgalo en un Dataframe:

Nota: Asegúrate de tener el archivo `abalone_new.csv` en el mismo directorio que el notebook.

```python
df = pd.read_csv('abalone_new.csv')
```

### 📌 5. Análisis Exploratorio del dataset `abalone_new.csv` 

1. 🔍 Información general del dataset
2. 📈 Estadísticas descriptivas para columnas numéricas
3. 🚫 Verificar valores nulos
   * Muestra el número de renglones con valores faltantes para cada columna
4. 🔄 Verificar duplicados
5. Distribución de las variables categóricas "Maturity_Level" y "Sex"
6. 📈 Matriz de correlación (solo columnas numéricas)


### 📌 6. Limpieza de dataset
1. 🔍Detección y manejo de valores faltantes
    * Identifica valores faltantes
    * Selecciona solo columnas numéricas antes de imputar
    * Guardar los tipos de datos originales
    * Imputar valores faltantes con la media
    * Convertir los datos imputados a su tipo original y redondear a 5 decimales
2. Eliminación de columnas con varianza cero
3. Detección y remoción de outliers
4. Eliminación de valores duplicados
5. Guardar el dataset procesado

### 📌 7. Procesamiento del dataset

1. Carga el nuevo dataset que generaste en el paso anterior `abalone_processed.csv`

### 📌 8. Análisis Exploratorio del dataset `abalone_processed.csv`

1. 🔍 Información general del dataset
2. 📈 Estadísticas descriptivas para columnas numéricas
3. 🚫 Verificar valores nulos
     Muestra el número de renglones con valores faltantes para cada columna
4. 🔄 Verificar duplicados
5. Distribución de las variables categóricas "Maturity_Level" y "Sex"
 6. 📈 Matriz de correlación (solo columnas numéricas)

### 📌 7. Análisis de correlaciones

1. Elabora un análisis de correlaciones:

    * Puedes utilizar un gráfico de heatmap para la visualización de las correlaciones
    * Verifica si todas las correlaciones son significactivas y en todo caso elimina las variables que no lo sean
    * Verifica con una nueva gafica de heatmap que las relaciones son significativas

```python
plt.figure(figsize=(10,10))
sns.heatmap(df_encoded.corr(), annot=True, cmap='crest')
plt.title("Mapa de correlación")
plt.show()
```

### 📌 8. Análisis de Tendencia de Clustering

1.  Calcula el estadístico de Hopkins para verificar la tendencia al clustering:

```python
hopkins_stat = hopkins(df_scaled, df_scaled.shape[0])
print("Hopkins Statistic:", hopkins_stat)
```

2.  Evalúa visualmente usando VAT (Visual Assessment of Cluster Tendency) e iVAT:

```python
vat(df_scaled)
plt.title('Visualización VAT')
plt.show()

ivat(df_scaled)
plt.title('Visualización iVAT')
plt.show()
```

### 📌 9. Análisis de reducción de dimensionalidad (PCA)

1. Realiza un análisis de PCA para reducir dimensiones:

    Considera:
    * 📉 Cálculo de Varianza Explicada
    * 📈 Gráfico de Varianza Explicada Acumulada
    * Grafico heatmap de los componentes 
    * 🔍 Verificar valores atípicos antes de la transformación
    * 🔄 Normalización de datos
    * ⚡ Aplicar PCA
    * 🔥 Aplicar KPCA con optimización de parámetros
    * 🚀 Prueba de otro kernel para comparar resultados
    * 📊 Graficar comparaciones
        1️⃣ Espacio Original
        2️⃣ Proyección con PCA
        3️⃣ Proyección con KPCA (RBF)
        4️⃣ Espacio Reconstruido después de KPCA

```python
pca = PCA(n_components=2)
....
plt.scatter(principal_components[:, 0], principal_components[:, 1])
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('PCA del dataset de abulones')
plt.show()
```

### Investiga sobre las siguientes proyecciones (10-12). De acuerdo a lo que hayas encontrado, elige una de estas proyecciones para comparar contra la proyección de PCA:

##### 📌 10. Proyección con t-SNE (t-Distributed Stochastic Neighbor Embedding)

##### 📌 11. Proyección con Isomap (Isometric Mapping)

##### 📌 12. Proyección con UMAP (Uniform Manifold Approximation and Projection)

### 📌 13. Modelo de clasificación usando k-Nearest Neighbors (k-NN)

Este análisis aplica un modelo de **clasificación con k-Nearest Neighbors (k-NN)** sobre el conjunto de datos `abalone_processed.csv`, usando como variable objetivo el número de anillos (`Rings`). 

1. Importar Librerías
    * `pandas`, `numpy` para manipulación de datos.
    * `sklearn.model_selection` para separación de datos y validación cruzada.
    * `StandardScaler` para normalización.
    * `LabelEncoder` para codificación de variables categóricas.
    * `KNeighborsClassifier` para el modelo de clasificación.
    * `matplotlib` y `seaborn` para visualización.

2. Cargar la base de datos
    * Se utiliza el archivo `abalone_processed.csv` como fuente de datos.
    * La columna `Sex` (categórica) es codificada a valores numéricos con `LabelEncoder`.
    * Si la columna `Maturity_Level` existe, también se codifica.


3. Preparación de los datos
    * Se separan las variables independientes (`X`) de la variable objetivo (`y = Rings`).
    * Se filtran solo las columnas numéricas en `X`.
    * Se normalizan las características usando `StandardScaler`.

4. División de los datos
    * Los datos se dividen en conjuntos de entrenamiento (80%) y prueba (20%) con `train_test_split`.

5. Entrenamiento del modelo k-NN
    * Se entrena un modelo de k-Nearest Neighbors con `k = 5`.
    * Se evalúa el modelo con `accuracy_score` sobre el conjunto de prueba.

6. Validación cruzada
    * Se realiza validación cruzada con 5 pliegues (`cross_val_score`) para obtener una evaluación más robusta del modelo.
    * Se imprime el score de cada pliegue y el promedio general de precisión.

7. Visualización de la variable objetivo
    * Se muestra la distribución del número de anillos (`Rings`) usando `sns.histplot()`.


### 📌 14. Evaluación de Modelos Predictivos por Cluster

1. Evalúa la mejora en predicción usando Random Forest

```python
for cluster in df['cluster'].unique():
    cluster_data = df[df['cluster'] == cluster]
    X = cluster_data.drop(['rings', 'cluster'], axis=1)
    y = cluster_data['rings']
    model = RandomForestRegressor(random_state=42)
    model.fit(X, y)
    predictions = model.predict(X)
    print(f'Cluster {cluster} MAE:', mean_absolute_error(y, predictions))
```

### 📌 15. Interpretación

* Interpreta los gráficos y redacta conclusiones acerca de los clusters formados.


#### **IMPORTANTE:** Realiza los pasos 13-15 pero utilizando las proyecciones (PCA y la que hayas escogido entre 10-12)


### 📌 16. Conclusiones

* Elbora las conlcusiones sobre los patrones observados y la efectividad del clustering para mejorar predicciones.
