In [3]:
%matplotlib inline


# Ejercicio de Manifold Learning: Proyecto Aceite de Oliva

### Aprendizaje máquina II (Curso 2023-2024)


### Nombre y apellidos: 

### 1.- Carga de datos.

Carga el conjunto de datos **olive.csv**. Este conjunto de datos clasifica diferentes tipos de aceites de oliva italianos en regiones (3 grupos) y áreas (9 grupos) en función de su composición. Separa el conjunto de datos en *X*, *y3* y *y9*.

In [1]:
import umap
import pandas as pd
import seaborn as sns
import plotly.express as px
import plotly.subplots as tls
import plotly.graph_objs as go
import matplotlib.pyplot as plt

from pandas import read_csv 
from sklearn.manifold import TSNE





In [2]:
path_olives = './data/olive.csv'
dataframe = pd.read_csv(path_olives)
dataframe.head(7)

Unnamed: 0,class,Region,Area,palmitic,palmitoleic,stearic,oleic,linoleic,linolenic,arachidic,eicosenoic
0,North-Apulia,1,1,952,49,254,7795,780,50,75,41
1,North-Apulia,1,1,1036,59,235,7868,661,30,62,44
2,North-Apulia,1,1,1075,75,226,7823,672,36,60,29
3,North-Apulia,1,1,995,46,288,7806,679,56,86,40
4,North-Apulia,1,1,1155,98,201,7606,816,32,60,29
5,North-Apulia,1,1,922,66,264,7990,618,49,56,29
6,Calabria,1,2,1296,136,260,7380,780,48,51,18


In [3]:
'''
Dividimos los datos en tres grupos. Uno con las propiedades de los
aceites, otro con la región de procedencia y otro con el área de
procedencia.
'''

X   = dataframe.drop(['class', 'Region', 'Area'], axis = 1)
y3  = dataframe['Region']
y3_categories =[str(i) for i in y3]
y9  = dataframe['Area']
y9_categories =[str(i) for i in y9]

In [4]:
print("Dimensiones de X: ", X.shape)
print("Dimensiones de y3:", y3.shape)
print("Dimensiones de y9:", y9.shape)

Dimensiones de X:  (572, 8)
Dimensiones de y3: (572,)
Dimensiones de y9: (572,)


### 2.- Visualización de los datos.

- Utilizando los algoritmos t-SNE y UMAP vistos en clase, realiza una visualización de los datos en 2D y en 3D (utiliza la librería plotly para la representación 3D) coloreando los puntos con `labels3` y `labels9`. En UMAP, utiliza la versión no supervisada.
- Varía los parámetros de perplexity y n_neighbors según consideres y comenta qué valores has escogido y porqué.
- Comenta los gráficos y compara los resultados en función del valor de KL obtenido (en t-SNE). 


In [14]:
# si n_jobs= 1 se desactiva el paralelismo
# si n_jobs=-1 se activa el paralelismo
# activar el paralelismo rompe el determinismo de random state de UMAP
umap_instance = umap.UMAP(n_jobs= 1)
# umap_instance = umap.UMAP(n_jobs=-1)

#TSNE
tsne_2d  = TSNE(n_components=2,     # 2D embedding
                random_state=42, 
                perplexity=30,    
                metric="euclidean",
                verbose=False       # no output
                )      

X_tsne_2d = tsne_2d.fit_transform(X)


#UMAP
umap_2d = umap.UMAP(n_components=2,  # 2D embedding
                    random_state=42,
                    n_neighbors=10,
                    verbose=False    # no output
                    )

X_umap_2d = umap_2d.fit_transform(X)




n_jobs value -1 overridden to 1 by setting random_state. Use no seed for parallelism.



In [15]:
tsne_2d_df = pd.DataFrame(X_tsne_2d, columns=['Característica 1', 'Característica 2'])
umap_2d_df = pd.DataFrame(X_umap_2d, columns=['Característica 1', 'Característica 2'])

A partir de nuestras variables descriptivas (las primeras 8 almacenadas en X) reconstruimos nuestros datos con TSNE y UMAP. Hameos mapeados bidimensionales para poder representar los datos. Podríamos también aumentar el número de componentes y limitarnos a representar 2 o 3 de ellas.

In [16]:
tsne_2d_df['Región'] = y3_categories
tsne_2d_df['Área']   = y9_categories
tsne_2d_df

# Crear un gráfico interactivo con Plotly para t-SNE con y3 y y9
fig_tsne = px.scatter(tsne_2d_df, 
                      x='Característica 1', 
                      y='Característica 2', 
                      color= 'Región', 
                      symbol= 'Área',
                      title='Visualizacion T-SNE en 2D',
                      color_discrete_sequence=px.colors.qualitative.Plotly)

fig_tsne.update_layout(
    autosize=True, 
    width=700, 
    height=500,
    legend=dict(
        yanchor="top", y=1,
        xanchor="left", x=1.2
    )
)

# Mostrar el gráfico interactivo
fig_tsne.show()

In [22]:
%%capture
# Representación alternativa no interaccionable
'''
tsne_2d_df['Región'] = y3_categories
tsne_2d_df['Área']   = y9_categories

sns.set_theme(context='notebook',
              style='darkgrid',
              palette='deep',
              font='sans-serif',
              font_scale=1,
              color_codes=True)

# Crear un gráfico de dispersión con Seaborn
plt.figure(figsize=(10, 7))
scatter = sns.scatterplot(data=tsne_2d_df, x='Característica 1', y='Característica 2', hue='Región', style='Área')

# Cambiar el título de la leyenda
handles, labels = scatter.get_legend_handles_labels()
scatter.legend(handles=handles[1:], labels=labels[1:], title="Región")
scatter.set_title('Visualización t-SNE en 2D')
plt.subplots_adjust(left=0.1, right=0.9, top=0.85, bottom=0.1)

# Mostrar el gráfico
plt.show()

'''

In [23]:
umap_2d_df['Región'] = y3_categories
umap_2d_df['Área']   = y9_categories
umap_2d_df

# Crear un gráfico interactivo con Plotly para t-SNE con y3 y y9
fig_umap = px.scatter(umap_2d_df, 
                      x='Característica 1', 
                      y='Característica 2', 
                      color= 'Región', 
                      symbol= 'Área',
                      title='Visualizacion UMAP en 2D',
                      color_discrete_sequence=px.colors.qualitative.Plotly)

fig_umap.update_layout(
    autosize=True, 
    width=700, 
    height=500,
    legend=dict(
        yanchor="top", y=1,
        xanchor="left", x=1.2
    )
)

# Mostrar el gráfico interactivo
fig_umap.show()

### 3.- Reducción de la dimensionalidad.

Realiza un estudio para averiguar la dimensionalidad intrínseca del dataset.

### 4.- Reducción de la dimensionalidad y clasificación de los aceites en Regions y Areas.

- Separa el conjunto de datos en train (70%) y test (30%).
- Reduce la dimensionalidad del dataset utilizando los métodos espectrales vistos en clase. Investiga qué valor de número de vecinos es el más adecuado para el número de componentes que consideres adecuado en función del estudio de la dimensionalidad intrínseca.
- Elige el algoritmo de clasificación que consideres oportuno para resolver un problema de este tipo y aplícalo a estos datos.
- ¿Qué algoritmo de reducción de la dimensionalidad obtiene el mejor score para clasificar los datos en regiones? ¿Y en áreas? ¿Es el procedimiento más rápido en términos de tiempo de ejecución? Realiza una tabla con el rendimiento de la clasificación de cada algoritmo de reducción de dimensionaidad y el tiempo de ejecución.

In [None]:
from time import time

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import offsetbox
from sklearn import (manifold, datasets, decomposition, ensemble,
                     discriminant_analysis, random_projection)
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split

#### 4.1 Clasificación 3 grupos

#### 4.2 Clasificación 9 grupos