<h1><center>Laboratorio 6: La solicitud de Sergio 🤗</center></h1>

<center><strong>MDS7202: Laboratorio de Programación Científica para Ciencia de Datos - Primavera 2024</strong></center>

### Cuerpo Docente:

- Profesores: Ignacio Meza, Sebastián Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicolás Ojeda, Melanie Peña, Valentina Rojas

### Equipo: SUPER IMPORTANTE - notebooks sin nombre no serán revisados

- Nombre de alumno 1: Cristobal Ramos
- Nombre de alumno 2: Catalina Lizana


### **Link de repositorio de GitHub:** [Repositorio](https://github.com/CatalinaLizanaG/Laboratorio-de-Programaci-n.git)

## Temas a tratar
- Aplicar Pandas para obtener características de un DataFrame.
- Aplicar Pipelines y Column Transformers.
- Utilizar diferentes algoritmos de cluster y ver el desempeño.

## Reglas:

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.
- Código que no se pueda ejecutar, no será revisado.

### Objetivos principales del laboratorio
- Comprender cómo aplicar pipelines de Scikit-Learn para generar clusters.
- Familiarizarse con plotly.

El laboratorio deberá ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al máximo las funciones optimizadas que nos entrega `numpy`, las cuales vale mencionar, son bastante más eficientes que los iteradores nativos sobre arreglos (*o tensores*).

## Descripción del laboratorio

<center>
<img src="https://i.pinimg.com/originals/5a/a6/af/5aa6afde8490da403a21601adf7a7240.gif" width=400 />

En el corazón de las operaciones de Aerolínea Lucero, Sergio, el gerente de análisis de datos, reunió a un talentoso equipo de jóvenes científicos de datos para un desafío crucial: segmentar la base de datos de los clientes. “Nuestro objetivo es descubrir patrones en el comportamiento de los pasajeros que nos permitan personalizar servicios y optimizar nuestras campañas de marketing,” explicó Sergio, mientras desplegaba un amplio rango de datos que incluían desde hábitos de compra hasta opiniones sobre los vuelos.

Sergio encargó a los científicos de datos la tarea de aplicar técnicas avanzadas de clustering para identificar distintos segmentos de clientes, como los viajeros frecuentes y aquellos que eligen la aerolínea para celebrar ocasiones especiales. La meta principal era entender profundamente cómo estos grupos perciben la calidad y satisfacción de los servicios ofrecidos por la aerolínea.

A través de un enfoque meticuloso y colaborativo, los científicos de datos se abocaron a la tarea, buscando transformar los datos brutos en valiosos insights que permitirían a Aerolínea Lucero no solo mejorar su servicio, sino también fortalecer las relaciones con sus clientes mediante una oferta más personalizada y efectiva.

## Importamos librerias utiles 😸

In [None]:
#pip install scikit-learn
#!pip install plotly.express

In [None]:
import numpy as np
import pandas as pd

from sklearn import datasets

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

## 1. Estudio de Performance 📈 [10 Puntos]



<center>
<img src="https://user-images.githubusercontent.com/57133330/188281408-c67df9ee-fd1f-4b37-833b-f02848f1ce02.gif" width=300>

Don Sergio les ha encomendado su primera tarea: analizar diversas técnicas de clustering. Su objetivo es entender detalladamente cómo funcionan estos métodos en términos de segmentación y eficiencia en tiempo de ejecución.

Analice y compare el desempeño, tiempo de ejecución y visualizaciones de cuatro algoritmos de clustering (k-means, DBSCAN, Ward y GMM) aplicados a tres conjuntos de datos, incrementando progresivamente su tamaño. Utilice Plotly para las gráficas y discuta los resultados tanto cualitativa como cuantitativamente.

Uno de los requisitos establecidos por Sergio es que el análisis se lleve a cabo utilizando Plotly; de no ser así, se considerará incorrecto. Para facilitar este proceso, se ha proporcionado un código de Plotly que puede servir como base para realizar las gráficas. Apóyese en el código entregado para efectuar el análisis y tome como referencia la siguiente imagen para realizar los gráficos:

<img src='https://gitlab.com/imezadelajara/datos_clase_7_mds7202/-/raw/main/misc_images/Screenshot_2024-04-26_at_9.10.44_AM.png' width=800 />

En el gráfico se visualizan en dos dimensiones los diferentes tipos de datos proporcionados en `datasets`. Cada columna corresponde a un modelo de clustering diferente, mientras que cada fila representa un conjunto de datos distinto. Cada uno de los gráficos incluye el tiempo en segundos que tarda el análisis y la métrica Silhouette obtenida.

Para ser más específicos, usted debe cumplir los siguientes objetivos:
1. Generar una función que permita replicar el gráfico expuesto en la imagen (no importa que los colores calcen). [4 puntos]
2. Ejecuta la función para un `n_samples` igual a 1000, 5000, 10000. [2 puntos]
3. Analice y compare el desempeño, tiempo de ejecución y visualizaciones de cuatro algoritmos de clustering utilizando las 3 configuraciones dadas en `n_samples`. [4 puntos]


> ❗ Tiene libertad absoluta de escoger los hiper parámetros de los cluster, sin embargo, se recomienda verificar el dominio de las variables para realizar la segmentación.

> ❗ Recuerde que es obligatorio el uso de plotly.


In [None]:
"""
En la siguiente celda se crean los datos ficticios a usar en la sección 1 del lab.
❗No realice cambios a esta celda a excepción de n_samples❗
"""

# Datos a utilizar

# Configuracion
n_samples = 5000 #Este parámetro si lo pueden modificar

def create_data(n_samples):

    # Lunas
    moons = datasets.make_moons(n_samples=n_samples, noise=0.05, random_state=30)
    # Blobs
    blobs = datasets.make_blobs(n_samples=n_samples, random_state=172)
    # Datos desiguales
    transformation = [[0.6, -0.6], [-0.4, 0.8]]
    mutated = (np.dot(blobs[0], transformation), blobs[1])

    # Generamos Dataset
    dataset = {
        'moons':{
            'x': moons[0], 'classes': moons[1], 'n_cluster': 2
        },
        'blobs':{
            'x': blobs[0], 'classes': blobs[1], 'n_cluster': 3
        },
        'mutated':{
            'x': mutated[0], 'classes': mutated[1], 'n_cluster': 3
        }
    }
    return dataset

data_sets = create_data(n_samples)

**Respuestas:**

In [None]:
#1. Generar una función que permita replicar el gráfico expuesto en la imagen 
from sklearn.cluster import KMeans
from sklearn.mixture import GaussianMixture
from scipy.cluster.hierarchy import ward
from sklearn.cluster import AgglomerativeClustering
from sklearn.cluster import DBSCAN

from sklearn.metrics import silhouette_score
import time

import warnings
warnings.filterwarnings('ignore')

#def plot_scatter(x,y, color):
def plot_scatter(data_sets):
    datas = {'Moons': {'data':data_sets['moons']['x'],'cluster':2}, 
             'Blobs': {'data': data_sets['blobs']['x'],'cluster':3}, 
             'Mutated':{'data':data_sets['mutated']['x'],'cluster':3}
            }
    fig = make_subplots(rows=3, cols=4, subplot_titles=('KMeans', 'GMM', 'Ward', 'DBSCAN'))
    
    
    for i, figure in enumerate(datas.items()):
        
        data = figure[1]['data']
        cluster= figure[1]['cluster']
        df = pd.DataFrame(data, columns=['x', 'y'])
        
        # kmeans
        kmeans = KMeans(n_clusters=cluster, random_state=0)
        start_time = time.time()
        df['Kmeans'] = kmeans.fit(data).labels_
        t = time.time() - start_time

        sc= silhouette_score(data, df['Kmeans']).round(2)
        #df['Kmeans'] = df['Kmeans'].astype(str)
        scatter_kmeans = px.scatter(df, x='x', y='y', color='Kmeans')
        fig.add_trace(scatter_kmeans.data[0], row=i+1, col=1)
        fig.add_annotation(xref="paper", yref="paper", x = 0.05, y= 1-0.25*(i+1), text= str(round(t,2))+ "[s]| s:" +str(sc),showarrow=False)
        
        # GMM
        GMM = GaussianMixture(n_components = cluster, random_state=0)
        start_time = time.time()
        df['GMM'] = GMM.fit(data).predict(data)
        t = time.time() - start_time
        
        sc= silhouette_score(data, df['GMM']).round(2)
        #df['GMM'] = df['GMM'].astype(str)
        scatter_gmm = px.scatter(df, x='x', y='y', color='GMM')
        fig.add_trace(scatter_gmm.data[0], row=i+1, col=2)
        fig.add_annotation(xref="paper", yref="paper",  x= 0.35, y=1-0.25*(i+1), text= str(round(t,2))+ "[s]| s:" +str(sc),showarrow=False)
        
        # Ward
        Ward = AgglomerativeClustering(n_clusters=cluster, linkage="ward")
        start_time = time.time()
        df['Ward'] = Ward.fit(data).labels_
        t = time.time() - start_time
        
        sc= silhouette_score(data, df['Ward']).round(2)
        #df['Ward'] = df['Ward'].astype(str)
        scatter_ward = px.scatter(df, x='x', y='y', color='Ward')
        fig.add_trace(scatter_ward.data[0], row=i+1, col=3)
        fig.add_annotation(xref="paper", yref="paper", x = 0.65, y=1-0.25*(i+1), text= str(round(t,2))+ "[s]| s:" +str(sc),showarrow=False)
    
        # Dbscan
        dbscan = DBSCAN(eps=0.2, min_samples=10)
        start_time = time.time()
        df['dbscan'] = dbscan.fit(data).labels_
        t = time.time() - start_time
        
        sc= silhouette_score(data, df['dbscan']).round(2)
        #df['dbscan'] = df['dbscan'].astype(str)
        scatter_dbscan = px.scatter(df, x='x', y='y', color='dbscan')
        fig.add_trace(scatter_dbscan.data[0], row=i+1, col=4)
        fig.add_annotation(xref="paper", yref="paper", x = 0.95, y= 1-0.25*(i+1), text= str(round(t,2))+ "[s]| s:" +str(sc),showarrow=False)
            
    fig.update_layout(height=750, width=1000, title_text='Comparación de tiempos de ejecución por técnica', showlegend=True)
    
    fig.show()

In [None]:
#2. Ejecuta la función para un n_samples igual a 1000, 5000, 10000
datasets1 = create_data(1000)
plot_scatter(datasets1)

In [None]:
datasets2 = create_data(5000)
plot_scatter(datasets2)

In [None]:
datasets3 = create_data(10000)
plot_scatter(datasets3)

3. Analice y compare el desempeño, tiempo de ejecución y visualizaciones de cuatro algoritmos de clustering utilizando las 3 configuraciones dadas en n_samples.

Notamos que cuando tenemos más muestras los graficos y las mediciones toman más tiempo, sin embargo, se evidencia que independiente de la cantidad de muestras:
* El mejor clustering de Moons es DBSCAN
* El mejor clusterion de Bolbs con 'KMeans', 'GMM' y 'Ward', con igual desempeño de los tre.
* Para Mutated, GMM nos da un mejor clustering, lo cual tiene sentido considerando que se visualizan muestras gaussianas.

## 2. Análisis de Satisfacción de Vuelos. [10 puntos]

<center>
<img src="https://i.gifer.com/2Hci.gif" width=400 />

Habiendo entendido cómo funcionan los modelos de aprendizaje no supervisado, *Don Sergio* le encomienda estudiar la satisfacción de pasajeros al haber tomado un vuelo en alguna de sus aerolineas. Para esto, el magnate le dispone del dataset `aerolineas_licer.parquet`, el cual contiene el grado de satisfacción de los clientes frente a diferentes aspectos del vuelo. Las características del vuelo se definen a continuación:

- *Gender*: Género de los pasajeros (Femenino, Masculino)
- *Customer Type*: Tipo de cliente (Cliente habitual, cliente no habitual)
- *Age*: Edad actual de los pasajeros
- *Type of Travel*: Propósito del vuelo de los pasajeros (Viaje personal, Viaje de negocios)
- *Class*: Clase de viaje en el avión de los pasajeros (Business, Eco, Eco Plus)
- *Flight distance*: Distancia del vuelo de este viaje
- *Inflight wifi service*: Nivel de satisfacción del servicio de wifi durante el vuelo (0:No Aplicable; 1-5)
- *Departure/Arrival time convenient*: Nivel de satisfacción con la conveniencia del horario de salida/llegada
- *Ease of Online booking*: Nivel de satisfacción con la facilidad de reserva en línea
- *Gate location*: Nivel de satisfacción con la ubicación de la puerta
- *Food and drink*: Nivel de satisfacción con la comida y la bebida
- *Online boarding*: Nivel de satisfacción con el embarque en línea
- *Seat comfort*: Nivel de satisfacción con la comodidad del asiento
- *Inflight entertainment*: Nivel de satisfacción con el entretenimiento durante el vuelo
- *On-board service*: Nivel de satisfacción con el servicio a bordo
- *Leg room service*: Nivel de satisfacción con el espacio para las piernas
- *Baggage handling*: Nivel de satisfacción con el manejo del equipaje
- *Check-in service*: Nivel de satisfacción con el servicio de check-in
- *Inflight service*: Nivel de satisfacción con el servicio durante el vuelo
- *Cleanliness*: Nivel de satisfacción con la limpieza
- *Departure Delay in Minutes*: Minutos de retraso en la salida
- *Arrival Delay in Minutes*: Minutos de retraso en la llegada

En consideración de lo anterior, realice las siguientes tareas:

0. Ingeste el dataset a su ambiente de trabajo.

1. Seleccione **sólo las variables numéricas del dataset**.  Explique qué éfectos podría causar el uso de variables categóricas en un algoritmo no supervisado. [2 punto]

2. Realice una visualización de la distribución de cada variable y analice cada una de estas distribuciones. [2 punto]

3. Basándose en los gráficos, evalúe la necesidad de escalar los datos y explique el motivo de su decisión. [2 puntos]

4. Examine la correlación entre las variables mediante un correlograma. [2 puntos]

5. De acuerdo con los resultados obtenidos en 5, reduzca la dimensionalidad del conjunto de datos a cuatro variables, justificando su elección respecto a las variables que decide eliminar. [2 puntos]

**Respuesta:**

In [None]:
#0.Ingeste el dataset a su ambiente de trabajo.
df = pd.read_parquet("aerolineas_lucer.parquet")
df.info()

In [None]:
#1. Seleccione sólo las variables numéricas del dataset. Explique qué éfectos podría causar el uso de variables categóricas en un algoritmo no supervisado. [2 punto]
numerical_columns = df.select_dtypes(['float', 'int']).columns

In [None]:
#2. Realice una visualización de la distribución de cada variable y analice cada una de estas distribuciones. [2 punto]
for col in numerical_columns:
    fig = px.histogram(df, x=col, marginal="box", title = 'Histogram of ' + col)
    fig.show()

3.Basándose en los gráficos, evalúe la necesidad de escalar los datos y explique el motivo de su decisión. 
Notamos que en todos los graficos las variables están en la misma escala(0-5), excepto :
* id
* Age
* Flight Distance
* Departure Delay in Minutes
* Arrival Delay Minutes

Sin embargo, estas ultimas no nos sirven para analizar el nivel de satidfacción de los pasajeros, asi que las excluiremos de dataset a analizar.
Dado lo anterior no es necesario escalar los datos.

In [None]:
#4. Examine la correlación entre las variables mediante un correlograma. [2 puntos]
numerical_columns = numerical_columns.drop(['id','Age','Flight Distance', 'Departure Delay in Minutes', 'Arrival Delay in Minutes'])

correlaciones = df[numerical_columns].corr() 
mask = np.abs(correlaciones) < 0.4
mas_correlaciones = correlaciones.mask(mask)

In [None]:
px.imshow(
    mas_correlaciones,
    #correlaciones,
    aspect="16:9",
    title="Correlación entre Variables",
    height=800,
    zmin=-1,
    color_continuous_midpoint=0,
    zmax=1,
    color_continuous_scale=px.colors.sequential.Viridis,
)

Vemos las variables que presentan mayor correlación entre si y notamos que podemos ordenar las relaciones así:

{Departure/Arrival time convenient - Gate location- Ease of Online booking}- Inflight wifi - Online boarding - {Seat comfort - Food and drink - cleanliness - enterteinment} - {on board service/inflight service-baggage handling}
  
* Leg room service: No se relaciona
* Check-in service: No se relaciona

Para que no haya redundancia elegiremos ambas variables que no tienen relación con el resto y 'Online boarding' y 'Inflight wifi' ya que de alguna forma se relacionan con todo el resto de variables.


In [None]:
#5. De acuerdo con los resultados obtenidos, reduzca la dimensionalidad del conjunto de datos a cuatro variables, justificando su elección respecto a las variables que decide eliminar

select_columns = ['Checkin service', 'Leg room service', 'Online boarding', 'Inflight wifi service']

## 3. Preprocesamiento 🎭. [10 puntos]

<center>
<img src="https://i.pinimg.com/originals/1e/a8/0e/1ea80e7cea0d429146580c7e91c5b944.gif" width=400>

Tras quedar satisfecho con los resultados presentados en el punto 2, el dueño de la empresa ha solicitado que se preprocesen los datos mediante un `pipeline`. Es crucial que este proceso tenga en cuenta las observaciones derivadas de los análisis anteriores. Adicionalmente, ha expresado su interés en visualizar el conjunto de datos en un gráfico de dos o tres dimensiones.

Basándose en los análisis realizados anteriormente:
1. Cree un `pipeline` que incluya PCA, utilizando las consideraciones mencionadas previamente para proyectar los datos a dos dimensiones. [4 puntos]
2. Grafique los resultados obtenidos y comente lo visualizado. [6 puntos]

**Respuestas:**

In [None]:
# Escriba su código aquí

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA

# 1.Cree un pipeline que incluya PCA, utilizando las consideraciones mencionadas previamente para proyectar los datos a dos dimensiones

pca = ColumnTransformer([("PCA", PCA(n_components=2), select_columns)] )

pipe_1 = Pipeline([("Preprocesamiento_pca", pca)])

In [None]:
# 2.Grafique los resultados obtenidos y comente lo visualizado
transformaciones = pipe_1.fit_transform(df[select_columns])
#transformaciones
df["x_PCA"] = transformaciones[:, 0]
df["y_PCA"] = transformaciones[:, 1]
px.scatter(df, x="x_PCA", y= "y_PCA")

In [None]:
#pip install --upgrade nbformat

Respuesta:
Vemos que al graficar las variables en una dimensión reducida, los datos muestran una agrupación natural, indicando que se pueden clasificar en distintos clusters bien diferenciables segun sus características. 

## 4. Outliers 🚫🙅‍♀️❌🙅‍♂️ [10 puntos]

<center>
<img src="https://joachim-gassen.github.io/images/ani_sim_bad_leverage.gif" width=250>

Con el objetivo de mantener la claridad en su análisis, Don Sergio le ha solicitado entrenar un modelo que identifique pasajeros con comportamientos altamente atípicos.

1. Utilice `IsolationForest` para clasificar las anomalías del dataset (sin aplicar PCA), configurando el modelo para que sólo el 1% de los datos sean considerados anómalos. Asegúrese de integrar esta tarea dentro de un `pipeline`. [3 puntos]

2. Visualice los resultados en el gráfico de dos dimensiones previamente creado. [3 puntos]

3. ¿Cómo evaluaría el rendimiento de su modelo en la detección de anomalías? [4 puntos]

**Respuestas:**

In [None]:
# 1. Utilice `IsolationForest` para clasificar las anomalías del dataset (sin aplicar PCA), configurando el modelo para que sólo el 1% de los datos sean considerados anómalos. 
#Asegúrese de integrar esta tarea dentro de un `pipeline`.

from sklearn.ensemble import IsolationForest

isfor = IsolationForest(contamination=0.01, random_state=0) #n_estimators=20, 
pipe_2 = Pipeline([("Preprocesamiento_isfor",isfor)])
outliers = pipe_2.fit(df[select_columns]).predict(df[select_columns])


In [None]:
#2. Visualice los resultados en el gráfico de dos dimensiones previamente creado. 
df["out"] = outliers.astype(str)
px.scatter(df, x="x_PCA", y="y_PCA", color='out')

3. ¿Cómo evaluaría el rendimiento de su modelo en la detección de anomalías?

Analizando el gráfico obtenido de la reducción de dimensionalidad e idenificación de outliers, vemos que el rendimiento del modelo no es muy bueno pues, si bien hay datos identificados como anomalías que sí se encuentran fuera de uno de los clusters naturales, también hay datos marcados como outliers que estan sobre, o muy cercanos, a alguna de estas agrupaciones de datos. Además, también se observan datos "lejanos" a los grupos que no fueron marcados, es decir, el modelo presetna errores de tipo falsos positivos y falsos negativos. 


## 5. Métricas de Desempeño 🚀 [10 puntos]

<center>
<img src="https://giffiles.alphacoders.com/219/219081.gif" width=300>

Motivado por incrementar su fortuna, Don Sergio le solicita entrenar un modelo que le permita segmentar a los pasajeros en grupos distintos, con el objetivo de optimizar las diversas campañas de marketing diseñadas por su equipo. Para ello, le se pide realizar las siguientes tareas:

1. Utilizar el modelo **Gaussian Mixture** y explore diferentes configuraciones de número de clústers, específicamente entre 3 y 8. Asegúrese de integrar esta operación dentro de un `pipeline`. [4 puntos]
2. Explique cuál sería el criterio adecuado para seleccionar el número óptimo de clústers. **Justifique de forma estadistica y a traves de gráficos.** [6 puntos]

> **HINT:** Se recomienda investigar sobre los criterios AIC y BIC para esta tarea.

**Respuestas:**

In [None]:
#1. Utilizar el modelo **Gaussian Mixture** y explore diferentes configuraciones de número de clústers, específicamente entre 3 y 8. 
# Asegúrese de integrar esta operación dentro de un `pipeline`.

from sklearn.mixture import GaussianMixture 

def gmm(n):
    gmm = GaussianMixture(n_components = n, random_state=1) 
    return gmm
    
pipe_3 = Pipeline([("Preprocesamiento_gmm3", gmm(3)),
                   ("Preprocesamiento_gmm4", gmm(4)),
                   ("Preprocesamiento_gmm5", gmm(5)),
                   ("Preprocesamiento_gmm6", gmm(6)),
                   ("Preprocesamiento_gmm7", gmm(7)), 
                   ("Preprocesamiento_gmm8", gmm(8))])

In [None]:
# 2. Explique cuál sería el criterio adecuado para seleccionar el número óptimo de clústers:

Para seleccionar el número óptimo de clusters se puede realizar un método similar al "método del codo" utilizado para clusterización con Kmeans, en donde se recurre a métricas como el "Akaike information criterion" (AIC), o bien, el "Bayesian information criterion" (BIC), las cuales indican qué tan bien se ajustan los datos al modelo creado. En la implementación realizada a continuación, cuanto más bajo el valor (de ambas métricas), mejor es el resultado del modelo. 

A continuación se calculan las métrica BIC y AIC del modelo Gaussian Mixture para n_components entre 3 y 8:

In [None]:
# listas de valores BIC y AIC:
valores_bic = []
valores_aic = []

# entrenamos el modelo y calculamos valores bic y aic para cada cantidad de componentes
for modelo_i in pipe_3:
    gmm_i = modelo_i.fit(df[select_columns])
    valores_bic.append(gmm_i.bic(df[select_columns]))
    valores_aic.append(gmm_i.aic(df[select_columns]))


components = [pipe_3[i].n_components for i in range(len(pipe_3))]
data = {'components': components, 'valores_bic': valores_bic, 'valores_aic': valores_aic}
df_bic_aic = pd.DataFrame(data)

# Graficamos
fig = px.line(df_bic_aic, x='components', y=['valores_bic', 'valores_aic'], 
              labels={'components': 'Número de componentes', 'value': 'Valores'}, 
              title='Valores BIC y AIC de modelo Gaussian Mixture para valores de n_components')

fig.show()

Como se aprecia en el gráfico, el modelo alcanza un mínimo valor en ambos criterios (BIC y AIC) utilizando 6 componentes, por lo que podemos asumir que $n=6$ es la cantidad óptima de clusters a utilizar en el modelo.  

## 6. Análisis de resultados 📊 [10 puntos]

<center>
<img src="https://i.gifer.com/7wTk.gif" width=300>

Una vez identificado el número óptimo de clústers, se le pide realizar lo siguiente:

1. Utilizar la proyección en dos dimensiones para visualizar cada clúster claramente. [2 puntos]

2. ¿Es posible distinguir claramente entre los clústers generados? [2 puntos]

3. Proporcionar una descripción breve de cada clúster utilizando estadísticas descriptivas básicas, como la media y la desviación estándar, para resumir las características de las variables utilizadas en estos algoritmos. [2 puntos]

4. Proceda a visualizar los clústers en tres dimensiones para una perspectiva más detallada. [2 puntos]

5. ¿Cómo afecta esto a sus conclusiones anteriores? [2 puntos]

**Respuestas:**

In [None]:
pipe_3[3]

In [None]:
# 1. Utilizar la proyección en dos dimensiones para visualizar cada clúster claramente.
clusters_gmm6 = pipe_3[3].fit(df[select_columns]).predict(df[select_columns])

df['gmm_labels'] = clusters_gmm6.astype(str)
px.scatter(df, x="x_PCA", y="y_PCA", color='gmm_labels')

In [None]:
#2. ¿Es posible distinguir claramente entre los clústers generados?

Si bien se pueden distinguir los clusters no es tan claro la forma en que se agupan. Se puede pbservar que la forma en que se generaron los clusters no es coherente con la agrupación natural de los datos. 

In [None]:
# 3. Proporcionar una descripción breve de cada clúster utilizando estadísticas descriptivas básicas, como la media y la desviación estándar, para resumir las características de las variables utilizadas en estos algoritmos. [2 puntos]
df_descr = df[select_columns]
df_descr['gmm_labels'] = df['gmm_labels']

df_descr.groupby('gmm_labels').agg(['min', 'max', 'mean', 'std'])

In [None]:
# 4. Proceda a visualizar los clústers en tres dimensiones para una perspectiva más detallada. [2 puntos]
pca3 = ColumnTransformer([("PCA", PCA(n_components=3), select_columns)] )

pipe_4 = Pipeline([("Preprocesamiento_pca_3d", pca3)])


projections_3d = pipe_4.fit_transform(df[select_columns])

df_3d = pd.DataFrame(data = projections_3d)
df_3d['gmm_labels'] = df['gmm_labels'].values

df_3d.columns = ['component_1', 'component_2', 'component_3', 'gmm_labels']

In [None]:
df_3d.head()

In [None]:
fig = px.scatter_3d(df_3d, x='component_1', y='component_2', z='component_3', color='gmm_labels')
fig.show()

In [None]:
#5. ¿Cómo afecta esto a sus conclusiones anteriores? [2 puntos]

Con esta nueva visualización en 3d de los clusters generados por el modelo, podemos observar que los resultados de las agrupaciones son mucho más coherentes, en comparación a la visualización en 2d. Si bien los grupos generados no son separables en la visualización 3d, se aprecia mucho más claramente la forma en qeu se agrupan.  