<h1><center>Laboratorio 6: La solicitud de Sergio 🤗</center></h1>

<center><strong>MDS7202: Laboratorio de Programación Científica para Ciencia de Datos - Primavera 2024</strong></center>

### Cuerpo Docente:

- Profesores: Ignacio Meza, Sebastián Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicolás Ojeda, Melanie Peña, Valentina Rojas

### Equipo: SUPER IMPORTANTE - notebooks sin nombre no serán revisados

- Nombre de alumno 1: Diego Bartolucci
- Nombre de alumno 2: Pilar Nilo


### **Link de repositorio de GitHub:** [ Repositorio](https://github.com/DiegoBarto01/MDS7202-pili-barto.git)

## Temas a tratar
- Aplicar Pandas para obtener características de un DataFrame.
- Aplicar Pipelines y Column Transformers.
- Utilizar diferentes algoritmos de cluster y ver el desempeño.

## Reglas:

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.
- Código que no se pueda ejecutar, no será revisado.

### Objetivos principales del laboratorio
- Comprender cómo aplicar pipelines de Scikit-Learn para generar clusters.
- Familiarizarse con plotly.

El laboratorio deberá ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al máximo las funciones optimizadas que nos entrega `numpy`, las cuales vale mencionar, son bastante más eficientes que los iteradores nativos sobre arreglos (*o tensores*).

## Descripción del laboratorio

<center>
<img src="https://i.pinimg.com/originals/5a/a6/af/5aa6afde8490da403a21601adf7a7240.gif" width=400 />

En el corazón de las operaciones de Aerolínea Lucero, Sergio, el gerente de análisis de datos, reunió a un talentoso equipo de jóvenes científicos de datos para un desafío crucial: segmentar la base de datos de los clientes. “Nuestro objetivo es descubrir patrones en el comportamiento de los pasajeros que nos permitan personalizar servicios y optimizar nuestras campañas de marketing,” explicó Sergio, mientras desplegaba un amplio rango de datos que incluían desde hábitos de compra hasta opiniones sobre los vuelos.

Sergio encargó a los científicos de datos la tarea de aplicar técnicas avanzadas de clustering para identificar distintos segmentos de clientes, como los viajeros frecuentes y aquellos que eligen la aerolínea para celebrar ocasiones especiales. La meta principal era entender profundamente cómo estos grupos perciben la calidad y satisfacción de los servicios ofrecidos por la aerolínea.

A través de un enfoque meticuloso y colaborativo, los científicos de datos se abocaron a la tarea, buscando transformar los datos brutos en valiosos insights que permitirían a Aerolínea Lucero no solo mejorar su servicio, sino también fortalecer las relaciones con sus clientes mediante una oferta más personalizada y efectiva.

## Importamos librerias utiles 😸

In [None]:
import numpy as np
import pandas as pd

from sklearn import datasets

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [None]:
# Si usted está utilizando Colabolatory le puede ser útil este código para cargar los archivos.
try:
    from google.colab import drive
    drive.mount("/content/drive")
    path = '/content/drive/MyDrive/Lab_6/'
except:
    print('Ignorando conexión drive-colab')

## 1. Estudio de Performance 📈 [10 Puntos]



<center>
<img src="https://user-images.githubusercontent.com/57133330/188281408-c67df9ee-fd1f-4b37-833b-f02848f1ce02.gif" width=300>

Don Sergio les ha encomendado su primera tarea: analizar diversas técnicas de clustering. Su objetivo es entender detalladamente cómo funcionan estos métodos en términos de segmentación y eficiencia en tiempo de ejecución.

Analice y compare el desempeño, tiempo de ejecución y visualizaciones de cuatro algoritmos de clustering (k-means, DBSCAN, Ward y GMM) aplicados a tres conjuntos de datos, incrementando progresivamente su tamaño. Utilice Plotly para las gráficas y discuta los resultados tanto cualitativa como cuantitativamente.

Uno de los requisitos establecidos por Sergio es que el análisis se lleve a cabo utilizando Plotly; de no ser así, se considerará incorrecto. Para facilitar este proceso, se ha proporcionado un código de Plotly que puede servir como base para realizar las gráficas. Apóyese en el código entregado para efectuar el análisis y tome como referencia la siguiente imagen para realizar los gráficos:

<img src='https://gitlab.com/imezadelajara/datos_clase_7_mds7202/-/raw/main/misc_images/Screenshot_2024-04-26_at_9.10.44_AM.png' width=800 />

En el gráfico se visualizan en dos dimensiones los diferentes tipos de datos proporcionados en `datasets`. Cada columna corresponde a un modelo de clustering diferente, mientras que cada fila representa un conjunto de datos distinto. Cada uno de los gráficos incluye el tiempo en segundos que tarda el análisis y la métrica Silhouette obtenida.

Para ser más específicos, usted debe cumplir los siguientes objetivos:
1. Generar una función que permita replicar el gráfico expuesto en la imagen (no importa que los colores calcen). [4 puntos]
2. Ejecuta la función para un `n_samples` igual a 1000, 5000, 10000. [2 puntos]
3. Analice y compare el desempeño, tiempo de ejecución y visualizaciones de cuatro algoritmos de clustering utilizando las 3 configuraciones dadas en `n_samples`. [4 puntos]


> ❗ Tiene libertad absoluta de escoger los hiper parámetros de los cluster, sin embargo, se recomienda verificar el dominio de las variables para realizar la segmentación.

> ❗ Recuerde que es obligatorio el uso de plotly.


In [None]:
"""
En la siguiente celda se crean los datos ficticios a usar en la sección 1 del lab.
❗No realice cambios a esta celda a excepción de n_samples❗
"""

# Datos a utilizar

# Configuracion
n_samples = 5000 #Este parámetro si lo pueden modificar

def create_data(n_samples):

    # Lunas
    moons = datasets.make_moons(n_samples=n_samples, noise=0.05, random_state=30)
    # Blobs
    blobs = datasets.make_blobs(n_samples=n_samples, random_state=172)
    # Datos desiguales
    transformation = [[0.6, -0.6], [-0.4, 0.8]]
    mutated = (np.dot(blobs[0], transformation), blobs[1])

    # Generamos Dataset
    dataset = {
        'moons':{
            'x': moons[0], 'classes': moons[1], 'n_cluster': 2
        },
        'blobs':{
            'x': blobs[0], 'classes': blobs[1], 'n_cluster': 3
        },
        'mutated':{
            'x': mutated[0], 'classes': mutated[1], 'n_cluster': 3
        }
    }
    return dataset

data_sets = create_data(n_samples)

**Respuestas:**

In [None]:
def plot_scatter(x, y, color):
    #Escriba su código aquí
    fig = go.Figure(data=[go.Scatter(
            x=x,
            y=y,
            mode='markers',
            marker=dict(size=8, color=color, showscale=False)
            )])
    return fig

In [None]:
data_sets['moons']['x'][:,0]
data_sets['moons']['x'][:,1]
data_sets['moons']['x']
data_sets['moons']['classes']
data_sets['blobs']['x']
data_sets['blobs']['classes']
data_sets['mutated']['x']
data_sets['mutated']['classes']

In [None]:
from sklearn.cluster import KMeans , DBSCAN , AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from time import time
from sklearn.metrics import silhouette_score

In [None]:
def plot_data(n_samples):
  #creo el dataset
  data_sets = create_data(n_samples)
  #creo la estructura del plot
  fig = make_subplots(rows=3, cols=4, subplot_titles=('Kmeans','GMM','WARD','DBSCAN')*3)
  #relleno el plot
  i=0
  for data in data_sets:
    #print(data)
    clases=data_sets[data]['classes']
    clusters=data_sets[data]['n_cluster']
    #----K MEANS---
    t0_kmeans=time()
    kmeans_sil=silhouette_score(data_sets[data]['x'],clases)
    k_means = KMeans(n_clusters=clusters).fit(data_sets[data]['x'])
    t1_kmeans=time()

    #----DBSCAN---
    t0_dbscan=time()
    dbscan_sil=silhouette_score(data_sets[data]['x'],clases)
    dbscan = DBSCAN(eps=0.18, min_samples=100).fit(data_sets[data]['x'])
    t1_dbscan=time()

    #----WARD---
    t0_ward=time()
    ward_sil=silhouette_score(data_sets[data]['x'],clases)
    ward = AgglomerativeClustering(n_clusters=clusters,linkage='ward').fit(data_sets[data]['x'])
    t1_ward=time()

    #----GMM---
    t0_gmm=time()
    gmm_sil=silhouette_score(data_sets[data]['x'],clases)
    gmm = GaussianMixture(n_components=clusters).fit(data_sets[data]['x'])
    t1_gmm=time()

    #Diferencias de tiempo
    kmeans_time=t1_kmeans-t0_kmeans
    dbscan_time=t1_dbscan-t0_dbscan
    ward_time=t1_ward-t0_ward
    gmm_time=t1_gmm-t0_gmm

    #clases o labels
    k_means_labels = k_means.labels_
    dbscan_labels = dbscan.labels_
    ward_labels = ward.labels_
    gmm_labels = gmm.predict(data_sets[data]['x'])

    #lo que va en cada subplot
    fig.add_trace(plot_scatter(data_sets[data]['x'][:,0], data_sets[data]['x'][:,1], k_means_labels).data[0], row=i+1, col=1)
    fig.add_trace(plot_scatter(data_sets[data]['x'][:,0], data_sets[data]['x'][:,1], gmm_labels).data[0], row=i+1, col=2)
    fig.add_trace(plot_scatter(data_sets[data]['x'][:,0], data_sets[data]['x'][:,1], ward_labels).data[0], row=i+1, col=3)
    fig.add_trace(plot_scatter(data_sets[data]['x'][:,0], data_sets[data]['x'][:,1], dbscan_labels).data[0], row=i+1, col=4)

    #titulos para cada subplot con el tiempo y silhouette
    fig.layout.annotations[i*4 + 0].text = f'Sil: {kmeans_sil:.2f}\nt: {kmeans_time:.2f} s'
    fig.layout.annotations[i*4 + 1].text = f'Sil: {gmm_sil:.2f}\nt: {gmm_time:.2f} s'
    fig.layout.annotations[i*4 + 2].text = f'Sil: {ward_sil:.2f}\nt: {ward_time:.2f} s'
    fig.layout.annotations[i*4 + 3].text = f'Sil: {dbscan_sil:.2f}\nt: {dbscan_time:.2f} s'


    i+=1
  #agrego titulo
  fig.update_layout(height=1000, width=1000,title_text='Comparación de Métodos de Clustering',showlegend=False)
  #muestro el plot
  fig.show()






In [None]:
plot_data(1000)

In [None]:
plot_data(5000)

In [None]:
plot_data(10000)

*Analisis y comparación*


Visualizando los gráficos de los algoritmos de clustering se puede notar que a medida que el numero de samples aumenta, el tiempo de ejecución tambien lo hace, esto se debe a que hace más iteraciones.

Tambien es importante destacar que el dataset 'blobs' es el que presenta mejor métrica silhouette (0.78) respecto a los otros que son bastante bajos indicando que no se realiza un buen agrupamiento.

## 2. Análisis de Satisfacción de Vuelos. [10 puntos]

<center>
<img src="https://i.gifer.com/2Hci.gif" width=400 />

Habiendo entendido cómo funcionan los modelos de aprendizaje no supervisado, *Don Sergio* le encomienda estudiar la satisfacción de pasajeros al haber tomado un vuelo en alguna de sus aerolineas. Para esto, el magnate le dispone del dataset `aerolineas_licer.parquet`, el cual contiene el grado de satisfacción de los clientes frente a diferentes aspectos del vuelo. Las características del vuelo se definen a continuación:

- *Gender*: Género de los pasajeros (Femenino, Masculino)
- *Customer Type*: Tipo de cliente (Cliente habitual, cliente no habitual)
- *Age*: Edad actual de los pasajeros
- *Type of Travel*: Propósito del vuelo de los pasajeros (Viaje personal, Viaje de negocios)
- *Class*: Clase de viaje en el avión de los pasajeros (Business, Eco, Eco Plus)
- *Flight distance*: Distancia del vuelo de este viaje
- *Inflight wifi service*: Nivel de satisfacción del servicio de wifi durante el vuelo (0:No Aplicable; 1-5)
- *Departure/Arrival time convenient*: Nivel de satisfacción con la conveniencia del horario de salida/llegada
- *Ease of Online booking*: Nivel de satisfacción con la facilidad de reserva en línea
- *Gate location*: Nivel de satisfacción con la ubicación de la puerta
- *Food and drink*: Nivel de satisfacción con la comida y la bebida
- *Online boarding*: Nivel de satisfacción con el embarque en línea
- *Seat comfort*: Nivel de satisfacción con la comodidad del asiento
- *Inflight entertainment*: Nivel de satisfacción con el entretenimiento durante el vuelo
- *On-board service*: Nivel de satisfacción con el servicio a bordo
- *Leg room service*: Nivel de satisfacción con el espacio para las piernas
- *Baggage handling*: Nivel de satisfacción con el manejo del equipaje
- *Check-in service*: Nivel de satisfacción con el servicio de check-in
- *Inflight service*: Nivel de satisfacción con el servicio durante el vuelo
- *Cleanliness*: Nivel de satisfacción con la limpieza
- *Departure Delay in Minutes*: Minutos de retraso en la salida
- *Arrival Delay in Minutes*: Minutos de retraso en la llegada

En consideración de lo anterior, realice las siguientes tareas:

0. Ingeste el dataset a su ambiente de trabajo.

1. Seleccione **sólo las variables numéricas del dataset**.  Explique qué éfectos podría causar el uso de variables categóricas en un algoritmo no supervisado. [2 punto]

2. Realice una visualización de la distribución de cada variable y analice cada una de estas distribuciones. [2 punto]

3. Basándose en los gráficos, evalúe la necesidad de escalar los datos y explique el motivo de su decisión. [2 puntos]

4. Examine la correlación entre las variables mediante un correlograma. [2 puntos]

5. De acuerdo con los resultados obtenidos en 5, reduzca la dimensionalidad del conjunto de datos a cuatro variables, justificando su elección respecto a las variables que decide eliminar. [2 puntos]

**Respuesta:**

*1. efecto de usar variables categoricas en algoritmo no supervisado*

El efecto de usar variables categoricas es que estás indican cualidades y en caso de que se asocien con números, estos no permiten aplicar operaciones sobre ellos, es decir, calcular métricas para un analisis.

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
# 0.Carga de datos
# /content/drive/MyDrive/Lab_6/aerolineas_lucer.parquet
df_vuelos= pd.read_parquet(path + 'aerolineas_lucer.parquet')

#1.seleccion de variables numricas del dataset
df_vuelos_num= df_vuelos.select_dtypes(include='number')
#suponemos que el ID no es una columna a contabilizar
df_vuelos_num= df_vuelos_num.drop('id', axis=1)

#2.visualización de la distribución de cada variable
for col in df_vuelos_num.columns:
    fig = px.histogram(df_vuelos_num, x=col, title=f'Visualización de la distribución de variable {col}') #ver si es solo histo o podria ser otro
    fig.show()



*2.analisis de cada una de las distribuciones*



*   Age: La concentración de edades se encuentra entre los 20 y 60 años
*   Flight Distance: Se visualiza que mayoritariamente se vuelan distancias cortas o no superiores a 1000. Distancias mayores a la anterior son de poca frecuencia.
* Inflight wifi service: Entre 2 a 3 poseen servicio de wifi en los aviones
* Departure/Arrival time convenient: los vuelos presentan inconvenientes en la llegada o partida en su gran mayoria.
* Ease of Online booking: representa que la mayoria de las veces es fácil hacer una reserva online
* Gate location: hay con mayor frecuencia 3 gates location
* Food and drink: La mayoría de los vuelos tienen food/drink
* Online boarding: la mayoria de los vuelos posee online boarding
* Seat comfort: se presenta con mayor frecuencia vuelos con asientos comodos
* Inflight entertainment: se presenta con mayor frecuencia vuelos con entretenimiento durante el vuelo
* On-board service: se presenta con mayor frecuencia vuelos con onboard services
* Leg room service: se presenta con mayor frecuencia vuelos con leg room service
* Baggage handling: se presenta con mayor frecuencia vuelos con baggage handling
* Chekin service:se presenta con mayor frecuencia vuelos con chekin service
* Inflight service: se presenta con mayor frecuencia vuelos con inflight service
* Cleanliness: se presenta con mayor frecuencia vuelos cleanliness
* Departure delay in minutes: No se alcanza a visualizar la mayor frecuencia en minutos de departure delay, pero a priori sería menos de 50 minutos.
* Arrive delay in minutes: Al igual que departure no se visualiza de buena manera, pero a priori serían menos de 50 minutos.





*3. evaluación y explicacion de escalar datos*

Se decide escalar los datos dado que las últimas dos variables no son capaces de visualizarse de mejor manera, además cabe la posibilidad de mejorar la vista de los datos de las otras variables.

In [None]:
#3.evalúe la necesidad de escalar los datos
scaler = MinMaxScaler()
df_scale = scaler.fit_transform(df_vuelos_num)
df_scale = pd.DataFrame(df_scale, columns=df_vuelos_num.columns)
for col in df_scale.columns:
    fig = px.histogram(df_scale, x=col, title=f'Visualización de la distribución de variable {col} escalado con MinMaxScaler')
    fig.show()

In [None]:
#4.examine la correlación entre las variables mediante un correlograma
correlacion= df_scale.corr()
fig = px.imshow(correlacion,
                title='Correlograma',
                aspect="16:9",
                height=800,
                zmin=-1,
                color_continuous_midpoint=0,
                zmax=1,
                color_continuous_scale=px.colors.sequential.Viridis)

fig.show()


*4.correlación*

Se puede ver una matriz de correlación donde hay pocas variables de alta correlación, por lo cual nos puede dar indicio de que al realizar algún modelo de evaluación o algo similar, habría que quitar bastantes variables para que sea representativo.

In [None]:
#5.reduzca la dimensionalidad del conjunto de datos a cuatro variables
diagonal = correlacion.where(~np.eye(correlacion.shape[0], dtype=bool))
high_corr = diagonal.stack().sort_values(ascending=False)
print(high_corr.head(12))
df_reducido= df_scale[['Arrival Delay in Minutes', 'Online boarding', 'Flight Distance', 'Inflight wifi service']]

*5.variables que se quitaron*

Dado que se piden dejar 4 variables, se dejan las variables con mayor correlación, es decir, 'Arrival Delay in Minutes', 'Online boarding', 'Flight distance' y 'Inflight wifi service'. Las cuales poseen una correlación mayor a 0.6, exceptuando Online Boarding, pero esta se decide incluir como variable intermedia ya que nos indicaría alguna relación interesante con las otras al ser el boleto que permite subirse al avión.

Si lo pensamos de manera que estas variables tengan un impacto en algún modelo, se puede perfectamente relacionar el atraso de salida con la llegada tardia de un vuelo, asi como tambien la duración de vuelo con el hecho de que exista wifi o no en el avión, ya que entre más largo el vuelo, más entretención va a necesitar la gente.

## 3. Preprocesamiento 🎭. [10 puntos]

<center>
<img src="https://i.pinimg.com/originals/1e/a8/0e/1ea80e7cea0d429146580c7e91c5b944.gif" width=400>

Tras quedar satisfecho con los resultados presentados en el punto 2, el dueño de la empresa ha solicitado que se preprocesen los datos mediante un `pipeline`. Es crucial que este proceso tenga en cuenta las observaciones derivadas de los análisis anteriores. Adicionalmente, ha expresado su interés en visualizar el conjunto de datos en un gráfico de dos o tres dimensiones.

Basándose en los análisis realizados anteriormente:
1. Cree un `pipeline` que incluya PCA, utilizando las consideraciones mencionadas previamente para proyectar los datos a dos dimensiones. [4 puntos]
2. Grafique los resultados obtenidos y comente lo visualizado. [6 puntos]

**Respuestas:**

In [None]:
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer

#Se crea el pipeline que tenga PCA
pipeline = Pipeline([
    #Se decidió usar standardscaler especificamente para esta sección para ver una representacion de los datos que se pudiera interpretar de una manera más sencilla.
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=2))
])

df_transformed = pipeline.fit_transform(df_reducido)

In [None]:
#Se grafican los resultados
fig = px.scatter(x = df_transformed[:, 0],
                 y = df_transformed[:, 1],
                 labels={'x' : "Principal Component 1",
                         'y' : "Principal Component 2"},
                 title = 'Scatter Plot 2D PCA')
fig.show()

Como se puede observar en el gráfico, los datos elegidos, al tener una correlación moderada entre ellos, se concentran los valores en PC2 = 0 teniendo casos particulares que sobresalen. En PC1 se distribuyen en todo su espectro.

## 4. Outliers 🚫🙅‍♀️❌🙅‍♂️ [10 puntos]

<center>
<img src="https://joachim-gassen.github.io/images/ani_sim_bad_leverage.gif" width=250>

Con el objetivo de mantener la claridad en su análisis, Don Sergio le ha solicitado entrenar un modelo que identifique pasajeros con comportamientos altamente atípicos.

1. Utilice `IsolationForest` para clasificar las anomalías del dataset (sin aplicar PCA), configurando el modelo para que sólo el 1% de los datos sean considerados anómalos. Asegúrese de integrar esta tarea dentro de un `pipeline`. [3 puntos]

2. Visualice los resultados en el gráfico de dos dimensiones previamente creado. [3 puntos]

3. ¿Cómo evaluaría el rendimiento de su modelo en la detección de anomalías? [4 puntos]

**Respuestas:**

In [None]:
from sklearn.ensemble import IsolationForest

#Ya que se pide 1% de los datos anomalos se considera una contaminación del 1%, es decir, de 0,01.
isolation_forest_model = IsolationForest(contamination=0.01)

#Después se crea un nuevo pipeline sin PCA
pipeline_anomalias = Pipeline([
    ('scaler', StandardScaler()),
    ('isolation_forest', isolation_forest_model)
])

pipeline_anomalias.fit(df_reducido)

anomalias_prediction = pipeline_anomalias.predict(df_reducido)

In [None]:
df_reducido_anomalias = pd.DataFrame(np.column_stack((df_transformed, anomalias_prediction)))
df_reducido_anomalias[2] = df_reducido_anomalias[2].astype('category')

In [None]:
fig = px.scatter(x = df_reducido_anomalias [0],
                 y = df_reducido_anomalias [1],
                 labels={'x' : "Principal Component 1",
                         'y' : "Principal Component 2"},
                 color=df_reducido_anomalias[2],
                 title = 'Scatter Plot 2D PCA',
                 color_discrete_map={1: 'blue', -1: 'red'})
fig.show()

Se puede observar que se consideran como anomalías aquellos valores que tienen un valor alto del PC2, es decir, los valores que se alejan del gran conjunto de datos presentes cerca del valor PC2=0.

## 5. Métricas de Desempeño 🚀 [10 puntos]

<center>
<img src="https://giffiles.alphacoders.com/219/219081.gif" width=300>

Motivado por incrementar su fortuna, Don Sergio le solicita entrenar un modelo que le permita segmentar a los pasajeros en grupos distintos, con el objetivo de optimizar las diversas campañas de marketing diseñadas por su equipo. Para ello, le se pide realizar las siguientes tareas:

1. Utilizar el modelo **Gaussian Mixture** y explore diferentes configuraciones de número de clústers, específicamente entre 3 y 8. Asegúrese de integrar esta operación dentro de un `pipeline`. [4 puntos]
2. Explique cuál sería el criterio adecuado para seleccionar el número óptimo de clústers. **Justifique de forma estadistica y a traves de gráficos.** [6 puntos]

> **HINT:** Se recomienda investigar sobre los criterios AIC y BIC para esta tarea.

**Respuestas:**

In [None]:
#1. utilizar modelo gaussian mixture explorar dif conf de n_cluster (3 a 8), esto dentro de un pipeline
from sklearn.mixture import GaussianMixture
valores_AIC=[]
valores_BIC=[]
cluster = []
for n_clusters in range(3, 9):
    pipeline_gmm = Pipeline([
        ('scaler', MinMaxScaler()),
        ('gmm', GaussianMixture(n_components=n_clusters, random_state=0))
    ])
    pipeline_gmm.fit(df_reducido_anomalias)

    gmm_model = pipeline_gmm['gmm']
    #escalo el df_reducido
    df_reducido_scaled = pipeline_gmm['scaler'].transform(df_reducido_anomalias)
    gmm_predict= gmm_model.predict(df_reducido_anomalias)
    cluster.append(gmm_predict)
    #calcular AIC y BIC
    valores_AIC.append(gmm_model.aic(df_reducido_scaled))
    valores_BIC.append(gmm_model.bic(df_reducido_scaled))

In [None]:
valores_AIC

In [None]:
valores_BIC

In [None]:
#Definir los datos
n_clusters = list(range(3, 9))

#Crear un DataFrame con los datos
data_A = {
    'n_clusters': n_clusters,
    'valor': valores_AIC,
    'metrica': ['AIC'] * len(n_clusters)}

data_A = pd.DataFrame(data_A)

data_B = {
    'n_clusters': n_clusters,
    'valor': valores_BIC,
    'metrica': ['BIC'] * len(n_clusters)}

#Crear el DataFrame
data_B = pd.DataFrame(data_B)

#Ploteamos
fig_A= px.line(
    x=data_A['n_clusters'],
    y=data_A['valor'],
    color=data_A['metrica'],
    labels={'x': '# de clusters', 'y': 'valor'},
    title='Estadísticas'
)

fig_A.show()

fig_B= px.line(
    x=data_B['n_clusters'],
    y=data_B['valor'],
    color=data_B['metrica'],
    labels={'x': '# de clusters', 'y': 'valor'},
    title='Estadísticas'
)

fig_B.show()


*explicacion del n_cluster*

El numero de clusters optimo sería 5 ya que es cuando el gráfico, en ambos conjuntos de métrica (AIC y BIC), empieza a decaer. Lo anterior se basa en el método del codo ya que clusteres que están después del punto de inflexión no minimizan la varianza dentro de los clusters de forma suficientemente significativa.

Además es el cluster con más 'codo' significativo ya que en los cluster 6 y 7 la pendiente no es tán abrupta como en el cluster 5.



## 6. Análisis de resultados 📊 [10 puntos]

<center>
<img src="https://i.gifer.com/7wTk.gif" width=300>

Una vez identificado el número óptimo de clústers, se le pide realizar lo siguiente:

1. Utilizar la proyección en dos dimensiones para visualizar cada clúster claramente. [2 puntos]

2. ¿Es posible distinguir claramente entre los clústers generados? [2 puntos]

3. Proporcionar una descripción breve de cada clúster utilizando estadísticas descriptivas básicas, como la media y la desviación estándar, para resumir las características de las variables utilizadas en estos algoritmos. [2 puntos]

4. Proceda a visualizar los clústers en tres dimensiones para una perspectiva más detallada. [2 puntos]

5. ¿Cómo afecta esto a sus conclusiones anteriores? [2 puntos]

**Respuestas:**

In [None]:
#1. utilizar la proyeccion en dos dimensiones para visualizar cada cluster claramente
#Primero hay que agregar una columna de Cluster a df_visualizacion para poder diferenciar los datos
fig = px.scatter(x = df_reducido_anomalias[0],
                 y = df_reducido_anomalias[1],
                 labels={'x' : "Principal Component 1",
                         'y' : "Principal Component 2"},
                 color = cluster[2],
                 title = 'Scatter Plot 2D PCA')
fig.show()

2.- Con la división de colores que proporciona plotly se puede observar como se dividen los clústers en el gráfico.

In [None]:
#3. estadisticas descriptivas basicas media y desviacion estandar
df_reducido_anomalias['cluster'] = cluster[2]
cluster_orden = df_reducido_anomalias['cluster'].unique()
cluster_orden.sort()

for i in cluster_orden:
    df_clusters=df_reducido_anomalias[df_reducido_anomalias['cluster'] == i]

    print(f'Media de cluster {i}: ')
    print('Promedio PC1')
    print(df_clusters[[0, 1]].mean()[0])
    print('Promedio PC2')
    print(df_clusters[[0, 1]].mean()[1])
    print()
    print(f'Std de cluster {i}: ')
    print('Desviación estándar PC1')
    print(df_clusters[[0, 1]].std()[0])
    print('Desviación estándar PC2')
    print(df_clusters[[0, 1]].std()[1])
    print()

Observando los valores de promedio y desviación estándar por clúster conlcuimos:


*   Clúster 0: Presenta un promedio alto para el primer componente (0.86) mientras que para el segundo presenta una media baja (0.06). Con respecto a su desviación estándar, es baja para ambos componentes, no superando 0.15 en ninguno de los dos.

*   Clúster 1: Se presenta una media baja en ambos componentes de (-0.55) y de (0.04). Para la desviación se observan una desviación alta para el componente 1 de (1.49) y una desviación baja para el componente 2  de (0.04).

*   Clúster 2: Tiene un promedio bajo para el componente PC1 (-0.32) y alto para el componente PC2 (4.94). En desviación se presentan desviaciones altas para ambos componentes de (1.46) y (2.82).

*   Clúster 3: Hay promedios bajos para ambos componentes (-0.93) y (0.04). Se presentan desviaciones de (1.33) para PC1 y de (0.11) para PC2.

*   Clúster 4: Los promedios de este clúster corresponden a (0.06) para PC1 y de (-0.06) para PC2. Las desviaciones estándar corresponden a (1.19) para PC1 y (0.86) para PC2.



In [None]:
# Crear un nuevo pipeline para la reducción a 3 dimensiones
pipeline_3d_pca = Pipeline([
    ('scaler', MinMaxScaler()),
    ('pca', PCA(n_components=3))
])

# Ajustar el pipeline a los datos
pipeline_3d_pca.fit_transform(df_reducido)

# Se agrega el isolation forest
pipeline_3d_anomalias = Pipeline([
    ('scaler', MinMaxScaler()),
    ('isolation_forest', isolation_forest_model)
])

# Ajustar el pipeline a los datos
pipeline_3d_anomalias.fit(df_reducido)
anomalias_prediction_3d = pipeline_3d_anomalias.predict(df_reducido)

# Se crea dataframe para modelo 3d
df_reducido_anomalias_3d = pd.DataFrame(np.column_stack((pipeline_3d_pca.transform(df_reducido), anomalias_prediction_3d)))
df_reducido_anomalias_3d[2] = df_reducido_anomalias_3d[2].astype('category')

# Se hace la división de clústers
gmm_3d = GaussianMixture(n_components = 5, random_state=0)
gmm_3d.fit(df_reducido_anomalias_3d)
gmm_labels = gmm_3d.predict(df_reducido_anomalias_3d)

In [None]:
fig = px.scatter_3d(x = df_reducido_anomalias_3d[0],
                    y = df_reducido_anomalias_3d[1],
                    z = df_reducido_anomalias_3d[2],
                    labels={'x' : "Principal Component 1",
                            'y' : "Principal Component 2",
                            'z' : "Principal Component 3"},
                    color = gmm_labels,
                    title = 'Scatter Plot 3D PCA')
fig.show()

5.- Se puede observar como los clusters se mezclan en el espacio, específicamente los clústers 0, 1 y 2. El clúster 4 se presenta en la mayor cantidad a lo largo del volumen del "cubo" que se formó con los datos. Generar un clúster con los clústers que comparten espacio puede producir una mayor armonía en el espacio que se utiliza evitando estas superposiciones de datos.