# Índice de contenidos
1. Antes de empezar:

2. Reto 1 - Importar y describir el conjunto de datos

    2.0.0.1 Explore el conjunto de datos con técnicas matemáticas y de visualización. ¿Qué encuentra?

3. Reto 2 - Limpieza y transformación de datos

4. Reto 3 - Preprocesamiento de datos

    4.0.0.1 Utilizaremos el StandardScaler de sklearn.preprocessing y escalaremos nuestros datos. Lea más sobre StandardScaler aquí.

5. Reto 4 - Agrupación de datos con K-Means

6. Reto 5 - Agrupación de datos con DBSCAN

7. Reto 6 - Comparar K-Means con DBSCAN

8. Reto adicional 2 - Cambiar el número de clusters de K-Means

9. Bonus Challenge 3 - Cambiar DBSCAN eps y min_samples

# Antes de empezar:
- Lee el archivo README.md
- Comenta todo lo que puedas y utiliza los recursos del archivo README.md
- ¡Feliz aprendizaje!

In [None]:
# Import your libraries:

%matplotlib inline

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import warnings                                              
from sklearn.exceptions import DataConversionWarning          
warnings.filterwarnings(action='ignore', category=DataConversionWarning)

# Desafío 1 - Importar y describir el conjunto de datos

En este laboratorio, utilizaremos un conjunto de datos que contiene información sobre las preferencias de los clientes. Analizaremos cuánto gasta cada cliente en un año en cada subcategoría de la tienda de comestibles e intentaremos encontrar similitudes mediante la agrupación.

El origen del conjunto de datos es [aquí](https://archive.ics.uci.edu/ml/datasets/wholesale+customers).

In [None]:
data = pd.read_csv("../data/Wholesale customers data.csv")
data

#### Explora el conjunto de datos con técnicas matemáticas y de visualización. ¿Qué encuentras?

Lista de comprobación:

* ¿Qué significa cada columna?
* ¿Hay datos categóricos que convertir?
* ¿Hay que eliminar datos que faltan?
* Colinealidad de columnas: ¿hay correlaciones altas?
* Estadísticas descriptivas: ¿hay que eliminar algún valor atípico?
* Distribución de los datos por columnas: ¿está sesgada la distribución?
* Etc.

Información adicional: Hace más de un siglo, un economista italiano llamado Vilfredo Pareto descubrió que aproximadamente el 20% de los clientes representan el 80% de las ventas minoristas típicas. Esto se denomina [principio de Pareto](https://en.wikipedia.org/wiki/Pareto_principle). Compruebe si este conjunto de datos presenta esta característica.

In [None]:
# PARETO
category_totals = data[['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']].sum()

category_totals = category_totals.sort_values(ascending=False)

# Calcular el porcentaje acumulado
category_totals_cumsum = category_totals.cumsum()
category_totals_percentage = 100 * category_totals_cumsum / category_totals.sum()

# Pareto Plot
plt.figure(figsize=(10, 6))

plt.bar(category_totals.index, category_totals, color='darkblue', alpha=0.6)

plt.title('Aplicación del Principio de Pareto a las Categorías de Productos')
plt.xlabel('Categorías')
plt.ylabel('Ventas Totales')
plt.twinx().plot(category_totals.index, category_totals_percentage, color='orange', marker='o', linestyle='-', linewidth=2)
# plt.legend()
plt.show()

print("Totales de Ventas por Categoría:")
print(category_totals)
print("\nPorcentaje Acumulado por Categoría:")
print(category_totals_percentage)

**Tus observaciones aquí**

+ **Frozen, Grocery, Milk** tienen una gran contribución combinada a las ventas totales. Juntas, estas categorías representan un alto porcentaje de las ventas, específicamente el **77.49%**. Esto refleja que un número relativamente pequeño de categorías está generando la mayor parte de los ingresos, siguiendo el principio de Pareto.
+ Patrón de Pareto: Estas categorías siguen el patrón del principio de Pareto, donde unas pocas causas (categorías) explican la mayoría de los efectos (ventas).

# Reto 2 - Limpieza y transformación de datos

Si tu conclusión del reto anterior es que los datos necesitan limpieza/transformación, hazlo en las celdas de abajo. Sin embargo, si su conclusión es que los datos no necesitan ser limpiados o transformados, no dudes en saltarte este reto. Si optas por esta última opción, explica los motivos.

In [None]:
data.info()

In [None]:
data

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
# Matriz de correlación para ver las relaciones entre variables
correlation_matrix = data.corr()

plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', square=True, cmap='viridis')
plt.title('Correlation Matrix')
plt.show()

In [None]:
#  Se puede observar que no hay datos nulos o NaN
data.isnull().sum()

In [None]:
data.describe([.25,.5,.75,.95, .99])

In [None]:
data.nlargest(3, 'Fresh') # Top 3 more expensive

In [None]:
data.nlargest(3, 'Milk') # Top 3 more expensive

In [None]:
data.nlargest(3, 'Grocery') # Top 3 more expensive

In [None]:
import seaborn as sns
plt.figure(figsize=(11, 6))
sns.boxplot(data=data.drop(columns=['Channel', 'Region']))
plt.title('Box Plot of Wholesale variables')

In [None]:
for col in data.columns: 
    fig, axs = plt.subplots(2,1, figsize=(7, 6))
    axs = axs.flatten()
    
    sns.boxplot(data=data, x=col, ax=axs[0], color='darkgreen')
    sns.histplot(data=data, x=col, ax=axs[1], color='darkgreen')
    plt.suptitle(f"{col} Boxplot and Histogram")
    plt.tight_layout()
    plt.show()

In [None]:
data.columns

In [None]:
# Quitando outliers > P99
columns = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']
# Calcular p95 solo para esas columnas
p99 = data[columns].quantile(0.95)

# Filtrar valores por debajo de p99 en esas columnas
data = data[(data[columns] < p99).all(axis=1)]
data.describe([.95])

plt.figure(figsize=(11, 6))
sns.boxplot(data=data.drop(columns=['Channel', 'Region']))
plt.title('Box Plot of Wholesale variables filtering outliers < P95')

**Tus observaciones aquí**

+ Parece que el dataset está bastante limpio, no tiene nulos ni NaN
+ Tiene outliers, si vemos el boxplot se observa lo mismo que en el Pareto, Fresh, Grocery y Milk son las que mayores valores acumulan en comparación con Frozen, Detergents_Paper y Delicatessen que tienen rangos de valores menores

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

# Reto 3 - Preprocesamiento de datos

Uno de los problemas del conjunto de datos es que los rangos de valores son notablemente diferentes en las distintas categorías (por ejemplo, `Fresh` y `Grocery` en comparación con `Detergents_Paper` y `Delicassen`). Si hiciste esta observación en el primer reto, ¡has hecho un gran trabajo! Esto significa que no sólo has completado las preguntas de bonificación en el anterior laboratorio de Aprendizaje Supervisado, sino que también has investigado en profundidad sobre [*feature scaling*](https://en.wikipedia.org/wiki/Feature_scaling). ¡Sigue trabajando así de bien!

Diversos rangos de valores en diferentes características podrían causar problemas en nuestra agrupación. La forma de reducir el problema es mediante el escalado de características. Volveremos a utilizar esta técnica con este conjunto de datos.

#### Utilizaremos el `StandardScaler` de `sklearn.preprocessing` y escalaremos nuestros datos. Lee más sobre `StandardScaler` [aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler).

*Después de escalar tus datos, asigna los datos transformados a una nueva variable `customers_scale`.

In [None]:
# Your import here:

from sklearn.preprocessing import StandardScaler

# Your code here:
scaler = StandardScaler().fit(data)
customers_scale = scaler.transform(data)
customers_scale

In [None]:
customers_scale.shape

# Reto 4 - Agrupación de datos con K-Means

Ahora vamos a agrupar los datos con K-Means primero. Inicia el modelo K-Means, luego ajusta tus datos escalados. En los datos devueltos por el método `.fit`, hay un atributo llamado `labels_` que es el número de cluster asignado a cada registro de datos. Lo que puede hacer es asignar estas etiquetas de nuevo a `customers` en una nueva columna llamada `customers['labels']`. Entonces verá los resultados de cluster de los datos originales.

In [None]:
from sklearn.cluster import KMeans

## K-means using k = 2
kmeans = KMeans(random_state=42)

In [None]:
from yellowbrick.cluster import KElbowVisualizer
visualizer = KElbowVisualizer(kmeans, k=(2,10))

# Fit the visualizer to the data
# This will run K-means clustering for each value of k and calculate the distortion score for each
visualizer.fit(data)

# Render the plot
# The Elbow plot displays the distortion score for each k
# The point where the distortion score starts to level off ('elbow') is the recommended number of clusters
visualizer.show()

### Viendo el elbow podríamos escoger 2 como el número de clusters correctos

In [None]:
kmeans = KMeans(n_clusters=2, random_state=42)

kmeans.fit(customers_scale)
labels = kmeans.predict(customers_scale)

clusters = kmeans.labels_.tolist()

In [None]:
data['Label'] = clusters
data

Cuenta los valores en `labels`.

In [None]:
data['Label'].value_counts()

# Reto 5 - Clustering de datos con DBSCAN

Ahora vamos a agrupar los datos utilizando DBSCAN. Utiliza `DBSCAN(eps=0.5)` para iniciar el modelo y, a continuación, ajusta los datos escalados. En los datos devueltos por el método `.fit`, asigna las `labels_` de nuevo a `customers['labels_DBSCAN']`. Ahora tus datos originales tienen dos etiquetas, una de K-Means y la otra de DBSCAN.

In [None]:
from sklearn.cluster import DBSCAN 

dbscan = DBSCAN(eps=0.5)
dbscan.fit_predict(customers_scale)
clusters = dbscan.labels_.tolist()
data['labels_DBSCAN'] = clusters

Cuenta los valores en `labels_DBSCAN`.

In [None]:
data['labels_DBSCAN'].value_counts()

# Reto 6 - Comparar K-Means con DBSCAN

Ahora queremos comparar visualmente cómo K-Means y DBSCAN han agrupado nuestros datos. Crearemos gráficos de dispersión para varias columnas. Para cada uno de los siguientes pares de columnas, traza un gráfico de dispersión utilizando `labels` y otro utilizando `labels_DBSCAN`. Ponlos uno al lado del otro para compararlos. ¿Qué algoritmo de agrupación tiene más sentido?

Columnas a visualizar:

* `Detergents_Paper` as X and `Milk` as y
* `Grocery` as X and `Fresh` as y
* `Frozen` as X and `Delicassen` as y

Visualice `Detergentes_Papel` como X y `Leche` como Y mediante `labels` y `labels_DBSCAN` respectivamente

Visualice `Grocery` como X y `Fresh` como Y mediante `labels` y `labels_DBSCAN` respectivamente

Visualice `Frozen` como X y `Delicassen` como Y mediante `labels` y `labels_DBSCAN` respectivamente

In [None]:
def plot(data,x,y,hue):
    sns.scatterplot(data=data, 
                    x=x, 
                    y=y,
                    hue=hue)
    plt.title(f'{x} vs {y} ')
    return plt.show()

In [None]:
data

In [None]:
# K-Means K=2
for x, y in zip(['Detergents_Paper', 'Grocery', 'Frozen'], ['Milk', 'Fresh', 'Delicassen']):
    plot(data=data, x=x, y=y, hue='Label')

In [None]:
# DBSCAN
for x, y in zip(['Detergents_Paper', 'Grocery', 'Frozen'], ['Milk', 'Fresh', 'Delicassen']):
    plot(data=data, x=x, y=y, hue='labels_DBSCAN')

In [None]:
data[['Label']].value_counts()

In [None]:
data[['labels_DBSCAN']].value_counts()

Vamos a utilizar un groupby para ver cómo la media difiere entre los grupos. Agrupamos `customers` por `labels` y `labels_DBSCAN` respectivamente y calculamos las medias de todas las columnas.

In [None]:
data[['Label', 'labels_DBSCAN']].value_counts()

In [None]:
data.groupby(['Label', 'labels_DBSCAN']).agg('mean')

¿Qué algoritmo funciona mejor?

**Tus observaciones aquí**

Funciona mejor el K-Means en este caso

# Bonus Challenge 2 - Cambiar el número de clusters de K-Means

Como hemos mencionado antes, no tenemos que preocuparnos por el número de clusters con DBSCAN porque lo decide automáticamente en función de los parámetros que le enviemos. Pero con K-Means, tenemos que suministrar el parámetro `n_clusters` (si no se suministra `n_clusters`, el algoritmo utilizará `8` por defecto). Debe saber que el número óptimo de clusters varía en función del conjunto de datos. K-Means puede funcionar mal si se utiliza un número incorrecto de clusters.

En el aprendizaje automático avanzado, los científicos de datos prueban diferentes números de clusters y evalúan los resultados con medidas estadísticas (leer [aquí](https://en.wikipedia.org/wiki/Cluster_analysis#External_evaluation)). Hoy no vamos a utilizar medidas estadísticas, sino nuestros ojos. En las celdas de abajo, experimenta con distintos números de conglomerados y visualízalos con gráficos de dispersión. ¿Qué número de clusters parece funcionar mejor para K-Means?

### EXTRA Viendo el elbow podríamos escoger 5 como el número de clusters correctos

In [None]:
kmeans = KMeans(n_clusters=5, random_state=42)

kmeans.fit(customers_scale)
labels = kmeans.predict(customers_scale)

clusters = kmeans.labels_.tolist()

In [None]:
data['Label_k5'] = clusters
data

Cuenta los valores en `labels`.

In [None]:
data['Label_k5'].value_counts()

In [None]:
# K-Means K=5
for x, y in zip(['Detergents_Paper', 'Grocery', 'Frozen'], ['Milk', 'Fresh', 'Delicassen']):
    plot(data=data, x=x, y=y, hue='Label_k5')

# Bonus Challenge 3 - Cambiar `eps` y `min_samples` de DBSCAN

Experimenta cambiando los parámetros `eps` y `min_samples` de DBSCAN. Mira cómo difieren los resultados con la visualización de gráficos de dispersión.

In [None]:
# Your code here


**Tus observaciones aquí**

    + El DBscan ajustado...
    
