# Módulo 1: Análisis de datos en el ecosistema Python

### Sesión (19)

**06/02/2023**

# 1. Aprendizaje de máquina (automático):   **Machine Learning**

El **aprendizaje automático** es una rama de la **inteligencia artificial** basada en el concepto de que las máquinas pueden aprender de datos, detectar patrones y tomar decisiones casi sin la intervención humana. El **machine learning** es un método de tratamiento y análisis de datos que **automatiza** la creación de **modelos analíticos**. 

![machine-learning-types.jpg](attachment:machine-learning-types.jpg)

## 1.1  Aprendizaje supervisado

Este algoritmo consta de una **variable objetivo** (variable dependiente) que se va a predecir a partir de un conjunto dado de **predictores** (variables independientes). 

Usando este conjunto de variables, generamos una función que asigna entradas a salidas. El proceso de aprendizaje de este tipo de algoritmos continúa hasta que el modelo alcanza un nivel deseado de precisión tanto en los datos de entrenamiento (training) como en los conjuntos de datos de prueba (test). 

![regression-vs-classification-in-machine-learning.png](attachment:regression-vs-classification-in-machine-learning.png)

* ### Clasificación:
    * el output tiene **etiquetas** predefinidas con valores **discretos** 
    * Usamos clasificación cuando la variable objetivo es **categórica** (grupos y clases)
    * ***tipos de algoritmo de clasificación:***
        * Logistic Regression (variables binarias)
        * Decision Tree (árbol de decisión) 
        * Random Forest (conjunto de árboles de decisión)
        * Naive Bayes Clasificador 
        * SVM (Support Vector Machines)
        * ANN (Artificial Neural Networks)
* ### Regresión: 
    * Usamos regresión cuando la variable output es un valor **numérico continuo**. 
    * ***tipos de alrgotimo de regresión:***
        * Regresión Lineal ( simple con una variable independiente o múltiple con varios output)
        * Polinomial
        * Ridge, Lasso, ElasticNet (cuando las variables independientes están altamente correlacionadas)
        * Decision Tree Regression
        * Random Forest Regression
        * Neural Network Regression
      

## 1.2. Aprendizaje no supervisado

En este tipo de algoritmos, no tenemos **ningún objetivo o variable de resultado** para predecir/estimar. Se suele utilizar para **agrupar** la población en diferentes grupos, por ejemplo para segmentar a los clientes en diferentes grupos para una intervención específica.

![Examples-of-Supervised-Learning-Linear-Regression-and-Unsupervised-Learning_W640.jpg](attachment:Examples-of-Supervised-Learning-Linear-Regression-and-Unsupervised-Learning_W640.jpg)

## 1.3. Aprendizaje por refuerzo

Con este algoritmo, la máquina está entrenada para tomar decisiones específicas. Funciona de esta manera: la máquina está expuesta a un **entorno** en el que **entrena a sí misma** continuamente usando **prueba y error**. Esta máquina aprende de la experiencia pasada e intenta capturar el mejor conocimiento posible para las decisiones más precisas.

![aprendizaje-por-refuerzo-automatico-machine-learning-inteligencia-artificial.png](attachment:aprendizaje-por-refuerzo-automatico-machine-learning-inteligencia-artificial.png)

## 1.4. Flujo del proceso modelado

Los procesos que se realizan para desarrollar un modelo con las técnicas de machine learning tienen un **ciclo de vida** que describe las fases principales por las que normalmente psasn los proyectos de **Data Science** o análisis de datos:
 * **1. Definición del problema**
     * Visión de negocio
     * Análisis preliminar
 * **2. Obtención de datos**
     * Fuentes de datos
     * Conexiones y consultas a bases de datos
 * **3. Preparación y tratamiento de datos**
     * Campos vacios (valores perdidos)
     * Campos inválidos (valores negativos, fuera del rango permitido...)
     * Outliers (valores atípicos)
     * Datos catégoricos (campos no numéricos)
     * Datos multiescalas (normalización y estandarización de datos)
 * **4. Dividir los conjuntos de datos**
     * Datos de entrenamiento (Training)
     * Datos de prueba (Test)
 * **5. Constuir el modelo**
     * Seleccionar el algoritmo adecuado
     * Ajustar el modelo
     * Optimizar los hiper-parametros
 * **6. Análisis de errores y reentrenamineto**
 * **7. Productivizar e integrar el modelo en el sistema**
 * **8. Monitorizar, mantener y mejorar el proceso**

![Process-Flow2.png](attachment:Process-Flow2.png)

---

# 2. Clustering

La agrupación o el **clustering** de datos se encuentra entre las aplicaciones más comunes del **aprendizaje no supervisado** que tiene como objetivo descubrir "clusters" o agrupamientos dentro de **datos no etiquetados**. Cada cluster idealmente contiene puntos de datos que sean **lo más similares posible entre sí** y tan **diferentes de los puntos de otros grupos**. 

La agrupación ayuda a encontrar **patrones presentes** en de los datos que pueden **no ser perceptibles para un observador humano**.

![UnsupervisedLearning.gif](attachment:UnsupervisedLearning.gif)

***K-means*** es un algoritmo de aprendizaje automático no supervisado que se utiliza para agrupar datos en **un número K de grupos**, donde K es un número definido por el usuario. Este modelo divide los datos en K clústeres **en función de su similitud (cercanía en *n-dimensiones*)** y asigna cada punto de datos al centro de clúster más cercano.

El algoritmo actualiza iterativamente los centros de los clústeres hasta la convergencia, donde **se minimiza la suma de las distancias entre los puntos de datos y su centro de clúster asignado**. K-means se usa frecuentemente en campos como **marketing** y la **segmentación del mercado**.

![0_ipBIcsy9jjvqEpbK.png](attachment:0_ipBIcsy9jjvqEpbK.png)

- **Inicialización**: El primer paso es inicializar aleatoriamente K centros de conglomerados. El número de clústeres, K, es un parámetro definido por el usuario.

- **Asignación**: cada punto de datos se asigna al centro de clúster más cercano en función de la distancia euclidiana (por defecto) entre el punto de datos y el centro de clúster.

- **Recálculo de los centros de los conglomerados**: los centros de los clusters se vuelven a calcular como la media de todos los puntos de datos asignados a ese conglomerado.

- **Reasignación**: los puntos de datos luego se reasignan al centro de clúster más cercano y **el proceso continúa hasta la convergencia**, donde los centros de clúster ya no cambian notablemente.

- **Convergencia**: se considera que el algoritmo ha convergido cuando los centros del clúster ya no cambian o cuando el cambio es menor que un umbral definido por el usuario.

***K-means*** es un algoritmo **rápido y eficiente**, pero puede ser sensible a los valores atípicos y es posible que no siempre produzca clústeres significativos.

![k4XcapI.gif](attachment:k4XcapI.gif)

## Ejemplo agrupación - [Fisher’s Iris dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set)

![image.png](attachment:image.png)

* El conjunto de datos de flores de Iris  es un conjunto de datos multivariante introducido por el estadístico y biólogo británico **Ronald Fisher** 
* El conjunto de datos consta de **50 muestras** de cada una de **las tres especies de Iris**:
    * Iris **setosa**
    * Iris **virginica** 
    * Iris **versicolor**
* Se midieron cuatro características de cada muestra:
    * el **largo** de los **sépalos**, en centímetros.
    * el **ancho** de los **sépalos**, en centímetros. 
    * el **largo** de los **pétalos**, en centímetros.
    * el **ancho** de los **pétalos**, en centímetros.
* Basado en la combinación de estas cuatro características, Fisher desarrolló un modelo discriminante lineal para **distinguir las especies** entre sí.    

In [None]:
# importamos las librerías necesarias 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

Importamos los datos del ejemplo Fisher’s Iris data set

In [None]:
from sklearn.datasets import load_iris

# Construimos un dataframe con los datos medidos 
dataset = pd.DataFrame(load_iris()["data"],columns=load_iris()["feature_names"])

# Añadimos la especie como etiqueta
dataset["label"] = load_iris()["target_names"][load_iris()["target"]]

dataset

In [None]:
# La información útil sobre los datos guardados en formato DataFrame
dataset.info()

In [None]:
# Extraer las estadísticas principales de los datos numéricos
dataset.describe()

Para hacernos una idea de como están distribuidos los datos podemos visualizarlos usando **Pairplot** como ya vimos en las sesiónes anteriores. *Pairplot* representa sobre todo **la relación entre los pares de variables del dataset**, además de la distribución de cada variable.

In [None]:
sns.pairplot(dataset, hue="label", height=3)
plt.show()

### Tratamiento y filtrado de datos

In [None]:
# Conteo de valores perdidos/faltantes  
dataset.isna().sum()

Procedemos a tratar los datos numéricos del dataset:

In [None]:
# Quedarnos solamente con las columnas numéricas
dataset_num = dataset.drop("label", axis=1)
dataset_num

### Normalizar los datos 
Por normalizar nos referimos a **poner los datos en una escala similar** como de `[0,1]`, que es un caso especial de la escalación llamado **“min-max”**, o por ejemplo homogeneizar las variables eliminando la media y escalando a la varianza de unidad como en el método ***StandardScaler***:

![normalizar.png](attachment:normalizar.png)

In [None]:
# importar los objetos necesarios de la librería sklearn
from sklearn.preprocessing import StandardScaler

# declarar el tipo de escalamiento y aplicarlo al conjunto de datos
escalado = StandardScaler().fit(dataset_num)
dataset_normal = escalado.transform(dataset_num)

In [None]:
# El dataset original sigue como antes
dataset_num

In [None]:
# Datos normalizados
print(type(dataset_normal))
print(dataset_normal.shape)
print(dataset_normal.ndim)

dataset_normal

In [None]:
# Lo convertimos en un DataFrame, añadiendole sus etiquetas
df_normal = pd.DataFrame(dataset_normal, columns=dataset_num.columns)
print(type(df_normal))
df_normal

In [None]:
# Verificar las características de los valores estandarizados
display(dataset.describe().round(4))
display(df_normal.describe().round(4))

Como se puede observar al estandarizar los datos se centralizan para todas las variables

In [None]:
# Graficar la distribución de los valores originales
sns.violinplot(data=dataset, orient='v')
plt.show()

In [None]:
# Graficar la distribución de los valores estandarizados
sns.violinplot(data=df_normal,  orient='v')
plt.show()

In [None]:
sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=dataset['label'])
plt.title("Datos normalizados (MinMaxScaler)")
plt.show()

Procedemos a aplicar el algoritmo de **K-means clustering**:

In [None]:
from sklearn.cluster import KMeans

mod_cluster = KMeans(n_clusters=3, random_state=100)

mod_cluster.fit(df_normal)

In [None]:
y_km = mod_cluster.predict(df_normal)
y_km

In [None]:
mod_cluster.labels_

In [None]:
dataset['label'].value_counts()

In [None]:
y_km_label = np.where(y_km==0, 'versicolor', np.where(y_km==1, 'setosa', 'virginica'))
y_km_label = pd.Series(y_km_label, name='label')
y_km_label

In [None]:
sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=y_km_label, hue_order=['setosa', 'versicolor', 'virginica'])
plt.title("Resutados de clustering")
plt.show()

In [None]:
fig, axes = plt.subplots(1,2, figsize=(20,7))

sns.scatterplot(x=dataset_num['petal width (cm)'], y=dataset_num['petal length (cm)'], hue=dataset['label'], ax=axes[0])
axes[0].set_title("Especies reales")

sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=y_km_label, hue_order=['setosa', 'versicolor', 'virginica'], ax=axes[1])
axes[1].set_title("Especies estimados")

plt.show()

Vamos a investigar los puntos que se han etiquetado equivocadamente por el modelo:

In [None]:
print(dataset['label'])
print(y_km_label)

In [None]:
diff_pos = [i for i in range(len(y_km_label)) if y_km_label[i]!=dataset['label'][i]]
print("El modelo de clustering se ha euivocado en clasificar %s flores" % len(diff_pos))
print("El porcentage de acierto es {acc}%".format(acc=(1-len(diff_pos)/len(y_km_label))*100))
y_km_label[diff_pos]

In [None]:
sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=y_km_label, hue_order=['setosa', 'versicolor', 'virginica'])
sns.scatterplot(x=df_normal['petal width (cm)'][diff_pos], y=df_normal['petal length (cm)'][diff_pos], marker='o', color = "red", label="errores")
plt.title("Resutados de clustering")
plt.show()

Ahora estudiamos los cluestres por sus centros

In [None]:
mod_cluster.__getstate__()

In [None]:
centros = mod_cluster.cluster_centers_
centros

In [None]:
sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=y_km_label, hue_order=['setosa', 'versicolor', 'virginica'])
sns.scatterplot(x=centros[:, 3], y=centros[:, 2], color='black', s=120, label='centroides')
plt.title("Resutados de clustering y los centros de cada grupo")
plt.show()

Se puede observer que los fallos se encuentran en el borde de las dos especies de _versicolor_ y _virginica_

In [None]:
sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=y_km_label, hue_order=['setosa', 'versicolor', 'virginica'])
sns.scatterplot(x=df_normal['petal width (cm)'][diff_pos], y=df_normal['petal length (cm)'][diff_pos], marker='o', color = 'red', label='errores')
sns.scatterplot(x=centros[:, 3], y=centros[:, 2], color='black', s=120, label='centroides')
plt.title("Resutados de clustering y los centros de cada grupo")
plt.show()

Ahora nos fijamos en el **silhouette score**

In [None]:
from sklearn.metrics import silhouette_score, silhouette_samples
silhouette_score(df_normal, y_km_label)

Vamos a analizar los valores individuales de coeficiente de **Silhoute**

In [None]:
silhouette_samples(df_normal, y_km_label)

Consultamos las estadísticas a parte de la media:

In [None]:
sil_coef = silhouette_samples(df_normal, y_km_label)
sil_coef = pd.Series(sil_coef)
sil_coef.describe()

In [None]:
sil_coef.sort_values()[:4]

Vamos a visualizar los puntos con menor valor de coeficiente _silhoute_ para ver dónde se encuantran estas observaciones. Procedemos a pintar los puntos que se encuentran en los **primeros 5% con valores más bajos** repecto a los demás datos.

In [None]:
sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=y_km_label, hue_order=['setosa', 'versicolor', 'virginica'])
sns.scatterplot(x=df_normal['petal width (cm)'][sil_coef[sil_coef<np.quantile(sil_coef, 0.05)].index],
                y=df_normal['petal length (cm)'][sil_coef[sil_coef<np.quantile(sil_coef, 0.05)].index],
                marker='o', color = 'purple', label='sil_coef')
sns.scatterplot(x=centros[:, 3], y=centros[:, 2], color='black', s=120, label='centroides')
plt.title("Resutados de clustering y los centros de cada grupo")
plt.show()

Ahora nos fijamos en puntos con el coeficiente de _silhoute_ en negativo. Los **valores negativos generalmente indican que una muestra se ha asignado al cluster equivocado**, y que la observación es **más similar o otro cluster** diferente. 

In [None]:
sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=y_km_label, hue_order=['setosa', 'versicolor', 'virginica'])
sns.scatterplot(x=df_normal['petal width (cm)'][sil_coef[sil_coef<0].index],
                y=df_normal['petal length (cm)'][sil_coef[sil_coef<0].index],
                marker='o', color = 'purple', label='sil_coef')
sns.scatterplot(x=centros[:, 3], y=centros[:, 2], color='black', s=120, label='centroides')
plt.title("Resutados de clustering y los centros de cada grupo")
plt.show()

Sabemos que en el modelo K-means, el algoritmo **mínimiza la suma de las distancias al cuadrado entre cada punto y su centroide**. Vemos esta medida cómo evoluciona al cambiar el número de los clusters:

In [None]:
mod_cluster.inertia_

In [None]:
distorsion = []
for k in range(1, 20):
    modelo_km = KMeans(n_clusters=k, random_state=100)
    modelo_km.fit(df_normal)
    distorsion.append(modelo_km.inertia_)

print(distorsion)


In [None]:
# Hacer una visualización rápida 
pd.Series(distorsion).plot()

In [None]:
# Obtener una visualización más elaborada 
plt.figure(figsize=(16, 7))
sns.lineplot(x=range(1,20), y=distorsion, color='green', label='SSE versus K', linewidth=3)
plt.xticks(range(1,20))
plt.title("Suma de la distancia al cuadrado de cada punto a su centroide", fontsize=16)
plt.xlabel("Número de Clusters", fontsize=14)
plt.ylabel("SSE", fontsize=14)
plt.show()

Ls evolución de **inercia** o la **distorsión** nos puede ayudar a la hora de elegir un valor razonable cómo el **núemro de los clusters (K)**. Esta técnica se conoce como el _método del codo (**[Elbow method](https://en.wikipedia.org/wiki/Elbow_method_(clustering))**)_. Según esta gráfica tenemos que seleccionar el valor de ___K___ en el **codo**, es decir, el punto después del cual **la distorsión/inercia comienza a disminuir de forma lineal**.  

Ahora nos fijamos en el **criterio de la silueta o [Silhouette score](https://en.wikipedia.org/wiki/Silhouette_(clustering))** que mide de alguna manera la similitud que tiene una observación a su propio grupo en comparación con otros clusters.  

El coeficiente de silueta varía de **−1** a **+1**, donde un valor alto indica que **un punto está bien emparejado con su propio cluster y mal emparejado con los grupos vecinos**. Si la mayoría de los valores son altos, la configuración de clustering en es adecuada. Si muchos puntos tienen un valor bajo o negativo, es posible que haya demasiados o muy pocos clústeres.

In [None]:
silueta = []
for k in range(2, 20):
    modelo_km = KMeans(n_clusters=k, random_state=100)
    modelo_km.fit(df_normal)
    y_modelo_km = modelo_km.predict(df_normal)
    silueta.append(silhouette_score(df_normal, y_modelo_km))

print(silueta)


In [None]:
# Obtener una visualización del valor de silueta
plt.figure(figsize=(16, 7))
sns.lineplot(x=range(2,20), y=silueta, color='green', label='silueta versus K', linewidth=3)
plt.xticks(range(1,20))
plt.title("Distancia media dentro del grupo (a) entre la distancia media del grupo más cercano (b)")
plt.xlabel("Número de Clusters", fontsize=14)
plt.ylabel("silhouette_score", fontsize=14)
plt.show()

---

### Agrupación de las observaciones generadas en el laboratorio de datos (**Dataset sintéticos**)

La librería _scikit-learn_ incluye varios **generadores de muestras aleatorias** que se pueden usar para crear conjuntos de datos artificiales de diferentes tamaño y con distintas características. El método **`make_blobs`** genera **bloque de datos gaussianos isotrópicos** para practicar las técnicas de agrupación o clustering.

In [None]:
from sklearn.datasets import make_blobs
datos_clust, etiquetas, centroides = make_blobs(n_samples=1000, centers=5, return_centers=True, random_state=10)

# Datos generados sinteticamente
print(centroides)
print(etiquetas)
print(datos_clust)

In [None]:
datos_clust.shape

In [None]:
sns.scatterplot(x=datos_clust[:,0], y=datos_clust[:,1], hue=etiquetas)
sns.scatterplot(x=centroides[:,0], y=centroides[:,1], color='red', s=80, label='Centroides')
plt.title("Datos sintéticos")
plt.show()

In [None]:
# Graficar la distribución de los valores originales
sns.violinplot(data=datos_clust, orient='v')
plt.show()

In [None]:
from sklearn.preprocessing import StandardScaler

escalado_clust = StandardScaler().fit(datos_clust)
datos_clust_norm = escalado_clust.transform(datos_clust)
datos_clust_norm

In [None]:
# Verificar las características de los valores estandarizados
display(pd.DataFrame(datos_clust).describe().round(2))
display(pd.DataFrame(datos_clust_norm).describe().round(2))

In [None]:
# Graficar la distribución de los valores estandarizados
sns.violinplot(data=datos_clust_norm, orient='v')
plt.show()

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples


modelo_kmeans = KMeans(n_clusters=5, random_state=100)

modelo_kmeans.fit(datos_clust_norm)

y_etiquetas = modelo_kmeans.labels_

centros_clust = modelo_kmeans.cluster_centers_

print("SSE = ", modelo_kmeans.inertia_)
print("Silhouette score = ", silhouette_score(datos_clust_norm, y_etiquetas))

# Graficar los resultados
sns.scatterplot(x=datos_clust_norm[:,0], y=datos_clust_norm[:,1], hue=y_etiquetas)
sns.scatterplot(x=centros_clust[:,0], y=centros_clust[:,1], color='blue', s=80, label='cluster_centers')
plt.title("Clustering con K-means")
plt.show()

Estos resultados tienen buena pinta, claramente por agrupar los datos con el mismo número de grupos que se han generado previamente. En caso de no disponer de esta información deberíamos analizar este parámetro. 

In [None]:
from sklearn.cluster import KMeans

modelo_kmeans = KMeans(n_clusters=2, random_state=100)

modelo_kmeans.fit(datos_clust_norm)

y_etiquetas = modelo_kmeans.labels_

centros_clust = modelo_kmeans.cluster_centers_

print("SSE = ", modelo_kmeans.inertia_)
print("Silhouette score = ", silhouette_score(datos_clust_norm, y_etiquetas))

# Graficar los resultados
sns.scatterplot(x=datos_clust_norm[:,0], y=datos_clust_norm[:,1], hue=y_etiquetas)
sns.scatterplot(x=centros_clust[:,0], y=centros_clust[:,1], color='blue', s=80, label='cluster_centers')
plt.title("Clustering con K-means")
plt.show()


In [None]:
from sklearn.cluster import KMeans

modelo_kmeans = KMeans(n_clusters=3, random_state=100)

modelo_kmeans.fit(datos_clust_norm)

y_etiquetas = modelo_kmeans.labels_

centros_clust = modelo_kmeans.cluster_centers_

print("SSE = ", modelo_kmeans.inertia_)
print("Silhouette score = ", silhouette_score(datos_clust_norm, y_etiquetas))

# Graficar los resultados
sns.scatterplot(x=datos_clust_norm[:,0], y=datos_clust_norm[:,1], hue=y_etiquetas)
sns.scatterplot(x=centros_clust[:,0], y=centros_clust[:,1], color='blue', s=80, label='cluster_centers')
plt.title("Clustering con K-means")
plt.show()

In [None]:
from sklearn.cluster import KMeans

modelo_kmeans = KMeans(n_clusters=4, random_state=100)

modelo_kmeans.fit(datos_clust_norm)

y_etiquetas = modelo_kmeans.labels_

centros_clust = modelo_kmeans.cluster_centers_

print("SSE = ", modelo_kmeans.inertia_)
print("Silhouette score = ", silhouette_score(datos_clust_norm, y_etiquetas))

# Graficar los resultados
sns.scatterplot(x=datos_clust_norm[:,0], y=datos_clust_norm[:,1], hue=y_etiquetas)
sns.scatterplot(x=centros_clust[:,0], y=centros_clust[:,1], color='blue', s=80, label='cluster_centers')
plt.title("Clustering con K-means")
plt.show()


In [None]:
from sklearn.cluster import KMeans

modelo_kmeans = KMeans(n_clusters=6, random_state=100)

modelo_kmeans.fit(datos_clust_norm)

y_etiquetas = modelo_kmeans.labels_

centros_clust = modelo_kmeans.cluster_centers_

print("SSE = ", modelo_kmeans.inertia_)
print("Silhouette score = ", silhouette_score(datos_clust_norm, y_etiquetas))

# Graficar los resultados
sns.scatterplot(x=datos_clust_norm[:,0], y=datos_clust_norm[:,1], hue=y_etiquetas)
sns.scatterplot(x=centros_clust[:,0], y=centros_clust[:,1], color='blue', s=80, label='cluster_centers')
plt.title("Clustering con K-means")
plt.show()


Lo suyo sería analizar estos datos con el fin de encontrar el número óptimo de grupos o clusters:

In [None]:
distor_clust = []
for k in range(1, 20):
    modelo_km = KMeans(n_clusters=k, random_state=100)
    modelo_km.fit(datos_clust_norm)
    distor_clust.append(modelo_km.inertia_)

# Obtener una visualización más elaborada 
plt.figure(figsize=(16, 7))
sns.lineplot(x=range(1,20), y=distor_clust, color='green', label='SSE versus K', linewidth=3)
plt.xticks(range(1,20))
plt.title("Suma de la distancia al cuadrado de cada punto a su centroide", fontsize=16)
plt.xlabel("Número de Clusters", fontsize=14)
plt.ylabel("SSE", fontsize=14)
plt.show()

Se ve que clarramente a partir de _K=5_ la gráfica de SSE tiene una tendencia lineal, con lo cual según el ***elbow method*** el núemero óptimo sería 5. Y ahora nos fijamos en la evolución del coeficiente de silueta:

In [None]:
sil_clust = []
for k in range(2, 20):
    modelo_km = KMeans(n_clusters=k, random_state=100)
    modelo_km.fit(datos_clust_norm)
    y_modelo_km = modelo_km.predict(datos_clust_norm)
    sil_clust.append(silhouette_score(datos_clust_norm, y_modelo_km))

# Obtener una visualización del valor de silueta
plt.figure(figsize=(16, 7))
sns.lineplot(x=range(2,20), y=sil_clust, color='green', label='silueta versus K', linewidth=3)
plt.xticks(range(1,20))
plt.title("Distancia media dentro del grupo (a) entre la distancia media del grupo más cercano (b)")
plt.xlabel("Número de Clusters", fontsize=14)
plt.ylabel("silhouette_score", fontsize=14)
plt.show()



Se puede apreciar que el valor de silueta alcanza su máximo en el _K=5_, por lo tanto queda muy destacado que el valor óptimo sería en este caso cinco para el número de grupos que se van a definir por el modelo de clustering.

---

### Segmentación de clientes

Aquí procedemos a agrupar los clientes de una gran superficie de alimentación, basado en los registros anuales de cada cliente fidelizado

In [None]:
# Cargar los datos de clientes
df_cliente = pd.read_csv("WholesaleCustomersData.csv")

In [None]:
df_cliente

In [None]:
# La información útil sobre los datos guardados en formato DataFrame
df_cliente.info()

In [None]:
# Conteo de valores perdidos/faltantes  
df_cliente.isna().sum()

In [None]:
# Echamos un vistazo a las características de cada columna
df_cliente.describe()

In [None]:
df_cliente['Channel'].value_counts()

In [None]:
df_cliente['Region'].value_counts()

In [None]:
fig, axes = plt.subplots(1,2, figsize=(15, 6))

# Count plot (primera gráfica)
sns.countplot(data=df_cliente, x='Channel', label=df_cliente['Channel'].value_counts().index, palette=['#5cde59',"#de5458"], ax=axes[0])
axes[0].set_title("Channel Count plot")
axes[0].set_ylabel("Count")

# pie chart (segunda gráfica)
plt.pie(df_cliente['Channel'].value_counts(), autopct='%.1f%%', labels=['Efectivo', 'Tarjeta'], colors=['#5bde54',"#de5454"])
axes[1].set_title("Channel Pie chart")

plt.show()

In [None]:
sns.pairplot(df_cliente, height=3)
plt.show()

In [None]:
sns.pairplot(df_cliente, hue='Region', height=3)
plt.show()

In [None]:
sns.pairplot(df_cliente, hue='Channel', height=3)
plt.show()

In [None]:
sns.scatterplot(data=df_cliente, x='Grocery', y='Detergents_Paper', hue='Channel')
plt.show()

---

### **`Ejercicio 19.1`**

Vamos a realizar un problema de **clustring** dentro de las técnicas de **aprendizaje no supervisado** para agrupar los clientes de esta cadena de hipermercados.

**`19.1`** Genera una gráfica para visualizar la distribución de las variables del dataset en conjunto. Analiza dicha gráfica y explica si hay una necesidad de normalizar los datos.

**`19.2`** **Normaliza** todas las variables del dataset a una escala estándar. Puedes realizar las transformaciones necesarias con el objetivo de tener los **datos centralizados** (la media igual a _0_ cun la desviación estándar igual a _1_) y vuelve a graficar la distribución de las variables con los datos normalizados.

**`19.3`** Utiliza la técnica de __K-Means clustering__ para agrupar los clientes en 2 grupos y saca las métricas para evaluar el algoritmo de agrupación:
 - SSE
 - Silhouette score
 - `random_state=100`

**`19.4`** Grafica los resultados de este primer modelo, visualizando los clientes por sus gastos relacionados a las variables _`Fresh`-versus-`Milk`_, pintando cada punto por su `cluster` junto con los `centroides` de cada grupo.

**`19.5`** Grafica los resultados de este primer modelo, visualizando los clientes por sus gastos esta vez relacionados a las variables _`Grocery`-versus-`Detergents_Paper`_, pintando cada punto por su `cluster` junto con los `centroides` de cada grupo. Después explica cual de estas dos gráficas te parecen más intuitivas e intenta analizar el perfil de los comprtadores según cada gráfica.

**`19.6`** Calcula el rendimiento de los `cluster` para diferentes números de grupos. Analiza esta evolución usando la técnica de `Elbow method` y explica cómo podrían ser los valores óptimos para la cantidad de clusters (__K__).

**`19.7`** Calcula el rendimiento de los `cluster` para diferentes números de grupos. Analiza esta vez la evolución usando el valor de `silhouette_score` y explica cómo podrían ser los valores óptimos para la cantidad de clusters. Finalmente elige **1 o 2 valores como máximo** que serían una buena opción para el parámetro (__K__) detallando tu decisión. 

---