<a href="https://colab.research.google.com/github/Violeta759/Sesi-n5/blob/main/K_Means_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# K-Means

***Objetivo:***

Dado un conjunto $X=\{e_1,\dots,e_m \}$.

Encontrar una K-partición o conjunto de centroides $Centroides=\{ \mu_1,\ldots,\mu_k \}$. 

Tal que hace mínimo $\sum^m_{i=0}min_{\mu_j \in Centroides} (|| e_i -\mu_j||^2)$.

# Algoritmo Paso a Paso.

## Librería y datos:

In [None]:
#Cargando librerías. 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt #Librería de gráficos etc. -> matplotlib
from sklearn.datasets import make_blobs # T= Sólo importa make_blobs de sklearn.
import random 

In [None]:
plt.figure(figsize=(12, 12))
#Tamaño de tela donde quiero pintar. 

Generamos datos 1500 sintéticos con 3 distribuciones gausianas aleatorias y los mostramos.

In [None]:
random_state = 170 #Semilla. 
n_samples = 1500

x, y = make_blobs(n_samples=n_samples, random_state=random_state)
# T = random_state=random_state -> para tener todos lo mismo. 
X=pd.DataFrame(x)
# x: son los valores,y: clase a la que pertenecen. 

plt.scatter(X.loc[:, 0], X.loc[:, 1], c=y)
# X.loc[:, 0] -> .loc es para decirle que parte de las columnas del data frame quiero. En este caso las columnas se llaman 0 y 1. 
# c=y me lo colorea por categorías. 
plt.title("Datos Iniciales")

## Inicialización:

Generamos los primeros **Centroides** aleatorios.

In [None]:
K=3
Centroides=np.random.random((K,2))*20.0-10.0 
#El primer radom es el nombre de la librería y el segundo es el comando. 
plt.scatter(X.loc[:, 0], X.loc[:, 1])
plt.scatter(Centroides[:,0], Centroides[:,1], marker='x',c=[0,1,2])
plt.title("Primeros Centroides")
print(Centroides)

Definimos la métrica $||x-\mu||^2$ entre el centroide y los puntos para seleccionar el centroide más cercano para cada punto
como la **distancia euclídea** entre el punto en dos dimensiones $x=(x_0,x_1)$ y el centroide $\mu=(\mu_0.\mu_1)$.

$d(x,\mu)=\sqrt{(x_0 - \mu_0)^2+(x_1 - \mu_1)^2}$

In [None]:
def distancia(X1,C): 
  #Le damos un punto y una correción de centroides. C es el vector de Centroides y X1 es el punto.
  # Construimos el vector de distancias del punto a cada centroide.
  arr=[(sum((X1 - c)**2))**0.5 for c in C]
  #Obtengo la distancia de cada punto a cada uno de los centroides. 
  #Seleccionamos el índice (identificador del centroide) de mínimma distancia y los devolvemos.
  return np.where(arr == np.amin(arr))[0][0] #Con esta línea le digo que me coja el centroide con menor distancia a ese punto. 

Para todos los puntos calculamos cual es su centoide más cercano.

In [None]:
X['C']=X.iloc[:,:-1].apply(distancia,axis=1,C=Centroides)
#Aplico a cada fila la función distancia que la acabo de definir. Metemos los parámetros de la función distancia: el parámetro y el C. 

In [None]:
X['C'].hist()

Tengo menos centroides realmente. Recalculo.

## Recálculo de los nuevos centroides:

**A. Reaguste de los datos con los nuevos centroides.**

In [None]:
C=X.groupby(['C']).mean().values
if(len(C)<len(Centroides)):
  C=np.vstack([C,np.random.random((len(Centroides)-len(C),2))*20.0-10.0])
plt.scatter(X.loc[:, 0], X.loc[:, 1],c=X['C'])
plt.scatter(C[:,0], C[:,1], marker='x',c=[0,1,2])
plt.title("Nueva asignación")
print(C)

In [None]:
X['C']=X.iloc[:,:-1].apply(distancia,axis=1,C=C)

**B. Recáculo de los nuevos centroides.**

In [None]:
C1=X.groupby(['C']).mean().values
if(len(C1)<len(Centroides)):
  C1=np.vstack([C1,np.random.random((len(Centroides)-len(C1),2))*20.0-10.0])

In [None]:
plt.scatter(X.loc[:, 0], X.loc[:, 1],c=X['C'])
plt.scatter(C1[:,0], C1[:,1], marker='x',c=[0,1,2])
plt.title("Nueva asignación")
print(C1)

In [None]:
diferencia=np.amax(abs(C-C1))
print(C)
C=C1
print(diferencia)
print(C)
#El valor central (1.4790595521958159) es la diferencia máxima que existe entre los centroides. 

Si la diferencia entre los nuevos centrodes C1 y los antíguos no es la adecuada volver a **(A)**.

Vas iterando hasta que te salga. Aunque lo suyo es hacer un bucle para agilizar.

## ***IMPORTANTE***: **Sciki-Learn** [K-Mean](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans). En esta librería va casi todo.

## Ejemplo 1:

In [None]:
# Author: Phil Roth <mr.phil.roth@gmail.com>
# License: BSD 3 clause

import numpy as np
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

plt.figure(figsize=(12, 12))

n_samples = 1500
random_state = 170
X, y = make_blobs(n_samples=n_samples, random_state=random_state)

In [None]:
KM= KMeans(n_clusters=3, random_state=random_state) #Creamos el modelo. 
y_pred=KM.fit_predict(X) #Ajusto
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("Resultados")

- **Atributos** del Objeto K-means:

|Attributo|Significado|
|---------|-----------|
|**cluster_centers**| Coordenadas de los centroides|
|**labels**|Grupo de cada punto|
|**inertia**| Suma de los cuadrados de los puntos de cada grupo a su centroide|
|**n_iter**| Número de iteraciones|


In [None]:
print(KM.cluster_centers_) 

## k-means ++ hace una inspección de datos para encontrar una distribución de los datos, y luego encuentra unos centroides lo más separados entre sí.

## Ejemplo 2: Pasaje del Titatic.

In [None]:
from google.colab import files
uploaded= files.upload()

In [None]:
#%cd /content/drive/My Drive/sesion5/k-means

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
plt.figure(figsize=(12, 12))

Leer los datos del pasaje del fichero titanic.csv mediante **pd.load_csv()**

In [None]:
titanic=pd.read_csv('titanic.csv')
cluster_data = titanic[['Fare','Age']].copy(deep=True)
cluster_data.dropna(axis=0, inplace=True)
cluster_data.sort_values(by=['Fare','Age'], inplace=True)
cluster_array = np.array(cluster_data)
print(cluster_data.head())
plt.scatter(cluster_array[:,0],cluster_array[:,1]) #Lo pinto.
#Selecciona los años y el coste del pasaje. 
titanic.head()

> La y son los años y la x el coste. 

In [None]:
KM=KMeans(n_clusters=2)
y_pred=KM.fit_predict(cluster_array)
plt.scatter(cluster_array[:,0],cluster_array[:,1],c=y_pred)
print(KM.cluster_centers_)

No tiene mucho sentido así que normalizamos los datos. Es decir, cambiamos la escala de los mismos a otra escala distinta que sea de interés. 

### Normalizar los datos:

Entre los diferentes tipos de normalización de los valores de los datos que podemos hacer, están:

- Escalado frente al máximo : $x'=\frac{x}{máx(|X|)}$.
- Normalización entre el mínimo y máximo: $x'=\frac{x-x_{mín}}{x_{máx}-x_{mín}}$.
- Estandarización. Siendo $\mu_x$, $\sigma_x$  la media de y desviación estandar de  X: $x_{std}=\frac{x-\mu}{\sigma}$. Sino tenemos conocimiento en qué tenemos que hacer, seleccionamos esta.

#### **Escalado con el máximo**.

In [None]:
from sklearn.preprocessing import MaxAbsScaler
# Creamos el objeto an abs_scaler.
abs_scaler = MaxAbsScaler()
abs_scaler.fit(cluster_array)

In [None]:
# The maximum absolute values calculated by the fit method.
abs_scaler.max_abs_

In [None]:
#Escalamos los datos.
scaled_data = abs_scaler.transform(cluster_array) #Hacemos la transformación y lo pintamos. 
plt.scatter(scaled_data[:,0],scaled_data[:,1])

In [None]:
KM=KMeans(n_clusters=2)
y_pred=KM.fit_predict(scaled_data)
plt.scatter(scaled_data[:,0],scaled_data[:,1],c=y_pred)
print(KM.cluster_centers_)
#Nos divide por la cosa más relevante que es la edad. Hemos pasado de agrupar por el coste del billete a por la edad, simplemente por el cambio de escala. 

In [None]:
abs_scaler.inverse_transform(KM.cluster_centers_)

#### **Mínimo-Máximo.**

In [None]:
from sklearn.preprocessing import MinMaxScaler
# Creamos el objeto an abs_scaler.
scaler = MinMaxScaler()
scaler.fit(cluster_array)
# Escalamos los datos.
scaled_data = abs_scaler.transform(cluster_array)
plt.scatter(scaled_data[:,0],scaled_data[:,1])

In [None]:
KM=KMeans(n_clusters=2)
y_pred=KM.fit_predict(scaled_data)
plt.scatter(scaled_data[:,0],scaled_data[:,1],c=y_pred)
print(KM.cluster_centers_)

In [None]:
scaler.inverse_transform(KM.cluster_centers_)

Sale más o menos igual que la anterior porque va entre 0 y 1. 

#### **Estandarizar.**

In [None]:
from sklearn.preprocessing import StandardScaler
# Creamos el objeto an abs_scaler.
standar = StandardScaler()
standar.fit(cluster_array)
# Escalamos los datos.
scaled_data = standar.transform(cluster_array)
plt.scatter(scaled_data[:,0],scaled_data[:,1])

La media está puesta en el 0,0.

In [None]:
KM=KMeans(n_clusters=2)
y_pred=KM.fit_predict(scaled_data)
plt.scatter(scaled_data[:,0],scaled_data[:,1],c=y_pred)
print(KM.cluster_centers_)

Este es el mejor, ya que incorpora ambos ejes (el de edad y el del coste).

In [None]:
scaler.inverse_transform(KM.cluster_centers_)

## Ejemplo 3: Flores Iris.

In [None]:
from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
X, y = datasets.load_iris(return_X_y=True)
#X: ndarray, y: tipo de florecitas. 

In [None]:
KM = KMeans(n_clusters=3, random_state=1).fit(X)
# Ahora ponemos esto .fit(X) porque al resultado le aplico el ajuste directamente. 

In [None]:
KM.cluster_centers_

In [None]:
KM.inertia_ #valor de inercia= valor medio de compacidad de los elementos. 

# Calidad de la partición (cuántas clases):


**AHORA NOS PLANTEAMOS CUÁNTAS CLASES HACEMOS:**

 Coeficiente [**Silhouette**](https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation).

EL coefiente de  **Silhouette** (SIMILUTUD DE LOS ELEMENTOS DE LA CLASE X CON RESPECTO A LAS OTRAS CLASES) está definido para cada ejemplo y consta de dos mediadas:

- **a:** La media de la distancia entre un punto y **todos los puntos de su grupo**. Lo que me parezco a los míos. 
- **b:** La media de la distancia entre un punto y **todos los puntos de su grupo más cercano** distinto al suyo. 

El coeficiente para un punto simple se calcula como: $s=\frac{b-a}{máx(a,b)}$.

**La difencia entre a y b mejor!!!!**

El coeficiente global se calcula como la media de los coeficientes de cada punto.

**Cuanto mayor es el valor del coefiente mejor es la agrupación.**

In [None]:
from sklearn import metrics
from sklearn.metrics import pairwise_distances
from sklearn import datasets
X, y = datasets.load_iris(return_X_y=True)

Un uso normal del coeficiente de **Silhouette**.

In [None]:
import numpy as np
from sklearn.cluster import KMeans
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(X)
labels = kmeans_model.labels_
metrics.silhouette_score(X, labels, metric='euclidean')
#0.5528190123564095 valor de Silhoutte para esta partición. Puedo hacer un cluster superior y ver si esta media sube o baja. 
#La inercia va aumentando con los clusters .

## Visualización.

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
cols =  ['Class', 'Alcohol', 'MalicAcid', 'Ash', 'AlcalinityOfAsh', 'Magnesium', 'TotalPhenols', 
         'Flavanoids', 'NonflavanoidPhenols', 'Proanthocyanins', 'ColorIntensity', 
         'Hue', 'OD280/OD315', 'Proline']
data = pd.read_csv(url, names=cols)

In [None]:
y=data['Class']
X=data.loc[:,'Alcohol':]

### Por piezas en dos dimensiones.

In [None]:
# Three different scatter series so the class labels in the legend are distinct-
plt.scatter(X[y==1]['Flavanoids'], X[y==1]['NonflavanoidPhenols'], label='Class 1', c='red')
plt.scatter(X[y==2]['Flavanoids'], X[y==2]['NonflavanoidPhenols'], label='Class 2', c='blue')
plt.scatter(X[y==3]['Flavanoids'], X[y==3]['NonflavanoidPhenols'], label='Class 3', c='lightgreen')

# Prettify the graph.
plt.legend()
plt.xlabel('Flavanoids')
plt.ylabel('NonflavanoidPhenols')

# Display.
plt.show()

# Reducción de la dimensionalidad:

### Algoritmo **PCA** (**componentes principales**).

In [None]:
from sklearn.decomposition import PCA as sklearnPCA #Hago una descomposición, la que yo quiera. 
from sklearn.preprocessing import MinMaxScaler
# Creamos el objeto an abs_scaler.
scaler = MinMaxScaler()
scaler.fit(X)
X_norm=scaler.transform(X)

In [None]:
pca= sklearnPCA(n_components=2) #2-dimensional LDA.
transformed= pd.DataFrame(pca.fit_transform(X_norm, y))
plt.scatter(transformed[y==1][0], transformed[y==1][1], label='Class 1', c='red')
plt.scatter(transformed[y==2][0], transformed[y==2][1], label='Class 2', c='blue')
plt.scatter(transformed[y==3][0], transformed[y==3][1], label='Class 3', c='lightgreen')

plt.legend()
plt.show()
#El clustering no se ha modificado sólo lo hemos representado de forma diferente. Aquí se ve mucho mejor. 
#Este cluster lo ha hecho cogiendo una componente principal a partir de lo anterior, pero realmente no tiene sentido explicar el gráfico. Sólo me sirve para 
#ver si he hecho el cluster bien. Si hay grupos claramente definidos, lo he hecho bien. 

### Algoritmo **LDA**

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.preprocessing import MinMaxScaler
# Creamos el objeto an abs_scaler.
scaler = MinMaxScaler()
scaler.fit(X)
X_norm=scaler.transform(X)

In [None]:
lda = LDA(n_components=2) #2-dimensional LDA.
lda_transformed = pd.DataFrame(lda.fit_transform(X_norm, y))

# Plot all three series.
plt.scatter(lda_transformed[y==1][0], lda_transformed[y==1][1], label='Class 1', c='red')
plt.scatter(lda_transformed[y==2][0], lda_transformed[y==2][1], label='Class 2', c='blue')
plt.scatter(lda_transformed[y==3][0], lda_transformed[y==3][1], label='Class 3', c='lightgreen')

# Display legend and show plot.
plt.legend(loc=3)
plt.show()