____
__Universidad Tecnológica Nacional, Buenos Aires__\
__Ingeniería Industrial__\
__Docente: Martin Palazzo__\
__Ciencia de Datos - Curso I5521 - Turno Sabado Mañana__
____

# Importamos Librerías

In [None]:
# importamos las librerías necesarias para trabajar.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import seaborn as sns
from sklearn import preprocessing

In [None]:
# Importamos librerias de Clustering
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import dendrogram, linkage 
from sklearn.cluster import AgglomerativeClustering
from sklearn import metrics

# Importamos Dataset

In [None]:
pwd

In [None]:
credit = pd.read_csv('/Users/lrmar/ClusterAI_2024/Clase7/clusterai_clase06_clustering_dataset_credit.csv', delimiter=',')

In [None]:
credit.tail()

In [None]:
credit.shape

# Preprocesamiento: Valores nulos

In [None]:
credit.isnull().sum()

In [None]:
# como son pocas muestras con nulos decidimos quitar las filas que tienen algun valor nulo
credit = credit.dropna()

In [None]:
# revisamos que ninguna columna tenga valores nulos
credit.isnull().any()

In [None]:
credit.shape

### Seleccionamos las features con las que deseamos trabajar
Observemos que la primer columna "CUST_ID" no nos sirve para realizar machine learning por eso la descartamos.

In [None]:
x = credit.iloc[:,1:]

In [None]:
x.head()

### Pre procesamiento: Autoscaling
Realizamos un autoscaling con los datos, para todas las features. Como no tenemos train y test el standard scaler lo aplicamos a todo el dataset.

In [None]:
scaler = preprocessing.StandardScaler().fit(x)
scaler

In [None]:
# nuestros datos pre-procesados los guardamos en "xscal"
xscal = scaler.transform(x)  

### Visualización de los datos post autoscaling

In [None]:
# visualizamos nuestros datos luego del autoscaling
sns.boxplot(data = pd.DataFrame(xscal))
plt.xlabel("features")
plt.ylabel("Valor luego de autoscaling")
plt.show()

## Clustering con K Means
Utilizaremos la matriz de datos con las features originales luego de haber sido auto-escaladas.

In [None]:
# Generamos un modelo de K-Means con 4 clusters y los datos autoscalados
kmeans = KMeans(n_clusters=4, random_state=0).fit(xscal)

In [None]:
# una vez realizado el clusering, observamos las labels de cluster asignadas a cada muestra
kmeans.labels_

In [None]:
np.unique(kmeans.labels_)

In [None]:
# visualizamos los centroides finales de cada cluster. Como pedimos 4 clusters hay 4 centroides.
kmeans.cluster_centers_

In [None]:
# Contamos cuantas muestras quedaron en cada cluster
sns.countplot(x=pd.Series(kmeans.labels_).astype(int))
plt.title("Cantidad de muestras por cluster K means")
plt.xlabel("Clusters")
plt.show()

## Clustering Jerárquico (con scipy)

Generamos un clustering jerárquico. El linkage entre clusters será "ward" que implica "minimizes the variance of the clusters being merged".  Scipy lo utilizamos para visualizar el dendograma. 

In [None]:
# la función dendogram de scipy ofrece visualización del dendograma
Z = linkage(xscal, 'ward')

In [None]:
plt.figure(figsize=(12, 8))
dendrogram(Z)
plt.show()

## Clustering jerárquico con Scikit Learn

Generamos un clustering jerárquico con 4 clusters sobre nuestros datos.

In [None]:
hierclus = AgglomerativeClustering(n_clusters=4).fit(xscal)

In [None]:
# Observamos las labels de clusters asignadas a cada muestra
hierclus.labels_

In [None]:
# visualizamos en pantalla cuantas muestras quedaron en cada cluster
sns.countplot(x=pd.Series(hierclus.labels_).astype(int))
plt.title("Cantidad de muestras por cluster K means")
plt.xlabel("Clusters")
plt.show()

## Medición de la calidad de clusters con Silhouette Score
Utilizando las etiquetas de clustering obtenidas por cada algoritmo computamos el Silhouette score para ver cuan "separados" estan los clusters obtenidos. Cuanto mas alto sea el silhouette score mejor la calidad de cluster obtenida.

In [None]:
# Silhouette score utilizando las etiquetas obtenidas de K-means
metrics.silhouette_score(xscal, kmeans.labels_, metric='euclidean')

In [None]:
# Silhouette score utilizando las etiquetas obtenidas de Hierarchical clustering
metrics.silhouette_score(xscal, hierclus.labels_, metric='euclidean')

# Asignación
Recién comparamos el Silhouette Score para ambos algoritmos con K = 4. Comparar para ambos algoritmos como evoluciona el Silhouette Score para distintos valores de clusters K = 2, 3, 4, 5, 6, 7.

In [None]:
#### Codigo Aqui ####
#### Codigo Aqui ####
#### Codigo Aqui ####
#### Codigo Aqui ####