# CLUSTERIZAÇÃO

Os algoritmos de clusterização ou agrupamento permitem que sejam feitos agrupamentos de acordo com semelhanças encontradas. É uma técnica que permite que haja uma divisão de grupos em um conjunto de dados de forma automatica, baseado em medidas de similiaridade ou distancia. 

São utilizados para: 
- Segmentação de Mercado
- Agrupamento de caracteristicas de clientes, produtos mais similares
- Agrupar perfis de clientes (Netflix, Amazon)
- Recomendação de itens ou serviços


In [80]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import plotly
import  matplotlib.pyplot as plt
from plotly.subplots import make_subplots
import plotly.graph_objects as go

In [2]:
print(f'''Verificando as versões das bibliotecas:
pandas: {pd.__version__}
numpy: {np.__version__}
sklearn: {sklearn.__version__}
plotly {plotly.__version__}
''')

Verificando as versões das bibliotecas:
pandas: 1.5.3
numpy: 1.24.2
sklearn: 1.2.2
plotly 5.13.0



## COLETANDO OS DADOS

In [3]:
iris = pd.read_csv(r"C:\Users\amand\OneDrive\Documentos\Git_Amanda\Iris_cluster\data\iris.csv", sep= ";")

## ANALISANDO OS DADOS COLETADOS


In [4]:
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [5]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   Class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [6]:
iris.isna().sum()

sepal length    0
sepal width     0
petal length    0
petal width     0
Class           0
dtype: int64

In [7]:
iris.tail()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [8]:
iris["Class"].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

In [9]:
iris.describe()

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [10]:
iris.duplicated().sum()

3

In [11]:
iris.shape

(150, 5)

## CRIANDO CLUSTER COM OS DADOS DAS PÉTALAS

### Coletando dados das pétalas

In [12]:
petalas = iris.iloc[:,[2, 3]].values

### Normalizando os dados

In [13]:
normalizar_dados = StandardScaler()
petalas = normalizar_dados.fit_transform(petalas)

### Calculando o numero de Clusters

Para calcular o numero de cluster, utiliza-se o método cotovelo.
WCSS é a soma da distancia quadrada entre cada ponto e o centroide em um cluster.

In [14]:
wcss_petalas = []
for i in range(1,15):
  kmeans_petala = KMeans(n_clusters = i, random_state = 0)
  kmeans_petala.fit(petalas)
  wcss_petalas.append(kmeans_petala.inertia_)
wcss_petalas



[300.0,
 54.14584701344988,
 18.046983891906272,
 12.307440251261845,
 9.181131495513899,
 7.215096212730806,
 6.0265931559514465,
 5.173315218915378,
 4.419290104197289,
 3.913941783054321,
 3.601732950831338,
 3.2796023458218926,
 2.907688165363804,
 2.6340047839739786]

### Visualizando o grafico de clusters

In [15]:
grafico_cotovelo_petala = px.line(x= range(1,15), y=wcss_petalas)
grafico_cotovelo_petala.update_xaxes(title_text = 'Número de Clusters')
grafico_cotovelo_petala.update_yaxes(title_text = 'Valor da Distancia')
grafico_cotovelo_petala.update_layout(title_text = 'Definindo o número de Clusters', title_x = 0.5)
grafico_cotovelo_petala.show()

In [16]:
kmeans_petalas = KMeans(n_clusters=3, random_state=0)
label_petalas = kmeans_petalas.fit_predict(petalas)





In [17]:
label_petalas

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

### Centroides Petalas

In [18]:
cent_petalas = kmeans_petalas.cluster_centers_
cent_petalas

array([[-1.30487835, -1.25512862],
       [ 1.02813193,  1.12749028],
       [ 0.30564587,  0.16609419]])

In [23]:
grafico_cluster = px.scatter(x = petalas[:,0], y = petalas[:,1], color= label_petalas)
grafico_centr = px.scatter(x = cent_petalas[:,0], y = cent_petalas[:,1], size = [3,3,3])
grafico_final = go.Figure(data = grafico_cluster.data + grafico_centr.data)
grafico_final.show()

In [57]:
iris.Class.unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

In [58]:
iris.loc[iris['Class'] == 'Iris-setosa', 'Class_num'] = 1
iris.loc[iris['Class'] == 'Iris-versicolor', 'Class_num'] = 2
iris.loc[iris['Class'] == 'Iris-virginica', 'Class_num'] = 3

In [56]:

fig = px.parallel_coordinates(iris, 
                              color = 'Class_num',
                              labels = ['sepal width', 'sepal length', 'petal width','petal length'],
                              color_continuous_scale = px.colors.diverging.Tealrose,
                              color_continuous_midpoint = 2)
fig.show()

In [85]:
fig = px.density_contour(iris, x="petal width", y="petal length", marginal_x="histogram", marginal_y="histogram", height= 800, width= 800)
fig.show()