# 1 - Introdução
vamos explorar os algoritmos não supervisionados, começando pelo algoritmo de clusterização K-Means. A ideia dos algoritmos não supervisionados é extrair padrões dos dados sem ter um objetivo pré-definido. Nosso objetivo é agrupar ou reduzir a dimensionalidade dos dados com base nos padrões que encontramos. Diferente dos algoritmos supervisionados, não fazemos um treinamento com dados de teste para avaliar a performance do modelo. Neste módulo, vamos apresentar os principais algoritmos de clusterização e desenvolver um projeto de machine learning utilizando o algoritmo K-Means. Vamos abordar conceitos como clusterização, medidas de distância e métricas de avaliação de performance.

## 1.1 - O que é Clusterização
Um algoritmo de clusterização é uma técnica de aprendizado de máquina e mineração de dados que agrupa um conjunto de dados em clusters ou grupos com base em suas similaridades. Esses algoritmos são usados para identificar padrões nos dados e organizar as informações em grupos significativos. Alguns exemplos de uso incluem segmentação de mercado, análise de redes sociais e agrupamento de documentos. Essas aplicações permitem direcionar estratégias de marketing, personalizar conteúdo e facilitar a organização e recuperação de informações.

## 1.2 - Um Passeio Pelos Algoritmos de Clusterização
vamos explorar os principais algoritmos de clusterização. Vamos focar mais no K-Means, que atribui pontos de dados aos clusters com base na proximidade dos centróides, recalculando-os iterativamente para minimizar a variância intra-cluster.

# 2 - Conceito K-Means
O algoritmo do K-Means é um método de clusterização amplamente utilizado em análise de dados e aprendizado de máquina. Ele agrupa dados em k-clusters, onde k é definido pelos cientistas de dados. O algoritmo começa definindo centroides aleatórios para cada cluster e, em seguida, atribui pontos a cada cluster com base em uma medida de distância, geralmente a distância euclidiana. Os centróides são recalculados como a média dos pontos atribuídos a cada cluster, e esse processo de atribuição e recálculo é repetido até que não haja mudanças significativas ou um número máximo de iterações seja alcançado. O resultado final pode variar dependendo da inicialização aleatória dos centroides e do número de clusters escolhidos.

## 2.1 - Como Definir a Quantidade de Clusters
Existem diferentes métodos para definir o número ideal de clusters em um algoritmo de caminhos. O método do cotovelo envolve plotar a função de custo em relação ao número de clusters e observar quando ocorre uma mudança significativa na inclinação da curva. O método da silhueta avalia a qualidade dos clusters formados por diferentes valores de K e escolhe o valor que maximiza a média da silhueta. O método Gap Statistics compara a dispersão intra-cluster para diferentes valores de K e escolhe o número ideal de clusters que maximiza a lacuna estatística. A validação externa utiliza informações externas sobre os dados para determinar o número correto de clusters. O conhecimento de domínio também pode ser usado para determinar o número de clusters de forma mais precisa.

# 3 - Demais Fundamentos para Algoritmos de Clusterizaçao

## 3.1 - Medidas de Distância
 discutimos diferentes medidas de distância que nos permitem comparar objetos e itens em um plano multidimensional. A distância Euclidiana é a mais comum e simples, calculada como a raiz quadrada da soma dos quadrados das diferenças entre as coordenadas dos pontos em cada dimensão. A distância de Manhattan é a soma das diferenças absolutas entre as coordenadas dos pontos em cada dimensão. A distância de Minkowski é uma generalização das distâncias Euclidiana e Manhattan. Também exploramos a distância de Chebyshev, a distância de Cosseno e a distância de Hamming, cada uma com suas próprias características e aplicações.

## 3.2 - Métricas de Algoritmos de Clusterização
As métricas dos algoritmos de clusterização são importantes para avaliar a qualidade dos resultados. O índice de silhueta mede a coesão intra-cluster e a separação inter-cluster, indicando o quão bem os pontos estão agrupados dentro de seus clusters e separados dos outros clusters. O índice Davies-Bouldin mede a dispersão dentro de cada cluster em relação à separação entre clusters. O índice Calinski-Harabasz calcula a relação entre a dispersão intra-cluster e a dispersão entre clusters, pontuando mais alto para clusters densos e bem separados. O índice Dunn mede a razão entre a menor distância inter-cluster e a maior distância intra-cluster, pontuando mais alto para clusters compactos e distantes uns dos outros. O índice Range Ajustado compara os rótulos atribuídos pelos algoritmos de classificação com os rótulos verdadeiros, sendo útil quando se deseja confrontar informações supervisionadas com algoritmos não supervisionados. O índice de Validade Interna consiste em várias medidas internas, como compacidade e separação dos clusters, para avaliar a qualidade da clusterização sem rótulos verdadeiros.

# 4 - Apresentação do Projeto
vamos explorar o algoritmo K-Means e alguns conceitos de algoritmos não supervisionados de classificação. Vamos usar um exemplo de uma empresa de concessão de crédito que deseja agrupar seus clientes com base em características como idade, faturamento mensal e nível de inovação. Vamos construir um algoritmo de clusterização para agrupar os clientes em segmentos e, assim, poder classificar novos clientes. Projetos de algoritmos não supervisionados podem ser um ponto de partida para projetos de algoritmos supervisionados. Vamos seguir a estrutura usual do projeto, mas sem a necessidade de separar os dados em treino e teste, pois não temos os rótulos dos segmentos. Faremos um EDA diferente, treinaremos e validaremos o modelo, faremos ajustes de hiperparâmetros e entregaremos o modelo via aplicação Batch. Agora, vamos para o código!

# 5 - EDA

## 5.1 - Importação das Bibliotecas

In [2]:
# EDA e Visualização de Dados
import pandas as pd
import plotly.express as px
pd.set_option('display.float_format', lambda x: '%.2f' % x)
from scipy.stats import bartlett, shapiro
from pingouin import welch_anova

# Machine Learning
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, pairwise_distances
from sklearn.preprocessing import StandardScaler, OneHotEncoder, OrdinalEncoder
from sklearn.compose import ColumnTransformer

# Otimização HP
import optuna

# Salvar modelo
import joblib

# Front-End
import gradio as gr

  from .autonotebook import tqdm as notebook_tqdm


## 5.2 - Setup e Carga de Dados
vamos começar a trabalhar com o algoritmo K-Means no contexto de clusterização de clientes. O objetivo é agrupar os clientes em clusters com base em suas características, para oferecer um atendimento personalizado. Vou criar um arquivo Jupyter Notebook chamado "clusterização-clientes.ipynb" e importar as bibliotecas necessárias, como Pandas, Plotly, Scikit-Learn, Optuna, entre outras. Também vamos utilizar algumas métricas específicas para avaliar os resultados da clusterização. Além disso, faremos a carga dos dados de clientes a partir de um arquivo CSV e faremos uma análise inicial da estrutura desses dados. No próximo vídeo, continuaremos com o desenvolvimento do projeto.

In [3]:
# Carregar Dataset
df_clientes = pd.read_csv('./dataset_clientes_pj.csv')
df_clientes.head()

Unnamed: 0,atividade_economica,faturamento_mensal,numero_de_funcionarios,localizacao,idade,inovacao
0,Comércio,713109.95,12,Rio de Janeiro,6,1
1,Comércio,790714.38,9,São Paulo,15,0
2,Comércio,1197239.33,17,São Paulo,4,9
3,Indústria,449185.78,15,São Paulo,6,0
4,Agronegócio,1006373.16,15,São Paulo,15,8


In [4]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   atividade_economica     500 non-null    object 
 1   faturamento_mensal      500 non-null    float64
 2   numero_de_funcionarios  500 non-null    int64  
 3   localizacao             500 non-null    object 
 4   idade                   500 non-null    int64  
 5   inovacao                500 non-null    int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 23.6+ KB


## 5.3 - EDA
Vamos dar continuidade ao nosso projeto no Jupyter Notebook, focando agora na Análise Exploratória de Dados (EDA). A ideia aqui não é repetir o EDA que já fizemos nos módulos anteriores, mas sim explorar algumas técnicas novas, como testes estatísticos. Começaremos analisando a distribuição da variável "inovação" em nosso conjunto de dados. Em seguida, levantaremos a hipótese de que empresas com diferentes níveis de inovação possam ter médias de faturamento mensal distintas. Para testar essa hipótese, utilizaremos o teste estatístico ANOVA (Análise de Variância), que verifica se há variações significativas nas médias de diferentes grupos. No entanto, antes de aplicar o teste, precisamos validar algumas suposições, como a independência das observações, a normalidade dos dados e a homogeneidade das variâncias. Caso essas suposições não sejam atendidas, utilizaremos o teste de ANOVA de Welch, que é mais robusto nessas situações. Nos próximos vídeos, veremos como realizar essas validações e aplicar o teste de hipótese.

In [5]:
# Distribuição da variável Inovação
percentual_inovacao = df_clientes.value_counts('inovacao')/len(df_clientes)*100
px.bar(percentual_inovacao, color=percentual_inovacao.index)

## 5.4 - Teste ANOVA (Análise de Variância): 
vamos analisar os pressupostos necessários para realizar um teste estatístico de ANOVA. Vamos verificar se as variâncias entre os grupos são homogêneas e se os dados seguem uma distribuição normal. Também vamos considerar que as observações são independentes e que a variável independente é contínua. Além disso, vamos observar que as amostras não têm tamanhos iguais. Para verificar a homogeneidade das variâncias, vamos utilizar o teste de Bartlett. Para verificar a distribuição normal, vamos utilizar o teste de Shapiro-Wilk. Com base nos resultados desses testes, poderemos determinar se os pressupostos foram atendidos e prosseguir com o teste de ANOVA adequado.

Verificar se há variações significativas na média de faturamento mensal para diferentes nívels de inovação
Suposições ou Pressupostos que devemos fazer ates do teste:
- Observações precisam ser independentes umas das outras;
- Variável dependente precisa ser contínia;
- Os dados da variável dependente deve seguir uma distribuição normal;
- Deve haver homogeneidade das variâncias;
- As amostras devem tem tamanhos iguais

### 5.4.1 - Teste estatístico de Bartlett

In [6]:
# Checar se as variâncias (faturamento) entre os grupos (inovação) são homogêneas
# Aplicar Teste de Bartlett
# H0 - Variâncias são iguais
# H1 - Variâncias não são iguais

# Separando os dados de faturamento com base na coluna 'inovacao'
dados_agrupados = [df_clientes['faturamento_mensal'][df_clientes['inovacao'] == grupo] for grupo in df_clientes['inovacao'].unique()] # For em todos possíveis valores de inovação (0 a 9)

# Executar o teste de Bartlett
bartlett_test_statistic, bartlett_p_value = bartlett(*dados_agrupados)

# Exibindo os resultados
print(f'Estatística do Teste de Bartlett: {bartlett_test_statistic}')
print(f'P-Value do Teste de Bartlett: {bartlett_p_value}')


# Não rejeitamos H0, portanto as variâncias são iguais

Estatística do Teste de Bartlett: 10.901203117231173
P-Value do Teste de Bartlett: 0.28254182954905804


### 5.4.2 - Teste de Shapiro-Wilk

In [7]:
# Checar se os dados seguem uma distribuição normal
# Aplicar Teste de Shapiro-Wilk
# H0 - Segue uma distribuição normal
# H1 - Não segue uma distribuição normal

# Executar o teste
shapiro_test_statistic, shapiro_p_value = shapiro(df_clientes['faturamento_mensal'])

# Exibindo os resultados
print(f'Estatística do Teste de Shapiro-Wilk: {shapiro_test_statistic}')
print(f'P-Value do Teste de Shapiro-Wilk: {shapiro_p_value}')

# Não rejeitamos H0, portanto os valores de faturamento mensal segue uma distribuição normal

Estatística do Teste de Shapiro-Wilk: 0.9959857602472711
P-Value do Teste de Shapiro-Wilk: 0.23513451034389005


## 5.5 - Teste de ANOVA
 concluímos a parte de EDA (Exploratory Data Analysis) com um teste de ANOVA para avaliar a relação entre as médias dos valores para cada nível de inovação. Utilizamos o teste de ANOVA de Welch, pois as amostras têm tamanhos diferentes. Para isso, utilizamos o pacote estatístico PINGUIM e importamos o módulo Welch ANOVA. O resultado do teste mostrou que não há diferenças significativas entre as médias dos grupos, independentemente do nível de inovação das empresas. Isso significa que empresas com diferentes níveis de inovação podem ter faturamentos semelhantes. No próximo vídeo, exploraremos o algoritmo de K-Means.

### 5.5.1 - ANOVA de Welch
Pois as amostras são de tamanhos diferentes

In [8]:
# H0 - Não há diferenças significativas entre as médias dos grupos
# H1 - Há pelo menos uma diferença significativa entre as médias dos grupos

aov = welch_anova(dv='faturamento_mensal', between='inovacao', data=df_clientes)

# Exibindo Resultados
print(f'Estatística do Teste de ANOVA Welch: {aov.loc[0,'F']}')
print(f'P-Value do Teste de ANOVA Welch: {aov.loc[0,'p-unc']}')

# Não rejeitamos H0, portanto Não há diferenças significativas entre as médias dos grupos

Estatística do Teste de ANOVA Welch: 1.1269836194061693
P-Value do Teste de ANOVA Welch: 0.34526211273911467


# 6 - Treinamento do Modelo

## 6.1 - Preparação dos Dados para o KMeans
começamos a trabalhar com o algoritmo de K-Means. Para treinar o algoritmo, precisamos preparar os dados. Faremos transformações nas colunas para que estejam no formato correto. Selecionaremos todas as colunas, pois não temos um target específico. Separaremos as variáveis numéricas, categóricas e ordinais. Aplicaremos transformações em cada tipo de variável usando um standard scaler, one-hot-encoder e ordinal encoder. Em seguida, criaremos um pré-processador que transformará os dados em um novo dataset. Usaremos o column transformer para indicar quais transformadores usar. Por fim, faremos o fit transform no pré-processador para treinar os transformadores e aplicar as transformações nos dados.

In [9]:
# Selecionar as colunas para clusterização
X = df_clientes.copy()

# Separar as variáveis numéricas categóricas nominais e ordinais
numeric_features = ['faturamento_mensal', 'numero_de_funcionarios', 'idade']
categorical_features = ['localizacao', 'atividade_economica']
ordinal_features = ['inovacao']

# Aplicar Transformações por tipo
numeric_transformer = StandardScaler()
categorical_transformer = OrdinalEncoder()
ordinal_transformer = OrdinalEncoder()

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),
        ('ord', ordinal_transformer, ordinal_features)
    ]
)

# Tranformar os dados
X_trasnformed = preprocessor.fit_transform(X)

## 6.2 - Executando o KMeans com Optuna
vamos preparar os dados para treinar nosso modelo de algoritmo. Vamos otimizar a métrica de silhueta usando o Optuna para ajustar os hiperparâmetros. Vamos definir uma função chamada K-Means Objective, que receberá uma tentativa de ajuste dos hiperparâmetros. Vamos ajustar dois hiperparâmetros: o número de clusters (K) e a métrica de distância (Euclidiana e Minkowski). Em seguida, vamos instanciar o K-Means com esses hiperparâmetros e treinar o modelo. Calcularemos o Silhouette Score usando a função pairwise distance e os rótulos do K-Means. Por fim, criaremos um estudo do Optuna e rodaremos o experimento para encontrar a melhor configuração de hiperparâmetros.

In [10]:
# Optuna para Otimização de Hiperparâmetros
def kmeans_objective(trial):

    # Definindo os hiperparâmetros a serem ajustados
    n_clusters = trial.suggest_int('n_clusters', 3, 10)
    distance_metric = trial.suggest_categorical('distance_metric', ['euclidean', 'minkowski'])

    # Criar modelo
    modelo_kmeans = KMeans(n_clusters=n_clusters, random_state=51)

    # Treinar Modelo
    modelo_kmeans.fit(X_trasnformed)

    # Calculando o Silhouette Score
    distances = pairwise_distances(X_trasnformed, metric=distance_metric)
    silhouette_avg = silhouette_score(distances, modelo_kmeans.labels_)

    return silhouette_avg

In [11]:
# Criar estudo do Optuna
search_space = {'n_clusters': [3, 4, 5, 6, 7, 8, 9, 10], 'distance_metric': ['euclidean', 'minkowski']}
sampler = optuna.samplers.GridSampler(search_space=search_space)
estudo_kmeans = optuna.create_study(direction='maximize', sampler=sampler)

# Rodar Estudo
estudo_kmeans.optimize(kmeans_objective, n_trials=100)

[I 2024-04-21 15:44:24,687] A new study created in memory with name: no-name-9bd2d48e-bb3a-4c5d-b3aa-8e49e2097488
[I 2024-04-21 15:44:24,862] Trial 0 finished with value: 0.2718697231215197 and parameters: {'n_clusters': 4, 'distance_metric': 'minkowski'}. Best is trial 0 with value: 0.2718697231215197.
[I 2024-04-21 15:44:24,880] Trial 1 finished with value: 0.10693622457017327 and parameters: {'n_clusters': 8, 'distance_metric': 'minkowski'}. Best is trial 0 with value: 0.2718697231215197.
[I 2024-04-21 15:44:24,903] Trial 2 finished with value: 0.13455028171512043 and parameters: {'n_clusters': 7, 'distance_metric': 'minkowski'}. Best is trial 0 with value: 0.2718697231215197.
[I 2024-04-21 15:44:24,922] Trial 3 finished with value: 0.13455028171512048 and parameters: {'n_clusters': 7, 'distance_metric': 'euclidean'}. Best is trial 0 with value: 0.2718697231215197.
[I 2024-04-21 15:44:24,939] Trial 4 finished with value: 0.10693622457017342 and parameters: {'n_clusters': 8, 'distanc

# 7 - Análise de Resultados

## 7.1 - Analisando Resultados do KMeans
vamos analisar os resultados do Optuna e treinar um modelo com os melhores parâmetros encontrados. Primeiro, vamos guardar a melhor configuração em uma variável chamada "best_params". Em seguida, vamos criar o modelo usando esses melhores parâmetros e ajustá-lo aos dados. Calcularemos o score de silhueta para avaliar o desempenho do modelo. O Optuna determinou que o número de clusters ideal é 3, a métrica de distância escolhida foi a euclidiana e o score de silhueta foi de 0.44. Agora, vamos atribuir os clusters aos registros do nosso dataset e visualizar os primeiros registros com a coluna de cluster atualizada. No próximo vídeo, iremos explorar esses clusters em uma visualização de dados.

In [12]:
# Melhor configuração encontrada pelo Optuna
best_params = estudo_kmeans.best_params

# Instanciando o modelo K-means com melhores parâmetros
best_kmeans = KMeans(n_clusters=best_params['n_clusters'], random_state=51)
best_kmeans.fit(X_trasnformed)

# Calculando o Silhouette Score
distances = pairwise_distances(X_trasnformed, metric=best_params['distance_metric'])
best_silhouette = silhouette_score(distances, best_kmeans.labels_)

# Exibindo Resultados
print(f'k (Número de Clusters): {best_params['n_clusters']}')
print(f'Métrica de Distância selecionada: {best_params['distance_metric']}')
print(f'Silhouette Score: {best_silhouette}')

k (Número de Clusters): 3
Métrica de Distância selecionada: euclidean
Silhouette Score: 0.39151107473864566


In [13]:
# Criar coluna com cluster escolhido
df_clientes['cluster'] = best_kmeans.labels_
df_clientes.head()

Unnamed: 0,atividade_economica,faturamento_mensal,numero_de_funcionarios,localizacao,idade,inovacao,cluster
0,Comércio,713109.95,12,Rio de Janeiro,6,1,0
1,Comércio,790714.38,9,São Paulo,15,0,0
2,Comércio,1197239.33,17,São Paulo,4,9,1
3,Indústria,449185.78,15,São Paulo,6,0,0
4,Agronegócio,1006373.16,15,São Paulo,15,8,1


## 7.2 - Visualização Decisões do KMeans
vamos analisar os clusters gerados pelo algoritmo e tentar entender os critérios utilizados para organizá-los. Faremos cruzamentos de dados, como idade e faturamento mensal, e criaremos visualizações para identificar padrões. Observamos que não há um padrão claro baseado no faturamento, mas encontramos um padrão interessante relacionado à inovação. Empresas com níveis de inovação baixos foram agrupadas em um cluster, independentemente do faturamento, enquanto empresas com níveis de inovação moderados e avançados foram agrupadas em outros clusters. Isso nos revela a possibilidade de personalizar o atendimento aos clientes com base em seu nível de inovação. Salvamos o modelo e o pipeline para uso futuro na aplicação batch.

In [14]:
# Visualizar Resultados
# Cruzar Idade e Faruramento, apresentando os clusters
px.scatter(df_clientes, x='idade', y='faturamento_mensal', color='cluster')

In [15]:
# Cruzar Inovacao e Faruramento, apresentando os clusters
px.scatter(df_clientes, x='inovacao', y='faturamento_mensal', color='cluster')

In [16]:
# Cruzar Quantidade de Funcionários e Faruramento, apresentando os clusters
px.scatter(df_clientes, x='numero_de_funcionarios', y='faturamento_mensal', color='cluster')

In [17]:
# Salvar modelo
joblib.dump(best_kmeans, 'modelo_clusterizacao_clientes.pkl')

# Salvar Pipeline
joblib.dump(preprocessor, 'pipeline_clusterizacao_clientes.pkl')

['pipeline_clusterizacao_clientes.pkl']

# 8 - Entrega do Modelo com APP Batch

## 8.1 - Aplicação Batch com Gradio
Desenvolvemos uma aplicação simples no Gradle. Utilizamos um algoritmo de clusterização não supervisionado para transformar os dados em um pipeline separado. Não fizemos predições, apenas trouxemos uma estrutura com o algoritmo. Carregamos o modelo, definimos uma função chamada "clustering" que recebe um arquivo CSV, lê o arquivo, transforma os dados para o formato necessário, treina o modelo e adiciona a coluna de cluster no DataFrame. Salvamos o DataFrame em um arquivo CSV e retornamos o nome desse arquivo. Criamos uma interface para chamar a função e rodamos a aplicação. Agora podemos fazer upload de um arquivo, que será processado e gerará um arquivo de saída com os clusters.

In [18]:
modelo = joblib.load('./modelo_clusterizacao_clientes.pkl')
preprocessor = joblib.load('./pipeline_clusterizacao_clientes.pkl')

def clustering(arquivo):
    # Carregar o CSV em um DF
    df_empresas = pd.read_csv(arquivo.name)
    
    # Transformar os dados do DF para o formato que o Kmeans precisa
    X_trasnformed = preprocessor.fit_transform(df_empresas)
    
    #Treinar o modelo
    modelo.fit(X_trasnformed)
    
    #Criar a coluna cluster no DF
    df_empresas['Cluster'] = modelo,labels_
    df_empresas.to_csv('./clusters.csv', index=False)
    
    return './clusters.csv'

In [22]:
# Criar a interface
app = gr.Interface(
    clustering,
    gr.File(file_types=[".csv"]),
    "file"
)

# rodar a aplicação
app.launch()

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.


