<h1>Módulo 1: Aprendizado Não Supervisionado: Clusterização</h1>

<h3>Objetivo: Agrupar localizações de entrega em Manaus com base na latitude e longitude dos pontos de entrega.</h3>

<h4>Importante:</h4> 

Por razões de simplificação, não trabalharemos com distância dirigível, mas você pode consultar uma solução aqui: <a>https://github.com/joaomj/tipos_distancias</a>

<h2>1. Introdução e Coleta dos Dados</h2>

<h3>O que é Clustering?</h3>
<ul>
<li>Técnica de aprendizado não supervisionado.</li>
<li>Usada para dividir um grupo em conjuntos, agrupa dados similares sem rótulos predefinidos.</li>
<li>Exemplos de uso: marketing segmentado, agrupamento de documentos, agrupamento de clientes e roteirização de entregas.</li>
</ul>    

<h3>Coleta dos Dados:</h3>
<ul>
<li>Dados fornecidos: latitude, longitude.</li>
    <li>Google maps: <a>https://www.google.com/maps</a></li>
</ul>    

<img src="M1_latitude-longitude.jpg" width="300" height="150">

In [1]:
# Ocultar todos os warnings (Opcional)
import warnings
warnings.filterwarnings('ignore')

<font color="blue"> <h1>Prompt</h1> </font>

Nós vamos trabalhar com aprendizado Não Supervisionado, utilizando a Clusterização (Agrupamento) com o K-Means. A finalidade é agrupar localizações de entrega. Vou fornecer um passo a passo para ser executado a seguir. Importante: Execute apenas as etapas que forem passadas e não aplique "import ace_tools". 

<font color="blue"> <h1>Prompt</h1> </font>

Primeiro, importe as bibliotecas necessárias para manipulação de dados, clusterização e visualização: pandas, numpy, matplotlib, sklearn. 

<font color="blue"> <h1>Prompt</h1> </font>

Crie um dataset ficticio e aleatório com o numpy. As colunas devem ser 'latitude' e 'longitude', limitadas à área de Manaus (lat_min, lat_max = -3.2, -3.0; lon_min, lon_max = -60.2, -59.9). Além disso, crie uma variável para determinar a quantidade de linhas do dataset e adicione a coluna 'entrega_n', que identifica a "1, 2, 3, ..., n" entrega. Atribua 42 à aleatoriedade. 

<font color="blue"> <h1>Prompt</h1> </font>

Plote um gráfico de dispersão com latitude no eixo x e longitude no eixo y para visualizar a distribuição dos dados. 

<h2>2. Análise de Dados e Pré-processamento</h2>

<h2>Objetivo: Preparar os dados para o treinamento do modelo.</h2>

<h3>Análise Exploratória:</h3>
<ul>
<li>Verificar valores ausentes.</li>
<li>Distribuição das variáveis.</li>
<li>Correlação entre as variáveis.</li>
</ul>

<h3>Pré-processamento:</h3>
<ul>
<li>Tratamento de valores ausentes.</li>
</ul>

<font color="blue"> <h1>Prompt</h1> </font>

Verifique se existem valores ausentes no dataframe. 

<h3>Normalização:</h3>
<ul>    
<li>Como o clustering utiliza métricas de distância para determinar quais amostras são semelhantes, o comportamento poderá mudar dependendo da escala dos dados.</li>
<li>Podemos padronizar os dados e colocar todos os atributos na mesma escala.</li>
<li>Normalizar os dados significa redimensioná-los para que todas as características tenham uma escala comparável.</li> 
<li>Usa-se um min-max, onde os dados são escalados para um intervalo entre 0 e 1.</li>    
</ul>

<h3>Exemplo de Normalização:</h3>
<ul>
<li>Os algoritmos de machine learning que utilizam distâncias, como regressão linear, k-NN e SVM, podem ser fortemente influenciados pela escala das características.</li>  
<li>Por exemplo, uma "Área da Casa" tem valores na faixa de centenas (150 a 300), enquanto o "Número de Quartos" tem valores na faixa de unidades (2 a 4).</li> 
<li>Se treinarmos um modelo sem normalizar os dados, a "Área da Casa" terá uma influência desproporcionalmente maior no modelo devido aos seus valores muito maiores em comparação ao "Número de Quartos".</li>  
<li>Isso pode fazer com que o modelo ignore a importância do "Número de Quartos" na determinação do preço da casa, resultando em previsões imprecisas.</li> 
    
</ul>

<font color="blue"> <h1>Prompt</h1> </font>

Normalize os dados das colunas 'latitude' e 'longitude' usando o MinMaxScaler do Sklearn, mas não perca a referência dos dados originais (modifique os nomes dessas colunas). Em seguida faça um gráfico de dispersão com o resultado.

<h2>3. Treinamento do Modelo</h2>

<h2>Objetivo: Treinar o modelo de clustering para agrupar as rotas de entrega.</h2>

<h3>Escolha do Algoritmo:</h3>
<ul>
<li><b>K-Means</b> é uma escolha popular para clustering.</li>
<li>O algoritmo k-means (k-médias) exige que o usuário selecione o número de clusters, isto é, "k".</li>
<li>Então, ele escolhe aleatoriamente k centroides e atribui cada amostra a um cluster com base na métrica de distância a partir do centroide.</li>
<li>Após a atribuição, os centroides são recalculados com base no centro de todas as amostras atribuídas a um rótulo.</li>
<li>Em seguida, a atribuição das amostras aos clusters se repete com base nos novos centroides.</li>
<li>Após algumas iterações deve haver uma convergência.</li>
</ul>

<h3>Definição do Número de Clusters:</h3>
<ul>
<li>O <b>gráfico de cotovelo</b> (gráfico elbow) pode ser implementado para definir o número de clusters, procurando o ponto em que a curva se dobra.</li>
</ul>    

<img src="M1_K-Means.png" width="300" height="150">

<font color="blue"> <h1>Prompt</h1> </font>

Importe o sklearn.cluster para determinar o número ideal de clusters utilizando o Método do Cotovelo. Em seguida, crie um gráfico de linha para visualizar o Método do Cotovelo.

<font color="blue"> <h1>Prompt</h1> </font>

Utilizando 4 como o número de clusters, aplique o algoritmo K-Means aos dados de latitude e longitude normalizados. Crie um gráfico de dispersão para visualizar os clusters e os centróides. 

<h2>4. Avaliação</h2>

<h2>Objetivo: Avaliar a qualidade dos clusters e interpretar os resultados.</h2>

<h3>Métricas de Avaliação:</h3>
<ul>
<li><b>Inércia</b>: Soma das distâncias quadráticas dentro dos clusters.</li>
<ul>    
<li>Uma queda significativa na inércia ao adicionar mais clusters pode indicar que esses clusters adicionais estão capturando estrutura significativa nos dados.</li> 
<li>Entretanto, uma vez que a inércia diminui lentamente, adicionar mais clusters pode não ser útil.</li>
</ul>    
    
<li><b>Silhouette Score (coeficiente de silhueta)</b>: Mede a coesão e separação dos clusters.</li>


<ul>
<li>É um valor entre -1 e 1, e quanto maior o valor, melhor será.</li>
<li>O valor 1 indica clusters mais claros, enquanto 0 implica clusters que se sobrepõem.</li> 
</ul>    
</ul>  

<h3>Visualização dos Clusters:</h3>
<ul>
<li>Gráficos de dispersão para visualizar a distribuição dos clusters.</li>
<li>Análise de padrões nos dados agrupados.</li>
</ul> 

<font color="blue"> <h1>Prompt</h1> </font>

Calcule a inércia (WCSS) e o Silhouette Score do modelo KMeans para avaliar a qualidade dos clusters. 

<h2>5. Teste</h2>

<font color="blue"> <h1>Prompt</h1> </font>

Utilizando as latitudes originais, armazene cada cluster em um dataframe distinto e exiba-o. Também plote cada cluster em um gráfico distinto. Quantos itens ficaram em cada cluster?