# **Algoritmos Não-Supervisionados e k-means**

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Algoritmos não-supervisionados
- 2) K-means
- 3) Exemplo real


## **TOC:**
Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) [Algoritmos não-supervisionados](#nao_supervisionado)
- 2) [K-means](#amostragem)
    - 2.1) [Construindo o modelo](#build_model)
    - 2.2) [Determinando o k](#find_k)
    - 2.3) [Algoritmo](#algorithm)
    - 2.4) [Quando uso algoritmos de clusterização](#use_case)
- 3) [Exemplo real](#real)

In [None]:
import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs, make_circles

 ---

## 1) **Algoritmos não-supervisionados** <a class="anchor" id="nao_supervisionado"></a>



Um dos problemas que podem ser resolvidos com Machine Learning é o da __clusterização__!

Este tipo de problema consiste em __agrupar__ itens semelhantes, isto é, criar __grupos__ (ou __clusters__) dos dados que são parecidos entre si.

> O objetivo central é **dividir os dados em grupos distintos**, tais que **membros de cada grupo sejam similares entre si**

Problemas como estes podem aparecer em diversos contextos:

- Identificação de tipos de clientes parecidos, para o direcionamento de marketing;
- Agrupamento de cidades próximas para melhor logística de entrega de produtos;
- Identificação de padrões climáticos;
- Identificação de genes relacionados à determinada doença;
- Identificação de documentos semelhantes em processos legais;

...e qualquer outro problema em que você deseje **AGRUPAR DADOS SIMILARES** ou ainda **ENCONTRAR ALGUMA ESTRUTURA NOS SEUS DADOS!**

Veremos agora um dos principais algoritmos de clusterização, o **k-means**



___

## 2) **K-means**  <a class="anchor" id="k-means"></a>

Documentação: [clique aqui!](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)

O k-means é utilizado para a determinação de um número **k de clusters em nossos dados**

O primeiro passo pra aplicar o k-means é:

- Determinar o número k de clusters!

Por exemplo, só de olhar pros dados plotados a seguir, fica fácil de identificar 4 grupos distintos, não é mesmo? 

Ref: [make_blobs](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html)



Mas, como o computador pode identificar estes grupos? É isso que o algoritmo responde!

Uma vez determinado o número k de clusters, podemos construir nosso modelo!

Primeiramente, lemos nossos dados e os armazenamos na variável X. Para os dados acima, usamos um dataset do próprio sklearn:

### **2.1) Construindo o modelo** <a class="anchor" id="build_model"></a>

Note que temos apenas as **features** dos dados (no caso, coordenadas x e y). Iso caracteriza um problema de clusterização **não-supervisionado**: quando nossos dados **não têm targets**, apenas features!

Temos vários argumentos na classe, mas os principais são:

- n_clusters: quantos clusters queremos (o número k);
- max_iter: é o número máximos de iterações que o algoritmo fará, se ele não convergir antes disso. É uma boa ideia não colocar um número tão grande, ou o algoritmo pode ficar bem lento. Algo da ordem de 1000, em geral é uma boa escolha.

Por fim, pra fitar o modelo, fazemos:

Em algoritmos **não supervisionados**, não existe a divisão em dados de treino e dados de teste, porque **não há o que testar!**. Queremos apenas **econtrar estrutura** nos dados!

Então, basta fitar o modelo com nossos dados todos (no caso, o array X)

Agora que o modelo está treinado, podemos fazer predições:


Isto retorna uma lista com número de elementos igual ao número de pontos do dataset, e com valores entre 0 e k-1, indicando qual é o número do cluster (a contagem começa com zero). 

No nosso caso, como k = 4, teremos os clusters 0, 1, 2 e 3.

Pra visualizarmos os clusters, podemos fazer:

_____

### **2.2) - Determinando o k** <a class="anchor" id="find_k"></a>

Mas e se não for tão fácil de plotar os dados para determinar o k?

Pode ser que não consigamos visualizar nossos dados em 2D, se, por exemplo, tivermos mais de 3 features em nossos dados...

Neste caso, podemos usar o __método do cotovelo__, que consiste em rodar o k-means várias vezes, para diferentes valores de k, e depois plotar um gráfico com a **inércia** de cada uma das rodadas. 

A inércia também é chamada de **WCSS** (Within-Cluster-Sum-of-Squares), isto é, "soma de quadrados intra-cluster", que é calculada como a soma das distâncias (ao quadrado) entre os pontos e os centróides dos clusters.

Quanto menor o WCSS, mais eficiente foi a clusterização, **mas até certo ponto!**

Conforme o número de clusters (k) aumenta, o WCSS diminui, sendo mínimo quando cada ponto é seu próprio cluster isolado (o que não é nada útil, pois se cada ponto for um cluster, não há clusterização alguma!).

Assim, o que queremos não é encontrar um k que minimize o WCSS, mas sim um k a partir do qual o WCSS **para de decrescer tão rapidamente!**

Quando encontramos este k, encontramos o número ideal de clusters!

Ao plotarmos o WCSS (inércia) em função de k, o que buscaremos será então o valor de k onde **o gráfico deixa de ser tão inclinado**. Esses pontos são visualizados como "quinas", ou **cotovelos** no gráfico -- e daí vem o nome do método!

Para aplicar o método, fazemos:



O valor de k mais adequado é aquele em que o gráfico tem uma "quina" bem abrupta: no exemplo acima, k = 4, como já sabíamos! 





___

### Vamos fazer o exemplo com mais features

**Aplicando o método do cotovelo...**

**Vamos tentar separadamente** $k = 3$ e $k = 6$ 

As projeções em duas dimensões mostram que $k=6$ de fato é a melhor escolha! (O que faz sentido, pois nossos dados artificiais foram preparados para conter 6 clusters!)

____

### **2.3) Algoritmo** <a class="anchor" id="algorithm"></a>

Uma vez escolhido o número de clusters, o k-means segue as seguintes etapas:

- 1) k pontos são escolhidos aleatoriamente como sendo os centroides dos clusters (centroide é o centro do cluster);

- 2) Para cada ponto, vamos calcular qual é a distância entre ele e os k centroides. Aquele centroide que estiver mais perto, será o cluster ao qual este ponto pertencerá. Fazemos isso para todos os pontos!

- 3) Ao fim do passo 2, teremos k clusters, cada um com seu centroide, e todos os pontos pertencerão a determinado cluster!

- 4) Uma vez que temos os clusters, calculamos qual é de fato o centro de cada um deles. Isso é feito tomando a média da posição de todos os pontos;

- 5) Após determinar os novos k centroides, repetimos o processo!

- 6) E o processo se repete até que os centroides não mudem mais. Quando esta convergência for alcançada (ou após o número determinado de iterações), o algoritmo termina!

<center><img src="https://stanford.edu/~cpiech/cs221/img/kmeansViz.png" width=700></center>

<center><img src="https://miro.medium.com/max/1280/1*rwYaxuY-jeiVXH0fyqC_oA.gif" width=500></center>

<center><img src="https://miro.medium.com/max/670/1*JUm9BrH21dEiGpHg76AImw.gif" width=500></center>

_____

### **2.4) Quando uso algoritmos de clusterização** <a class="anchor" id="use_case"></a>


De certa fora, algoritmos de clusterização podem ser vistos como classificadores, uma vez que os clusters podem caracterizar um grupo, ou uma classe.

No entanto, há uma diferença bem importante entre problemas de classificação e clusterização:

- **Problemas de classificação** em geral são **supervisionados**, isto é, os dados que utilizamos têm tanto as features como os **targets**. Em outras palavras, neste tipo de problema, sabemos de antemão quais são as classes de interesse!

- **Problemas de clusterização**, por outro lado, são **não-supervisionados**. ou seja, os dados **não têm** targets, temos apenas as features! O nosso objetivo é justamente descobrir **alguma estrutura de agrupamento** nos dados, mas sem qualquer informação prévia quanto aos grupos a serem formados.

Foi exatamente o caso do nosso exemplo: nós tínhamos apenas as **features** dos dados (f1, f2, etc), e **nenhuma** informação quanto aos grupos que seriam formados.

Foi só depois que fizemos a análise exploratória dos dados (plot), que pudemos identificar alguma estrutura (4 clusters), para então aplicar o k-means!

No segundo caso, só pudemos determinar o número de clusters de forma segura utilizando o **método do cotovelo**.

Assim sendo, via de regra, a utilização ou não de algoritmos de clusterização, além do tipo de problema, depende dos **dados disponíveis**:

- Se os dados são previamente classificados (temos **features e targets**), a melhor estratégia é usar **algoritmos de classificação** (regressão logística, árvores, SVM, etc.);

- Mas, se os dados não são previamente classificados (temos **apenas as features**), a melhor estratégia é usar **algoritmos de clusterização** (k-means, [DBSCAN](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN), [hierarchical clustering](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering), etc.)


### **2.5 Diferentes algoritmos de clusterização**

Ref: [Sobre clusterização](https://scikit-learn.org/stable/modules/clustering.html)

____

## 3) **Exemplo real** <a class="anchor" id="real"></a>

Vamos agora a um exemplo real de um problema de clusterização onde podemos usar o k-means?

Usaremos [dados sobre faculdades americanas](https://www.kaggle.com/flyingwombat/us-news-and-world-reports-college-data?select=College.csv)

Os dados são referentes ao ano de 1995, e contêm as seguintes variáveis:

- Apps: número de aplicações (inscrições para processo seletivo) recebidas

- Accept: número de aplicações aceitas

- Enroll: número de novos alunos admitidos naquele ano

- Top10perc: porcentagem de novos alunos que vieram das top 10% melhores escolas de ensino médio

- Top25perc: porcentagem de novos alunos que vieram das top 25% melhores escolas de ensino médio

- F.Undergrad: número de alunos de graduação que estudam em período integral

- P.Undergrad: número de alunos de graduação que estudam meio período

- Outstate: valor da anual da faculdade para alunos fora do estado

- Room.Board: custos anuais de aluguel

- Books: gasto estimado com livros

- Personal: gastos pessoais de custo de vida

- PhD: porcentagem do corpo docente com doutorado

- Terminal: porcentagem do corpo docente com o maior grau de escolaridade possível

- S.F.Ratio: razão de número de estudantes/corpo docente

- perc.alumni: porcentagem de ex-alunos que doaram dinheiro para a universidade

- Expend: gastos institucionais com os estudantes

- Grad.Rate: taxa de graduação


Obs.: originalmente, a base é **supervisionada**, com o target "Private" que indica se a faculdade é pública ou privada. Mas, como estamos estudando problemas não-supervisionados, eu modifiquei a base para não conter esta label.


Vamos explorar os dados para ver se encontramos alguma estrutura neles?

In [None]:
# leia os dados
# a base deve estar em '../datasets/college.csv'

df = pd.read_csv('data/college.csv')

Agora é sua vez!

Lembre de tudo o que vimos no primeiro mês de curso, e **explore os dados**!

Fça quantos gráficos você quiser, formule e responda quantas perguntas vc quiser!

Não é muito óbvio, de imediato, que existem dois grupos distintos, né?

Mas vamos treinar nosso algoritmo para vermos se é possível encontrar alguma estrutura quando todas as features são consideradas juntas!

Agora que nosso modelo foi criado, será que ganhamos algum novo insight olhando pro pairplot?

____