# Clusterização com Scikit-Learn
- Este notebook faz parte da atividades teóricas do clube de Inteligência Artificial da Escola Sesc de Ensino Médio;
- Nesta atividade iremos aprender mais sobre algoritmos de Clusterização utilizando uma biblioteca muito utilizada para Machine Learning, a Scikit-Learn.

## Scikit-Learn
- A scikit-learn (originalmente scikits.learn) é uma biblioteca de aprendizado de máquina de código aberto para a linguagem de programação Python. Ela inclui vários algoritmos de classificação, regressão e agrupamento incluindo máquinas de vetores de suporte, florestas aleatórias, gradient boosting, k-means e DBSCAN, e é projetada para interagir com as bibliotecas Python numéricas e científicas NumPy e SciPy.

https://scikit-learn.org/

!pip install seaborn

## 1. Preparando os dados

### 1.1 Importando as bibliotecas principais

**NumPy** é um pacote para a linguagem Python que suporta arrays e matrizes multidimensionais, possuindo uma larga coleção de funções matemáticas para trabalhar com estas estruturas. *Wikipédia*

**Pandas** é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais. É software livre sob a licensa licença BSD. *Wikipédia*

**Matplotlib** é uma biblioteca de software para criação de gráficos e visualizações de dados em geral, feita para a da linguagem de programação Python e sua extensão de matemática NumPy. Originalmente criada pelo biólogo e neurocientista americano John D. *Wikipédia*

### 1.2 Importando  e visualizando o Dataset
**Dataset** é uma coleção de dados (conjunto de dados) normalmente tabulados. Por cada elemento se indicam várias características. Cada coluna representa uma variável particular. Cada linha corresponde a um determinado membro do conjunto de dados em questão. Cada valor é conhecido como um dado.

#### Sobre o Dataset deste projeto

**MovieLens ML Small 100k**: https://grouplens.org/datasets/movielens/

MovieLens é um dataset criado pelo Grouplens que coleciona dados de informações e avaliações de filmes do website Movielens (http://movielens.org/). Os conjuntos de dados foram coletados por vários períodos de tempo, dependendo do tamanho do conjunto. Neste caso, usaremos a versão educacional da base que possui 100.000 registros. A base total chega a 27.000.000 de registros 😮. 

**O objetivo** deste treinamento será criar um modelo de Machine Learning utilizando a técnica de Clusterização para agrupar os diferentes filmes e suas categorias e construir um sistema de recomendação, algo similar ao que o Netflix faz.

Descrição das características do Dataset:
- movies.csv: Lista com os filmes e suas categorias **Utilizaremos este arquivo para o treinamento**
  - movieId: Número identificador do filme
  - title: Título do filme
  - genres: Listagem de gêneros
- ratings.csv: Lista das avaliações dos filmes
- links.csv: Links dos filmes na plataforma
- tags.csv: Tags relacionadas aos filmes


**Link para o arquivo .csv do Dataset:** https://raw.githubusercontent.com/idcesares/Clube-de-IA-ESEM/master/Pr%C3%A1tica-3_Clusteriza%C3%A7%C3%A3o-Scikit-Learn-KMeans/movies.csv

#### Lendo o arquivo que contém os nossos dados e criando um Dataframe com o Pandas

#### Mostrando as 5 primeiras linhas do Dataframe

#### Mostrando as 5 últimas linhas do Dataframe

#### Exibindo informações importantes do Dataframe

In [None]:
# Resume e descreve algumas operações gerais do Dataset. Round(2) arredonda para 2 casas decimais.

In [None]:
# Descreve o tamanho do dataframe em uma tupla

In [None]:
# Descreve informaçoes de tamanho e de tipo das características

#### Alterando o nome das colunas

### 1.3 Selecionando as características principais para o estudo

**Qual coluna utilizaremos para realizar nosso experimento?**

#### Separando os gêneros em colunas indicadoras (Dicotomização ou Normalização)
O método get_dummies() pertence à biblioteca Pandas e converte uma variável categórica (generos) em variáveis indicadoras (dummies)que podem assumir somente 2 valores: 0 ou 1.

#### Unindo os dataframes filmes e generos

### 1.4 Quais dessas características influenciam mais os filmes? Como definir pesos?
Usando Sklearn para escalar os dados.
#### Instanciando a Classe Standard Scaler
As classes em linguagens de programação são projetos de um objeto que possui características e comportamentos, ou seja, permite armazenar **propriedades** e **métodos** dentro dela. Instanciar uma classe significa que poderá utilizar tudo que está incluído nela ao atribuí-la a uma variável.

#### Ensinando a classe a aprender com os nossos dados

## 2. Escolher um modelo

<img src="https://scikit-learn.org/stable/_static/ml_map.png"/>

### 2.1 Clusterização
Clusterização é a tarefa de dividir a população ou os pontos de dados em vários grupos, de modo que os pontos de dados nos mesmos grupos sejam mais semelhantes a outros pontos de dados no mesmo grupo do que os de outros grupos. Em palavras simples, o objetivo é segregar grupos com traços semelhantes e atribuí-los a clusters. 

<img src="https://github.com/idcesares/Clube-de-IA-ESEM/blob/master/Pr%C3%A1tica-3_Clusteriza%C3%A7%C3%A3o-Scikit-Learn-KMeans/clustering.png?raw=true"/>

Fontes: 
- https://portaldatascience.com/introducao-a-clusterizacao-e-os-diferentes-metodos/#:~:text=Clusteriza%C3%A7%C3%A3o%20%C3%A9%20a%20tarefa%20de,que%20os%20de%20outros%20grupos
- https://rpubs.com/cyobero/k-means

#### Importando o algoritmo KMeans de clusterização da biblioteca scikit-learn

## 3. Ajustar os dados ao modelo e fazer a clusterização

### 3.1 Instanciar a classe KMeans()
O K-means é um algoritmo do tipo não supervisionado, ou seja, que não trabalha com dados rotulados. O objetivo desse algoritmo é encontrar similaridades entre os dados e agrupá-los conforme o número de cluster passado pelo argumento k.

#### Como funciona o KMeans
- Especifica o número de clusters K;
- Inicializa os centróides embaralhando primeiro o conjunto de dados e selecionando aleatoriamente K pontos de dados para os centróides sem substituição;
- Continua iterando até que não haja alterações nos centróides. ou seja, a atribuição de pontos de dados a clusters não está mudando;



<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/K-means_convergence.gif/617px-K-means_convergence.gif">

Fonte: https://minerandodados.com.br/entenda-o-algoritmo-k-means/
https://towardsdatascience.com/k-means-clustering-algorithm-applications-evaluation-methods-and-drawbacks-aa03e644b48a

In [None]:
 #Parâmetros: **n_clusters** representa o número de clusters (agrupamentos) que faremos

In [None]:
 # Principais parâmetros personalizáveis da classe

### 3.2 Utilizando o método .fit()
O método .fit() do objeto modelo criado da classe KMeans() treinará o nosso modelo e criará os clusters (agrupamentos). 

### 3.3 Exibindo os clusters criados pelo KMeans
O objetivo principal do nosso modelo é agrupar os dados de acordo com as principais características de gêneros.

#### Para saber mais
Quer visualizar graficamente o que o KMeans faz? Acesse https://www.naftaliharris.com/blog/visualizing-k-means-clustering/ e faça seus experimentos.

### 3.4 Visualizando os grupos

#### Criando um dataset com os centróides dos grupos

#### Plotando os grupos em um gráfico de barras

#### Plotando os grupos em um gráfico de dispersão para observar os centróides
Como plotar um gráfico de n dimensões? **Redução de Dimensionalidade**

#### Existe algum problema com o nosso modelo?
**Curse of dimensionality** 🤔

### 3.5 O agrupamento fez sentido?

## 4. Avaliando o modelo criado

### 4.1 Otimizando o número de grupos
O número de grupos pode variar dependendo do problema em questão. Entretanto, existem métricas que podem nos ajudar a aumentar ou diminuir este número, ou seja, otimizar o agupamento do nosso modelo. 

#### Atributo .inertia_
Soma das distâncias quadradas das amostras ao centro de aglomerado mais próximo

#### Método do cotovelo (Elbow method)
O método do cotovelo nos dá uma idéia de como seria um bom número de clusters k com base na soma da distância ao quadrado (SSE) entre os pontos de dados e os centróides dos clusters atribuídos. Escolhemos k no local em que o SSE começa a se achatar e formar um cotovelo.

### 4.2 Experimentações com o modelo

#### Testando um filme aleatório: em qual grupo vai se encaixar?

#### Escolha um filme e receba uma recomendação!
Veja a lista abaixo, e selecione anote o id do filme que deseja receber a recomendação.

## 5. O que poderíamos fazer para melhorar nosso agrupamento?

### Melhorar através da experimentação!