# Machine Learning Não Supervisionado: primeiras técnicas e métodos

## Aula 1 - Machine Learning Não Supervisionado

### Vídeo 1.1 - Apresentação
 

### Vídeo 1.2 - O que é aprendizado não supervisionado?


* Técnicas que temos:
  * Clustering
  * Redução de Dimensionalidade
  * Análise de Correspondência Simples e Múltipla
  * Detecção de anomalias/outliers
  * Regras de Associação
* Aplicações no mercado (finanças, saúde, agricultura).

* Problema: Alura Data, empresa de consultoria em dados, recebeu uma padaria que deseja analisar as informações das compras realizadas por seus clientes para poder entender melhor o comportamento de suas compras para que possam criar vendas direcionadas e mais eficazes.

In [None]:
import pandas as pd

In [None]:
dados = pd.read_csv('/content/sample_data/Bakery.csv') 

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20507 entries, 0 to 20506
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   TransactionNo  20507 non-null  int64 
 1   Items          20507 non-null  object
 2   DateTime       20507 non-null  object
 3   Daypart        20507 non-null  object
 4   DayType        20507 non-null  object
dtypes: int64(1), object(4)
memory usage: 801.2+ KB


In [None]:
dados.head()

Unnamed: 0,TransactionNo,Items,DateTime,Daypart,DayType
0,1,Bread,2016-10-30 09:58:11,Morning,Weekend
1,2,Scandinavian,2016-10-30 10:05:34,Morning,Weekend
2,2,Scandinavian,2016-10-30 10:05:34,Morning,Weekend
3,3,Hot chocolate,2016-10-30 10:07:57,Morning,Weekend
4,3,Jam,2016-10-30 10:07:57,Morning,Weekend


In [None]:
#Tratamento dos dados
#lista de transações

transacao = []

for item in dados['TransactionNo'].unique():
  lista = list(set(dados[dados['TransactionNo']==item]['Items']))
  transacao.append(lista)

In [None]:
transacao[0:5]

[['Bread'],
 ['Scandinavian'],
 ['Jam', 'Cookies', 'Hot chocolate'],
 ['Muffin'],
 ['Coffee', 'Bread', 'Pastry']]

### Vídeo 1.3 - O que é a Regra de Associação?

[slides]

### Vídeo 1.4 - Algoritmo Apriori 

[slides]

### Vídeo 1.5 - Aplicando a Regra de Associação

#### Regra de Associação




* O que é Regra de Associação?

É um método conhecido como análise de associação, que busca identificar relacionamentos desconhecidos em grandes conjuntos de dados.

* Dica de leitura: [Wikipedia - Regras de Associação](https://en.wikipedia.org/wiki/Association_rule_learning), [Capítulo 4 - Introduction to Data Mining](https://www.amazon.com.br/Introduction-Data-Mining-Global-Pang-Ning/dp/0273769227/ref=sr_1_3?__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&crid=NB5N4VIW2CSX&keywords=introduction+to+data+mining&qid=1659974700&sprefix=introduction+to+data+mining%2Caps%2C209&sr=8-3&ufe=app_do%3Aamzn1.fos.25548f35-0de7-44b3-b28e-0f56f3f96147) 

* Biblioteca que iremos utilizar chama-se [mlxtend](http://rasbt.github.io/mlxtend/), caso queira conhecer mais confira o link!

In [None]:
#!pip install mlxtend

In [None]:
!pip install mlxtend --upgrade

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting mlxtend
  Downloading mlxtend-0.20.0-py2.py3-none-any.whl (1.3 MB)
[K     |████████████████████████████████| 1.3 MB 5.2 MB/s 
Installing collected packages: mlxtend
  Attempting uninstall: mlxtend
    Found existing installation: mlxtend 0.14.0
    Uninstalling mlxtend-0.14.0:
      Successfully uninstalled mlxtend-0.14.0
Successfully installed mlxtend-0.20.0


* É necessário converter as listas de itens em um dataframe com as transações que o modelo de machine learning possa processar.

* [`TransactionEncoder()`](http://rasbt.github.io/mlxtend/user_guide/preprocessing/TransactionEncoder/) - utiliza do one-hot encoding para transformar os dados categóricos em valores booleanos.

In [None]:
from mlxtend.preprocessing import TransactionEncoder

In [None]:
te = TransactionEncoder()

In [None]:
transacao_te = te.fit(transacao).transform(transacao)

In [None]:
transacao_te

array([[False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       ...,
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False]])

In [None]:
transacao_transformado = pd.DataFrame(transacao_te, columns=te.columns_)
transacao_transformado

Unnamed: 0,Adjustment,Afternoon with the baker,Alfajores,Argentina Night,Art Tray,Bacon,Baguette,Bakewell,Bare Popcorn,Basket,...,The BART,The Nomad,Tiffin,Toast,Truffles,Tshirt,Valentine's card,Vegan Feast,Vegan mincepie,Victorian Sponge
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9460,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
9461,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,False,False
9462,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
9463,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


* Algoritmo APRIORI

In [None]:
from mlxtend.frequent_patterns import apriori

In [None]:
items_frequentes_apriori = apriori(transacao_transformado, use_colnames=True, min_support=0.02)
items_frequentes_apriori.sort_values(['support'], ascending=False)

Unnamed: 0,support,itemsets
4,0.478394,(Coffee)
1,0.327205,(Bread)
16,0.142631,(Tea)
3,0.103856,(Cake)
20,0.090016,"(Coffee, Bread)"
11,0.086107,(Pastry)
12,0.071844,(Sandwich)
9,0.061807,(Medialuna)
7,0.05832,(Hot chocolate)
23,0.054728,"(Coffee, Cake)"


In [None]:
from mlxtend.frequent_patterns import association_rules

In [None]:
regras_apriori = association_rules(items_frequentes_apriori, metric='confidence', min_threshold=0.5)
regras_apriori

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Cake),(Coffee),0.103856,0.478394,0.054728,0.526958,1.101515,0.005044,1.102664
1,(Cookies),(Coffee),0.054411,0.478394,0.028209,0.518447,1.083723,0.002179,1.083174
2,(Hot chocolate),(Coffee),0.05832,0.478394,0.029583,0.507246,1.060311,0.001683,1.058553
3,(Juice),(Coffee),0.038563,0.478394,0.020602,0.534247,1.11675,0.002154,1.119919
4,(Medialuna),(Coffee),0.061807,0.478394,0.035182,0.569231,1.189878,0.005614,1.210871
5,(Pastry),(Coffee),0.086107,0.478394,0.047544,0.552147,1.154168,0.006351,1.164682
6,(Sandwich),(Coffee),0.071844,0.478394,0.038246,0.532353,1.112792,0.003877,1.115384
7,(Toast),(Coffee),0.033597,0.478394,0.023666,0.704403,1.472431,0.007593,1.764582


## Aula 2 - Análise de Agrupamento (parte 1)

### Vídeo 2.1 - O que é Clustering?

[slides]

* O que é clustering (agrupamento)?

"A análise de agrupamentos representa um conjunto de técnicas exploratórias utilizadas quando há a intenção de se verificar a existência de comportamentos semelhantes entre observações em relação a determinadas variáveis e o objetivo de se criarem grupos, ou clusters, em que prevaleça a homogeneidade interna."

* Dica de leitura: [Clustering - Biblioteca SKlearn](https://scikit-learn.org/stable/modules/clustering.html), [Capítulo 9 - Manual de Análise de Dados](https://www.google.com.br/books/edition/Manual_de_An%C3%A1lise_de_Dados/SmlaDwAAQBAJ?hl=pt-BR&gbpv=0), [Capítulo 9 - Mãos à obra: aprendizado de máquina com Scikit-Learn, Keras & TensorFlow: Conceitos, ferramentas e técnicas para a construção de sistemas inteligentes](https://www.google.com.br/books/edition/M%C3%A3os_A_Obra_Aprendizado_De_M%C3%A1quina_Com/JUBIEAAAQBAJ?hl=pt-BR&gbpv=0) 

### Vídeo 2.2 - Conhecendo o novo problema



* Problema: um laboratório de uma indústria alimentícia chamada Pé-de-Feijão, está estudando a criação e identificação de novos produtos a partir dos dados gerados dos diferentes feijões produzidos na última colheita. A ideia é identificar quais e quantos tipos de feijões temos e gerar insights que possam auxiliar nesse objetivo.

### Vídeo 2.3 - O que é K-means?

[slides]

### Vídeo 2.4 - Aplicando o K-means



#### Pré-processamento

* K-Means

[Documentação Sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)

* Visualização com YellowBrick

[Documentação `elbow_visualizer`](https://www.scikit-yb.org/en/latest/api/cluster/elbow.html)


## Aula 3 - Análise de Agrupamento (parte 2)

### Vídeo 3.1 - O que é Mean Shift?

[Slides]

### Vídeo 3.2 - Aplicando o Mean Shift

* MeanShift

[Documentação Sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.MeanShift.html#sklearn.cluster.MeanShift)

[Documentação `estimate_bandwidth`](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.estimate_bandwidth.html?highlight=bandwidth#sklearn.cluster.estimate_bandwidth)

* Dica de leitura: [Artigo científico - Mean shift: a robust approach toward feature space analysis](https://courses.csail.mit.edu/6.869/handouts/PAMIMeanshift.pdf)

### Vídeo 3.3 - O que é DBSCAN?

[Slides]

### Vídeo 3.4 - Aplicando DBSCAN no problema

* DBSCAN

[Documentação Sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN)

## Aula 4 - Redução de Dimensionalidade


### Vídeo 4.1 - O que é Redução de Dimensionalidade?

[Slides]

* O que é Maldição da Dimensionalidade?

Fenômeno que ocorre quando temos uma grande quantidade de variáveis e muitas vezes são altamente correlacionadas ou não agregam informação útil ao problema que estamos lidando.

* Redução de dimensionalidade

Reduzir o número de características para que reduza o custo e a facilite o desenvolvimento de uma solução.


### Vídeo 4.2 - O que é PCA?

[Slides]

* Faremos uma simulação desta técnica a seguir, utilizando o problema da Indústria Pé-de-Feijão!

* O que é PCA (Principal Component Analysis)?

"A análise fatorial por componentes principais permite, portanto, que, a partir de um conjunto de variáveis originais correlacionadas entre si, seja determinado outro conjunto de variáveis (fatores) resultantes da combinação linear do primeiro conjunto."

* Dica de leitura: [Documentação Sklearn - Técnicas de Redução de Dimensionalidade](https://scikit-learn.org/stable/modules/decomposition.html#decompositions), [Capítulo 10 - Manual de Análise de Dados](https://www.google.com.br/books/edition/Manual_de_An%C3%A1lise_de_Dados/SmlaDwAAQBAJ?hl=pt-BR&gbpv=0)

### Vídeo 4.3 - Simulando PCA nos dados

### Vídeo 4.4 - Simulando PCA nos dados com 3 componentes