# 1.2 Supervised Machine Learning + Análise de Sentimento


Quando tratamos de Supervised Machine Learning (aprendizado de máquina supervisionado), não há como fugir da **Regressão Logística**, uma técnica estatística de predição de valores. **Em NLP não é diferente**. Vamos compreender as etapas necessárias para implementar esse algoritmo.

Para realizar um Supervised ML, temos dois elementos principais:
1. Features (X) (o input);
2. Labels (Y) (o output).

Para que tenhamos predições acuradas baseadas nos dados disponíveis, precisamos minimizar nossas taxas de erro (error rates) ou custo.

Através das Features (X), executamos nossa função de predição (que leva em conta os dados de parâmetros) para realizar o output nas Labels (Y). **A tarefa é fazer com que o valor esperado de Y e o valor predito em Y tenha o mínimo de distância possível**. 

A **função de custo/perda** (**cost/loss function**) compara o quão próximas estão os Outputs e as Labels Y. Os parâmetros são atualizados até que o custo seja minimizado.

<img src="images/SML.png" width='50%'>

### 1.2.1 Análise de sentimento
Análise de sentimento ou sentiment analysis pode ser obtido através do Supervised Machine Learning (SVM). Vamos **analisar o sentimento de tweets**. Um exemplo:

Temos dois tweets:
1. "Eu gosto muito de estudar";
2. "Eu gosto de estudar, mas quando me deparo com matemática fico muito triste".

Qual você acha que deveria ser o Output de nossa análise de sentimento automática para cada uma dessas sentenças? **Em um Supervised Machine Learning, é você que decidirá o Output.** Ou seja, é quem está treinando o modelo que definirá qual as Labels (Y), para que o algoritmo então consiga imitar.

Vamos dizer então que o primeiro tweet é **positivo** e o segundo, apesar de um pouco mais complexo, **negativo**. Positivo será "1" e negativo "0", ou seja, valores binários.

Vamos então utilizar o modelo de classificação da **regressão logística** para predizer o sentimento de um tweet:
1. primeiro precisamos colher e processar os tweets (que estão em texto cru) para extrair features;
2. então treinamos o modelo de regressão logística, e isso inclui repetir até minimizar o custo (cost);
3. realizar as predições com tweets ainda não utilizados!

<img src="images/SML train.png" width='50%'>



### 1.2.2 Representando um texto como vetor
Para representar um texto como vetor (e assim encodar qualquer texto como um array de números), primeiramente precisamos construir um **vocabulário**. Dentro do vocabulário estarão todas as palavras (unique words) de sua coleção de tweets.

Vamos representar o array do conjunto dos dois tweets apresentados anteriormente.

**V** = [Eu, gosto, muito, de, estudar, mas, quando, me, deparo, com, matemática, fico, triste]

Repare que todas as palavras utilizadas estão dentro do array, porém não se repetem. Através do vetor, podemos realizar a **extração de features** manualmente para entender melhor como funciona!

1. "Eu gosto muito de estudar"

|Eu| gosto| muito| de| estudar| mas| quando| me| deparo| com| matemática| fico| triste|
|-|-|-|-|-|-|-|-|-|-|-|-|-|
|1|1|1|1|1|0|0|0|0|0|0|0|0|

2. "Eu gosto de estudar, mas quando me deparo com matemática fico muito triste".

|Eu| gosto| muito| de| estudar| mas| quando| me| deparo| com| matemática| fico| triste|
|-|-|-|-|-|-|-|-|-|-|-|-|-|
|1|1|1|1|1|1|1|1|1|1|1|1|1|

A segunda sentença possui "1" em todas as palavras de nosso vetor, pois contém todas as palavras em sua sentença. 

Essa forma de representação se chama **sparse representation**.

Podemos imaginar que, quanto mais tweets implementarmos em nosso _dataset_, **mais zeros** teremos. Em um vocabulário de 500 palavras diferentes (portanto 500 parâmetros), uma sentença como a primeira teria 495 "zeros", e cinco "uns". Esse modo de representação faz com que o tempo de treinamento **seja muito longo**.

<img src="images/sparse representation.png" width='50%'>




### 1.2.3 Um novo modo de encodar os textos
Para nosso classificador de regressão logística, podemos realizar a **contagem de positivos e negativos**. Vamos a um novo exemplo.
1. Eu gosto de NLP, estou feliz;
2. Eu estou feliz;
3. Estou triste, NLP é exigente;
4. Estou triste.

- Separamos os tweets positivos dos negativos. Vamos considerar o vocabulário e contar quantas vezes se repetem as palavras em cada uma das duas classificações:

| Vocabulário | PosFreq (1) | NegFreq (0) |
|-|-|-|
|Eu|2 |0|
| gosto|1 |0|
| de |1 |0|
|NLP |1 |1|
| Estou |2 |2|
|feliz |2 |0|
| triste | 0 |2|
| é | 0 |1|
| exigente | 0 |1|

### 1.2.4 Extraindo features utilizando frequências
Agora teremos um incremento na velocidade de classificação, pois ao invés de aprender **V** features (de todo o vocabulário, classificados em "zero" e "um" por palavra), nosso modelo precisará extrair apenas **TRÊS** features por tweet:
1. bias unit (unidade de polarização) igual a "1";
2. soma de todas PosFrequencies para cada unique word (como calculado acima);
2. soma de todas NegFrequencies para cada unique word.

Estamos começando a entender o que acontece e como o modelo escolhe uma classificação. Se pegarmos as PosFreq (1), podemos observar que as palavras feliz (2 vezes) e gosto (1 vez) não aparecem nas frases negativas.

Vamos extrair manualmente as features de nosso tweet "Estou triste, NLP é exigente".
1. da coluna de PosFreq(1) somamos as frequências que aparecem na sentença negativa:
    1. "Estou" = 2, "triste" = 0, "NLP" = 1, "é" = 0, "exigente" = 0. **Soma = 3**.
2. vamos fazer o mesmo para as NegFreq(0):
    1. "Estou" = 2, "triste" = 2, "NLP" = 1, "é" = 1, "exigente" = 1. **Soma = 7**.
    
| PosFreq(1) | NegFreq(0) |
|:-:|:-:|
|<img src="images/posfreq.png" width='85%'>|<img src="images/negfreq.png" width='85%'>|

    
Sendo assim, a representação da Feature extraction do tweet negativo acima será o Vetor = [1, 3, 7]

**Ao invés de 500 features, agora temos apenas três!**

No próximo guia, vamos definir e ver alguns exemplos de **pré-processamento de texto**.