<a href="https://colab.research.google.com/github/fabriciosantana/nlp/blob/main/AKCIT_NLP_M6_Colab_Unidade_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivos de Aprendizagem

## 3.1  TF-IDF

O procedimento descrito pela técnica *Count Vectorizer* é simples e bastante poderoso, mas tem uma limitação principal. [Manning et al. 2008](https://nlp.stanford.edu/IR-book/information-retrieval-book.html) descrevem que nele 'todos os termos são considerados igualmente importantes quando se trata de avaliar relevância'. Portanto, uma melhoria nesse sentido seria ponderar a computação de características dos dados textuais levando em consideração a frequência de cada palavra do exemplo considerado e no corpus como um todo. Isso permitiria que os algoritmos pudessem obter informações mais relevantes, mesmo quando lidando com dados textuais muito grandes. Isso é conhecido como *Term Frequency - Inverse Document Frequency*, ou TF-IDF, e também é uma técnica *bag-of-words*.



Para ilustrar essa questão do que significa *relevância*, consideremos as seguintes frases em um contexto de uma tarefa de análise de sentimentos:

1. Eu adorei o último jogo do Corinthians. Foi muito melhor que no jogo anterior, com mudanças táticas importantes que impactaram no estilo de jogo do time. (Sentimento positivo)
2. Eu detestei o novo modo de jogo do Call of Duty. (Sentimento negativo)

Numa abordagem usando *Count Vectorizer*, temos o seguinte panorama:

In [None]:
corpus = [
    'Eu adorei o último jogo do Corinthians. Foi muito melhor que no jogo anterior, com mudanças táticas importantes que impactaram no estilo de jogo do time. ',
    'Eu detestei o novo modo de jogo do Call of Duty.'
]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())

print(X.toarray())

['adorei' 'anterior' 'call' 'com' 'corinthians' 'de' 'detestei' 'do'
 'duty' 'estilo' 'eu' 'foi' 'impactaram' 'importantes' 'jogo' 'melhor'
 'modo' 'mudanças' 'muito' 'no' 'novo' 'of' 'que' 'time' 'táticas'
 'último']
[[1 1 0 1 1 1 0 2 0 1 1 1 1 1 3 1 0 1 1 2 0 0 2 1 1 1]
 [0 0 1 0 0 1 1 1 1 0 1 0 0 0 1 0 1 0 0 0 1 1 0 0 0 0]]


Como todos os termos são igualmente importantes, os classificadores podem entender que o fator mais importante para que uma frase de exemplo possua sentimento positivo é ter mais ocorrências do termo 'jogo'. Usando TF-IDF podemos driblar essa questão ao atribuir um peso menor para termos que ocorrem muito no vocabulário como um todo. Formalmente, temos


TF$(p, e)$ = $1 + log\:f_{p, e}$ [1]

IDF$(p, C)$ = $log\: \left(1 + \frac{N}{n_{p}}\right)$ [2]

em que *Term Frequency*, TF, é o termo da equação [1], *Inverse Document Frequency*, IDF, é representado pela equação [2], e ainda $p$ é a palavra em questão, $e$ é o exemplo de texto analisado, $C$ é o corpus, $N$ é o número de documentos no corpus e $n_{p}$ é o número de ocorrências da palavra $p$ em todos os documentos. O resultado final é a multiplicação de TF com IDF, conforme a equação [3]:

TF-IDF$(p, e, C)$ = $TF(p, e) * IDF(p, C)$ [3]

Das frases de exemplo, vamos considerar o termo 'jogo', que foi o que mais apareceu no vocabulário.

TF$(jogo, frase 1)$ = $1 + log\:f_{jogo, frase 1}$
$= 1 + log \:3 = 1 + 0.47712 = 1.47712$  (*Observe que a palavra jogo apareceu 3 vezes na frase 1*)

IDF$(jogo, corpus)$ = $log\: \left(1 + \frac{2}{4}\right)$  (*Observe que a palavra jogo apareceu 4 no corpus. O corpus de exemplo possui dois documentos*)

.: Continuando os cálculos temos que IDF$(jogo, corpus)$ = $log\: \left(\frac{6}{4}\right)$ = $0.17609$



TF-IDF$(jogo, frase 1, corpus)$ = $1.47712 * 0.17609$ = $0.2601$

Observe que TF da palavra "jogo" na frase 1 é um valor alto, pois a palavra jogo aparece 3 vezes nesta sentença, o seu IDF no corpus é baixo $0.17609$. E isso é usado para ponderar esta relação.

## A seguir veja alguns exemplos de uso do TF-IDF na prática com o auxílio da biblioteca sklearn

sklearn linha 1461 -> https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/feature_extraction/text.py

https://towardsdatascience.com/tf-idf-explained-and-python-sklearn-implementation-b020c5e83275

https://www.tablesgenerator.com/markdown_tables#

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer # chamando a classe TfidfVectorizer biblioteca sklearn

A biblioteca sklearn tem um padrão de uso de suas classes em 3 fases.

1) importa a classe desehada;  Exemplo: from sklearn.feature_extraction.text import TfidfVectorizer

2) instância a classe desejada; Ex.:vectorizer = TfidfVectorizer()

3) chama função fit_transform da classe instanciada

In [None]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())

print(X.toarray())

['adorei' 'anterior' 'call' 'com' 'corinthians' 'de' 'detestei' 'do'
 'duty' 'estilo' 'eu' 'foi' 'impactaram' 'importantes' 'jogo' 'melhor'
 'modo' 'mudanças' 'muito' 'no' 'novo' 'of' 'que' 'time' 'táticas'
 'último']
[[0.18382334 0.18382334 0.         0.18382334 0.18382334 0.13079182
  0.         0.26158365 0.         0.18382334 0.13079182 0.18382334
  0.18382334 0.18382334 0.39237547 0.18382334 0.         0.18382334
  0.18382334 0.36764669 0.         0.         0.36764669 0.18382334
  0.18382334 0.18382334]
 [0.         0.         0.35300279 0.         0.         0.25116439
  0.35300279 0.25116439 0.35300279 0.         0.25116439 0.
  0.         0.         0.25116439 0.         0.35300279 0.
  0.         0.         0.35300279 0.35300279 0.         0.
  0.         0.        ]]


In [None]:
vectorizer.get_feature_names_out()

array(['adorei', 'anterior', 'call', 'com', 'corinthians', 'de',
       'detestei', 'do', 'duty', 'estilo', 'eu', 'foi', 'impactaram',
       'importantes', 'jogo', 'melhor', 'modo', 'mudanças', 'muito', 'no',
       'novo', 'of', 'que', 'time', 'táticas', 'último'], dtype=object)

In [None]:
import pandas as pd

In [None]:
#Veja os tokens mais relevantes do Exemplo 'Eu detestei o novo modo de jogo do Call of Duty.'
df = pd.DataFrame(X[1].T.todense(), index=vectorizer.get_feature_names_out(), columns=["TF-IDF"])
df = df.sort_values('TF-IDF', ascending=False)
print (df.head(50))

               TF-IDF
duty         0.353003
detestei     0.353003
novo         0.353003
of           0.353003
modo         0.353003
call         0.353003
de           0.251164
do           0.251164
eu           0.251164
jogo         0.251164
time         0.000000
mudanças     0.000000
que          0.000000
táticas      0.000000
no           0.000000
muito        0.000000
adorei       0.000000
importantes  0.000000
melhor       0.000000
anterior     0.000000
impactaram   0.000000
foi          0.000000
estilo       0.000000
corinthians  0.000000
com          0.000000
último       0.000000


# 3.2 Desafio

1. Ajuste o TfidfVectorizer para usar n-grams (bigramas, trigrama etc.) e compare os resultados com a vetorização de unigramas.
