---
# Lead Dell Fortaleza - Curso de Machine Learning 
### Oficina 4 - Processamento da Linguagem Natural com NLTK (<i>Natural Language Toolkit</i>) 📢️

Neste notebook iremos aplicar os conhecimentos aprendidos durante a aula de NLP do curso da Lead Dell Fortaleza, usando o texto <b>'Um carro azul seguia rapidamente em uma rodovia, e ao passar por um buraco, o carro furou o pneu, e o motorista desceu do carro azul'</b>

Por: Pedro Florencio de Almeida Neto

---

Conceitos importantes:
* Corpus: É um dataset de textos. Na biblioteca NLTK há diversos corpus que podemos acessar.

* Tokenização: É a etapa de pré-processamento que capta os termos de um texto e os coloca em uma lista.

* Stopwords: São as palavras de um determinado idioma que têm pouca relevância semântica. Por exemplo: 'o','a','dos','das', etc.

* Term Frequency-Inverse Document Frequency (TF-IDF): É uma medida estatística que permite avaliar a importância de uma palavra em um texto. Ela é composta pela multiplicação de dois termos: <i>Term Frequency</i> (frequência do termo) que capta a frequência que um termo aparece no texto e <i> Inverse Document Frequency</i>  que mede o quão importante ele é, em um conjunto de todos os documentos. Sua fórmula é dada por:


$$
tfidf = \frac{FrequenciaDoTermo}{NumerodePalavrasDoDocumento} * \log(\frac{TotalDeDocumentos}{NumeroDeDocumentosComOTermo})
$$

---
Instalando as bibliotecas e pacotes necessários

In [77]:
! pip install nltk



In [78]:
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from nltk.tokenize import word_tokenize

In [79]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/pedroflorencio/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /home/pedroflorencio/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

---
Gerando as stopwords

In [80]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [81]:
texto = 'Um carro azul seguia rapidamente em uma rodovia, e ao passar por um buraco, o carro furou o pneu, e o motorista desceu do carro azul'

Gerando os tokens

In [82]:
tokens = word_tokenize(texto)
tokens

['Um',
 'carro',
 'azul',
 'seguia',
 'rapidamente',
 'em',
 'uma',
 'rodovia',
 ',',
 'e',
 'ao',
 'passar',
 'por',
 'um',
 'buraco',
 ',',
 'o',
 'carro',
 'furou',
 'o',
 'pneu',
 ',',
 'e',
 'o',
 'motorista',
 'desceu',
 'do',
 'carro',
 'azul']

Identificando os tokens sem as stopwords

In [83]:
# Removendo as vírgulas, que estão presentes na variável stopwords
stopwords.append(",")

for t in tokens:
    if t not in stopwords:
        print(t)

Um
carro
azul
seguia
rapidamente
rodovia
passar
buraco
carro
furou
pneu
motorista
desceu
carro
azul


---
Cálculo do TF-IDF

In [84]:
tf_idf = TfidfVectorizer()

Usando fit_transform para para mostrar os tf_idf de cada token do texto

In [85]:
vetor = tf_idf.fit_transform([texto])
print(vetor)

  (0, 5)	0.1796053020267749
  (0, 4)	0.1796053020267749
  (0, 8)	0.1796053020267749
  (0, 10)	0.1796053020267749
  (0, 7)	0.1796053020267749
  (0, 2)	0.1796053020267749
  (0, 11)	0.1796053020267749
  (0, 9)	0.1796053020267749
  (0, 0)	0.1796053020267749
  (0, 13)	0.1796053020267749
  (0, 16)	0.1796053020267749
  (0, 6)	0.1796053020267749
  (0, 12)	0.1796053020267749
  (0, 14)	0.1796053020267749
  (0, 1)	0.3592106040535498
  (0, 3)	0.5388159060803247
  (0, 15)	0.3592106040535498


In [86]:
# Transformando em um vetor
vetor = vetor.todense()
vetor

matrix([[0.1796053 , 0.3592106 , 0.1796053 , 0.53881591, 0.1796053 ,
         0.1796053 , 0.1796053 , 0.1796053 , 0.1796053 , 0.1796053 ,
         0.1796053 , 0.1796053 , 0.1796053 , 0.1796053 , 0.1796053 ,
         0.3592106 , 0.1796053 ]])

In [87]:
nomes = tf_idf.get_feature_names()
nomes

['ao',
 'azul',
 'buraco',
 'carro',
 'desceu',
 'do',
 'em',
 'furou',
 'motorista',
 'passar',
 'pneu',
 'por',
 'rapidamente',
 'rodovia',
 'seguia',
 'um',
 'uma']

In [88]:
# DataFrame com os scores de TF-IDF associados aos termos
df = pd.DataFrame(vetor,columns=nomes)
df

Unnamed: 0,ao,azul,buraco,carro,desceu,do,em,furou,motorista,passar,pneu,por,rapidamente,rodovia,seguia,um,uma
0,0.179605,0.359211,0.179605,0.538816,0.179605,0.179605,0.179605,0.179605,0.179605,0.179605,0.179605,0.179605,0.179605,0.179605,0.179605,0.359211,0.179605


Observamos que "carro" e "azul" são os termos que possuem os maiores scores, logo aparecem com mais frequência no texto.

<b>Obrigado!</b>

---