<a href="https://colab.research.google.com/github/FGalvao77/Machine-Learning/blob/main/Aula_5_3_Introdu%C3%A7%C3%A3o_ao_Processamento_da_Linguagem_Natural.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introdução ao Processamento da Linguagem Natural**

A capacidade de comunicar-se é uma das principais características que nos permitem viver em sociedade. E a tecnologia é um aspecto que vem gradativamente evoluindo e facilitando a forma com que nos comunicamos.

Nesse sentindo, está cada vez mais fácil usar aplicativos para troca de mensagens e já existem, inclusive, sistemas que usam `machine learning` para simular uma conversa como se fossem uma pessoa respondendo. Quanta inovação, não é mesmo?!

Esses sistemas são chamados de chatbots. Eles já estão presentes em diversos sites de comércio eletrônico e em serviços de atendimento de várias empresas. Neles o usuário geralmente é apresentado a um chat com algumas opções de serviço e o assistente virtual vai direcionando o utilizador para determinado setor de atendimento da empresa, com base em suas respostas em mensagens de texto.

E como esses sistemas fazem isso? Como eles conseguem entender as mensagens do
usuário?

Bem, por trás dessa tecnologia existe uma área da computação que é chamada de
`Processamento da Linguagem Natural`, tem o objetivo de fazer com que um sistema consiga entender a linguagem dos humanos, ou seja, entender o que nós escrevemos ou falamos.

**O Processamento da Linguagem Natural, também representado pela sigla PLN, ou NLP do inglês Natural Language Processing, utiliza conceitos baseados em linguística e regras gramaticais para a construção de algoritmos, que possam extrair alguma informação ou entendimento**.

_Dentre as aplicações do PNL pode-se destacar a sumarização ou resumo de textos, que permite, por exemplo, captar apenas as ideias principais que contém o sentido de um texto ou de um livro. Outra aplicação são os aplicativos de tradução que utilizam o reconhecimento de voz do usuário para traduzir uma frase. O PNL pode ser aplicado ainda em recuperação de informação, chatbots, entre outras utilidades._

Caro, cursista, agora você será apresentado, de fato, a alguns conceitos importantes no aprendizado de PLN. São eles: `Corpus, Tokenização, e Stop words`.

O **Corpus** é representado por um conjunto de textos escritos em um determinado idioma, que foram manualmente anotados e servirá de validação para as análises que serão realizadas.

Já a **Tokenização**, refere-se a divisão de um texto em partes menores que representam as palavras, ou também chamadas de tokens, e podem ser separadas por espaços, vírgulas ou pontuações.

Por último, mas não menos importante, os **Stop words**. Eles são palavras que geralmente são removidas no início do processamento dos textos para acelerar esse processo, porém a retirada dessas palavras não afeta a compreensão do mesmo.

Após a definição destes conceitos, para que você os entenda melhor e consiga utilizá-los em seu cotidiano de programador é importante acompanhar a aplicação do que foi estudado. Nesse caso, será usando uma biblioteca do python chamada de NLTK que significa Natural Language Toolkit. Então, com o ambiente do jupyter aberto, faça inicialmente o download da biblioteca com o comando “`!pip install nltk`”.

In [1]:
# instalando a biblioteca
!pip install nltk



In [2]:
# importando a biblioteca
import nltk

In [3]:
# baixando as stop words
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [4]:
# stop words em português
stopwords = nltk.corpus.stopwords.words('portuguese')

# imprimindo as stop words do português
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

In [5]:
# importando a biblioteca de tokenização
from nltk.tokenize import word_tokenize

# recursos necessários para realizar a tokenização
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [6]:
# instanciando uma frase para aplicação dos nossos testes
frase = 'Eu dirigo devagar porque nós queremos ver os animais!'

In [7]:
# aplicando a tokenização na frase instanciada
tokens = word_tokenize(frase)

# visualizando o resultado
print(tokens)

['Eu', 'dirigo', 'devagar', 'porque', 'nós', 'queremos', 'ver', 'os', 'animais', '!']


In [8]:
# realizando um "for" para excluir os stop words
for t in tokens:
  if t not in stopwords:
    print(t)

Eu
dirigo
devagar
porque
queremos
ver
animais
!


Outra técnica muito importante na análise de textos, é a identificação da frequência e importância que uma palavra pode ter em um texto.

Existe um cálculo estatístico chamado de `TF-IDF`, essa sigla vem do inglês **Term Frequency – Inverse Document Frequency**, e quer dizer: _Frequência do termo - Frequência Inversa do Documento_. Este cálculo identifica a importância que um termo tem em um texto, ou seja, ele permite que você descubra quais termos são mais relevantes em um dado texto ou documento.

Em linhas gerais o `TF-IDF busca atribuir um valor que representa um peso para definir a importância do termo em um documento, com base na frequência em que ele ocorre (TF), compensando, porém, esse peso, caso a ocorrência desse termo seja muito grande (IDF)`.

Em resumo, se um termo aparece algumas vezes no texto, o valor do TF-IDF aumenta, significando que aquela palavra é importante, porém se esse termo se repete bastante, esse valor é compensado, e a importância dele é diminuída.

Deu pra entender o TF-IDF? Agora acompanhe um exemplo prático, para melhorar
sua compreensão sobre esse assunto, utilizando o módulo “TfidfVectorizer” da biblioteca sklearn para calcular os valores de TF-IDF de um texto.

In [9]:
# importando as bibliotecas
from sklearn.feature_extraction.text import TfidfVectorizer # para calcular os valores de TF-IDF
import pandas as pd

In [10]:
# instanciando uma frase
texto1 = 'A matemática é muito importante para compreendermos como a natureza funciona.'

In [11]:
# instanciando o módulo
tf_idf = TfidfVectorizer()

In [13]:
# utilizando o fit transform para termos uma matriz
vetor = tf_idf.fit_transform([texto1])

# imprimindo o vetor
print(vetor)

  (0, 2)	0.35355339059327373
  (0, 6)	0.35355339059327373
  (0, 0)	0.35355339059327373
  (0, 1)	0.35355339059327373
  (0, 7)	0.35355339059327373
  (0, 3)	0.35355339059327373
  (0, 5)	0.35355339059327373
  (0, 4)	0.35355339059327373


In [14]:
# transformando a matriz em um array
vetor = vetor.todense()
print(vetor)

[[0.35355339 0.35355339 0.35355339 0.35355339 0.35355339 0.35355339
  0.35355339 0.35355339]]


In [16]:
# utilizando a função ".get_feature_names()"
# para mapear as palavras
nomes = tf_idf.get_feature_names()

print(nomes)

['como', 'compreendermos', 'funciona', 'importante', 'matemática', 'muito', 'natureza', 'para']


In [17]:
# transformando o resultado em dataframe
df = pd.DataFrame(vetor, columns=nomes)

# visualizando o dataframe criado
print(df)

       como  compreendermos  funciona  ...     muito  natureza      para
0  0.353553        0.353553  0.353553  ...  0.353553  0.353553  0.353553

[1 rows x 8 columns]


**Usando um novo texto**

In [18]:
# instanciando uma nova frase
texto2 = 'A matemática é incrível, quanto mais estudo matemática, mais eu consigo aprender matemática!'

In [19]:
# instanciando o módulo
tf_idf = TfidfVectorizer()

In [20]:
# utilizando o fit transform para termos uma matriz
vetor = tf_idf.fit_transform([texto2])

# imprimindo o vetor
print(vetor)

  (0, 0)	0.22941573387056174
  (0, 1)	0.22941573387056174
  (0, 3)	0.22941573387056174
  (0, 2)	0.22941573387056174
  (0, 5)	0.4588314677411235
  (0, 7)	0.22941573387056174
  (0, 4)	0.22941573387056174
  (0, 6)	0.6882472016116852


In [21]:
# transformando a matriz em um array
vetor = vetor.todense()
print(vetor)

[[0.22941573 0.22941573 0.22941573 0.22941573 0.22941573 0.45883147
  0.6882472  0.22941573]]


In [22]:
# utilizando a função ".get_feature_names()"
# para mapear as palavras
nomes = tf_idf.get_feature_names()

print(nomes)

['aprender', 'consigo', 'estudo', 'eu', 'incrível', 'mais', 'matemática', 'quanto']


In [23]:
# transformando o resultado em dataframe
df = pd.DataFrame(vetor, columns=nomes)

# visualizando o dataframe criado
print(df)

   aprender   consigo    estudo  ...      mais  matemática    quanto
0  0.229416  0.229416  0.229416  ...  0.458831    0.688247  0.229416

[1 rows x 8 columns]
