<a href="https://colab.research.google.com/github/FGalvao77/others-knowledge-in-python-for-data-science/blob/main/Introdu%C3%A7%C3%A3o_ao_Processamento_da_Linguagem_Natural.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introdução ao Processamento da Linguagem Natural**

A capacidade de comunicar-se é uma das principais características que nos permitem viver em sociedade. E a tecnologia é um aspecto que vem gradativamente evoluindo e facilitando a forma com que nos comunicamos.

Nesse sentindo, está cada vez mais fácil usar aplicativos para troca de mensagens e já existem, inclusive, sistemas que usam machine learning para simular uma conversa como se fossem uma pessoa respondendo. Quanta inovação, não é mesmo?!

Esses sistemas são chamados de chatbots. Eles já estão presentes em diversos sites de comércio eletrônico e em serviços de atendimento de várias empresas. Neles o usuário geralmente é apresentado a um chat com algumas opções de serviço e o assistente virtual vai direcionando o utilizador para determinado setor de atendimento da empresa, com base em suas respostas em mensagens de texto.

E como esses sistemas fazem isso? Como eles conseguem entender as mensagens do usuário?

Bem, por trás dessa tecnologia existe uma área da computação que é chamada de `Processamento da Linguagem Natural`, **tem o objetivo de fazer com que um sistema consiga entender a linguagem dos humanos, ou seja, entender o que nós escrevemos ou falamos.**

O Processamento da Linguagem Natural, também representado pela sigla `PLN, ou NLP do inglês Natural Language Processing`, utiliza conceitos baseados em linguística e regras gramaticais para a construção de algoritmos, que possam extrair alguma informação ou
entendimento.

Dentre as aplicações do PNL pode-se destacar a sumarização ou resumo de textos, que permite, por exemplo, captar apenas as ideias principais que contém o sentido de um texto ou de um livro. Outra aplicação são os aplicativos de tradução que utilizam o reconhecimento de voz do usuário para traduzir uma frase. **O PNL pode ser aplicado ainda em recuperação de informação, chatbots, entre outras utilidades.**

Agora você será apresentado, de fato, a alguns conceitos importantes no aprendizado de PLN. São eles: `Corpus, Tokenização, e Stop words.`

`O Corpus é representado por um conjunto de textos escritos em um determinado idioma, que foram manualmente anotados e servirá de validação para as análises que serão realizadas.`

Já a `Tokenização, refere-se a divisão de um texto em partes menores que representam as palavras, ou também chamadas de tokens, e podem ser separadas por espaços, vírgulas ou pontuações.`

Por último, mas não menos importante, `os Stop words. Eles são palavras que geralmente são removidas no início do processamento dos textos para acelerar esse processo, porém a retirada dessas palavras não afeta a compreensão do mesmo.`

Após a definição destes conceitos, para que você os entenda melhor e consiga utilizá-los em seu cotidiano de programador é importante acompanhar a aplicação do que foi estudado.

Nesse caso, será usando uma biblioteca do python chamada de **NLTK** que significa `Natural Language Toolkit`. Então, com o ambiente do jupyter aberto, faça inicialmente o download da biblioteca com o comando `“! pip install nltk”`.

**PARTE 1**

In [None]:
# realizando o download e instalação da biblioteca
! pip install nltk



In [None]:
# importando a biblioteca
import nltk

In [None]:
# importando o "stopwords"
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# instanciando o algoritmo na variável "stopwords"
# e configurando para o obte-las em português
stopwords = nltk.corpus.stopwords.words('portuguese')

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

In [None]:
# imprimindo as stopwords em português
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

**Tokenização**
- iremos fazer um teste simples para remover as stopwords

In [None]:
# importando a biblioteca
from nltk.tokenize import word_tokenize

nltk.download('punkt') # importante também realizar o download de "punkt"
# esses são os recursos necessários para realizar a tokenização

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# criando a variável "frase"
frase = 'Eu dirijo devagar porque nós queremos ver os animais.'

In [None]:
# realizando a divisão da frase criada em tokens
tokens = word_tokenize(frase)

# imprimindo a tokenização
print(tokens)

['Eu', 'dirijo', 'devagar', 'porque', 'nós', 'queremos', 'ver', 'os', 'animais', '.']


In [None]:
# realizando um loop simples para imprimir a frase sem os stopwords caso a frase possua
for t in tokens:
  if t not in stopwords:
    print(t)

Eu
dirijo
devagar
porque
queremos
ver
animais
.


**PARTE 2**

Outra técnica muito importante na `análise de textos`, é a **identificação da frequência e importância que uma palavra pode ter em um texto.**

Existe um cálculo estatístico chamado de `TF-IDF`, essa sigla vem do inglês **Term Frequency – Inverse Document Frequency**, e quer dizer: `Frequência do termo - Frequência Inversa do Documento`. Este cálculo identifica a importância que um termo tem em um texto,
ou seja, ele permite que você descubra quais termos são mais relevantes em um dado texto ou documento.

Em linhas gerais o TF-IDF busca atribuir um valor que representa um peso para definir a importância do termo em um documento, com base na frequência em que ele ocorre (TF), compensando, porém, esse peso, caso a ocorrência desse termo seja muito grande (IDF).

Em resumo, se um termo aparece algumas vezes no texto, o valor do TF-IDF aumenta, significando que aquela palavra é importante, porém se esse termo se repete bastante, esse valor é compensado, e a importância dele é diminuída.

Deu pra entender o TF-IDF? Agora acompanhe um exemplo prático, para melhorar sua compreensão sobre esse assunto, utilizando o módulo `“TfidfVectorizer”` da biblioteca sklearn para calcular os valores de TF-IDF de um texto.

Com o ambiente do jupyter aberto, primeiramente importe o módulo através do comando `“from sklearn.feature_extraction.text import TfidfVectorizer”`, e importe também a biblioteca pandas, fazendo `“import pandas as pd”`.


In [None]:
# importando as bibliotecas
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

In [None]:
# instanciando a variável "texto1" para realizar o cálculo do "TF_IDF"
texto1 = 'A matemática é muito importante para compreendermos como a natureza funciona'

In [None]:
# instanciando o módulo
tf_idf = TfidfVectorizer()

**Usando o fit_transform**

E instanciando numa variável, onde ele retornará uma matriz com os termos e os scores associados, passando o `texto1` como contéudo.

In [None]:
# aplicando o ".fit_transform"
vetor = tf_idf.fit_transform([texto1])

# imprimindo a variável
print(vetor) # retorna uma matriz com os termos e os scores associados

  (0, 2)	0.35355339059327373
  (0, 6)	0.35355339059327373
  (0, 0)	0.35355339059327373
  (0, 1)	0.35355339059327373
  (0, 7)	0.35355339059327373
  (0, 3)	0.35355339059327373
  (0, 5)	0.35355339059327373
  (0, 4)	0.35355339059327373


In [None]:
# colocando a matriz em um formato de array
vetor = vetor.todense()

print(vetor)

[[0.35355339 0.35355339 0.35355339 0.35355339 0.35355339 0.35355339
  0.35355339 0.35355339]]


In [None]:
# obtendo os nomes das palavras mapeadas
nomes  = tf_idf.get_feature_names()

# imprimindo a variável
print(nomes)

['como', 'compreendermos', 'funciona', 'importante', 'matemática', 'muito', 'natureza', 'para']


In [None]:
# assim é possível associar os scores aos nomes das palavras e o resultado pode criado em dataframe
df = pd.DataFrame(vetor, columns=nomes)

print(df) # visualizando o dataframe

       como  compreendermos  funciona  ...     muito  natureza      para
0  0.353553        0.353553  0.353553  ...  0.353553  0.353553  0.353553

[1 rows x 8 columns]


Analisando o resultado dos scores das palavras você pode notar que o TF-IDF deu o mesmo score para todos os termos, pois só existe uma ocorrência de cada termo.

Porém se criar outro texto com o seguinte conteúdo: `“texto2 = 'A matemática é incrível, quanto mais estudo matemática, mais eu consigo aprender matemática'”`, e repetir os procedimentos feitos anteriormente para o texto1, poderá obter scores diferentes.

**Usando um novo texto**

In [None]:
# instanciando o novo texto na variável "texto2"
texto2 = 'A matemática é incrível, quanto mais estudo matemática, mais eu consigo aprender matemática'

In [None]:
# instanciando o módulo
tf_idf = TfidfVectorizer()

# aplicando o ".fit_transform" na variável "texto2"
vetor2 = tf_idf.fit_transform([texto2]) # retorna uma matriz com os termos e os scores associados

In [None]:
# colocando a matriz em um formato de array
vetor2 = vetor2.todense()

In [None]:
# obtendo os nomes das palavras mapeadas
nomes = tf_idf.get_feature_names()

In [None]:
# associando os scores aos nomes das palavras e o resultado em um dataframe
df = pd.DataFrame(vetor2, columns=nomes)
print(df)

   aprender   consigo    estudo  ...      mais  matemática    quanto
0  0.229416  0.229416  0.229416  ...  0.458831    0.688247  0.229416

[1 rows x 8 columns]


Logo perceberá que a palavra ‘matemática’ recebe o maior score, pois ocorre 3 vezes no texto. A palavra ‘mais’ recebe o segundo maior score, pois só aparece 2 vezes, e o restante recebe o mesmo score, pois só aparecem 1 vez.

Muita coisa, não é mesmo?

Até aqui você pôde aprender sobre o `Processamento da Linguagem Natural` de uma forma introdutória, e conhecer alguns conceitos importantes para o processamento de texto como, **Corpus, Stopwords e Tokenização**. Também entendeu como é realizado o cálculo TF-
IDF para verificar a importância que um termo tem dentro de um texto. 

Além de tudo isso, pôde acompanhar a aplicação desses conceitos utilizando Python. 

Então, agora é com você!

Tente praticar e resolver os exercícios propostos para aprofundar seus conhecimentos.

Bons estudos e até mais!