<a href="https://colab.research.google.com/github/vitor-dias1/Python/blob/master/PLN_ciencia_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Técnicas de Processamento de Linguagem Natural (PLN)

Processamento de língua natural (PLN) é uma subárea da ciência da computação, inteligência artificial e da linguística que estuda os problemas da geração e compreensão automática de línguas humanas naturais. Neste *notebook* iremos aprender de forma prática algumas técnicas de Técnicas de Processamento de Linguagem Natural (PLN) usadas na área de Ciência de Dados.

## Natural Language Toolkit

[NLTK](https://www.nltk.org/) é uma plataforma líder para construir programas Python para trabalhar com dados de linguagem humana. Ele fornece interfaces fáceis de usar para mais de 50 corpora e recursos léxicos, como WordNet, juntamente com um conjunto de bibliotecas de processamento de texto para classificação, tokenização, lematização, marcação, análise e raciocínio semântico, wrappers para bibliotecas NLP de força industrial, e um fórum de discussão ativo.

In [None]:
!pip install nltk # Instalação da biblioteca nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import numpy as np
import nltk

In [None]:
nltk.download("all") # Importa todos os recursos para Processamento de Linguagem Natural com Python

# Pré-processamento

Textos não podem ser tratados diretamente por máquinas, por se tratarem de dados não estruturados. Logo, iremos representá-los em números, para converter nossos dados não estruturados em dados estruturados. A seguir, aprenderemos na prática, algumas técnicas de processamento natural de linguagem para realizarmos essa importante etapa de pré-processamento dos conjuntos de dados textuais.

## Tokenização

Tokenização é o processo de demarcar e possivelmente classificar seções de uma string de caracteres de entrada. Os tokens resultantes são então passados para alguma outra forma de processamento. Resumindo:


> **TOKENIZAÇÃO** = Separar palavras de um texto



In [None]:
texto = 'A programação é aprendida escrevendo programas. (Brian Kernighan)'
nltk.word_tokenize(texto)

['A',
 'programação',
 'é',
 'aprendida',
 'escrevendo',
 'programas',
 '.',
 '(',
 'Brian',
 'Kernighan',
 ')']



### Tokens sem Números e Pontuações

In [None]:
from nltk.tokenize import RegexpTokenizer

texto = 'A programação é aprendida escrevendo programas. (Brian Kernighan)'
tokenizador = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizador.tokenize(texto)

print(tokens)

['A', 'programação', 'aprendida', 'escrevendo', 'programas', 'Brian', 'Kernighan']


### Frequência de Tokens

In [None]:
texto = 'A confirmação do primeiro caso de coronavírus no Brasil, um homem de 61 anos que contraiu a doença em uma viagem à Itália, causou preocupação em todo o País e o Ministério da Saúde precisou colocar em prática medidas de segurança que já vinham sendo estudadas desde janeiro, quando a epidemia surgiu na China. As autoridades sabiam que a chegada do vírus ao Brasil era uma questão de tempo. Outros 20 brasileiros são suspeitos de terem pego o novo vírus, dos quais 12 também passaram pela Itália. Em estado de atenção, o Brasil já pediu à Organização Mundial da Saúde (OMS) que declare a existência de uma pandemia — quando uma doença alastra-se pelo mundo.'
tokenizador = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizador.tokenize(texto)

frequencia = nltk.FreqDist(tokens)

# Ordena a frequência dos tokens de maneira decrescente
frequencia.most_common(20) 

[('de', 7),
 ('que', 4),
 ('a', 4),
 ('uma', 4),
 ('o', 4),
 ('Brasil', 3),
 ('em', 3),
 ('do', 2),
 ('doença', 2),
 ('Itália', 2),
 ('da', 2),
 ('Saúde', 2),
 ('já', 2),
 ('quando', 2),
 ('vírus', 2),
 ('A', 1),
 ('confirmação', 1),
 ('primeiro', 1),
 ('caso', 1),
 ('coronavírus', 1)]

#### Sensível a Maiúsculas e Minúsculas

Perceba que a contagem de tokens considera termos em maiúsculo e minúsculo como sendo tokens diferentes. Caso o objetivo da contagem seja de palavras iguais use as funções `lower()` ou `upper()` para normalizar os tokens.



In [None]:
texto = 'A confirmação do primeiro caso de coronavírus no Brasil, um homem de 61 anos que contraiu a doença em uma viagem à Itália, causou preocupação em todo o País e o Ministério da Saúde precisou colocar em prática medidas de segurança que já vinham sendo estudadas desde janeiro, quando a epidemia surgiu na China. As autoridades sabiam que a chegada do vírus ao Brasil era uma questão de tempo. Outros 20 brasileiros são suspeitos de terem pego o novo vírus, dos quais 12 também passaram pela Itália. Em estado de atenção, o Brasil já pediu à Organização Mundial da Saúde (OMS) que declare a existência de uma pandemia — quando uma doença alastra-se pelo mundo.'
tokenizador = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizador.tokenize(texto)

#print(tokens)

for i in range(len(tokens)):
  tokens[i] = tokens[i].lower()

#print(tokens)

frequencia = nltk.FreqDist(tokens)
frequencia.most_common(20) 

[('de', 7),
 ('a', 5),
 ('que', 4),
 ('em', 4),
 ('uma', 4),
 ('o', 4),
 ('brasil', 3),
 ('do', 2),
 ('doença', 2),
 ('itália', 2),
 ('da', 2),
 ('saúde', 2),
 ('já', 2),
 ('quando', 2),
 ('vírus', 2),
 ('confirmação', 1),
 ('primeiro', 1),
 ('caso', 1),
 ('coronavírus', 1),
 ('no', 1)]

## Stop Words

*Stop Words* são palavras irrelevantes que são removidas antes ou após o processamento de um texto em linguagem natural, por exemplo: artigos, preposições e conjunções.


In [None]:
stopwords = nltk.corpus.stopwords.words('portuguese')
stopwords[:10]
#stopwords

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um']

### Remoção de Stop Words

Vamos verificar agoar a frequência de tokens sem a presença de palavras irrelevantes (Stop Words)

In [None]:
stopwords = nltk.corpus.stopwords.words('portuguese')

texto = 'A confirmação do primeiro caso de coronavírus no Brasil, um homem de 61 anos que contraiu a doença em uma viagem à Itália, causou preocupação em todo o País e o Ministério da Saúde precisou colocar em prática medidas de segurança que já vinham sendo estudadas desde janeiro, quando a epidemia surgiu na China. As autoridades sabiam que a chegada do vírus ao Brasil era uma questão de tempo. Outros 20 brasileiros são suspeitos de terem pego o novo vírus, dos quais 12 também passaram pela Itália. Em estado de atenção, o Brasil já pediu à Organização Mundial da Saúde (OMS) que declare a existência de uma pandemia — quando uma doença alastra-se pelo mundo.'
tokenizador = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizador.tokenize(texto)

tokens_sem_stopwords = []

for i in range(len(tokens)):

  tokens[i] = tokens[i].lower()

  if tokens[i] not in stopwords:
    tokens_sem_stopwords.append(tokens[i])


# print(tokens_sem_stopwords)

frequencia = nltk.FreqDist(tokens_sem_stopwords)
frequencia.most_common(20) 



[('brasil', 3),
 ('doença', 2),
 ('itália', 2),
 ('saúde', 2),
 ('vírus', 2),
 ('confirmação', 1),
 ('primeiro', 1),
 ('caso', 1),
 ('coronavírus', 1),
 ('homem', 1),
 ('anos', 1),
 ('contraiu', 1),
 ('viagem', 1),
 ('causou', 1),
 ('preocupação', 1),
 ('todo', 1),
 ('país', 1),
 ('ministério', 1),
 ('precisou', 1),
 ('colocar', 1)]

## Flexão Gramatical

Na gramática, flexão ou inflexão é a modificação de uma palavra para expressar diferentes categorias gramaticais, como modo, tempo, voz, aspecto, pessoa, número, gênero e caso. Por exemplo, o verbo ESTUDAR pode aparecer em um texto nas seguintes formas: ESTUDANDO, ESTUDIOSO, ESTUDEI. 

Sendo assim, para obtermos melhores resultados em nossas análises de dados, as flexões de uma palavra devem ser tratadas da mesma maneira. A seguir, aprenderemos as técnicas de *Stemização* e *Lematização*, que podem ser aplicadas durante o processo de análise de dados textuais.


### Stemização

Em morfologia linguística e recuperação de informação a stemização (Stemming) é o processo de reduzir palavras flexionadas ou às vezes derivadas ao seu tronco (Stem), base ou raiz, geralmente uma forma da palavra escrita. 

> STEMIZAÇÃO = Reduzir a palavra ao seu radical

O NLTK tem implementado várias variantes de stemmers:

* Removedor de Sufixos da Língua Portuguesa (RSLP): 
  * Porter
  * ISRI
  * Lancaster
  * Snowball


In [None]:
stemmer = nltk.RSLPStemmer()

print(stemmer.stem('cachorrão'))
print(stemmer.stem('cachorrinho'))
print(stemmer.stem('cachorro'))

print('\n')

print(stemmer.stem('estudando'))
print(stemmer.stem('estudo'))
print(stemmer.stem('estudei'))


cachorr
cachorr
cachorr


estud
estud
estud


### Lematização

Lematização (ou lematização) em linguística é o processo de agrupar as formas flexionadas de uma palavra para que possam ser analisadas como um único item, identificado pelo lema da palavra, ou forma de dicionário.

> LEMATIZAÇÃO = Reduzir a palavra à sua forma canônica, levando em conta sua classe gramatical.

Embora um lematizador seja mais complexo de implementar ou mais lento comparado ao processo de Stematização; ele, é mais acurado e causará menos ruído nos resultados finais das análises.



In [None]:
lematizador = nltk.stem.WordNetLemmatizer()

# O parâmetro pos indica a etiqueta da parte do discurso. 
# As opções válidas são n para substantivos, `"v"` para verbos, 
# `"a"` para adjetivos, `"r"` para advérbios e `"s"` para adjetivos satélites.
print(lematizador.lemmatize('propõem', pos='v'))
print(lematizador.lemmatize('cachorrão', pos='n'))

print('\n')

print(lematizador.lemmatize('studying', pos='v'))
print(lematizador.lemmatize('studied', pos='v'))

propõem
cachorrão


study
study


Perceba que o NLTK funciona bem para a língua inglesa, porém, não tem um lematizador bom para a língua Portuguesa. Para fazer a lematização para a língua portuguesa, use a biblioteca [spaCy](https://spacy.io/usage)

# Vetorização

Nesta etapa as palavras são convertidas em números retornados em vetores para que possam ser processados pelos algoritmos. Aqui usaremos a biblioteca Python de Aprendizagem de Máquina chamada [scikit-learn](https://scikit-learn.org/stable/)

## Modelo Saco de Palavras (Bag of Words)

O modelo saco-de-palavras é uma representação simplificada utilizada no processamento de linguagem natural e na recuperação de informações. Neste modelo, o texto (uma frase ou documento) é representado como um multiconjunto de suas palavras (o "saco"), desconsiderando a estrutura gramatical e até mesmo a ordenação delas, mas mantendo sua multiplicidade.

O modelo saco-de-palavras é frequentemente utilizado em métodos de classificação de documentos, onde a frequência de ocorrência de cada palavra é vista como uma característica utilizada para treinar o classificador.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

textos = ['Eu gosto muito do produto. A qualidade é muito boa.',
         'O produto é muito bom',
         'O Produto foi entregue quebrado',
         'O produto é bom, mas é caro',
         'O produto não é bom'
]


bag_of_words = CountVectorizer()

print(bag_of_words.fit_transform(textos).toarray())
print('\n')
print('Características:', bag_of_words.get_feature_names_out())

[[1 0 0 1 0 1 0 1 0 2 0 1 1 0]
 [0 1 0 0 0 0 0 0 0 1 0 1 0 0]
 [0 0 0 0 1 0 1 0 0 0 0 1 0 1]
 [0 1 1 0 0 0 0 0 1 0 0 1 0 0]
 [0 1 0 0 0 0 0 0 0 0 1 1 0 0]]


Características: ['boa' 'bom' 'caro' 'do' 'entregue' 'eu' 'foi' 'gosto' 'mas' 'muito' 'não'
 'produto' 'qualidade' 'quebrado']


In [None]:
from sklearn.feature_extraction.text import CountVectorizer


stopwords = nltk.corpus.stopwords.words('portuguese')

texto = 'A confirmação do primeiro caso de coronavírus no Brasil, um homem de 61 anos que contraiu a doença em uma viagem à Itália, causou preocupação em todo o País e o Ministério da Saúde precisou colocar em prática medidas de segurança que já vinham sendo estudadas desde janeiro, quando a epidemia surgiu na China. As autoridades sabiam que a chegada do vírus ao Brasil era uma questão de tempo. Outros 20 brasileiros são suspeitos de terem pego o novo vírus, dos quais 12 também passaram pela Itália. Em estado de atenção, o Brasil já pediu à Organização Mundial da Saúde (OMS) que declare a existência de uma pandemia — quando uma doença alastra-se pelo mundo.'
tokenizador = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizador.tokenize(texto)

tokens_sem_stopwords = []

for i in range(len(tokens)):

  tokens[i] = tokens[i].lower()

  if tokens[i] not in stopwords:
    tokens_sem_stopwords.append(tokens[i])



bag_of_words = CountVectorizer()

print(bag_of_words.fit_transform(tokens_sem_stopwords).toarray())
print('\n')
print('Características:', bag_of_words.get_feature_names_out())

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [1 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


Características: ['alastra' 'anos' 'atenção' 'autoridades' 'brasil' 'brasileiros' 'caso'
 'causou' 'chegada' 'china' 'colocar' 'confirmação' 'contraiu'
 'coronavírus' 'declare' 'desde' 'doença' 'epidemia' 'estado' 'estudadas'
 'existência' 'homem' 'itália' 'janeiro' 'medidas' 'ministério' 'mundial'
 'mundo' 'novo' 'oms' 'organização' 'outros' 'pandemia' 'passaram' 'país'
 'pediu' 'pego' 'precisou' 'preocupação' 'primeiro' 'prática' 'quais'
 'questão' 'sabiam' 'saúde' 'segurança' 'sendo' 'surgiu' 'suspeitos'
 'tempo' 'terem' 'todo' 'viagem' 'vinham' 'vírus']


## *n-gram*

Nas áreas de linguística computacional e probabilidade, um n-gram (às vezes também chamado de Q-gram) é uma sequência contígua de n itens de uma determinada amostra de texto ou fala. Os itens podem ser fonemas, sílabas, letras, palavras ou pares de bases de acordo com a aplicação. Os n-grams normalmente são coletados de um texto ou corpus de fala.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

textos = ['Eu gosto muito do produto. A qualidade é muito boa.',
         'O produto é muito bom',
         'O Produto foi entregue quebrado',
         'O produto é bom, mas é caro',
         'O produto não é bom'
]


vetor_contagens = CountVectorizer(analyzer='word', ngram_range=(1, 2))

print(vetor_contagens.fit_transform(textos).toarray())
print('\n')
print('Características:', vetor_contagens.get_feature_names_out())

[[1 0 0 0 1 1 0 0 1 1 0 0 1 1 0 0 2 1 0 1 0 0 1 0 0 0 0 1 1 1 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1]
 [0 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0]]


Características: ['boa' 'bom' 'bom mas' 'caro' 'do' 'do produto' 'entregue'
 'entregue quebrado' 'eu' 'eu gosto' 'foi' 'foi entregue' 'gosto'
 'gosto muito' 'mas' 'mas caro' 'muito' 'muito boa' 'muito bom' 'muito do'
 'não' 'não bom' 'produto' 'produto bom' 'produto foi' 'produto muito'
 'produto não' 'produto qualidade' 'qualidade' 'qualidade muito'
 'quebrado']


In [None]:
from sklearn.feature_extraction.text import CountVectorizer


stopwords = nltk.corpus.stopwords.words('portuguese')

texto = 'A confirmação do primeiro caso de coronavírus no Brasil, um homem de 61 anos que contraiu a doença em uma viagem à Itália, causou preocupação em todo o País e o Ministério da Saúde precisou colocar em prática medidas de segurança que já vinham sendo estudadas desde janeiro, quando a epidemia surgiu na China. As autoridades sabiam que a chegada do vírus ao Brasil era uma questão de tempo. Outros 20 brasileiros são suspeitos de terem pego o novo vírus, dos quais 12 também passaram pela Itália. Em estado de atenção, o Brasil já pediu à Organização Mundial da Saúde (OMS) que declare a existência de uma pandemia — quando uma doença alastra-se pelo mundo.'
tokenizador = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizador.tokenize(texto)

tokens_sem_stopwords = []

for i in range(len(tokens)):

  tokens[i] = tokens[i].lower()

  if tokens[i] not in stopwords:
    tokens_sem_stopwords.append(tokens[i])



vetor_contagens = CountVectorizer(analyzer='word', ngram_range=(1, 3))

print(vetor_contagens.fit_transform(tokens_sem_stopwords).toarray())
print('\n')
print('Características:', vetor_contagens.get_feature_names_out())

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [1 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


Características: ['alastra' 'anos' 'atenção' 'autoridades' 'brasil' 'brasileiros' 'caso'
 'causou' 'chegada' 'china' 'colocar' 'confirmação' 'contraiu'
 'coronavírus' 'declare' 'desde' 'doença' 'epidemia' 'estado' 'estudadas'
 'existência' 'homem' 'itália' 'janeiro' 'medidas' 'ministério' 'mundial'
 'mundo' 'novo' 'oms' 'organização' 'outros' 'pandemia' 'passaram' 'país'
 'pediu' 'pego' 'precisou' 'preocupação' 'primeiro' 'prática' 'quais'
 'questão' 'sabiam' 'saúde' 'segurança' 'sendo' 'surgiu' 'suspeitos'
 'tempo' 'terem' 'todo' 'viagem' 'vinham' 'vírus']


## Tf-Idf

O valor tf–idf (frequency–inverse document frequency), que significa frequência do termo–inverso da frequência nos documentos, é uma medida estatística que tem o intuito de indicar a importância de uma palavra de um documento em relação a uma coleção de documentos ou em um corpus linguístico. Ela é frequentemente utilizada como fator de ponderação na recuperação de informações e na mineração de dados.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer


textos = ['Eu gosto muito do produto. A qualidade é muito boa.',
         'O produto é muito bom',
         'O Produto foi entregue quebrado',
         'O produto é bom, mas é caro',
         'O produto não é bom'
]

vetor_tf_idf = TfidfVectorizer(use_idf=True,
                               smooth_idf=False,
                               ngram_range=(1, 1))

tfs = vetor_tf_idf.fit_transform(textos)
features_names = vetor_tf_idf.get_feature_names_out()

print(tfs.todense())
print('\n')
print('Características:', features_names)


import pandas as pd

df = pd.DataFrame(tfs.todense(), index=textos, columns=features_names)

df

[[0.3700139  0.         0.         0.3700139  0.         0.3700139
  0.         0.3700139  0.         0.54345359 0.         0.14179832
  0.3700139  0.        ]
 [0.         0.5728925  0.         0.         0.         0.
  0.         0.         0.         0.72664149 0.         0.37919167
  0.         0.        ]
 [0.         0.         0.         0.         0.56371713 0.
  0.56371713 0.         0.         0.         0.         0.2160301
  0.         0.56371713]
 [0.         0.36750147 0.63473393 0.         0.         0.
  0.         0.         0.63473393 0.         0.         0.24324546
  0.         0.        ]
 [0.         0.47558799 0.         0.         0.         0.
  0.         0.         0.         0.         0.82141666 0.31478682
  0.         0.        ]]


Características: ['boa' 'bom' 'caro' 'do' 'entregue' 'eu' 'foi' 'gosto' 'mas' 'muito' 'não'
 'produto' 'qualidade' 'quebrado']


Unnamed: 0,boa,bom,caro,do,entregue,eu,foi,gosto,mas,muito,não,produto,qualidade,quebrado
Eu gosto muito do produto. A qualidade é muito boa.,0.370014,0.0,0.0,0.370014,0.0,0.370014,0.0,0.370014,0.0,0.543454,0.0,0.141798,0.370014,0.0
O produto é muito bom,0.0,0.572892,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.726641,0.0,0.379192,0.0,0.0
O Produto foi entregue quebrado,0.0,0.0,0.0,0.0,0.563717,0.0,0.563717,0.0,0.0,0.0,0.0,0.21603,0.0,0.563717
"O produto é bom, mas é caro",0.0,0.367501,0.634734,0.0,0.0,0.0,0.0,0.0,0.634734,0.0,0.0,0.243245,0.0,0.0
O produto não é bom,0.0,0.475588,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.821417,0.314787,0.0,0.0


Entregue = 0.563717
Quebrado = 0.563717
Produto = 0.314787

# Algortimos de Aprendizado de Máquina

Após a conclusão das etapas de processamento, os dados estão prontos para serem passados ​​para um algoritmo de Aprendizado de Máquina para ajuste e previsão. Este é um processo iterativo no qual um algoritmo adequado é escolhido e o ajuste dos parâmetros são feitos.

## Exemplo: Notícia da ISTOÉ • Coronavírus Chega ao Brasil

In [None]:
# /content/drive/MyDrive/data/coronavirus_istoe.txt


import pandas as pd

dados = pd.read_csv('/content/drive/MyDrive/data/coronavirus_istoe.txt', sep="\n", header=None)

noticia_covid = []


for i in range(len(dados.values)):
  noticia_covid.append(dados.values[i][0])

noticia_covid

['Coronavírus chega ao Brasil',
 'Anna França, 28/02/20 - 09h30',
 'Com a primeira vítima confirmada e uma série de novos suspeitos de contaminação pela epidemia, o Brasil começa a enfrentar seu grande teste sanitário e de esclarecimento à população. O drama é que essa praga se alastra inclusive pelos mercados, criando pânico e comprometendo também os planos de crescimento do Brasil',
 'A confirmação do primeiro caso de coronavírus no Brasil, um homem de 61 anos que contraiu a doença em uma viagem à Itália, causou preocupação em todo o País e o Ministério da Saúde precisou colocar em prática medidas de segurança que já vinham sendo estudadas desde janeiro, quando a epidemia surgiu na China. As autoridades sabiam que a chegada do vírus ao Brasil era uma questão de tempo. Outros 20 brasileiros são suspeitos de terem pego o novo vírus, dos quais 12 também passaram pela Itália. Em estado de atenção, o Brasil já pediu à Organização Mundial da Saúde (OMS) que declare a existência de uma pand

## Tokenização

In [None]:
tokenizador = RegexpTokenizer(r'[A-z]\w*')
tokens_noticia_covid = []

for i in range(len(noticia_covid)):
  tokens_noticia_covid.append(tokenizador.tokenize(noticia_covid[i]))
 
tokens_noticia_covid

[['Coronavírus', 'chega', 'ao', 'Brasil'],
 ['Anna', 'França', 'h30'],
 ['Com',
  'a',
  'primeira',
  'vítima',
  'confirmada',
  'e',
  'uma',
  'série',
  'de',
  'novos',
  'suspeitos',
  'de',
  'contaminação',
  'pela',
  'epidemia',
  'o',
  'Brasil',
  'começa',
  'a',
  'enfrentar',
  'seu',
  'grande',
  'teste',
  'sanitário',
  'e',
  'de',
  'esclarecimento',
  'população',
  'O',
  'drama',
  'que',
  'essa',
  'praga',
  'se',
  'alastra',
  'inclusive',
  'pelos',
  'mercados',
  'criando',
  'pânico',
  'e',
  'comprometendo',
  'também',
  'os',
  'planos',
  'de',
  'crescimento',
  'do',
  'Brasil'],
 ['A',
  'confirmação',
  'do',
  'primeiro',
  'caso',
  'de',
  'coronavírus',
  'no',
  'Brasil',
  'um',
  'homem',
  'de',
  'anos',
  'que',
  'contraiu',
  'a',
  'doença',
  'em',
  'uma',
  'viagem',
  'Itália',
  'causou',
  'preocupação',
  'em',
  'todo',
  'o',
  'País',
  'e',
  'o',
  'Ministério',
  'da',
  'Saúde',
  'precisou',
  'colocar',
  'em',
  '

### Remoção de Stop Words

In [None]:
stopwords = nltk.corpus.stopwords.words('portuguese')


tokens_sem_stopwords = []

print(tokens_noticia_covid)

for i in range(len(tokens_noticia_covid)):

  for j in range(len(tokens_noticia_covid[i])):
    tokens_noticia_covid[i][j] = tokens_noticia_covid[i][j].lower()

    if tokens_noticia_covid[i][j] not in stopwords:
       tokens_sem_stopwords.append(tokens_noticia_covid[i][j])
  

print(tokens_noticia_covid)
print(tokens_sem_stopwords)

#frequencia = nltk.FreqDist(tokens_sem_stopwords)
#frequencia.most_common()

[['Coronavírus', 'chega', 'ao', 'Brasil'], ['Anna', 'França', 'h30'], ['Com', 'a', 'primeira', 'vítima', 'confirmada', 'e', 'uma', 'série', 'de', 'novos', 'suspeitos', 'de', 'contaminação', 'pela', 'epidemia', 'o', 'Brasil', 'começa', 'a', 'enfrentar', 'seu', 'grande', 'teste', 'sanitário', 'e', 'de', 'esclarecimento', 'população', 'O', 'drama', 'que', 'essa', 'praga', 'se', 'alastra', 'inclusive', 'pelos', 'mercados', 'criando', 'pânico', 'e', 'comprometendo', 'também', 'os', 'planos', 'de', 'crescimento', 'do', 'Brasil'], ['A', 'confirmação', 'do', 'primeiro', 'caso', 'de', 'coronavírus', 'no', 'Brasil', 'um', 'homem', 'de', 'anos', 'que', 'contraiu', 'a', 'doença', 'em', 'uma', 'viagem', 'Itália', 'causou', 'preocupação', 'em', 'todo', 'o', 'País', 'e', 'o', 'Ministério', 'da', 'Saúde', 'precisou', 'colocar', 'em', 'prática', 'medidas', 'de', 'segurança', 'que', 'já', 'vinham', 'sendo', 'estudadas', 'desde', 'janeiro', 'quando', 'a', 'epidemia', 'surgiu', 'na', 'China', 'As', 'autor

### Frequência dos Termos

In [None]:
frequencia = nltk.FreqDist(tokens_sem_stopwords)
frequencia.most_common(30)

[('brasil', 9),
 ('vírus', 7),
 ('doença', 6),
 ('feira', 5),
 ('coronavírus', 4),
 ('saúde', 4),
 ('sintomas', 4),
 ('epidemia', 3),
 ('caso', 3),
 ('homem', 3),
 ('itália', 3),
 ('país', 3),
 ('sendo', 3),
 ('chegada', 3),
 ('novo', 3),
 ('infectado', 3),
 ('paulo', 3),
 ('aeroporto', 3),
 ('agora', 3),
 ('pessoas', 3),
 ('chega', 2),
 ('suspeitos', 2),
 ('começa', 2),
 ('grande', 2),
 ('teste', 2),
 ('alastra', 2),
 ('inclusive', 2),
 ('pânico', 2),
 ('crescimento', 2),
 ('confirmação', 2)]

### Extração de Palavras Chaves com Tf-idf



In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tf_idf_vec = TfidfVectorizer(use_idf=True)
tf_idf_vec.fit(tokens_sem_stopwords)

tf_idf_vec.transform(tokens_sem_stopwords)

matriz = tf_idf_vec.fit_transform(tokens_sem_stopwords).toarray()

features_name = tf_idf_vec.get_feature_names()

print(features_name)

print(matriz)



for i in range(len(matriz)):
  for j in range(len(matriz[i])):
    if matriz[i][j] != 0:
      print(matriz[i][j])




