In [12]:
from pathlib import Path

from google.colab import drive

# prepara o ambiente
drive.mount('/content/drive')
BASE_DIR = Path('/content/drive/MyDrive/Cursos/Python para Processamento de Linguagem Natural (USP)/Aula 4')
FILEPATH_CORPUS = BASE_DIR / 'corpus_teste.txt'

# atualiza o beautifulsoup para a última versão
!pip install -U beautifulsoup4

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# NLTK

## Instalação

In [None]:
 # instalando o nltk (já pré instalado no colab)
!pip install nltk



## Download dos pacotes de dados

In [None]:
import nltk


# downloads dos pacotes (dados)
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> l
Packages:
  [ ] abc................. Australian Broadcasting Commission 2006
  [ ] alpino.............. Alpino Dutch Treebank
  [ ] averaged_perceptron_tagger Averaged Perceptron Tagger
  [ ] averaged_perceptron_tagger_ru Averaged Perceptron Tagger (Russian)
  [ ] basque_grammars..... Grammars for Basque
  [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
                           Extraction Systems in Biology)
  [ ] bllip_wsj_no_aux.... BLLIP Parser: WSJ Model
  [ ] book_grammars....... Grammars from NLTK Book
  [ ] brown............... Brown Corpus
  [ ] brown_tei........... Brown Corpus (TEI XML Version)
  [ ] cess_cat............ CESS-CAT Treebank
  [

True

## Extração de palavras de um corpus
Um corpus é nada mais que um conjunto de dados linguísticos, ou seja, um texto.


In [None]:
words = nltk.corpus.mac_morpho.words()
print(words)

['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', ...]


## Extração de sentenças de um corpus

In [None]:
# retorna a primeira frase do texto
sents = nltk.corpus.mac_morpho.sents()[0]
print(sents)

['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', 'milhão', 'em', 'a', 'venda', 'de', 'a', 'Pinhal', 'em', 'São', 'Paulo']


## Classificação gramatical de palavras em um corpus

In [None]:
# retorna as palavras classificadas por classe gramatical (N-Nome, V-Verbo, etc)
nltk.corpus.mac_morpho.tagged_words()

[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ...]

## Classificação gramatical de sentenças em um corpus

In [None]:
# retorna uma sentença com as palavras já classificadas gramaticalmente
tagged_words = nltk.corpus.mac_morpho.tagged_sents()[0]
print(tagged_words)

[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')]


## Tokenização de um texto

In [None]:
text = (
    'Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o '
    'New York Giants anotou o touchdown decisivo e derrubou o favorito New '
    'England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.'
)
tokens = nltk.word_tokenize(text)
print(tokens)

['Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'a', '39', 'segundos', 'do', 'fim', ',', 'o', 'New', 'York', 'Giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'New', 'England', 'Patriots', 'por', '17', 'a', '14', 'neste', 'domingo', ',', 'em', 'Glendale', ',', 'no', 'Super', 'Bowl', 'XLII', '.']


## Remoção de pontuações em um texto com RegexpTokenizer

In [None]:
from nltk.tokenize import RegexpTokenizer


text = (
    'Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o '
    'New York Giants anotou o touchdown decisivo e derrubou o favorito New '
    'England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.'
)
# tokeniza o texto sem pontuações
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(text)
print(tokens)

['Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'a', '39', 'segundos', 'do', 'fim', 'o', 'New', 'York', 'Giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'New', 'England', 'Patriots', 'por', '17', 'a', '14', 'neste', 'domingo', 'em', 'Glendale', 'no', 'Super', 'Bowl', 'XLII']


## Remoção de pontuação e numerais em um texto

In [None]:
from nltk.tokenize import RegexpTokenizer


text = (
    'Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o '
    'New York Giants anotou o touchdown decisivo e derrubou o favorito New '
    'England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.'
)
# tokenizar o texto sem pontuações ou numerais
tokenizer = RegexpTokenizer(r'[a-zA-Z]+')
tokens = tokenizer.tokenize(text)
print(tokens)

['Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'a', 'segundos', 'do', 'fim', 'o', 'New', 'York', 'Giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'New', 'England', 'Patriots', 'por', 'a', 'neste', 'domingo', 'em', 'Glendale', 'no', 'Super', 'Bowl', 'XLII']


## Exibição das palavras mais frequentes em um texto

In [None]:
from nltk.tokenize import RegexpTokenizer


NUM_FREQ_WORDS = 3
text = (
    'Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o '
    'New York Giants anotou o touchdown decisivo e derrubou o favorito New '
    'England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.'
)
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(text)
# gera lista de  palavras mais frequentes no texto
frequence = nltk.FreqDist(tokens)
print(frequence.most_common(NUM_FREQ_WORDS))

[('o', 3), ('a', 2), ('New', 2)]


## Exibição das palavras mais frequentes em um corpus

In [None]:
from nltk.tokenize import RegexpTokenizer


with open(FILEPATH_CORPUS) as f:
    corpus = f.read()
    tokenizer = RegexpTokenizer('[a-zA-Z]\w*')
    tokens = tokenizer.tokenize(corpus)
    tokens = map(str.lower, tokens)
    # exibe palavras mais frequentes do corpus
    frequence = nltk.FreqDist(tokens)
    print(frequence.most_common(10))

[('de', 34), ('o', 33), ('a', 28), ('e', 21), ('para', 16), ('jardas', 15), ('os', 13), ('com', 13), ('na', 13), ('do', 12)]


## Listagem das stop words em um texto

In [None]:
# stopwords são palavras irrelevantes pro contexto do texto (artigos, preposições, conjunções, etc)
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

In [None]:
from nltk.tokenize import RegexpTokenizer


with open(FILEPATH_CORPUS) as f:
    corpus = f.read()
    tokenizer = RegexpTokenizer('[a-zA-Z]\w*')
    tokens = tokenizer.tokenize(corpus)
    stopwords = nltk.corpus.stopwords.words('portuguese')
    # exibe palavras mais frequentes do corpus removendo as stopwords
    tokens = [token.lower() for token in tokens if token.lower() not in stopwords]
    frequence = nltk.FreqDist(tokens)
    print(frequence.most_common())


[('jardas', 15), ('giants', 11), ('patriots', 10), ('manning', 10), ('linha', 10), ('bola', 7), ('vez', 6), ('zone', 6), ('new', 5), ('passe', 5), ('york', 5), ('brady', 5), ('avanço', 5), ('super', 4), ('bowl', 4), ('england', 4), ('eli', 4), ('segundos', 4), ('fim', 4), ('touchdown', 4), ('time', 4), ('nova', 4), ('jogo', 4), ('achou', 4), ('end', 4), ('título', 3), ('história', 3), ('primeira', 3), ('chegou', 3), ('posse', 3), ('logo', 3), ('passes', 3), ('curtos', 3), ('red', 3), ('campanha', 3), ('ataque', 3), ('avançou', 3), ('período', 3), ('xlii', 2), ('temporada', 2), ('plaxico', 2), ('burress', 2), ('anotou', 2), ('tom', 2), ('companhia', 2), ('fazer', 2), ('nfl', 2), ('ano', 2), ('vitória', 2), ('porém', 2), ('máximo', 2), ('field', 2), ('goal', 2), ('entrou', 2), ('maroney', 2), ('deixando', 2), ('chegaram', 2), ('seguinte', 2), ('amani', 2), ('toomer', 2), ('novamente', 2), ('steve', 2), ('smith', 2), ('soltou', 2), ('dois', 2), ('cometeu', 2), ('fumble', 2), ('voltou', 2)

# Lista de exercícios 2

## 1. Crie uma variável com a string “ instituto de ciências matemáticas e de computação” e faça:
a. Concatene (adicione) uma outra string chamada “usp”

b. Concatene (adicione) uma outra informação: 2021

c. Verifique o tamanho da nova string (com as informações adicionadas das questões a e b), com referência a caracteres e espaços

d. Transforme a string inteiramente em maiúsculo

e. Transforme a string inteiramente em minúsculo

f. Retire o espaço que está no início da string e imprima a string

g. Substitua todas as letras ‘a’ por ‘x’

h. Separe a string em palavras únicas

i. Verifique quantas palavras existem na string

j. Separe a string por meio da palavra “de”

k. Verifique agora quantas palavras/frases foram formadasquando houve a separação pela palavra “de”

l. Junte as palavras que foram separadas (pode usar a separação resultante da questão h ou j)

m. Junte as palavras que foram separadas, mas agora separadas por uma barra  invertida,  não por  espaços  (pode  usar  a  separação  resultante  da questão h ou j)

In [None]:
text = ' instituto de ciências matemáticas e de computação'
text += 'usp'
print('a:', text)
text += '2021'
print('b:', text)
print('c:', len(text))
print('d:', text.upper())
print('e:', text.lower())
print('f:', text.strip())
print('g:', text.replace('a', 'x'))
words = text.split()
print('h:', words)
print('i:', len(words))
words = text.split('de')
print('j:', words)
print('k:', len(words))
print('l:', ''.join(words))
print('m:', '\\'.join(words))


a:  instituto de ciências matemáticas e de computaçãousp
b:  instituto de ciências matemáticas e de computaçãousp2021
c: 57
d:  INSTITUTO DE CIÊNCIAS MATEMÁTICAS E DE COMPUTAÇÃOUSP2021
e:  instituto de ciências matemáticas e de computaçãousp2021
f: instituto de ciências matemáticas e de computaçãousp2021
g:  instituto de ciêncixs mxtemáticxs e de computxçãousp2021
h: ['instituto', 'de', 'ciências', 'matemáticas', 'e', 'de', 'computaçãousp2021']
i: 7
j: [' instituto ', ' ciências matemáticas e ', ' computaçãousp2021']
k: 3
l:  instituto  ciências matemáticas e  computaçãousp2021
m:  instituto \ ciências matemáticas e \ computaçãousp2021


## 2. Escolha um corpus qualquer (pode ser o que foi utilizado na  aula)  e, usando as funções do NLTK, faça:
a. Tokenize o corpus inteiro (palavras, números e pontuações)

b. Verifique a quantidade de tokens do corpus

c. Tokenize o corpus apenas por suas palavras 

d. Verifique a quantidade de palavras do corpus

e. Verifique a frequência de palavras no corpus

f. Verifique quais são as 5, 10 e 15 palavras mais frequentes do corpus

g. Extraia as stopwords do NLTK (não do corpus ainda)

h. Verifique a frequência dos tokens sem stopwords do corpus

In [52]:
from urllib.request import urlopen, Request

from bs4 import BeautifulSoup


def get_news_from_meu_timao(url: str) -> str:
    """Extrai notícia do site Meu Timão"""
    request = Request(url, headers={'User-Agent': '*'}) 
    response = urlopen(request)
    html_doc = response.read()
    soup = BeautifulSoup(html_doc, 'html.parser')
    paragraphs = soup.select('.texto_noticia > p:not(.tags)')
    return ' '.join(p.text for p in paragraphs)

In [53]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer

URL = 'https://www.meutimao.com.br/noticias-do-corinthians/393200/cassio-abre-idade-para-aposentadoria-e-afirma-ronaldo-sempre-sera-o-maior-goleiro-no-corinthians'


corpus = get_news_from_meu_timao(URL)
tokens = nltk.word_tokenize(corpus)
print('a:', tokens)
print('b:', len(tokens))
tokenizer = RegexpTokenizer('\w+')
words = tokenizer.tokenize(corpus)
print('c:', words)
print('d:', len(words))
frequence = nltk.FreqDist(words)
print('e:', frequence.most_common())
print('f:', frequence.most_common(5), frequence.most_common(10), frequence.most_common(15))
pt_stopwords = stopwords.words('portuguese')
print('g:', pt_stopwords)
words = [word for word in words if word not in pt_stopwords]
frequence = nltk.FreqDist(words)
print('h:', frequence.most_common())

a: ['O', 'goleiro', 'Cássio', 'quer', 'jogar', 'até', 'os', '40', 'anos', 'de', 'idade', 'e', ',', 'claro', ',', 'espera', 'que', 'isso', 'aconteça', 'com', 'a', 'camisa', 'do', 'Corinthians', '.', 'Foi', 'isso', 'que', 'ele', 'disse', 'na', 'tarde', 'desta', 'sexta-feira', ',', 'no', 'CT', 'Joaquim', 'Grava', ',', 'ao', 'ser', 'lembrado', 'que', ',', 'caso', 'entre', 'na', 'partida', 'contra', 'o', 'Red', 'Bull', 'Bragantino', ',', 'pelo', 'Brasileiro', ',', 'irá', 'igualar', 'o', 'número', 'de', 'jogos', 'de', 'Claudio', 'Christovam', 'de', 'Pinho', ',', 'o', 'maior', 'artilheiro', 'da', 'história', 'do', 'clube', '.', '``', 'Tenho', 'em', 'mente', 'jogar', 'até', 'os', '40', 'anos', ',', 'espero', 'que', 'eu', 'possa', 'ficar', 'o', 'maior', 'tempo', 'possível', 'vestindo', 'a', 'camisa', 'do', 'Corinthians', '.', 'A', 'gente', 'olha', 'para', 'trás', ',', 'vê', 'tudo', 'que', 'construiu', ',', 'o', 'tanto', 'que', 'trabalhou', '.', 'Me', 'sinto', 'feliz', "''", ',', 'contou', 'o', 