# NATURAL LANGUAGE PROCESSING

## Week 01 - Intro NLP
## Python

## NLTK

In [None]:
#@title Library
import nltk

### Corpora

In [None]:
#@title Download Corpus (text)
nltk.download(info_or_id='machado', quiet=True)
# Sentence tokenizing Library
nltk.download(info_or_id='punkt', quiet=True)
# Corpus Import
from nltk.corpus import machado

In [None]:
#@title Corpus Doc´s
machado.fileids()[140:145]

['critica/mact04.txt',
 'critica/mact05.txt',
 'critica/mact06.txt',
 'critica/mact07.txt',
 'critica/mact08.txt']

In [None]:
#@title Qtty Corpus Doc´s
len(machado.fileids())

246

In [None]:
#@title Doc Content critica/mact05.txt
print(machado.raw('critica/mact05.txt')[:598])

Crítica, A crítica teatral, A crítica teatral. José de Alencar : Mãe,
1860

A crítica
teatral. José de Alencar: Mãe

Texto-Fonte:

Obra Completa de Machado de Assis,

Rio
de Janeiro: Nova Aguilar, vol. III, 1994.

Publicado
originalmente na Revista Dramática, seção do Diário do Rio de Janeiro,
29/03/1860.

Escrever
crítica e crítica de teatro não é só uma tarefa difícil, é também uma empresa
arriscada.

A razão é
simples. No dia em que a pena, fiel ao preceito da censura, toca um ponto negro
e olvida por momentos a estrofe laudatória, as inimizades levantam-se de
envolta com as calúnias.




### Stopwords

In [None]:
#@title Download Stopwords
nltk.download(info_or_id='stopwords', quiet=True)
stopwords = nltk.corpus.stopwords.words('portuguese')

In [None]:
#@title Exibit 10 words
print(stopwords[:10])

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as']


### Tokenization

In [None]:
#@title Download - tokenizers (sentences and words)
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize

In [None]:
texto = machado.raw('contos/macn001.txt')

In [None]:
#@title Text split by sentence
sentencas = sent_tokenize(text=texto, language='portuguese')
sentencas[50:53]

['A cadelinha entrou a acompanhá-lo, e\nele, notando que era animal sem dono visível, levou-a consigo para os\nCajueiros.',
 'Apenas entrou em casa examinou\ncuidadosamente a cadelinha, Miss Dollar era realmente um mimo; tinha as\nformas delgadas e graciosas da sua fidalga raça; os olhos castanhos e\naveludados pareciam exprimir a mais completa felicidade deste mundo, tão\nalegres e serenos eram.',
 'Mendonça contemplou-a e examinou minuciosamente.']

In [None]:
#@title Text split by words
palavras = word_tokenize(text=texto, language='portuguese')
print(palavras[100:110])

['saber', 'quem', 'era', 'Miss', 'Dollar', '.', 'Mas', 'por', 'outro', 'lado']


In [None]:
#@title Twitter Tokens
from nltk.tokenize import TweetTokenizer
sample_twitter = "I'm very veryyyyy happyyyyy today!! #beterlife @barneys :P :D"
tt1 = TweetTokenizer()
tt2 = TweetTokenizer(strip_handles=True, reduce_len=True)

In [None]:
#@ Split methods comaparation

print('word_tokenize')
print(word_tokenize(text=sample_twitter))
print('TweetTokenizer')
print(tt1.tokenize(sample_twitter))
print('TweetTokenizer Reduce')
print(tt2.tokenize(sample_twitter))

word_tokenize
['I', "'m", 'very', 'veryyyyy', 'happyyyyy', 'today', '!', '!', '#', 'beterlife', '@', 'barneys', ':', 'P', ':', 'D']
TweetTokenizer
["I'm", 'very', 'veryyyyy', 'happyyyyy', 'today', '!', '!', '#beterlife', '@barneys', ':P', ':D']
TweetTokenizer Reduce
["I'm", 'very', 'veryyy', 'happyyy', 'today', '!', '!', '#beterlife', ':P', ':D']


### Words Radical´s

In [None]:
#@title List of languages
from nltk.stem.snowball import SnowballStemmer
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [None]:
#@title Portuguese
stemmer = SnowballStemmer(language='portuguese')

In [None]:
#@title Example computador, computação, computando
palavras = ['computador', 'computação', 'computando', 'computado', 'computar']
for p in palavras:
  print(f'{p:10} => {stemmer.stem(p)}')

computador => comput
computação => comput
computando => comput
computado  => comput
computar   => comput


### Lematização, simplificação de palavra

In [None]:
#@title donwload e importação do objeto
nltk.download('wordnet', quiet=True)
from nltk.stem import WordNetLemmatizer

In [None]:
#@title Criação do objeto para lematização
wordNetLemmatizer = WordNetLemmatizer()

In [None]:
#@title Lematizando palavras (só em inglês)
words = ['works', 'rocks', 'corpora']
for w in words:
  print(f'{w:10} => {wordNetLemmatizer.lemmatize(w)}')

works      => work
rocks      => rock
corpora    => corpus


In [None]:
#@title Lematizando palavras (uso sintático: adjetivos)
words = ['better', 'worse', 'cheaper', 'expensivest']
for w in words:
  print(f'{w:11} => {wordNetLemmatizer.lemmatize(w, pos="a")}')

better      => good
worse       => bad
cheaper     => cheap
expensivest => expensive


In [None]:
#@title Lematizando palavras (uso sintático: verbos)
words = ['clustering', 'broken', 'understood', 'awoken']
for w in words:
  print(f'{w:11} => {wordNetLemmatizer.lemmatize(w, pos="v")}')

clustering  => cluster
broken      => break
understood  => understand
awoken      => awake


### POS Tagging

Classe gramatical dos tokens

In [None]:
#@title Download dos recursos
nltk.download('averaged_perceptron_tagger', quiet=True)
nltk.download('maxent_ne_chunker', quiet=True)
nltk.download('words', quiet=True)

True

In [None]:
#@title Obtendo a classe gramatical (em inglês)
phrase = 'Rafael is working at Google in the South American'
print(nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(phrase))))

(S
  (GPE Rafael/NNP)
  is/VBZ
  working/VBG
  at/IN
  (ORGANIZATION Google/NNP)
  in/IN
  the/DT
  (LOCATION South/JJ)
  (GPE American/JJ))


In [None]:
import joblib

teste_tagger = joblib.load('POS_tagger_brill.pkl')
phrase = 'O rato roeu a roupa do rei de Roma'
teste_tagger.tag(word_tokenize(phrase))

FileNotFoundError: ignored

## spaCy

In [None]:
#@title Biblioteca
import spacy
nlp = spacy.load("en_core_web_sm")

In [None]:
phrase = 'Rafael is working at Google in the South American. He works very hard :D'

In [None]:
#@title Tokenização - frases
sentence = nlp(phrase)
for p in sentence.sents:
  print(p.text)

Rafael is working at Google in the South American.
He works very hard :D


In [None]:
#@title Tokenização - palavras
sentence = nlp(phrase)
for word in sentence:
  print(word.text)

Rafael
is
working
at
Google
in
the
South
American
.
He
works
very
hard
:D


In [None]:
#@title Stopwords (is_stop retorna True/False)
for word in sentence:
  print(f'{word.text:10} => {word.is_stop}')

Rafael     => False
is         => True
working    => False
at         => True
Google     => False
in         => True
the        => True
South      => False
American   => False
.          => False
He         => True
works      => False
very       => True
hard       => False
:D         => False


In [None]:
#@title Tipo do token (alfabético? True/False)
for word in sentence:
  print(f'{word.text:10} => {word.is_alpha}')

Rafael     => True
is         => True
working    => True
at         => True
Google     => True
in         => True
the        => True
South      => True
American   => True
.          => False
He         => True
works      => True
very       => True
hard       => True
:D         => False


In [None]:
#@title Lemma
phrase = 'Lucas has drinked two coffees while the computer is computing the values of the matrices.'
sentence = nlp(phrase)
for word in sentence:
  print(f'{word.text:10} => {word.lemma_}')

Lucas      => Lucas
has        => have
drinked    => drink
two        => two
coffees    => coffee
while      => while
the        => the
computer   => computer
is         => be
computing  => compute
the        => the
values     => value
of         => of
the        => the
matrices   => matrix
.          => .


In [None]:
#@title  POS Tagging (classes gramaticais)
for word in sentence:
  print(f'{word.text:10} => {word.pos_:6}- {word.tag_}')

Lucas      => PROPN - NNP
has        => AUX   - VBZ
drinked    => VERB  - VBN
two        => NUM   - CD
coffees    => NOUN  - NNS
while      => SCONJ - IN
the        => DET   - DT
computer   => NOUN  - NN
is         => AUX   - VBZ
computing  => VERB  - VBG
the        => DET   - DT
values     => NOUN  - NNS
of         => ADP   - IN
the        => DET   - DT
matrices   => NOUN  - NNS
.          => PUNCT - .
