Introdução
====
** Processamento de Linguagem Natural ** (PNL) é a tarefa de fazer com que os computadores entendam e produzam linguagens humanas.



O que é um Corpus?
====

Existem muitos corpora (* plural de corpus *) disponíveis em NLTK, vamos começar com um em inglês chamado ** Brown corpus **.

Ao usar um novo corpus em NLTK pela primeira vez, faça o download do corpus com a função `nltk.download ()`, por exemplo,

```python
import nltk
nltk.download('brown')
```

Após o download, você pode importá-lo como tal:

In [1]:
import nltk
nltk.download('brown')

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.


True

In [2]:
from nltk.corpus import brown

In [3]:
brown.words() # Returns a list of strings

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

In [4]:
len(brown.words()) # No. of words in the corpus

1161192

In [5]:
brown.sents() # Returns a list of list of strings 

[['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.'], ['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.'], ...]

In [6]:
brown.sents(fileids='ca01') # You can access a specific file with `fileids` argument.

[['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.'], ['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.'], ...]


**Fatos rápidos:**

> O Brown Corpus do Inglês Americano Padrão foi o primeiro corpora geral moderno e legível por computador. Foi compilado por W.N. Francis e H. Kucera, Brown University, Providence, RI. O corpus consiste em um milhão de palavras de textos em inglês americano impressos em 1961.

(Fonte: [site de lingüística da University of Essex Corpus](  https://www1.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html))

>  Este corpus contém texto de 500 fontes, e as fontes foram categorizadas por gênero, como notícias, editorial e assim por diante ... (para uma lista completa, consulte http://icame.uib.no/brown/bcm- los.html).

![](http://)(Source: [NLTK book, Chapter 2.1.3](http://www.nltk.org/book/ch02.html))

Os dados reais do corpus `brown` são ** empacotados como arquivos de texto bruto **. E você pode encontrar seus IDs com:

In [7]:
len(brown.fileids()) # 500 sources, each file is a source.

500

Você pode acessar os arquivos raw com:

In [8]:
print(brown.raw('cb01').strip()[:1000]) # First 1000 characters.

Assembly/nn-hl session/nn-hl brought/vbd-hl much/ap-hl good/nn-hl 
The/at General/jj-tl Assembly/nn-tl ,/, which/wdt adjourns/vbz today/nr ,/, has/hvz performed/vbn in/in an/at atmosphere/nn of/in crisis/nn and/cc struggle/nn from/in the/at day/nn it/pps convened/vbd ./.
It/pps was/bedz faced/vbn immediately/rb with/in a/at showdown/nn on/in the/at schools/nns ,/, an/at issue/nn which/wdt was/bedz met/vbn squarely/rb in/in conjunction/nn with/in the/at governor/nn with/in a/at decision/nn not/* to/to risk/vb abandoning/vbg public/nn education/nn ./.


	There/ex followed/vbd the/at historic/jj appropriations/nns and/cc budget/nn fight/nn ,/, in/in which/wdt the/at General/jj-tl Assembly/nn-tl decided/vbd to/to tackle/vb executive/nn powers/nns ./.
The/at final/jj decision/nn went/vbd to/in the/at executive/nn but/cc a/at way/nn has/hvz been/ben opened/vbn for/in strengthening/vbg budgeting/vbg procedures/nns and/cc to/to provide/vb legislators/nns information/nn they/ppss need/vb ./.




<br>
Você verá que ** cada palavra vem com uma barra e um rótulo ** e, ao contrário do texto normal, vemos que ** pontuações são separadas da palavra que vem antes dela**, e.g. 

> The/at General/jj-tl Assembly/nn-tl ,/, which/wdt adjourns/vbz today/nr ,/, has/hvz performed/vbn in/in an/at atmosphere/nn of/in crisis/nn and/cc struggle/nn from/in the/at day/nn it/pps convened/vbd ./.

<br>

e também vemos que ** cada frase é separada por uma nova linha **:

> There/ex followed/vbd the/at historic/jj appropriations/nns and/cc budget/nn fight/nn ,/, in/in which/wdt the/at General/jj-tl Assembly/nn-tl decided/vbd to/to tackle/vb executive/nn powers/nns ./.
> 
> The/at final/jj decision/nn went/vbd to/in the/at executive/nn but/cc a/at way/nn has/hvz been/ben opened/vbn for/in strengthening/vbg budgeting/vbg procedures/nns and/cc to/to provide/vb legislators/nns information/nn they/ppss need/vb ./.

<br>
Isso nos leva ao próximo ponto sobre ** tokenização de frase ** e ** tokenização de palavra **.

Tokenização
====

** Tokenização de frases ** é o processo de * dividir strings em “frases” *

** Tokenização de palavras ** é o processo de * dividir “frases” em “palavras” *

Vamos brincar com alguns textos interessantes, o corpus `singles.txt` do` webtext`. <br>
Eles eram alguns ** anúncios de solteiros ** de http://search.classifieds.news.com.au/

Primeiro, baixe os dados com `nltk.download ()`:

`` `python
nltk.download ('webtext')
`` `

Então você pode importar com:

In [9]:
nltk.download('webtext')

[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Unzipping corpora/webtext.zip.


True

In [10]:
from nltk.corpus import webtext

In [11]:
webtext.fileids()

['firefox.txt',
 'grail.txt',
 'overheard.txt',
 'pirates.txt',
 'singles.txt',
 'wine.txt']

In [12]:
# Each line is one advertisement.
for i, line in enumerate(webtext.raw('singles.txt').split('\n')):
    if i > 10: # Lets take a look at the first 10 ads.
        break
    print(str(i) + ':\t' + line)

0:	25 SEXY MALE, seeks attrac older single lady, for discreet encounters.
1:	35YO Security Guard, seeking lady in uniform for fun times.
2:	40 yo SINGLE DAD, sincere friendly DTE seeks r/ship with fem age open S/E
3:	44yo tall seeks working single mum or lady below 45 fship rship. Nat Open
4:	6.2 35 yr old OUTGOING M seeks fem 28-35 for o/door sports - w/e away
5:	A professional business male, late 40s, 6 feet tall, slim build, well groomed, great personality, home owner, interests include the arts travel and all things good, Ringwood area, is seeking a genuine female of similar age or older, in same area or surrounds, for a meaningful long term rship. Looking forward to hearing from you all.
6:	ABLE young man seeks, sexy older women. Phone for fun ready to play
7:	AFFECTIONATE LADY Sought by generous guy, 40s, mutual fulfillment
8:	ARE YOU ALONE or lost in a r/ship too, with no hope in sight? Maybe we could explore new beginnings together? Im 45 Slim/Med build, GSOH, high needs and lo

# Vamos ampliar o candidato nº 8

In [13]:
single_no8 = webtext.raw('singles.txt').split('\n')[8]
print(single_no8)

ARE YOU ALONE or lost in a r/ship too, with no hope in sight? Maybe we could explore new beginnings together? Im 45 Slim/Med build, GSOH, high needs and looking for someone similar. You WONT be disappointed.



# Tokenização de frase
<br>
Em NLTK, `sent_tokenize ()` a função tokenizer padrão que você pode usar para dividir strings em "* sentenças *".
<br>

Ele está usando o [** Punkt algortihm ** de Kiss e Strunk (2006)] (http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485).

In [14]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [15]:
from nltk import sent_tokenize, word_tokenize

In [16]:
sent_tokenize(single_no8)

['ARE YOU ALONE or lost in a r/ship too, with no hope in sight?',
 'Maybe we could explore new beginnings together?',
 'Im 45 Slim/Med build, GSOH, high needs and looking for someone similar.',
 'You WONT be disappointed.']

In [17]:
for sent in sent_tokenize(single_no8):
    print(word_tokenize(sent))

['ARE', 'YOU', 'ALONE', 'or', 'lost', 'in', 'a', 'r/ship', 'too', ',', 'with', 'no', 'hope', 'in', 'sight', '?']
['Maybe', 'we', 'could', 'explore', 'new', 'beginnings', 'together', '?']
['Im', '45', 'Slim/Med', 'build', ',', 'GSOH', ',', 'high', 'needs', 'and', 'looking', 'for', 'someone', 'similar', '.']
['You', 'WONT', 'be', 'disappointed', '.']


# Minúsculas

Os CAPS nos textos são UM POUCO irritantes embora SABEMOS que o cara está tentando ENFALAR em algo; P

Podemos simplesmente ** colocá-los em minúsculas depois de fazer `sent_tokenize ()` e `word_tokenize ()` **. <br>


In [18]:
sent_tokenize(single_no8)

['ARE YOU ALONE or lost in a r/ship too, with no hope in sight?',
 'Maybe we could explore new beginnings together?',
 'Im 45 Slim/Med build, GSOH, high needs and looking for someone similar.',
 'You WONT be disappointed.']

In [19]:
for sent in sent_tokenize(single_no8):
    # It's a little in efficient to loop through each word,
    # after but sometimes it helps to get better tokens.
    print([word.lower() for word in word_tokenize(sent)])
    # Alternatively:
    #print(list(map(str.lower, word_tokenize(sent))))

['are', 'you', 'alone', 'or', 'lost', 'in', 'a', 'r/ship', 'too', ',', 'with', 'no', 'hope', 'in', 'sight', '?']
['maybe', 'we', 'could', 'explore', 'new', 'beginnings', 'together', '?']
['im', '45', 'slim/med', 'build', ',', 'gsoh', ',', 'high', 'needs', 'and', 'looking', 'for', 'someone', 'similar', '.']
['you', 'wont', 'be', 'disappointed', '.']


In [20]:
print(word_tokenize(single_no8))  # Treats the whole line as one document.

['ARE', 'YOU', 'ALONE', 'or', 'lost', 'in', 'a', 'r/ship', 'too', ',', 'with', 'no', 'hope', 'in', 'sight', '?', 'Maybe', 'we', 'could', 'explore', 'new', 'beginnings', 'together', '?', 'Im', '45', 'Slim/Med', 'build', ',', 'GSOH', ',', 'high', 'needs', 'and', 'looking', 'for', 'someone', 'similar', '.', 'You', 'WONT', 'be', 'disappointed', '.']


Palavras irrelevantes
====

** Palavras irrelevantes ** são palavras sem conteúdo que têm principalmente apenas funções gramaticais

No NLTK, você pode acessá-los da seguinte maneira:

In [21]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [22]:
from nltk.corpus import stopwords

stopwords_en = stopwords.words('english')
print(stopwords_en)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

# Frequentemente, queremos remover palavras irrelevantes quando queremos manter a "essência" do documento / frase.

Por exemplo, vamos voltar ao nosso `single_no8`

In [23]:
# Treat the multiple sentences as one document (no need to sent_tokenize)
# Tokenize and lowercase
single_no8_tokenized_lowered = list(map(str.lower, word_tokenize(single_no8)))
print(single_no8_tokenized_lowered)

['are', 'you', 'alone', 'or', 'lost', 'in', 'a', 'r/ship', 'too', ',', 'with', 'no', 'hope', 'in', 'sight', '?', 'maybe', 'we', 'could', 'explore', 'new', 'beginnings', 'together', '?', 'im', '45', 'slim/med', 'build', ',', 'gsoh', ',', 'high', 'needs', 'and', 'looking', 'for', 'someone', 'similar', '.', 'you', 'wont', 'be', 'disappointed', '.']


# Vamos tentar remover as palavras irrelevantes usando a lista de palavras irrelevantes em inglês no NLTK

In [24]:
stopwords_en = set(stopwords.words('english')) # Set checking is faster in Python than list.

# List comprehension.
print([word for word in single_no8_tokenized_lowered if word not in stopwords_en])

['alone', 'lost', 'r/ship', ',', 'hope', 'sight', '?', 'maybe', 'could', 'explore', 'new', 'beginnings', 'together', '?', 'im', '45', 'slim/med', 'build', ',', 'gsoh', ',', 'high', 'needs', 'looking', 'someone', 'similar', '.', 'wont', 'disappointed', '.']


# Freqüentemente, queremos remover as pontuações dos documentos também.

Como o Python vem com "baterias incluídas", temos string.punctuation

In [25]:
from string import punctuation
# It's a string so we have to them into a set type
print('From string.punctuation:', type(punctuation), punctuation)

From string.punctuation: <class 'str'> !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


# Combinando a pontuação com as palavras irrelevantes de NLTK.

In [26]:
stopwords_en_withpunct = stopwords_en.union(set(punctuation))
print(stopwords_en_withpunct)

{'i', 'under', 'for', 'each', 'yourselves', 'at', 'down', 'both', 'were', ',', 'an', 'ours', 'being', '^', '_', 'them', 'its', '@', 'because', 'just', 'ourselves', "that'll", 'won', 'him', 'why', 'how', 'll', "'", '|', 'the', 'himself', 'our', 'have', 'of', 'should', '-', ':', 'other', 'doesn', 'between', 'off', "wouldn't", 'herself', 'yours', 'they', 'aren', 'only', "should've", 'there', 'until', 'did', '+', 'after', '\\', '[', 'is', 'be', '(', ']', "she's", "shan't", 'own', 'out', "wasn't", "mustn't", 'very', 'will', 'or', '?', "don't", 'myself', 's', 'over', '~', 'through', "shouldn't", "you'd", 've', '&', 'you', 'hasn', 'more', 'on', 'her', "it's", 'itself', 'was', 'while', 'themselves', 'most', 'wouldn', '%', '"', 'who', "doesn't", 'theirs', 'from', 'all', 'against', "mightn't", 'it', '<', 'into', 'whom', 'd', '!', 'a', 'been', '`', 'ma', 'nor', 'm', 'has', 'o', 'needn', 'again', 'yourself', 'your', "couldn't", "hasn't", 'he', 'those', 'isn', 'above', 'wasn', 'this', 'mustn', 'the

# Removendo palavras irrelevantes com pontuações de Single no. 8

In [27]:
print([word for word in single_no8_tokenized_lowered if word not in stopwords_en_withpunct])

['alone', 'lost', 'r/ship', 'hope', 'sight', 'maybe', 'could', 'explore', 'new', 'beginnings', 'together', 'im', '45', 'slim/med', 'build', 'gsoh', 'high', 'needs', 'looking', 'someone', 'similar', 'wont', 'disappointed']


# Usando uma lista mais forte / mais longa de palavras irrelevantes

Da saída anterior, ainda temos verbos de modelo pendentes (ou seja, 'poderia', 'não', etc.).

Podemos combinar as palavras irrelevantes que temos no NLTK com outras listas de palavras irrelevantes que encontramos online.

Pessoalmente, gosto de usar `stopword-json` porque tem stopwrds em 50 idiomas =) <br>
https://github.com/6/stopwords-json

In [28]:
# Stopwords from stopwords-json
stopwords_json = {"en":["a","a's","able","about","above","according","accordingly","across","actually","after","afterwards","again","against","ain't","all","allow","allows","almost","alone","along","already","also","although","always","am","among","amongst","an","and","another","any","anybody","anyhow","anyone","anything","anyway","anyways","anywhere","apart","appear","appreciate","appropriate","are","aren't","around","as","aside","ask","asking","associated","at","available","away","awfully","b","be","became","because","become","becomes","becoming","been","before","beforehand","behind","being","believe","below","beside","besides","best","better","between","beyond","both","brief","but","by","c","c'mon","c's","came","can","can't","cannot","cant","cause","causes","certain","certainly","changes","clearly","co","com","come","comes","concerning","consequently","consider","considering","contain","containing","contains","corresponding","could","couldn't","course","currently","d","definitely","described","despite","did","didn't","different","do","does","doesn't","doing","don't","done","down","downwards","during","e","each","edu","eg","eight","either","else","elsewhere","enough","entirely","especially","et","etc","even","ever","every","everybody","everyone","everything","everywhere","ex","exactly","example","except","f","far","few","fifth","first","five","followed","following","follows","for","former","formerly","forth","four","from","further","furthermore","g","get","gets","getting","given","gives","go","goes","going","gone","got","gotten","greetings","h","had","hadn't","happens","hardly","has","hasn't","have","haven't","having","he","he's","hello","help","hence","her","here","here's","hereafter","hereby","herein","hereupon","hers","herself","hi","him","himself","his","hither","hopefully","how","howbeit","however","i","i'd","i'll","i'm","i've","ie","if","ignored","immediate","in","inasmuch","inc","indeed","indicate","indicated","indicates","inner","insofar","instead","into","inward","is","isn't","it","it'd","it'll","it's","its","itself","j","just","k","keep","keeps","kept","know","known","knows","l","last","lately","later","latter","latterly","least","less","lest","let","let's","like","liked","likely","little","look","looking","looks","ltd","m","mainly","many","may","maybe","me","mean","meanwhile","merely","might","more","moreover","most","mostly","much","must","my","myself","n","name","namely","nd","near","nearly","necessary","need","needs","neither","never","nevertheless","new","next","nine","no","nobody","non","none","noone","nor","normally","not","nothing","novel","now","nowhere","o","obviously","of","off","often","oh","ok","okay","old","on","once","one","ones","only","onto","or","other","others","otherwise","ought","our","ours","ourselves","out","outside","over","overall","own","p","particular","particularly","per","perhaps","placed","please","plus","possible","presumably","probably","provides","q","que","quite","qv","r","rather","rd","re","really","reasonably","regarding","regardless","regards","relatively","respectively","right","s","said","same","saw","say","saying","says","second","secondly","see","seeing","seem","seemed","seeming","seems","seen","self","selves","sensible","sent","serious","seriously","seven","several","shall","she","should","shouldn't","since","six","so","some","somebody","somehow","someone","something","sometime","sometimes","somewhat","somewhere","soon","sorry","specified","specify","specifying","still","sub","such","sup","sure","t","t's","take","taken","tell","tends","th","than","thank","thanks","thanx","that","that's","thats","the","their","theirs","them","themselves","then","thence","there","there's","thereafter","thereby","therefore","therein","theres","thereupon","these","they","they'd","they'll","they're","they've","think","third","this","thorough","thoroughly","those","though","three","through","throughout","thru","thus","to","together","too","took","toward","towards","tried","tries","truly","try","trying","twice","two","u","un","under","unfortunately","unless","unlikely","until","unto","up","upon","us","use","used","useful","uses","using","usually","uucp","v","value","various","very","via","viz","vs","w","want","wants","was","wasn't","way","we","we'd","we'll","we're","we've","welcome","well","went","were","weren't","what","what's","whatever","when","whence","whenever","where","where's","whereafter","whereas","whereby","wherein","whereupon","wherever","whether","which","while","whither","who","who's","whoever","whole","whom","whose","why","will","willing","wish","with","within","without","won't","wonder","would","wouldn't","x","y","yes","yet","you","you'd","you'll","you're","you've","your","yours","yourself","yourselves","z","zero"]}
stopwords_json_en = set(stopwords_json['en'])
stopwords_nltk_en = set(stopwords.words('english'))
stopwords_punct = set(punctuation)
# Combine the stopwords. Its a lot longer so I'm not printing it out...
stoplist_combined = set.union(stopwords_json_en, stopwords_nltk_en, stopwords_punct)

# Remove the stopwords from `single_no8`.
print('With combined stopwords:')
print([word for word in single_no8_tokenized_lowered if word not in stoplist_combined])

With combined stopwords:
['lost', 'r/ship', 'hope', 'sight', 'explore', 'beginnings', 'im', '45', 'slim/med', 'build', 'gsoh', 'high', 'similar', 'wont', 'disappointed']



# Stemming and Lemmatization

Frequentemente, queremos mapear as diferentes formas da mesma palavra para a mesma palavra raiz, por exemplo, "caminha", "caminha", "caminhou" deve ser o mesmo que "caminhar".

O processo de lematização e lematização são regras regex escritas à mão para localizar a palavra raiz.

  - ** Stemming **: tentativa de encurtar uma palavra com regras simples de regex

  - ** Lemmatização **: Tentando encontrar a palavra raiz com regras linguísticas (com o uso de regexes)

(Veja também: [Stemmers vs Lemmatizers] (https://stackoverflow.com/q/17317418/610569) question on StackOverflow)

Existem vários lematizadores e um lematizador em NLTK, sendo o mais comum:

  - ** Porter Stemmer ** de [Porter (1980)] (https://tartarus.org/martin/PorterStemmer/index.html)
  - ** Wordnet Lemmatizer ** (porta do Morphy: https://wordnet.princeton.edu/man/morphy.7WN.html)

In [29]:
from nltk.stem import PorterStemmer
porter = PorterStemmer()

for word in ['walking', 'walks', 'walked']:
    print(porter.stem(word))

walk
walk
walk


In [30]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [31]:
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()

for word in ['walking', 'walks', 'walked']:
    print(wnl.lemmatize(word))

walking
walk
walked


#Peguei vocês! O lematizador é realmente muito complicado, ele precisa de tags Parts of Speech (POS).
Não cobriremos o que é PDV hoje, então vou apenas mostrar como "chicotear" o lematizador para fazer o que você precisa.

Por padrão, a função WordNetLemmatizer.lemmatize () assumirá que a palavra é um substantivo se não houver uma tag POS explícita na entrada.

Primeiro, você precisa da função pos_tag para marcar uma frase e, usando a tag, convertê-la em conjuntos de tags WordNet e, em seguida, colocá-la no WordNetLemmatizer.

Observação: a lematização não funcionará realmente com palavras isoladas sem contexto ou conhecimento de sua tag POS (ou seja, precisamos saber se a palavra é um substantivo, verbo, adjetivo, advérbio)


In [32]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [33]:
from nltk import pos_tag
from nltk.stem import WordNetLemmatizer

wnl = WordNetLemmatizer()

def penn2morphy(penntag):
    """ Converts Penn Treebank tags to WordNet. """
    morphy_tag = {'NN':'n', 'JJ':'a',
                  'VB':'v', 'RB':'r'}
    try:
        return morphy_tag[penntag[:2]]
    except:
        return 'n' # if mapping isn't found, fall back to Noun.
    
# `pos_tag` takes the tokenized sentence as input, i.e. list of string,
# and returns a tuple of (word, tg), i.e. list of tuples of strings
# so we need to get the tag from the 2nd element.

walking_tagged = pos_tag(word_tokenize('He is walking to school'))
print(walking_tagged)

[('He', 'PRP'), ('is', 'VBZ'), ('walking', 'VBG'), ('to', 'TO'), ('school', 'NN')]


In [34]:
[wnl.lemmatize(word.lower(), pos=penn2morphy(tag)) for word, tag in walking_tagged]

['he', 'be', 'walk', 'to', 'school']

# Agora, vamos criar uma nova função de lematização para sentenças, dado o que aprendemos acima.

In [35]:
from nltk import pos_tag
from nltk.stem import WordNetLemmatizer

wnl = WordNetLemmatizer()

def penn2morphy(penntag):
    """ Converts Penn Treebank tags to WordNet. """
    morphy_tag = {'NN':'n', 'JJ':'a',
                  'VB':'v', 'RB':'r'}
    try:
        return morphy_tag[penntag[:2]]
    except:
        return 'n' 
    
def lemmatize_sent(text): 
    # Text input is string, returns lowercased strings.
    return [wnl.lemmatize(word.lower(), pos=penn2morphy(tag)) 
            for word, tag in pos_tag(word_tokenize(text))]

lemmatize_sent('He is walking to school')

['he', 'be', 'walk', 'to', 'school']

# Vamos tentar o `lemmatize_sent ()` e remover as palavras de interrupção do Single no. 8

In [36]:
print('Original Single no. 8:')
print(single_no8, '\n')
print('Lemmatized and removed stopwords:')
print([word for word in lemmatize_sent(single_no8) 
       if word not in stoplist_combined
       and not word.isdigit() ])

Original Single no. 8:
ARE YOU ALONE or lost in a r/ship too, with no hope in sight? Maybe we could explore new beginnings together? Im 45 Slim/Med build, GSOH, high needs and looking for someone similar. You WONT be disappointed. 

Lemmatized and removed stopwords:
['lose', 'r/ship', 'hope', 'sight', 'explore', 'beginning', 'im', 'slim/med', 'build', 'gsoh', 'high', 'similar', 'wont', 'disappoint']


# Combinando o que sabemos sobre a remoção de palavras irrelevantes e lematização

In [37]:
def preprocess_text(text):
    # Input: str, i.e. document/sentence
    # Output: list(str) , i.e. list of lemmas
    return [word for word in lemmatize_sent(text) 
            if word not in stoplist_combined
            and not word.isdigit()]

# Nota tangencial sobre lematização

Em inglês, uma palavra raiz / lema pode se manifestar em diferentes formas.

| <img src="https://media1.giphy.com/media/xHHsXH7WJsWK4/giphy.gif" align="left" height="200" width="200"> | <img src="https://media1.giphy.com/media/xHHsXH7WJsWK4/giphy.gif" align="left" height="200" width="200"><img src="https://media1.giphy.com/media/xHHsXH7WJsWK4/giphy.gif" align="left" height="200" width="200"> |
|:-------------:|:-------------:|
| 1 cat  | 2 cats  |
| 1 cat  | 2 cats  |

Por exemplo, usamos “gato” para nos referirmos a um único “gato” e anexamos um sufixo “-s” para nos referirmos a mais de um gato, por exemplo, "dois gatos".

| <img src="https://68.media.tumblr.com/b0755247c8f32f79413d34b0410ccff1/tumblr_o3q8wlGi9v1u9ia8fo1_500.gif" align="left" height="200" width="400"> | 
|:-------------:| 
| cats walk / cats (are) walking | 

<!-- | <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/fb/ModelsCatwalk.jpg/440px-ModelsCatwalk.jpg" align="left" height="200" width="400"> | 
|:-------------:| 
| cat walk(s) / catwalk(s) |  --> 


Outro exemplo, a palavra “andar” tem diferentes formas, por ex. “Caminhando” e “caminhado” indicam o tempo e / ou progresso do movimento de caminhada. <! - ~~ Além disso, “caminhar” também pode se referir ao ato de caminhar, que é diferente do movimento de caminhar, por exemplo, "João foi dar um passeio" (ato de caminhar) vs "João queria caminhar até o parque" (a ação / movimento de caminhada). ~~ -> Chamamos essas palavras raiz de *** tipos de palavras *** (por exemplo, “gato” e “caminhar”) e suas diferentes formas como *** palavras-chave *** (por exemplo, “gatos”, “caminhar”, “caminhar”, “caminhar”, “caminhar”).

Os lingüistas distinguem ainda mais as palavras entre seus lemas ou famílias de palavras. Um lema se refere à palavra raiz canônica usada como entrada do dicionário. Uma família de palavras se refere a um grupo de lemas derivados de uma única palavra raiz. Mesmo que "walkable" seja uma entrada separada em um dicionário de "walk", "walkable" pode ser agrupado sob a palavra família de "walk" junto com "walking, walk, walk".

A distinção é sutil, embora os linguistas se esforcem para argumentar sobre o que conta como um tipo, token, lemas ou família de palavras.

#vamos a uns slides

#** Vector ** é uma matriz de números

** Vector Space Model ** conceitua a linguagem como um monte de números

** Bag-of-Words (BoW) **: Contagem de cada documento / frase como um vetor de números, com cada número representando a contagem de uma palavra no corpus

Para contar, podemos usar o Python `coleções.Contador`

In [38]:
from collections import Counter

sent1 = "The quick brown fox jumps over the lazy brown dog."
sent2 = "Mr brown jumps over the lazy fox."

# Lemmatize and remove stopwords
processed_sent1 = preprocess_text(sent1)
processed_sent2 = preprocess_text(sent2)

In [39]:
print('Processed sentence:')
print(processed_sent1)
print()
print('Word counts:')
print(Counter(processed_sent1))

Processed sentence:
['quick', 'brown', 'fox', 'jump', 'lazy', 'brown', 'dog']

Word counts:
Counter({'brown': 2, 'quick': 1, 'fox': 1, 'jump': 1, 'lazy': 1, 'dog': 1})


In [40]:
print('Processed sentence:')
print(processed_sent2)
print()
print('Word counts:')
print(Counter(processed_sent2))

Processed sentence:
['mr', 'brown', 'jump', 'lazy', 'fox']

Word counts:
Counter({'mr': 1, 'brown': 1, 'jump': 1, 'lazy': 1, 'fox': 1})


# Vetorização

Vamos colocar as palavras e contagens em uma boa tabela:

| | brown | quick | fox | jump | lazy | dog | mr | 
|:---- |:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|
| Sent1 | 2 | 1 | 1 | 1 | 1 | 1 | 0 |  
| Sent2 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 


Se fixarmos as posições do vocabulário, ou seja,

```
[brown, quick, fox, jump, lazy, dog, mr]
```

e fazemos as contagens para cada palavra em cada frase, obtemos os vetores das frases (ou seja, lista de números para representar cada frase):

```
sent1 = [2,1,1,1,1,1,0]
sent2 = [1,0,1,1,1,0,1]
```

# Vetorização com sklearn

No `scikit-learn`, existem funções pré-construídas para fazer o pré-processamento e a vetorização que estamos fazendo usando o objeto` CountVectorizer`.

Será o objeto que contém o vocabulário (ou seja, a primeira linha de nossa tabela acima) e tem a função de converter qualquer frase nos vetores de contagem que vemos acima.

A entrada que `CountVectorizer` é um arquivo de texto, então temos que fazer alguns hacks para deixá-lo aceitar as saídas de string.

Podemos "fingir para torná-lo" usando `io.StringIO`, onde podemos converter qualquer string para funcionar como um arquivo, por exemplo,

In [41]:
from io import StringIO
from sklearn.feature_extraction.text import CountVectorizer

sent1 = "The quick brown fox jumps over the lazy brown dog."
sent2 = "Mr brown jumps over the lazy fox."

with StringIO('\n'.join([sent1, sent2])) as fin:
    # Create the vectorizer
    count_vect = CountVectorizer()
    count_vect.fit_transform(fin)

In [42]:
# We can check the vocabulary in our vectorizer
# It's a dictionary where the words are the keys and 
# The values are the IDs given to each word. 
count_vect.vocabulary_

{'brown': 0,
 'dog': 1,
 'fox': 2,
 'jumps': 3,
 'lazy': 4,
 'mr': 5,
 'over': 6,
 'quick': 7,
 'the': 8}

 (Wait a minute)

Eu não disse ao vetorizador para remover a pontuação, tokenizar e minúsculas, como eles fizeram isso?

Além disso, está no vocabulário, é uma palavra de ordem, queremos que desapareça ...
E os saltos não são interrompidos ou lematizados!

vamos ver a documentação de [`CountVectorizer`](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) in `sklearn`, a gentre ve:


```python
CountVectorizer(
    input=’content’, encoding=’utf-8’, 
    decode_error=’strict’, strip_accents=None, 
    lowercase=True, preprocessor=None, 
    tokenizer=None, stop_words=None, 
    token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), 
    analyzer=’word’, max_df=1.0, min_df=1, 
    max_features=None, vocabulary=None, 
    binary=False, dtype=<class ‘numpy.int64’>)[source]
```

E mais especificamente:

> ** analisador **: string, {‘word’, ‘char’, ‘char_wb’} ou chamável
>
> Se o recurso deve ser composto de n-gramas de palavras ou caracteres. A opção ‘char_wb’ cria caracteres n-gramas apenas do texto dentro dos limites da palavra; n-gramas nas bordas das palavras são preenchidas com espaço.
> Se um chamável for passado, ele será usado para extrair a sequência de recursos da entrada bruta e não processada.

 
> ** pré-processador **: chamável ou Nenhum (padrão)
>
> Substituir o estágio de pré-processamento (transformação de string), preservando as etapas de geração de tokenização e n-gramas.

> ** tokenizer **: chamável ou Nenhum (padrão)
>
> Substitua a etapa de tokenização da string enquanto preserva as etapas de pré-processamento e geração de n-gramas. Aplica-se apenas se o analisador == 'palavra'.

> ** stop_words **: string {‘english’}, list ou None (default)
>
> Se for "inglês", uma lista de palavras de interrupção integrada para o inglês é usada.
> Se for uma lista, presume-se que essa lista contenha palavras de parada, as quais serão removidas dos tokens resultantes. Aplica-se apenas se o analisador == 'palavra'.
Se nenhum, nenhuma palavra de parada será usada.

> ** minúsculas **: booleano, verdadeiro por padrão
>
> Converta todos os caracteres em minúsculas antes de tokenizar.

# Então, podemos substituir esses argumentos com as funções que aprendemos antes.

We can **override the tokenizer and stop_words**:

In [43]:
from io import StringIO
from sklearn.feature_extraction.text import CountVectorizer

sent1 = "The quick brown fox jumps over the lazy brown dog."
sent2 = "Mr brown jumps over the lazy fox."

with StringIO('\n'.join([sent1, sent2])) as fin:
    # Override the analyzer totally with our preprocess text
    count_vect = CountVectorizer(stop_words=stoplist_combined,
                                 tokenizer=word_tokenize)
    count_vect.fit_transform(fin)
count_vect.vocabulary_

  'stop_words.' % sorted(inconsistent))


{'brown': 0, 'dog': 1, 'fox': 2, 'jumps': 3, 'lazy': 4, 'mr': 5, 'quick': 6}

Ou apenas ** substitua o analisador ** totalmente com nosso texto de pré-processamento:

In [44]:
from io import StringIO
from sklearn.feature_extraction.text import CountVectorizer

sent1 = "The quick brown fox jumps over the lazy brown dog."
sent2 = "Mr brown jumps over the lazy fox."

with StringIO('\n'.join([sent1, sent2])) as fin:
    # Override the analyzer totally with our preprocess text
    count_vect = CountVectorizer(analyzer=preprocess_text)
    count_vect.fit_transform(fin)
count_vect.vocabulary_ 

{'brown': 0, 'dog': 1, 'fox': 2, 'jump': 3, 'lazy': 4, 'mr': 5, 'quick': 6}

# Para vetorizar quaisquer novas sentenças, usamos `CountVectorizer.transform ()`

A função retornará uma matriz esparsa.

In [45]:
count_vect.transform([sent1, sent2])

<2x7 sparse matrix of type '<class 'numpy.int64'>'
	with 11 stored elements in Compressed Sparse Row format>

# Para visualizar a matriz, você pode enviá-la para um array

In [46]:
from operator import itemgetter

# Print the words sorted by their index
words_sorted_by_index, _ = zip(*sorted(count_vect.vocabulary_.items(), key=itemgetter(1)))

print(preprocess_text(sent1))
print(preprocess_text(sent2))
print()
print('Vocab:', words_sorted_by_index)
print()
print('Matrix/Vectors:\n', count_vect.transform([sent1, sent2]).toarray())

['quick', 'brown', 'fox', 'jump', 'lazy', 'brown', 'dog']
['mr', 'brown', 'jump', 'lazy', 'fox']

Vocab: ('brown', 'dog', 'fox', 'jump', 'lazy', 'mr', 'quick')

Matrix/Vectors:
 [[2 1 1 1 1 0 1]
 [1 0 1 1 1 1 0]]
