## Pré processamento dos textos
***

O processamento de linguagem natural (PLN) é uma subárea da Inteligência Artificial que tem como objetivo a compreensão automática de linguagens humanas, de maneira que possam ser manipuladas por computadores. Em geral, essas técnicas estão voltadas aos seguintes aspectos: fonologia, morfologia, sintaxe, semântica e pragmática.

Download do NLTK

```
pip install nltk
```

***
### Processamento de linguagem natural (PLN)
***

Visa a compreensão automática de linguagens humanas (falado ou escrito), por exemplo, "este filme é para adulto" != "este filme é de um adulto".

A ideia do processamento de linguagem natural é fazer o computador entender essas diferenças de linguagem natural.

Um excelente exemplo é quando você liga para alguma agência e quem atende é um computador, o computador conversa com você e te ajuda a solicitar um determinado serviço ou produto.

Chatbots é um excelente exemplo da utilização dessa tecnologia.

Vale lembrar que quando for criar a base de dados, tem que retirar acentos, caracteres especiais do idioma e etc...

***
### Tags
***

* **CC**: conjunção coordenativa (aditivas, adversativas, alternativas ou disjuntivas, conclusivas e explicativas)
* **CD**: digito cardinal (um, doi, três, ...)
* **DT**: determinantes (artigos, possessivos, demonstrativos, indefinidos, interrogativos, numerais)
* **EX**: there existencial (por exemplo: "there is" ... podemos pensar nisso como "there exists")
* **FW**: palavras estrangeiras
* **IN**: preposição/subordinação e conjunção
* **JJ**: adjetivo 'big'
* **JJR**: adjetivo, comparativo 'bigger'
* **JJS**: adjetivo, superlativo 'biggest'
* **LS**: marcador de lista, por exemplo, 1)
* **MD**: verbos modais: could, will
* **NN**: substantivo singular: 'desk'
* **NNS**: substantivo plural: 'desks'
* **NNP**: substantivo próprio singular: 'Harrison'
* **NNPS**: substantivo próprio plural:	'Americans'
* **PDT**: predeterminer 'all the kids'
* **POS**: possessive ending parent\'s
* **PRP**: personal pronoun	I, he, she
* **PRP\$**: pronomes possessivos: my, his, hers
* **RB**: adverbio muito (very), silenciosamente
* **RBR**: adverbios comparativos: better
* **RBS**: adverbios superlativos: best
* **RP**: particle	give up
* **TO**: to go 'to' the store.
* **UH**: interjeição errrrrrrrm
* **VB**: verbo, base form take
* **VBD**: verbo, past tense	took
* **VBG**: verbo, gerund/present participle taking
* **VBN**: verbo, past participle taken
* **VBP**: verbo, sing. present, non-3d take
* **VBZ**: verbo, 3rd person sing. present takes
* **WDT**: wh-determiner which
* **WP**: wh-pronoun who, what
* **WP$**: possessivos wh-pronoun whose
* **WRB**: wh-abverb where, when

In [1]:
import nltk

In [2]:
# Vamos atualizar o nltk
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> all


    Downloading collection 'all'
       | 
       | Downloading package abc to /home/victorhad/nltk_data...
       |   Unzipping corpora/abc.zip.
       | Downloading package alpino to /home/victorhad/nltk_data...
       |   Unzipping corpora/alpino.zip.
       | Downloading package biocreative_ppi to
       |     /home/victorhad/nltk_data...
       |   Unzipping corpora/biocreative_ppi.zip.
       | Downloading package brown to /home/victorhad/nltk_data...
       |   Unzipping corpora/brown.zip.
       | Downloading package brown_tei to /home/victorhad/nltk_data...
       |   Unzipping corpora/brown_tei.zip.
       | Downloading package cess_cat to /home/victorhad/nltk_data...
       |   Unzipping corpora/cess_cat.zip.
       | Downloading package cess_esp to /home/victorhad/nltk_data...
       |   Unzipping corpora/cess_esp.zip.
       | Downloading package chat80 to /home/victorhad/nltk_data...
       |   Unzipping corpora/chat80.zip.
       | Downloading package city_database to
  

       |   Unzipping corpora/udhr.zip.
       | Downloading package udhr2 to /home/victorhad/nltk_data...
       |   Unzipping corpora/udhr2.zip.
       | Downloading package unicode_samples to
       |     /home/victorhad/nltk_data...
       |   Unzipping corpora/unicode_samples.zip.
       | Downloading package universal_treebanks_v20 to
       |     /home/victorhad/nltk_data...
       | Downloading package verbnet to /home/victorhad/nltk_data...
       |   Unzipping corpora/verbnet.zip.
       | Downloading package verbnet3 to /home/victorhad/nltk_data...
       |   Unzipping corpora/verbnet3.zip.
       | Downloading package webtext to /home/victorhad/nltk_data...
       |   Unzipping corpora/webtext.zip.
       | Downloading package wordnet to /home/victorhad/nltk_data...
       |   Unzipping corpora/wordnet.zip.
       | Downloading package wordnet_ic to
       |     /home/victorhad/nltk_data...
       |   Unzipping corpora/wordnet_ic.zip.
       | Downloading package words to /h


---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> q


True

***

In [2]:
texto = "Mr. Green killed Colonel Mustard in the study with the candlestick. Mr. Green is not a very nice fellow"

In [3]:
# Quebrar o texto em frases
frases = nltk.tokenize.sent_tokenize(texto)

In [4]:
print(frases)

['Mr. Green killed Colonel Mustard in the study with the candlestick.', 'Mr. Green is not a very nice fellow']


In [5]:
# Quebrar o texto em palavras
tokens = nltk.word_tokenize(texto)

In [6]:
print(tokens)

['Mr.', 'Green', 'killed', 'Colonel', 'Mustard', 'in', 'the', 'study', 'with', 'the', 'candlestick', '.', 'Mr.', 'Green', 'is', 'not', 'a', 'very', 'nice', 'fellow']


In [7]:
# Categorizar cada palavra de acordo com sua classe gramatical em inglês
classes = nltk.pos_tag(tokens)

In [8]:
print(classes)

[('Mr.', 'NNP'), ('Green', 'NNP'), ('killed', 'VBD'), ('Colonel', 'NNP'), ('Mustard', 'NNP'), ('in', 'IN'), ('the', 'DT'), ('study', 'NN'), ('with', 'IN'), ('the', 'DT'), ('candlestick', 'NN'), ('.', '.'), ('Mr.', 'NNP'), ('Green', 'NNP'), ('is', 'VBZ'), ('not', 'RB'), ('a', 'DT'), ('very', 'RB'), ('nice', 'JJ'), ('fellow', 'NN')]


In [9]:
# Pega cada token com sua classe gramatical e categoriza se é uma empresa, uma pessoa e etc...
# Precisa da biblioteca numpy (pip install numpy)
entidades = nltk.chunk.ne_chunk(classes)

In [10]:
print(entidades)

(S
  (PERSON Mr./NNP)
  (PERSON Green/NNP)
  killed/VBD
  (ORGANIZATION Colonel/NNP Mustard/NNP)
  in/IN
  the/DT
  study/NN
  with/IN
  the/DT
  candlestick/NN
  ./.
  (PERSON Mr./NNP Green/NNP)
  is/VBZ
  not/RB
  a/DT
  very/RB
  nice/JJ
  fellow/NN)
