# $$Processamento~ de~ linguagem ~natural$$

### $$Conceito:$$




PLN é um ramo da Inteligência Artificial (IA) que tem como objetivo dar aos dispositivos tecnológicos a capacidade de entender, responder e interpretar a linguagem humana, seja por meio de áudio ou texto



-----------------------------------------------------------------------------------------------------------------------





### $$Caracteristicas:$$





**Mineração de Texto (Text Mining)** = O processo consiste em criar datasets de documentos (chamados ‘corpus’) e transformar a informação contida nos mesmos em uma matriz numérica.



-----------------------------------------------------------------------------------------------------------------------





**Corpus** = Um Corpus é uma coleção de arquivos de texto organizados em um diretório que conseguimos manipulá-los todos de uma vez. Ex: Coletamos dados de textos de vários sites, organizamos tudo dentro de um Corpus e conseguimos manipulá-los todos os arquivos como se fosse 1 só.



-----------------------------------------------------------------------------------------------------------------------





**Token** = Estruturas mínimas dentro do texto, dividir um texto em pedaços menores (Frase, palavras, n-grama)



-----------------------------------------------------------------------------------------------------------------------





**Bag of words** = É um modelo de linguagem estatística usado para analisar texto e documentos com base na contagem de palavras, verifica a frequência dos termos e conta os mesmos



-----------------------------------------------------------------------------------------------------------------------





**Text Cleaning** = Processo para converter os textos em um formato consistente. O texto será limpo, EX: Lowercase / UpperCase, Punctuation Removal, Removing Stop Words, Stemming, Lemmatization, Tokenization e convertido em uma matriz 



-----------------------------------------------------------------------------------------------------------------------





**Stop Word** = São palavras comuns que normalmente não contribuem para o significado de uma frase, Ex:('de','a','o','que','e','é','do','da','em','um')



-----------------------------------------------------------------------------------------------------------------------





**Derivação (Stemming)** = É a técnica de remover sufixos e prefixos de uma palavra, chamada stem(Base), Exemplo, o stem(Base) da palavra cooking - cook, amigos - amig, amizade - amizad



-----------------------------------------------------------------------------------------------------------------------





**Lematização (Lemmatization)** = Reduzir as formas flexionadas, derivadas de uma palavra para uma base comum, considerando a estrutura formologica, Ex: Organizar, Organizado e Organizando para Organiza, é o ato de representar as palavras através do infinitivo dos verbos e masculino singular dos substantivos e adjetivos.



-----------------------------------------------------------------------------------------------------------------------







**Pairwise Correlation** = Identificar grupos de características altamente correlacionadas e apenas manter um deles para que seu modelo possa ter o máximo de poder preditivo usando o menor número possível de recursos.



-----------------------------------------------------------------------------------------------------------------------







**Part-of-Speech Tag** = Retorna a classe gramatical de cada palavra tokenizada (Adjetivo, substantivo, verbo,etc.)



-----------------------------------------------------------------------------------------------------------------------







**Collocations** = São duas ou mais palavras que tendem a aparecer frequentemente juntas, como "Estados Unidos", "Rio Grande do Sul" ou "Machine Learning". Essas palavras podem gerar diversas combinações por isso o contexto também é importante no processamento de linguagem natural.



-----------------------------------------------------------------------------------------------------------------------





### $$Expressões ~Regulares:$$





**Fazer uma busca no texto definindo algum padrão, podendo ser:**





**Match:** verifica uma correspondência apenas no início da sequência de caracteres



**Search:** verifica uma correspondência em qualquer parte da sequência de caracteres.



**[A-z]:** Filtra as letras de A até Z, maiúsculas ou minúsculas em um texto



**[0-9]:** Filtra somente os números do texto



-----------------------------------------------------------------------------------------------------------------------





### $$Token ~n-grama:$$ 





Dada uma sequência de palavras N-1, um modelo N-grama prevê a palavra mais provável que pode seguir esta sequência





Um modelo que simplesmente se baseia na frequência com que uma palavra ocorre sem olhar para palavras anteriores é chamado de **unigrama**





Se um modelo considera apenas a palavra anterior para prever a palavra atual, então ela é chamada de **bigram**





Se duas palavras anteriores forem consideradas, então é um modelo de **trigrama**





**Exemplos:**





- **Unigrama** = 'ele', 'Guilherme', 'Casa'



- **Bigrama** = 'Eu fui', 'Mão pequena', 'Garota bonita'



- **Trigrama** = 'Eu a levei, 'Cachorro é grande', 'Fui ao parque'





__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__


__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__

## $$Objetivo:$$

## $$Compreender~ os~ principais~ conceitos~ de~ PLN$$

__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__


__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__

In [1]:
#Bibliotecas
import nltk
import spacy
import requests
from sklearn.feature_extraction.text import CountVectorizer 
import json
import pandas as pd
import string
import spacy
import random
import seaborn as sns
import numpy as np


# Corpus: Str

In [2]:
Frase = "Desejo que você não tenha medo da vida, tenha medo de não vivê-la. Não há céu sem tempestades, nem caminhos sem acidentes."
Frase

'Desejo que você não tenha medo da vida, tenha medo de não vivê-la. Não há céu sem tempestades, nem caminhos sem acidentes.'

In [3]:
#formato do dado
type(Frase)

str

**Corpus no formato STR tem o início e o fim entre Aspas**

## Tokenização

### Tokenizar em sentenças

In [4]:
# Tokenizar a frase em sentenças
from nltk.tokenize import sent_tokenize
token1 = sent_tokenize(Frase)
token1

['Desejo que você não tenha medo da vida, tenha medo de não vivê-la.',
 'Não há céu sem tempestades, nem caminhos sem acidentes.']

In [5]:
# Tokenizar a frase em sentenças, utilizando dicionário do pacote NLTK
tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')
token2 = tokenizer.tokenize(Frase)
token2

['Desejo que você não tenha medo da vida, tenha medo de não vivê-la.',
 'Não há céu sem tempestades, nem caminhos sem acidentes.']

**Veja que a frase que era unica, foi tokenizada em 2 sentenças**

In [6]:
#formato dos dados
print(type(token1))
print(type(token2))

<class 'list'>
<class 'list'>


**Tokenizando a frase em sentenças, o formato dos dados ficam como lista**

### Tokenizar em palavras

In [7]:
#Tokenizar as palavras
from nltk.tokenize import word_tokenize
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
token3 = tokenizer.tokenize(Frase)
token3

['Desejo',
 'que',
 'você',
 'não',
 'tenha',
 'medo',
 'da',
 'vida',
 ',',
 'tenha',
 'medo',
 'de',
 'não',
 'vivê-la.',
 'Não',
 'há',
 'céu',
 'sem',
 'tempestades',
 ',',
 'nem',
 'caminhos',
 'sem',
 'acidentes',
 '.']

In [8]:
# Tokenizar as palavras com List Comprehension
token4 = ([word_tokenize(palavra) for palavra in sent_tokenize(Frase)])
token4

[['Desejo',
  'que',
  'você',
  'não',
  'tenha',
  'medo',
  'da',
  'vida',
  ',',
  'tenha',
  'medo',
  'de',
  'não',
  'vivê-la',
  '.'],
 ['Não',
  'há',
  'céu',
  'sem',
  'tempestades',
  ',',
  'nem',
  'caminhos',
  'sem',
  'acidentes',
  '.']]

**Tokenizar as frases em palavras, cada palavra gera um token**

In [9]:
#formato dos dados
print(type(token3))
print(type(token4))

<class 'list'>
<class 'list'>


### Remover pontuações de uma frase

In [10]:
remov_str = Frase.translate(str.maketrans('', '', string.punctuation))
remov_str

'Desejo que você não tenha medo da vida tenha medo de não vivêla Não há céu sem tempestades nem caminhos sem acidentes'

In [11]:
#formato dos dados
type(remov_str)

str

### Remover pontuações de uma frase e tokeniza-la em palavras

In [12]:
#Remover as pontuações
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')

#Frase do tipo str
token_sempont = tokenizer.tokenize(Frase)
token_sempont

['Desejo',
 'que',
 'você',
 'não',
 'tenha',
 'medo',
 'da',
 'vida',
 'tenha',
 'medo',
 'de',
 'não',
 'vivê',
 'la',
 'Não',
 'há',
 'céu',
 'sem',
 'tempestades',
 'nem',
 'caminhos',
 'sem',
 'acidentes']

**Note que só há palavras sem pontuações**

### Remover Stopwords 

In [13]:
from nltk.corpus import stopwords


#Já precisa estar tokenizado para retirar as stopwords
portuguese_stops = set(stopwords.words('portuguese'))


sem_stop = [palavra for palavra in token_sempont if palavra not in portuguese_stops]
sem_stop

['Desejo',
 'medo',
 'vida',
 'medo',
 'vivê',
 'la',
 'Não',
 'céu',
 'tempestades',
 'caminhos',
 'acidentes']

**Diminuímos ainda mais o texto removendo as stopwords**

### Bag of Words - Contagem de palavras

In [14]:
from nltk import FreqDist
freq = FreqDist(token_sempont)
freq.most_common()

[('não', 2),
 ('tenha', 2),
 ('medo', 2),
 ('sem', 2),
 ('Desejo', 1),
 ('que', 1),
 ('você', 1),
 ('da', 1),
 ('vida', 1),
 ('de', 1),
 ('vivê', 1),
 ('la', 1),
 ('Não', 1),
 ('há', 1),
 ('céu', 1),
 ('tempestades', 1),
 ('nem', 1),
 ('caminhos', 1),
 ('acidentes', 1)]

**Observe que o número representa a quantidade de vozes que a palavra aparece no texto**

In [15]:
#Outra forma de usar Bag of Words
from textblob import TextBlob
blob = TextBlob(Frase)

blob.word_counts

defaultdict(int,
            {'desejo': 1,
             'que': 1,
             'você': 1,
             'não': 3,
             'tenha': 2,
             'medo': 2,
             'da': 1,
             'vida': 1,
             'de': 1,
             'vivê-la': 1,
             'há': 1,
             'céu': 1,
             'sem': 2,
             'tempestades': 1,
             'nem': 1,
             'caminhos': 1,
             'acidentes': 1})

### Aplicar o Stemming nas palavras tokenizadas

In [16]:
def stemming_bag(token_sempont, stemmer):
    return [stemmer.stem(w) for w in token_sempont]

stemming_bag(token_sempont, nltk.stem.RSLPStemmer())

['desej',
 'que',
 'voc',
 'não',
 'tenh',
 'med',
 'da',
 'vid',
 'tenh',
 'med',
 'de',
 'não',
 'viv',
 'la',
 'não',
 'há',
 'céu',
 'sem',
 'tempestad',
 'nem',
 'caminh',
 'sem',
 'acid']

In [17]:
#Comparação antes e depois 
import nltk
from nltk.stem.snowball import SnowballStemmer


def stemming_bag(token_sempont, stemmer):
    return [stemmer.stem(w) for w in token_sempont]


def imprime(w, result):
    return list(zip(w, result))


rslp = stemming_bag(token_sempont, nltk.stem.RSLPStemmer())
print(imprime(token_sempont,rslp))

[('Desejo', 'desej'), ('que', 'que'), ('você', 'voc'), ('não', 'não'), ('tenha', 'tenh'), ('medo', 'med'), ('da', 'da'), ('vida', 'vid'), ('tenha', 'tenh'), ('medo', 'med'), ('de', 'de'), ('não', 'não'), ('vivê', 'viv'), ('la', 'la'), ('Não', 'não'), ('há', 'há'), ('céu', 'céu'), ('sem', 'sem'), ('tempestades', 'tempestad'), ('nem', 'nem'), ('caminhos', 'caminh'), ('sem', 'sem'), ('acidentes', 'acid')]


**Comparação das palavras antes e depois do stemming**

## Lematização

In [18]:
#Converter STR para spacy.tokens.doc
import spacy
from spacy.lang.pt.examples import sentences
nlp = spacy.load('pt_core_news_sm')


doc = nlp(Frase)
doc

Desejo que você não tenha medo da vida, tenha medo de não vivê-la. Não há céu sem tempestades, nem caminhos sem acidentes.

In [19]:
#Tipo de dado
type(doc)

spacy.tokens.doc.Doc

In [20]:
#Aplicar lematização
for token in doc:
    print(token.lemma_)

Desejo
que
você
não
ter
medo
de o
vida
,
ter
medo
de
não
vivê-la
.
não
haver
céu
sem
tempestade
,
nem
caminho
sem
acidente
.


In [21]:
#Antes e depois da lematização
for token in doc:
    print(token.text,"|",token.lemma_)


Desejo | Desejo
que | que
você | você
não | não
tenha | ter
medo | medo
da | de o
vida | vida
, | ,
tenha | ter
medo | medo
de | de
não | não
vivê-la | vivê-la
. | .
Não | não
há | haver
céu | céu
sem | sem
tempestades | tempestade
, | ,
nem | nem
caminhos | caminho
sem | sem
acidentes | acidente
. | .


**Comparação das palavras antes e depois da Lematização**

## Stemming X Lematização

In [59]:
#Comparação entre Lematização e Stemming
stemmer = nltk.stem.RSLPStemmer()



for token in doc:
    print(token.text,"|",stemmer.stem(token.text),"|",token.lemma_)

Desejo | desej | Desejo
que | que | que
você | voc | você
não | não | não
tenha | tenh | ter
medo | med | medo
da | da | de o
vida | vid | vida
, | , | ,
tenha | tenh | ter
medo | med | medo
de | de | de
não | não | não
vivê-la | vivê-l | vivê-la
. | . | .
Não | não | não
há | há | haver
céu | céu | céu
sem | sem | sem
tempestades | tempestad | tempestade
, | , | ,
nem | nem | nem
caminhos | caminh | caminho
sem | sem | sem
acidentes | acid | acidente
. | . | .


**Podemos notar a diferença entre a lematização e o Stemming**

## Lower() e upper()

In [23]:
Frase.lower()

'desejo que você não tenha medo da vida, tenha medo de não vivê-la. não há céu sem tempestades, nem caminhos sem acidentes.'

In [24]:
Frase.upper()

'DESEJO QUE VOCÊ NÃO TENHA MEDO DA VIDA, TENHA MEDO DE NÃO VIVÊ-LA. NÃO HÁ CÉU SEM TEMPESTADES, NEM CAMINHOS SEM ACIDENTES.'

**Deixar as palavras com caixa baixa e alta**

## N-Gram

In [25]:
#Bigramas

from nltk import bigrams
list(bigrams(token3))

[('Desejo', 'que'),
 ('que', 'você'),
 ('você', 'não'),
 ('não', 'tenha'),
 ('tenha', 'medo'),
 ('medo', 'da'),
 ('da', 'vida'),
 ('vida', ','),
 (',', 'tenha'),
 ('tenha', 'medo'),
 ('medo', 'de'),
 ('de', 'não'),
 ('não', 'vivê-la.'),
 ('vivê-la.', 'Não'),
 ('Não', 'há'),
 ('há', 'céu'),
 ('céu', 'sem'),
 ('sem', 'tempestades'),
 ('tempestades', ','),
 (',', 'nem'),
 ('nem', 'caminhos'),
 ('caminhos', 'sem'),
 ('sem', 'acidentes'),
 ('acidentes', '.')]

**Sequência de duas letras consecutivas**

In [26]:
#Trigramas

from nltk import trigrams
list(trigrams(token3))

[('Desejo', 'que', 'você'),
 ('que', 'você', 'não'),
 ('você', 'não', 'tenha'),
 ('não', 'tenha', 'medo'),
 ('tenha', 'medo', 'da'),
 ('medo', 'da', 'vida'),
 ('da', 'vida', ','),
 ('vida', ',', 'tenha'),
 (',', 'tenha', 'medo'),
 ('tenha', 'medo', 'de'),
 ('medo', 'de', 'não'),
 ('de', 'não', 'vivê-la.'),
 ('não', 'vivê-la.', 'Não'),
 ('vivê-la.', 'Não', 'há'),
 ('Não', 'há', 'céu'),
 ('há', 'céu', 'sem'),
 ('céu', 'sem', 'tempestades'),
 ('sem', 'tempestades', ','),
 ('tempestades', ',', 'nem'),
 (',', 'nem', 'caminhos'),
 ('nem', 'caminhos', 'sem'),
 ('caminhos', 'sem', 'acidentes'),
 ('sem', 'acidentes', '.')]

**Sequência de três letras consecutivas**

In [27]:
#Quadrigrama

from textblob import TextBlob
bob = TextBlob(Frase)
bob.ngrams(n=4)

[WordList(['Desejo', 'que', 'você', 'não']),
 WordList(['que', 'você', 'não', 'tenha']),
 WordList(['você', 'não', 'tenha', 'medo']),
 WordList(['não', 'tenha', 'medo', 'da']),
 WordList(['tenha', 'medo', 'da', 'vida']),
 WordList(['medo', 'da', 'vida', 'tenha']),
 WordList(['da', 'vida', 'tenha', 'medo']),
 WordList(['vida', 'tenha', 'medo', 'de']),
 WordList(['tenha', 'medo', 'de', 'não']),
 WordList(['medo', 'de', 'não', 'vivê-la']),
 WordList(['de', 'não', 'vivê-la', 'Não']),
 WordList(['não', 'vivê-la', 'Não', 'há']),
 WordList(['vivê-la', 'Não', 'há', 'céu']),
 WordList(['Não', 'há', 'céu', 'sem']),
 WordList(['há', 'céu', 'sem', 'tempestades']),
 WordList(['céu', 'sem', 'tempestades', 'nem']),
 WordList(['sem', 'tempestades', 'nem', 'caminhos']),
 WordList(['tempestades', 'nem', 'caminhos', 'sem']),
 WordList(['nem', 'caminhos', 'sem', 'acidentes'])]

**Sequência de Quatro letras consecutivas**

## Part-of-Speech Tag - Morfologia

In [28]:
from nltk.corpus import mac_morpho
from nltk.tag import UnigramTagger

tokens = nltk.word_tokenize(Frase)
sent_train = mac_morpho.tagged_sents()
etiq = UnigramTagger(sent_train)
tags = etiq.tag(tokens)
print(tags)

[('Desejo', 'NPROP'), ('que', 'PRO-KS-REL'), ('você', 'PROPESS'), ('não', 'ADV'), ('tenha', 'VAUX'), ('medo', 'N'), ('da', 'NPROP'), ('vida', 'N'), (',', ','), ('tenha', 'VAUX'), ('medo', 'N'), ('de', 'PREP'), ('não', 'ADV'), ('vivê-la', None), ('.', '.'), ('Não', 'ADV'), ('há', 'V'), ('céu', 'N'), ('sem', 'PREP'), ('tempestades', 'N'), (',', ','), ('nem', 'KC'), ('caminhos', 'N'), ('sem', 'PREP'), ('acidentes', 'N'), ('.', '.')]


In [29]:
#Outra forma de verificar a Morfologia das palavras
from textblob import TextBlob
morf = TextBlob(Frase)

morf.tags

[('Desejo', 'NNP'),
 ('que', 'NN'),
 ('você', 'NN'),
 ('não', 'JJ'),
 ('tenha', 'NN'),
 ('medo', 'NN'),
 ('da', 'NN'),
 ('vida', 'NN'),
 ('tenha', 'JJ'),
 ('medo', 'FW'),
 ('de', 'FW'),
 ('não', 'FW'),
 ('vivê-la', 'NN'),
 ('Não', 'NNP'),
 ('há', 'NN'),
 ('céu', 'NN'),
 ('sem', 'NN'),
 ('tempestades', 'NNS'),
 ('nem', 'JJ'),
 ('caminhos', 'NN'),
 ('sem', 'NN'),
 ('acidentes', 'NNS')]

**Morfologia das palavras**

# Corpus: Lista

In [30]:
#Texto no formato de lista
text = ["O sucesso tem uma estranha capacidade de esconder o erro.",
      "Só existe um êxito: a capacidade de levar a vida que se quer.",
      "A coragem não é ausência do medo; é a persistência apesar do medo."]

text

['O sucesso tem uma estranha capacidade de esconder o erro.',
 'Só existe um êxito: a capacidade de levar a vida que se quer.',
 'A coragem não é ausência do medo; é a persistência apesar do medo.']

In [31]:
#formato dos dados
type(text)

list

**Corpus no formato lista tem o início e o fim entre colchetes**

## Transformar Lista em STR

In [32]:
#Lista -> STR

new_text = str(text)
new_text

"['O sucesso tem uma estranha capacidade de esconder o erro.', 'Só existe um êxito: a capacidade de levar a vida que se quer.', 'A coragem não é ausência do medo; é a persistência apesar do medo.']"

In [33]:
type(new_text)

str

**Note que para transformar uma 'lista' em 'Str', foi adicionado aspas no começo e fim da frase**

In [34]:
#Criar um vetor de palavras unicas (Tokenizar) e remover stopwords 
from sklearn.feature_extraction.text import CountVectorizer
import warnings
warnings.filterwarnings('ignore')

vectorizer_text = CountVectorizer(min_df=1,ngram_range=(1,1))

term_text_matriz = vectorizer_text.fit_transform(text)

vectorizer_text = vectorizer_text.get_feature_names()
vectorizer_text

['apesar',
 'ausência',
 'capacidade',
 'coragem',
 'de',
 'do',
 'erro',
 'esconder',
 'estranha',
 'existe',
 'levar',
 'medo',
 'não',
 'persistência',
 'que',
 'quer',
 'se',
 'sucesso',
 'só',
 'tem',
 'um',
 'uma',
 'vida',
 'êxito']

In [60]:
#Criar uma matriz de palavras
text_matriz = pd.DataFrame(term_text_matriz.toarray(), columns=vectorizer_text)


#Adicionando as frases na matriz de palavras
text_df = pd.DataFrame(text,columns=['Frases'])
result = pd.concat([text_df,text_matriz], axis=1)
result

Unnamed: 0,Frases,apesar do,ausência do,capacidade de,coragem não,de esconder,de levar,do medo,esconder erro,estranha capacidade,...,persistência apesar,que se,se quer,sucesso tem,só existe,tem uma,um êxito,uma estranha,vida que,êxito capacidade
0,O sucesso tem uma estranha capacidade de escon...,0,0,1,0,1,0,0,1,1,...,0,0,0,1,0,1,0,1,0,0
1,Só existe um êxito: a capacidade de levar a vi...,0,0,1,0,0,1,0,0,0,...,0,1,1,0,1,0,1,0,1,1
2,A coragem não é ausência do medo; é a persistê...,1,1,0,1,0,0,2,0,0,...,1,0,0,0,0,0,0,0,0,0


**Observe que na matriz de palavras o valor do número é referente a quantidade de vezes que a palavra aparece no texto**

In [37]:
#Criar um vetor de palavras com bigramas
from sklearn.feature_extraction.text import CountVectorizer
import warnings
warnings.filterwarnings('ignore')


vectorizer_text = CountVectorizer(min_df=1,ngram_range=(2,2))

term_text_matriz = vectorizer_text.fit_transform(text)

vectorizer_text = vectorizer_text.get_feature_names()
vectorizer_text

['apesar do',
 'ausência do',
 'capacidade de',
 'coragem não',
 'de esconder',
 'de levar',
 'do medo',
 'esconder erro',
 'estranha capacidade',
 'existe um',
 'levar vida',
 'medo persistência',
 'não ausência',
 'persistência apesar',
 'que se',
 'se quer',
 'sucesso tem',
 'só existe',
 'tem uma',
 'um êxito',
 'uma estranha',
 'vida que',
 'êxito capacidade']

In [61]:
#Criar uma matriz de palavras com bigramas
text_matriz = pd.DataFrame(term_text_matriz.toarray(), columns=vectorizer_text)

#Adicionando as frases na matriz de palavras
text_df = pd.DataFrame(text,columns=['Frases'])
result = pd.concat([text_df,text_matriz], axis=1)
result

Unnamed: 0,Frases,apesar do,ausência do,capacidade de,coragem não,de esconder,de levar,do medo,esconder erro,estranha capacidade,...,persistência apesar,que se,se quer,sucesso tem,só existe,tem uma,um êxito,uma estranha,vida que,êxito capacidade
0,O sucesso tem uma estranha capacidade de escon...,0,0,1,0,1,0,0,1,1,...,0,0,0,1,0,1,0,1,0,0
1,Só existe um êxito: a capacidade de levar a vi...,0,0,1,0,0,1,0,0,0,...,0,1,1,0,1,0,1,0,1,1
2,A coragem não é ausência do medo; é a persistê...,1,1,0,1,0,0,2,0,0,...,1,0,0,0,0,0,0,0,0,0


**Quanto maior a quantidade de palavras dentro do token, menor a frequência das palavras entre os textos**

## Corpus: Dataframe

In [40]:
#Texto no formato de lista
text = ["O sucesso tem uma estranha capacidade de esconder o erro.",
      "Só existe um êxito: a capacidade de levar a vida que se quer.",
      "A coragem não é ausência do medo; é a persistência apesar do medo."]

In [41]:
#Texto no formato de STR

Frase = "Desejo que você não tenha medo da vida, tenha medo de não vivê-la. Não há céu sem tempestades, nem caminhos sem acidentes."


### STR -> Dataframe

In [42]:
# Tokenizar a frase em sentenças
from nltk.tokenize import sent_tokenize

#1° Converter para lista
token1 = sent_tokenize(Frase)

#Converter para dataframe
tibble1 = pd.DataFrame(token1,columns=['Frases'])
tibble1

Unnamed: 0,Frases
0,"Desejo que você não tenha medo da vida, tenha ..."
1,"Não há céu sem tempestades, nem caminhos sem a..."


**Transformação de um corpus 'Str' para 'Dataframe'**

### Lista -> Dataframe

In [43]:
#Transformar a lista em um dataframe
tibble2 = pd.DataFrame(text,columns=['Frases'])
tibble2

Unnamed: 0,Frases
0,O sucesso tem uma estranha capacidade de escon...
1,Só existe um êxito: a capacidade de levar a vi...
2,A coragem não é ausência do medo; é a persistê...


**Transformação de um corpus 'Lista' para 'Dataframe'**

In [44]:
#formato dos dados
print(type(tibble1))
print(type(tibble2))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


## Tokenizar o dataframe

In [45]:
#Tokenizar 
tibble2['tokenized_sents']  = tibble2.apply(lambda row: nltk.word_tokenize(row[0]), axis=1)
tibble2

Unnamed: 0,Frases,tokenized_sents
0,O sucesso tem uma estranha capacidade de escon...,"[O, sucesso, tem, uma, estranha, capacidade, d..."
1,Só existe um êxito: a capacidade de levar a vi...,"[Só, existe, um, êxito, :, a, capacidade, de, ..."
2,A coragem não é ausência do medo; é a persistê...,"[A, coragem, não, é, ausência, do, medo, ;, é,..."


**Criamos a coluna 'tokenized_sents', que fez a tokenização das palavras de cada frase**

In [46]:
#Contagem de tokens de palavras por frases
tibble2['sents_length'] = tibble2.apply(lambda row: len(row['tokenized_sents']), axis=1)
tibble2

Unnamed: 0,Frases,tokenized_sents,sents_length
0,O sucesso tem uma estranha capacidade de escon...,"[O, sucesso, tem, uma, estranha, capacidade, d...",11
1,Só existe um êxito: a capacidade de levar a vi...,"[Só, existe, um, êxito, :, a, capacidade, de, ...",15
2,A coragem não é ausência do medo; é a persistê...,"[A, coragem, não, é, ausência, do, medo, ;, é,...",15


**Criamos a coluna 'sents_length', que contou a quantidade de tokens de palavras de cada frase**

## Bag of words 

In [62]:
#Bag of words 
bag_df = pd.Series([y for x in tibble2['Frases'].values.flatten() for y in x.split()]).value_counts()
bag_df

a               3
capacidade      2
de              2
do              2
é               2
O               1
que             1
apesar          1
persistência    1
medo;           1
ausência        1
não             1
coragem         1
A               1
quer.           1
se              1
levar           1
vida            1
sucesso         1
êxito:          1
um              1
existe          1
Só              1
erro.           1
o               1
esconder        1
estranha        1
uma             1
tem             1
medo.           1
dtype: int64

**Contagem de palavras das frases**

In [48]:
#Transformar o dataframe em uma lista
df_list = tibble2['Frases'].tolist()
print(type(df_list))

<class 'list'>


In [49]:
#Transformar o dataframe em STR
df_str = str(tibble2['Frases'])
print(type(df_str))

<class 'str'>


## Corpus: Dicionário 

In [50]:
#Dicionário
corpus_dict = {1: 'O importante não é vencer todos os dias, mas lutar sempre.',
          2: 'É melhor conquistar a si mesmo do que vencer mil batalhas.',
          3: 'Quem ousou conquistar e saiu pra lutar, chega mais longe!',
          4: 'O medo de perder tira a vontade de ganhar.'}

corpus_dict

{1: 'O importante não é vencer todos os dias, mas lutar sempre.',
 2: 'É melhor conquistar a si mesmo do que vencer mil batalhas.',
 3: 'Quem ousou conquistar e saiu pra lutar, chega mais longe!',
 4: 'O medo de perder tira a vontade de ganhar.'}

In [51]:
#formato dos dados
type(corpus_dict)

dict

**Corpus no formato Dicionário tem os atributos chave e valor**

In [52]:
#Extrair apenas os valores do dicionário
dic_values = corpus_dict.values()
dic_values

dict_values(['O importante não é vencer todos os dias, mas lutar sempre.', 'É melhor conquistar a si mesmo do que vencer mil batalhas.', 'Quem ousou conquistar e saiu pra lutar, chega mais longe!', 'O medo de perder tira a vontade de ganhar.'])

In [53]:
# Transformar o dicionario em uma lista
type(list(dic_values))

list

In [54]:
# Transformar o dicionario em uma STR
type(str(dic_values))

str

# Conclusão:

**O processamento de linguagem natural garante que o computador reconheça o contexto da mensagem, faça uma análise morfológica, semântica, sintática, e interprete sentidos. Para isso ocorrer, o pré-processamento dos dados tem que ser feito de forma criteriosa, sendo assim, somente os dados importantes serão analisados, e o conhecimento no formato dos dados é essencial, pois ele determina a forma como vamos tratar**