## Aula 1 - Processamento de Linguagem Natual

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

1) Dados Estruturados e Não Estruturados.  
2) Introdução a NLP.  
3) Processamento de Textos.  
4) Exercícios.  

<img src="https://i1.wp.com/thedatascientist.com/wp-content/uploads/2018/09/data_science_wordcloud.png?fit=1584%2C1008&ssl=1" width=800>

Primeiramente, precisamos entender qual a diferença enre as duas fontes de dados mais comuns, sendo elas dados **estruturados** e **não estruturados**. Definimos ele como:
<br><br>
- **Dados Estruturados:** São dados que seguem uma estrutura mais rígida com um padrão fixo e constante. Por exemplo: Tabelas e DataFrames;<br><br>
- **Dados Não estruturados:** Como já diz o nome, são dados que não tem uma estrutura bem estabelecida e necessitam de um processamento adicional para trabalharmos com eles. Exemplos: áudios, vídeos, textos e etc

### Introdução ao Processamento de Linguagem Natural (NLP)

O Processamento de Linguagem Natural, mas conhecido como NLP, é a abordagem onde trabalhamos com **dados não estruturados** do tipo **Texto**. O objetivo de trabalharmos com textos é extrair de informação e teor linguístico das nossas bases de textos e converter isso de uma forma númerica, onde poderemos utilizar em nossos modelos de *Machine Learning*.<br><br>
Temos como exemplos de aplicações de NLP como:
- Análise de Sentimentos em review de filmes e produtos ou mensagens em redes sociais;
- Filtro de E-Mails Spams e Não Spams;
- Identificação de textos a partir de construções linguísticas (descobrir se um texto foi escrito ou não por Machado de assis);
- Tradutores de Idiomas;
- ChatBots;
- Corretores Ortográficos;
- Classificação de textos de acordo com o conteúdo do texto (Esportes, Política, Economia e etc).
<br><br>
Nesta aula iremos aprender a partir dos nossos dados textuais a como processar, tratar e transformar os dados de uma maneira que os modelos de *Machine Learning* entendam.<br><br>

A principal biblioteca de referência para NLP chama-se [NLTK - Natural Language Toll Kit](https://www.nltk.org/)

### Processamento de Textos

Antes de mais nada, precisamos filtrar e tratar os nossos textos, de forma a deixar apenas o conteúdo de mais relevantes para a nossa análise. Existem alguns processos importantes para trabalhar com os textos (não necessariamente você precisa aplicar todos os procesos)

- Remoção de Stopwords;
- Limpeza de Textos;
- Tokenização;
- Normalização do Texto.



### Stopwords

Stopwords são palavras que aparecem com uma frequência muito alta nos textos, mas que não trazem um teor de conteúdo relevante para o nosso modelo. Vamos entender isso na prática:

In [39]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')  # https://www.nltk.org/_modules/nltk/tokenize/punkt.html
nltk.download('rslp')   # Stemmer em português

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/cecilia/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/cecilia/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package rslp to /Users/cecilia/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

Baixada a função de Stopwords, vamos definir um set de stopwords onde teremos uma lista com todas as stopwords em inglês já identificadas:

In [2]:
stopwords_en = stopwords.words('english')

In [3]:
len(stopwords_en)

179

In [4]:
type(stopwords_en)

list

In [5]:
stopwords_en

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [6]:
stopwords_port = nltk.corpus.stopwords.words('portuguese')

In [7]:
len(stopwords_port)

207

In [8]:
len(set(stopwords_port))

207

In [9]:
stopwords_port

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

Vamos agora aplicar a remoção de Stopwords:

In [10]:
example = ["my", "house", "is", "black", "and", "white", "but", "isn't", "big"]

In [11]:
print('my' in stopwords_en)
print('house' in stopwords_en)
print('is' in stopwords_en)
print('black' in stopwords_en)
print('and' in stopwords_en)
print('white' in stopwords_en)
print('but' in stopwords_en)
print("isn't" in stopwords_en)
print("big" in stopwords_en)

True
False
True
False
True
False
True
True
False


### Limpeza do Texto

Existem alguns cuidados com relação a grafia das palavras e elementos em um texto que devemos tomar bastante cuidado antes de fazer qualquer outra coisa. Esses pontos são:<br><br>
- Transformar todas as palavras para MAIÚSCULAS ou minúsculas;
- Remover caracteres especiais;
- Remover dígitos (quando não forem relevantes);
- Remover acentuação (caso típico de quando trabalhamos com textos em Português);

In [12]:
words = ['FaRMacêuTIco', 'relogio', 'Parada']
for word in words:
    print(word.lower())

farmacêutico
relogio
parada


### Remoção de dígitos, caracteres especiais e qualquer outro item que não queremos no texto

Para essa etapa do processo, iremos utilizar uma biblioteca auxiliar [RegEx (Regular Expression)](https://docs.python.org/3/library/re.html):

In [14]:
import re

Importada a biblioteca, vamos utilizar a função *re.sub*, para substituir os elementos que não queremos nos nossos textos:

**Procure por re.sub**  
https://docs.python.org/3/library/re.html

Obs: Utilize o site https://regex101.com/ para criar o regex e o re.sub para substituir.

In [17]:
frase = 'São mais de 50 cursos em Data Science!!! #datascience #machinelearning'

# Mostra o texto original
print('Texto Original: ', frase)

# Removendo números
frase = re.sub(r'\d', '', frase)
print('Texto sem números', frase)

Texto Original:  São mais de 50 cursos em Data Science!!! #datascience #machinelearning
Texto sem números São mais de  cursos em Data Science!!! #datascience #machinelearning


In [19]:
# Texto agora sem caracteres especiais também
frase = re.sub(r"[^a-zA-Z]+", ' ', frase)

# Mostra o texto modificado
print('Texto sem os caracteres especiais: ', frase)

Texto sem os caracteres especiais:  S o mais de cursos em Data Science datascience machinelearning


Utilizem a documentação para descobrir mais códigos para filtrar elementos ou mesmo deem uma olhada nesse artigo, que resume de uma forma bem visual as aplicações do RegEx: [clique aqui](https://amitness.com/regex/)

Tutorial de regex https://blog.geekhunter.com.br/python-regex/

Hoje os emojis fazem parte da comunicação via mensagens, por isso iremos ver como utilizar frases contento emojis e trata-los de forma adequada

In [None]:
!pip install emoji

In [21]:
import emoji

In [22]:
texto = 'Python is :thumbs_up:'
print(emoji.emojize(texto))

Python is 👍


In [24]:
texto_com_emoji = 'Python is 👍'
emoji.demojize(texto_com_emoji)

'Python is :thumbs_up:'

Para ver a lista completa:

https://www.webfx.com/tools/emoji-cheat-sheet/

Link biblioteca: https://github.com/carpedm20/emoji/

### Exercício 1
Utilizar Regez para validar CPFs

In [35]:
pattern = r"^(\d{3}.){2}\d{3}-\d{2}$"
bool(re.match(pattern, '097.021.074-40'))

True

### Exercício 2

Utilizar Regex para validação de emails

In [38]:
email = 'cflavs.7@gmail.com'
pattern = r"\"?([-a-zA-Z0-9.`?{}]+@\w+\.\w+)\"?"  
patterns = re.compile(pattern)
bool(re.match(patterns, email))

True

Podemos utilizar NLP para identificar frases que contenham uma palavra chave!

In [42]:
example="People are fighting with covid these days. Economy has fallen down. How will we survive covid" 
keyword = 'covid'
line=re.findall(r'([^.]*'+keyword+'[^.]*)', example)
line

['People are fighting with covid these days', ' How will we survive covid']

### Remoção de Acentuação
Para a remoção de acentuação, iremos utilizar uma bibloteca chamada *Unidecode*:

In [None]:
# Caso precise instalar a biblioteca, descomente o código abaixo
!pip install unidecode

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from unidecode import unidecode

In [None]:
string = 'João SeBastião Alvará Vovô Linguinça Expressão'
print(string)

string = unidecode(string)
print(string)

João SeBastião Alvará Vovô Linguinça Expressão
Joao SeBastiao Alvara Vovo Linguinca Expressao


## Tokenização

Tokenização é um processo onde transformamos um texto de uma string única em fragmentos desse texto na forma de *tokens*, que nada mais são do que as próprias palavras! Para isso, vamos utilizar a função *word_tokenize* do NLTK:

In [2]:
from nltk.tokenize import word_tokenize

In [48]:
string = 'O rato roeu a roupa do rei de roma.'
words = word_tokenize(string)

print('A frase original é', string)
print('Os tokens são', words)
print('Com split', string.split(' '))

A frase original é O rato roeu a roupa do rei de roma.
Os tokens são ['O', 'rato', 'roeu', 'a', 'roupa', 'do', 'rei', 'de', 'roma', '.']
Com split ['O', 'rato', 'roeu', 'a', 'roupa', 'do', 'rei', 'de', 'roma.']


## Normalização de Textos

**Normalização de Textos (Text Normalization)** é o procedimento que consiste em **padronizar** o texto, de modo a evitar que variações tornem os modelos demasiadamente complexos. Por exemplo: tratar singular/plural como a mesma coisa, ou então eliminar conjugação de verbos. Outras componentes comuns da normalização são a de eliminar palavras que não agregam muito significado, ou palavras muito raras.

Abaixo alguns exemplos de ações de Text Normalization que podem ser aplicadas no pré-processamento de dados textuais:

**Stemming** - Redução de tokens à sua raiz invariante através da **remoção de prefixos ou sufixos**. Baseado em heurística<br>
**Lemmatization** - Redução de tokens à sua raiz invariante através da **análise linguística do token**. Baseado em dicionário léxico<br>

## Stemming

In [44]:
from nltk.stem.porter import *
from nltk.stem import RSLPStemmer

In [45]:
# Inicializando o Porter Stemmer
stemmer = PorterStemmer()

# Criando uma lista de palavras
words = ['saying', 'writing', 'running', 'ate', 'worked']

# Criando uma lista vazia para armazenar as palavras stem
stem_words = []

# Percorrendo a lista de palavras
for w in words:
    print(stemmer.stem(w))

say
write
run
ate
work


In [55]:
# Criando uma lista de palavras em português
words_port = ['correndo', 'corra']

# Inicializando o Porter Stem para português (RSLPStemmer)
stemmer_port = RSLPStemmer()

# Percorrendo a lista de palavras
for w in words_port:
    print(stemmer_port.stem(w))

corr
corr


In [None]:
!python3 -m spacy download "pt_core_news_sm"

### Lemmatization

In [63]:
import spacy
nlp = spacy.load("pt_core_news_sm")

In [69]:
doc = nlp(str([palavra for palavra in words_port]))

In [70]:
[token.lemma_ for token in doc if token.pos_ == 'NOUN']

['corra']

In [42]:
# Importando o Lemmatizer
from nltk.stem import WordNetLemmatizer 

# https://www.nltk.org/howto/wordnet.html
nltk.download('wordnet')

# NLTK 3.6.6 release: December 2021:
# support OMW 1.4, use Multilingual Wordnet Data from OMW with newer Wordnet versions
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /Users/cecilia/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /Users/cecilia/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [43]:
# Inicializando o Lemmatizer
lemmatizer = WordNetLemmatizer()

In [73]:
# Exemplos simples
print("rocks :", lemmatizer.lemmatize("rocks")) 
print("corpora :", lemmatizer.lemmatize("corpora")) 

# argumento "pos" indica a qual classe gramatical o token pertence
print("running :", lemmatizer.lemmatize("running", pos = "v")) 
print("went :", lemmatizer.lemmatize("went", pos = 'v'))

rocks : rock
corpora : corpus
running : run
went : go


### POS - Parts of Speech

 Part-of_Speech Tagging é uma ferramenta auxiliar de alguns modelos mais complexos de NLP, que ajuda na identificação dos elementos gramaticais dentro de uma frase. Ou seja, o pos_tag identifica dentro de um texto quais elementos são verbos, sujeitos, pronomes e assim por diante. A Forma de aplicar o Part-of_Speech Tagging será utilizando a função pos_tag do NLTK
 
 https://www.guru99.com/pos-tagging-chunking-nltk.html

In [70]:
import nltk
from nltk import pos_tag

# Baixa um estimador de tags
nltk.download('averaged_perceptron_tagger')

# Cria uma frase em tokens como exemplo
words = ['learning', 'data', 'science', 'is', 'one', 'of', 'the', 'best', 'things']

# Cria as tags
tagged = pos_tag(words)

# Mostra os resultados
print('Palavras: ', words)
print('POS Tagging: ', tagged)

Palavras:  ['learning', 'data', 'science', 'is', 'one', 'of', 'the', 'best', 'things']
POS Tagging:  [('learning', 'VBG'), ('data', 'NNS'), ('science', 'NN'), ('is', 'VBZ'), ('one', 'CD'), ('of', 'IN'), ('the', 'DT'), ('best', 'JJS'), ('things', 'NNS')]


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/cecilia/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


### Named Entity Recognition (NER)

- Identifica nomes de entidades em textos (pessoas, locais, organizações)



In [5]:
text = "NASA awarded Elon Musk’s SpaceX a $2.9 billion contract to build the lunar lander."
tokens = word_tokenize(text)
tag=nltk.pos_tag(tokens)
print(tag)

ne_tree = nltk.ne_chunk(tag)
print(ne_tree)

[('NASA', 'NNP'), ('awarded', 'VBD'), ('Elon', 'NNP'), ('Musk', 'NNP'), ('’', 'NNP'), ('s', 'VBD'), ('SpaceX', 'NNP'), ('a', 'DT'), ('$', '$'), ('2.9', 'CD'), ('billion', 'CD'), ('contract', 'NN'), ('to', 'TO'), ('build', 'VB'), ('the', 'DT'), ('lunar', 'NN'), ('lander', 'NN'), ('.', '.')]
(S
  (ORGANIZATION NASA/NNP)
  awarded/VBD
  (PERSON Elon/NNP Musk/NNP)
  ’/NNP
  s/VBD
  (ORGANIZATION SpaceX/NNP)
  a/DT
  $/$
  2.9/CD
  billion/CD
  contract/NN
  to/TO
  build/VB
  the/DT
  lunar/NN
  lander/NN
  ./.)


## Pipeline de Processamento de Textos

Conhecendo todos os tipos de processamentos que podemos utilizar, uma forma útil e organizada para isso é construirmos uma funçãi que receba o nosso dados originais e realizada todos os processamentos que queremos nos textos:

### Exercício

Crie uma classe que seja capaz de:

- Metodo para remover acentuação
- Metodo de remover digitos
- Metodo de remover caracteres especiais
- Metodo de normalizar o texto em caixa baixa
- Metodo para criar os tokens
- Metodo para filtrar stopwords
- Metodo para pegar o stemming
- Metodo para pegar o lemma
- Metodo pipeline responsável por chamar os preprocessamentos necessários


In [33]:
class PreProcesssPhrase:

  def remove_acentuacao(self, phrase: str, debug: bool = False) -> str:
    # Utilizando a biblioteca unidecode para remover acentuação de texto
    phrase_fmt = unidecode(phrase)
    if debug:
      print('`remove_acentuacao`: Frase original', phrase)
      print('`remove_acentuacao`: Frase formatada', phrase_fmt)

    # Retornando a frase formatada
    return phrase_fmt


  def remove_digits(self, phrase: str, debug: bool = False) -> str:
    # utilizando expressões regulares para remoção de digitos
    phrase_no_digits = re.sub(r'\d', '', phrase)

    # Se quisermos ligar o debug, mostre a frase original e transformada
    if debug:
      print('`remove_digits`: Texto original:', phrase)
      print('`remove_digits`: Texto sem digitos:', phrase_no_digits)

    # Retornando a frase sem digitos
    return phrase_no_digits

  def remove_special_char(self, phrase: str, debug: bool = False) -> str:
    # utilizando expressões regulares para remoção de caracteres especiais
    phrase_no_special_char = re.sub(r'[^a-zA-Z0-9]+', ' ', phrase)

    # Se quisermos ligar o debug, mostre a frase original e transformada
    if debug:
      print('`remove_special_char`: Texto original:', phrase)
      print('`remove_special_char`: Texto sem caracteres especiais:', phrase_no_special_char)

    # Retornando a frase sem digitos
    return phrase_no_special_char

  def word_lower(self, word: str, debug: bool = False) -> str:
    try:
      # Formatando a palavra em caixa baixa
      word_fmt = word.lower()

      # Se o debug for True, iremos imprimir a palavra original e transformada
      if debug:
        print('`word_lower`: Palavra Original:', word)
        print('`word_lower`: Palavra transformada:', word_fmt)

    except:
      # Caso a palavra não seja uma string levante um erro (TypeError) informando qual o tipo da palavra passada
      raise TypeError(f'Esperava uma `word` no tipo str, foi passado uma {type(word)}')

    # Retornando a palavra formatada
    return word_fmt

  def remove_stopwords(self, words: list[str], debug=False) -> list[str]:
    # Carregando as stopwords (inglês)
    stopwords_en = stopwords.words('english')
    # Criando uma váriavel que irá armazenar elementos limpos, que não estejam dentro das stopwords
    clean_words = []

    # Percorrendo cada palavra da nossa lista de palavras
    for word in words:
      # Verificando se a palavra não está presente das stopwords
      if word not in stopwords_en:
        # Se a palavra não é uma stopword adicionamos elas a váriavel clean_words
        clean_words.append(word)
      else:
        # Caso a palavra seja uma stopword e estamos no modo de debug (debug=True)
        if debug:
          # Imprimimos qual a palavra da lista words é uma stopword
          print(f'`remove_stopwords`: A palavra {word} está presente nas stopwords')
    return clean_words

  def tokenizer(self, phrase: str, debug: bool) -> list[str]:
    words = word_tokenize(phrase)
    if debug:
        print('`tokenizer`: Frase original:', phrase)
        print('`tokenizer`: tokens:', words)
    return words

  def stemmer(self, words: list[str], debug: bool = False) -> list[str]:
    # Inicializando o Porter Stemmer (inglês)
    stemmer = PorterStemmer()
    # Criando uma lista vazia para armazenar as palavras stem
    stem_words = []
    for word in words:
      # Pegando o stem de cada palavra
      s_word = stemmer.stem(word)
      # Adicionando essa palavra modificada a lista stem_words
      stem_words.append(s_word)

    if debug:
        print('`stemmer`: Tokens originais:', words)
        print('`stemmer`: Tokens transformadods:', stem_words)
    return stem_words

  def lemmatizer(self, words: list[str], debug: bool = False) -> list[str]:
    # Inicializando o WordNetLemmatizer (inglês)
    lemmatizer = WordNetLemmatizer()
    # Criando uma lista vazia para armazenar as palavras lemma
    lemm_words = []
    for word in words:
      # Pegando o lemma de cada palavra
      l_words = lemmatizer.lemmatize(word, pos='v')
      # Adicionando essa palavra modificada (lemma) a lista lemm_words
      lemm_words.append(l_words)

    if debug:
        print('`stemmer`: Tokens originais:', words)
        print('`stemmer`: Tokens transformadods:', lemm_words)
    return stem_words


  def pipeline(self, phrase: str, methods: list[str], debug: bool = False):
    switcher = {
        'remove_acentuacao': self.remove_acentuacao,
        'remove_digits': self.remove_digits,
        'remove_special_char': self.remove_special_char,
        'word_lower': self.word_lower,
        'remove_stopwords': self.remove_stopwords,
        'tokenizer': self.tokenizer,
        'stemmer': self.stemmer,
        'lemmatizer': self.lemmatizer
    }
    for method in methods:
      # remove_stopwords
      if method == 'remove_stopwords':
        phrase = switcher[method](phrase, debug=debug)
        
      else:
        phrase = switcher[method](phrase, debug=debug)

    return phrase

In [29]:
from unidecode import unidecode

In [34]:
phrase = 'I grew up (b. 1965) watching and loving ç'

In [35]:
preprocess = PreProcesssPhrase()

In [36]:
# 'remove_acentuacao'
# 'remove_digits'
# 'remove_special_char'
# 'word_lower'
# 'remove_stopwords'
# 'tokenizer'
# 'stemmer'
# 'lemmatizer'
pipeline = ['remove_digits']
# Removendo apenas os digitos com o pipeline
preprocess.pipeline(phrase, methods=pipeline, debug=True)

`remove_digits`: Texto original: I grew up (b. 1965) watching and loving ç
`remove_digits`: Texto sem digitos: I grew up (b. ) watching and loving ç


'I grew up (b. ) watching and loving ç'

In [37]:
pipeline = ['remove_digits', "remove_special_char"]
# Removendo digitos e caracteres especiais com o pipeline
preprocess.pipeline(phrase, methods=pipeline, debug=True)

`remove_digits`: Texto original: I grew up (b. 1965) watching and loving ç
`remove_digits`: Texto sem digitos: I grew up (b. ) watching and loving ç
`remove_special_char`: Texto original: I grew up (b. ) watching and loving ç
`remove_special_char`: Texto sem caracteres especiais: I grew up b watching and loving 


'I grew up b watching and loving '

In [40]:
pipeline = ['remove_digits', 'tokenizer', "remove_stopwords"]
# Removendo digitos, criando tokens e removendo stopwords com o pipeline
preprocess.pipeline(phrase, methods=pipeline, debug=True)

`remove_digits`: Texto original: I grew up (b. 1965) watching and loving ç
`remove_digits`: Texto sem digitos: I grew up (b. ) watching and loving ç
`tokenizer`: Frase original: I grew up (b. ) watching and loving ç
`tokenizer`: tokens: ['I', 'grew', 'up', '(', 'b', '.', ')', 'watching', 'and', 'loving', 'ç']
`remove_stopwords`: A palavra up está presente nas stopwords
`remove_stopwords`: A palavra and está presente nas stopwords


['I', 'grew', '(', 'b', '.', ')', 'watching', 'loving', 'ç']

In [46]:
# 'remove_acentuacao'
# 'remove_digits'
# 'remove_special_char'
# 'word_lower'
# 'remove_stopwords'
# 'tokenizer'
# 'stemmer'
# 'lemmatizer'
pipeline = [
    'remove_digits', 'remove_special_char', 'word_lower', 'tokenizer',
    'remove_stopwords', 'stemmer'
]
phrase_proc = preprocess.pipeline(phrase, methods=pipeline, debug=True)

`remove_digits`: Texto original: I grew up (b. 1965) watching and loving ç
`remove_digits`: Texto sem digitos: I grew up (b. ) watching and loving ç
`remove_special_char`: Texto original: I grew up (b. ) watching and loving ç
`remove_special_char`: Texto sem caracteres especiais: I grew up b watching and loving 
`word_lower`: Palavra Original: I grew up b watching and loving 
`word_lower`: Palavra transformada: i grew up b watching and loving 
`tokenizer`: Frase original: i grew up b watching and loving 
`tokenizer`: tokens: ['i', 'grew', 'up', 'b', 'watching', 'and', 'loving']
`remove_stopwords`: A palavra i está presente nas stopwords
`remove_stopwords`: A palavra up está presente nas stopwords
`remove_stopwords`: A palavra and está presente nas stopwords
`stemmer`: Tokens originais: ['grew', 'b', 'watching', 'loving']
`stemmer`: Tokens transformadods: ['grew', 'b', 'watch', 'love']


In [47]:
phrase_proc

['grew', 'b', 'watch', 'love']

In [48]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [49]:
movies = pd.read_csv('movies.csv', index_col=0)
movies

Unnamed: 0,text,label
0,I grew up (b. 1965) watching and loving the Th...,0
1,"When I put this movie in my DVD player, and sa...",0
2,Why do people who do not know what a particula...,0
3,Even though I have great interest in Biblical ...,0
4,Im a die hard Dads Army fan and nothing will e...,1
...,...,...
4995,This is the kind of picture John Lassiter woul...,1
4996,A MUST SEE! I saw WHIPPED at a press screening...,1
4997,NBC should be ashamed. I wouldn't allow my chi...,0
4998,This movie is a clumsy mishmash of various gho...,0


In [50]:
movies_sample = movies.sample(frac=0.1, replace=False)

In [51]:
preprocess = PreProcesssPhrase()
pipeline = [
    'remove_digits',
    'remove_special_char',
    'word_lower',
    'tokenizer',
    'remove_stopwords',
    'stemmer'
]
movies_sample["filtered_words"] = movies_sample['text'].apply(preprocess.pipeline, methods=pipeline)

In [52]:
movies_sample['filtered_words']

32214    [movi, good, concept, execut, live, br, br, co...
21823    [film, aw, screenplay, bad, script, mediocr, e...
35693    [ever, tri, kind, food, friend, made, said, wo...
8705     [first, time, ever, saw, movi, jami, foxx, bet...
14439    [dread, bore, movi, even, documentari, time, p...
                               ...                        
17007    [also, known, stairway, heaven, us, wwii, brit...
12073    [rememb, view, movi, kid, recal, terrifi, imme...
2789     [think, polic, alway, right, br, br, believ, e...
11400    [rais, canada, saw, short, mani, time, mostli,...
17223    [yet, quit, bad, enough, make, enjoy, fact, on...
Name: filtered_words, Length: 5000, dtype: object

In [53]:
# Normalmente depois do processamento juntamos as palavras novamente em uma única string
movies_sample['join_words'] = movies_sample['filtered_words'].apply(lambda x: ' '.join(x))

In [54]:
movies_sample['join_words']

32214    movi good concept execut live br br concept we...
21823    film aw screenplay bad script mediocr even sex...
35693    ever tri kind food friend made said wow good m...
8705     first time ever saw movi jami foxx bet last fa...
14439    dread bore movi even documentari time provid i...
                               ...                        
17007    also known stairway heaven us wwii british pet...
12073    rememb view movi kid recal terrifi immens stay...
2789     think polic alway right br br believ eye wit a...
11400    rais canada saw short mani time mostli cbc see...
17223    yet quit bad enough make enjoy fact one bore r...
Name: join_words, Length: 5000, dtype: object

#### Analisando vocabulário

In [55]:
vocabulary = pd.DataFrame(
    np.concatenate(movies_sample['filtered_words'].values),
    columns=['word']
)

In [56]:
vocabulary.groupby('word').size().sort_values()

word
aa              1
lour            1
louri           1
lousiest        1
loutish         1
            ...  
like         4527
one          5444
film         9718
movi        10077
br          19984
Length: 25951, dtype: int64

In [57]:
vocabulary.groupby('word').size().sort_values().to_dict()

{'aa': 1,
 'lour': 1,
 'louri': 1,
 'lousiest': 1,
 'loutish': 1,
 'louwyck': 1,
 'lovel': 1,
 'loveli': 1,
 'loveliest': 1,
 'lovestruck': 1,
 'lovin': 1,
 'lovitz': 1,
 'louisianna': 1,
 'lovomaniac': 1,
 'lowlif': 1,
 'lowood': 1,
 'lowpoint': 1,
 'loyalist': 1,
 'lp': 1,
 'lq': 1,
 'lr': 1,
 'ltd': 1,
 'luana': 1,
 'lubric': 1,
 'lucian': 1,
 'loweri': 1,
 'luciano': 1,
 'loudspeak': 1,
 'lotta': 1,
 'longingli': 1,
 'longinotto': 1,
 'longleg': 1,
 'longshank': 1,
 'longtim': 1,
 'longueur': 1,
 'longwind': 1,
 'lonli': 1,
 'lonni': 1,
 'lookin': 1,
 'loompa': 1,
 'lotti': 1,
 'loonivers': 1,
 'loooong': 1,
 'loooooov': 1,
 'looser': 1,
 'lop': 1,
 'lordi': 1,
 'lordli': 1,
 'lorean': 1,
 'lorri': 1,
 'losthorizon': 1,
 'loth': 1,
 'lotsa': 1,
 'looong': 1,
 'longev': 1,
 'luckett': 1,
 'luddit': 1,
 'lyndsay': 1,
 'lynley': 1,
 'lynx': 1,
 'lyta': 1,
 'maaan': 1,
 'mab': 1,
 'mabus': 1,
 'macarena': 1,
 'macbrid': 1,
 'macca': 1,
 'macdougal': 1,
 'lynda': 1,
 'mace': 1,
 'macedo

In [66]:
# Separando críticas positivas
review_pos = movies_sample[movies_sample['label'] == 1]
vocabulary_pos = pd.DataFrame(np.concatenate(review_pos['filtered_words'].values), columns=['word'])
vocabulary_pos.groupby('word').size().sort_values(ascending=False)[:20]

word
br         9962
film       5305
movi       4356
one        2807
like       2130
time       1688
good       1574
see        1512
stori      1456
charact    1427
make       1411
watch      1376
well       1363
get        1323
great      1312
love       1237
show       1151
would      1123
also       1123
realli     1069
dtype: int64