Crie uma classe que seja capaz de:

- Metodo para remover acentuação
- Metodo de remover digitos
- Metodo de remover caracteres especiais
- Metodo de normalizar o texto em caixa baixa
- Metodo para criar os tokens
- Metodo para filtrar stopwords
- Metodo para pegar o stemming
- Metodo para pegar o lemma
- Metodo de pipeline.

In [51]:
import nltk
import re
from unidecode import unidecode
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.stem.porter import *
from nltk.stem import RSLPStemmer
import spacy
stopwords = nltk.corpus.stopwords.words('english')
words_pt = nltk.corpus.stopwords.words('portuguese')
from sklearn.pipeline import Pipeline
pt_core = spacy.load("pt_core_news_sm")
nltk.download('stopwords')

In [2]:
movies = pd.read_csv('../dataset/movies.csv', index_col=0)
movies

Unnamed: 0,text,label
0,I grew up (b. 1965) watching and loving the Th...,0
1,"When I put this movie in my DVD player, and sa...",0
2,Why do people who do not know what a particula...,0
3,Even though I have great interest in Biblical ...,0
4,Im a die hard Dads Army fan and nothing will e...,1
...,...,...
4995,This is the kind of picture John Lassiter woul...,1
4996,A MUST SEE! I saw WHIPPED at a press screening...,1
4997,NBC should be ashamed. I wouldn't allow my chi...,0
4998,This movie is a clumsy mishmash of various gho...,0


In [3]:
movies_sample = movies.sample(frac=0.1, replace=False, ignore_index="true")

In [4]:
movies_sample

Unnamed: 0,text,label
0,It used to be my thinking that movies required...,0
1,Given that a lot of horror films are based on ...,0
2,I went into this movie with very little in ter...,0
3,Picking this up along with the rest of the Mar...,0
4,I was really surprised with this movie. Going ...,1
...,...,...
4995,Bo Derek's beauty and John Derek's revolutiona...,1
4996,What a terrible movie! The acting in this film...,0
4997,A film about an interesting and sensitive peri...,0
4998,I was never in the past interested in this pla...,1


In [64]:
class dados:
    """classe para limpar dados"""
    limpa_dados = "msg"
    
    def __init__(self):
        """inicio da função"""
        #self.texto = texto
        #print(f"tratamento para as informações :{self.texto}\n")
        
    def acentuacao(self, acento):
        """Metodo para remover acentuação"""
        
        self.acento = acento
        return unidecode.unidecode(self.acento)
        
    def digito(self, digi):
        """Metodo de remover digitos"""
        
        self.digi = digi
        digi = re.sub(r'\d', '', self.digi)
        
        return digi
    
    def caractere(self, caracter):
        """Metodo de remover caracteres especiais"""
        
        self.caracter = caracter
        saida  = re.sub(r'\W',' ', self.caracter)      
        return saida
    
    def minusculo_lower(self, baixa):
        """Metodo de normalizar o texto em caixa baixa"""
        
        self.baixa = baixa
        saida = self.baixa.lower()
        return saida
    
    def tokens(self, token):
        """Metodo para criar os tokens"""
        
        self.token = token
        saida = word_tokenize(self.token)
        return saida
    
    def remove_stopwords(self, entrada, idioma ="ingles"):
        """filtrar entrada digite o idioma ingles, portugues"""
        
        
        #words_en = stopwords.words('english')
        self.entrada = entrada
        self.idioma = idioma
        lista = []
        
        if self.idioma == "ingles":            
            for word in self.entrada:
                if not word in stopwords:
                    lista.append(word)                

        
        elif self.idioma == "portugues":            
            for word in self.entrada:
                if not word in words_pt:
                    lista.append(word) 
                           
        else:
            print("1° tabela com processamento stopwords depois, Digite o idioma ingles ou portugues.")
            
        
        return lista
    
          
    
    def stemmer(self, stem):
        """Metodo para pegar o stemming"""
        
        stemmer = RSLPStemmer()
        stemer = PorterStemmer()        
        self.stem = stem
        
        
        stem_words = []
        
        for w in self.stem:
            s_words = stemmer.stem(w)
            stem_words.append(s_words)
                
                
        return stem_words
        
    def lemmatizacao(self, lemm):
        """Metodo para pegar o lemmatizacao"""
        
        self.lemm = lemm
                
        min_frase = []
        minimo = pt_core(str([palavra for palavra in self.lemm]))
        min_frase.append([token.lemma_ for token in minimo if token.pos_ == 'NOUN'])
        
        return min_frase
    
    def pipeline(self, text, methods):
        """pipe para saida dos metodos"""
        
        tratamento = {"acentuacao":self.acentuacao,
                      "digito":self.digito,
                      "caractere":self.caractere,
                      "minusculo_lower":self.minusculo_lower,
                      "tokens":self.tokens,
                      "remove_stopwords":self.remove_stopwords,
                      "stemmer":self.stemmer,
                      "lemmatizacao":self.lemmatizacao}
        #print(text)
        for m in methods:
            text = tratamento[m](text)
            
            return text
        

In [39]:
teste = dados()
teste_tokens = teste.tokens(frase)
stop = teste.remove_stopwords(teste_tokens, idioma)
lemm = teste.stemmer(stop)
stop

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\wiltd\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['Fui',
 'para',
 'ver',
 'este100',
 '200',
 '300',
 'filme',
 'com',
 'cautela',
 'Uma',
 'comédia',
 '/',
 '/',
 '*',
 '#',
 'suicida',
 'Não',
 'parecia',
 'consistente',
 'Ter',
 'um',
 'irmão',
 'que',
 'tentou',
 'suicídio',
 'e',
 'ver',
 'devastação',
 'que',
 'causou',
 'toda',
 'nossa',
 'família',
 'Eu',
 'sei',
 'em',
 'primeira',
 'mão',
 'como',
 'pode',
 'ser',
 'esmagador',
 'lidar',
 'com',
 'esse',
 'problema',
 '.',
 'devo',
 'dizer',
 'Este',
 'filme',
 'lida',
 'com',
 'isso',
 'de',
 'uma',
 'maneira',
 'que',
 'permite',
 'ao',
 'espectador',
 'dentro',
 'de',
 'alguém',
 'que',
 'está',
 'sofrendo',
 'e',
 'simplesmente',
 'não',
 'sabe',
 'por',
 'que',
 'ou',
 'como',
 'pará-lo',
 'Embora',
 'filme',
 'não',
 'seja',
 'perfeito',
 ',',
 'ele',
 'respeita',
 'assunto',
 'e',
 ',',
 'mais',
 'importante',
 ',',
 'torna',
 'acessível',
 'para',
 'massas',
 'Eu',
 'sei',
 'que',
 'para',
 'nossa',
 'família',
 'humor',
 'tem',
 'nos',
 'ajudado',
 'passar',
 'por

In [65]:
preprocess = dados()
pipeline = [
    'caractere',
    'digito',
    'minusculo_lower',
    'tokens',
    'remove_stopwords',
    'stemmer']

movies_sample['filtered_words'] = movies_sample['text'].apply(preprocess.pipeline, methods=pipeline)
movies_sample

Unnamed: 0,text,label,filtered_words
0,It used to be my thinking that movies required...,0,It used to be my thinking that movies required...
1,Given that a lot of horror films are based on ...,0,Given that a lot of horror films are based on ...
2,I went into this movie with very little in ter...,0,I went into this movie with very little in ter...
3,Picking this up along with the rest of the Mar...,0,Picking this up along with the rest of the Mar...
4,I was really surprised with this movie. Going ...,1,I was really surprised with this movie Going ...
...,...,...,...
4995,Bo Derek's beauty and John Derek's revolutiona...,1,Bo Derek s beauty and John Derek s revolutiona...
4996,What a terrible movie! The acting in this film...,0,What a terrible movie The acting in this film...
4997,A film about an interesting and sensitive peri...,0,A film about an interesting and sensitive peri...
4998,I was never in the past interested in this pla...,1,I was never in the past interested in this pla...


In [36]:
frase = 'Fui para ver este100 200 300 filme com cautela Uma comédia / / * #suicida Não parecia consistente Ter um irmão que tentou suicídio e ver a devastação que causou toda a nossa família Eu sei em primeira mão como pode ser esmagador lidar com esse problema. devo dizer Este filme lida com isso de uma maneira que permite ao espectador dentro de alguém que está sofrendo e simplesmente não sabe por que ou como pará-lo Embora o filme não seja perfeito, ele respeita o assunto e, mais importante, o torna acessível para as massas Eu sei que para a nossa família o humor tem nos ajudado a passar por muita dor E Max e Grace é exatamente o que prenuncia ser uma COMÉDIA suicida É engraçado E eu também senti que os personagens eram reais e vibrantes Também é extremamente inteligente, mas simples vai direto ao ponto e eu aprecio que eu dou um e recomendo '
idioma = "ingles"

In [45]:
#frase = movies_sample["text"][0]
teste = dados()
teste_tokens = teste.tokens(frase)
stop = teste.remove_stopwords(teste_tokens, idioma)
stemme = teste.stemmer(stop)
stemme
#teste.pipeline(lemm, tratamento)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\wiltd\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['fui',
 'par',
 'ver',
 'este100',
 '200',
 '300',
 'film',
 'com',
 'cautel',
 'uma',
 'coméd',
 '/',
 '/',
 '*',
 '#',
 'suic',
 'não',
 'parec',
 'consist',
 'ter',
 'um',
 'irm',
 'que',
 'tent',
 'suicídi',
 'e',
 'ver',
 'devast',
 'que',
 'caus',
 'tod',
 'noss',
 'famíl',
 'eu',
 'sei',
 'em',
 'prim',
 'mão',
 'com',
 'pod',
 'ser',
 'esmag',
 'lid',
 'com',
 'ess',
 'problem',
 '.',
 'dev',
 'diz',
 'est',
 'film',
 'lid',
 'com',
 'iss',
 'de',
 'uma',
 'man',
 'que',
 'permit',
 'ao',
 'espect',
 'dentr',
 'de',
 'alguém',
 'que',
 'est',
 'sofr',
 'e',
 'simples',
 'não',
 'sab',
 'por',
 'que',
 'ou',
 'com',
 'pará-l',
 'emb',
 'film',
 'não',
 'sej',
 'perfeit',
 ',',
 'ele',
 'respeit',
 'assunt',
 'e',
 ',',
 'mais',
 'import',
 ',',
 'torn',
 'acess',
 'par',
 'mass',
 'eu',
 'sei',
 'que',
 'par',
 'noss',
 'famíl',
 'hum',
 'tem',
 'no',
 'ajud',
 'pass',
 'por',
 'muit',
 'dor',
 'e',
 'max',
 'e',
 'grac',
 'é',
 'exat',
 'que',
 'prenunc',
 'ser',
 'uma',
 'com

In [40]:
phrase = movies_sample["text"][0]

In [41]:
phrase

"It used to be my thinking that movies required plots, or some other means of making you care at all about the story line or anything that is going on. This movie has showed me that you don't actually have to have anything like that.<br /><br />I could sum it up simply as that. But, IMDb wants me to have more lines. It was kind of pretty. not compelling in the slightest. The way the characters talk in the movie makes you think it should have taken place over a matter of days, but there is no passage of time and i'm pretty sure it all happens in an hour.<br /><br />If you are looking to entertain yourself, then buy a gallon of milk and see how fast you can drink it before throwing up. It would be a far better use of your time. Time that you will never get back. Jurassic Park 3 was pulled off better than this movie."

In [42]:
preprocess.pipeline(phrase, methods=pipeline)

TypeError: 'str' object is not callable