Crie uma classe que seja capaz de:

- Metodo para remover acentuação
- Metodo de remover digitos
- Metodo de remover caracteres especiais
- Metodo de normalizar o texto em caixa baixa
- Metodo para criar os tokens
- Metodo para filtrar stopwords
- Metodo para pegar o stemming
- Metodo para pegar o lemma
- Metodo de pipeline.

In [24]:
import nltk
import re
import unidecode
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.stem.porter import *
from nltk.stem import RSLPStemmer
import spacy
stopwords = nltk.corpus.stopwords.words('english')
words_pt = nltk.corpus.stopwords.words('portuguese')
from sklearn.pipeline import Pipeline

In [25]:
movies = pd.read_csv('../dataset/movies.csv', index_col=0)
movies

Unnamed: 0,text,label
0,I grew up (b. 1965) watching and loving the Th...,0
1,"When I put this movie in my DVD player, and sa...",0
2,Why do people who do not know what a particula...,0
3,Even though I have great interest in Biblical ...,0
4,Im a die hard Dads Army fan and nothing will e...,1
...,...,...
4995,This is the kind of picture John Lassiter woul...,1
4996,A MUST SEE! I saw WHIPPED at a press screening...,1
4997,NBC should be ashamed. I wouldn't allow my chi...,0
4998,This movie is a clumsy mishmash of various gho...,0


In [26]:
movies_sample = movies.sample(frac=0.1, replace=False, ignore_index="true")

In [27]:
movies_sample

Unnamed: 0,text,label
0,The storyline was okay. Akshay Kumar was good ...,0
1,"OK, well, no one in their right mind(s) would ...",1
2,Punishment Park is a pseudo-documentary made b...,1
3,Why take a show that millions of us watched an...,0
4,Even if you could get past the idea that these...,0
...,...,...
4995,I can't believe I watched this expecting more....,0
4996,Where the Rivers Flow North is a well-told sto...,1
4997,The film really challenges your notions of ide...,1
4998,i totally disagree with the person who first c...,1


In [44]:
class dados:
    """classe para limpar dados"""
    limpa_dados = "msg"
    
    def __init__(self, texto):
        """inicio da função"""
        self.texto = texto
        print(f"tratamento para as informações :{self.texto}\n")
        
    def acentuacao(self, acento):
        """Metodo para remover acentuação"""
        
        self.acento = acento
        return unidecode.unidecode(self.acento)
        
    def digito(self, digito):
        """Metodo de remover digitos"""
        
        self.digito = digito
        return re.sub(r'\d', '', self.digito)
        
    def caractere(self, caracter):
        """Metodo de remover caracteres especiais"""
        
        self.caracter = caracter
        return re.sub(r'\W',' ', self.caracter)      
    
    def minusculo_lower(self, baixa):
        """Metodo de normalizar o texto em caixa baixa"""
        
        self.baixa = baixa
        return self.baixa.lower()
        
    def tokens(self, token):
        """Metodo para criar os tokens"""
        
        self.token = token
        return word_tokenize(self.token)
    
    def remove_stopwords(self, entrada, idioma):
        """filtrar entrada digite o idioma ingles, portugues"""
        
        nltk.download('stopwords')
        #words_en = stopwords.words('english')
        self.entrada = entrada
        self.idioma = idioma
        lista = []
        
        if self.idioma == "ingles":            
            for word in self.entrada:
                if not word in stopwords:
                    lista.append(word)                

        
        elif self.idioma == "portugues":            
            for word in self.entrada:
                if not word in words_pt:
                    lista.append(word) 
                           
        else:
            print("1° tabela com processamento stopwords depois, Digite o idioma ingles ou portugues.")
            
        
        return lista
    
          
    
    def stemmer(self, stem):
        """Metodo para pegar o stemming"""
        
        stemmer = RSLPStemmer()
        stemer = PorterStemmer()        
        self.stem = stem
        
        
        stem_words = []
        
        for w in self.stem:
            s_words = stemmer.stem(w)
            stem_words.append(s_words)
                
                
        return stem_words
        
    def lemmatizacao(self, lemm):
        """Metodo para pegar o lemmatizacao"""
        
        self.lemm = lemm
        
        pt_core = spacy.load("pt_core_news_sm")
        
        min_frase = []
        minimo = pt_core(str([palavra for palavra in self.lemm]))
        min_frase.append([token.lemma_ for token in minimo if token.pos_ == 'NOUN'])
        
        return min_frase
    
    def pipeline(self, pipe, texto):
        """pipe para saida dos metodos"""
        
        self.pipe = pipe
        self.texto = texto
        tratamento = {"acentuacao":self.acentuacao,
                     "digito":self.digito,
                     "caractere":self.caracter,
                     "minusculo_lower":self.minusculo_lower,
                     "tokens":self.tokens,
                     "remove_stopwords":self.remove_stopwords,
                     "stemmer":self.stemmer,
                     "lemmatizacao":self.lemmatizacao}
        
        for i in self.pipe:
            saida = tratamento[i](self.text)
    
        return saida

In [45]:
frase = 'Fui para ver este100 200 300 filme com cautela Uma comédia / / * #suicida Não parecia consistente Ter um irmão que tentou suicídio e ver a devastação que causou toda a nossa família Eu sei em primeira mão como pode ser esmagador lidar com esse problema. devo dizer Este filme lida com isso de uma maneira que permite ao espectador dentro de alguém que está sofrendo e simplesmente não sabe por que ou como pará-lo Embora o filme não seja perfeito, ele respeita o assunto e, mais importante, o torna acessível para as massas Eu sei que para a nossa família o humor tem nos ajudado a passar por muita dor E Max e Grace é exatamente o que prenuncia ser uma COMÉDIA suicida É engraçado E eu também senti que os personagens eram reais e vibrantes Também é extremamente inteligente, mas simples vai direto ao ponto e eu aprecio que eu dou um e recomendo '
idioma = "ingles"

In [46]:
#frase = movies_sample["text"][0]
teste = dados(frase)
teste_tokens = teste.tokens(frase)
stop = teste.remove_stopwords(teste_tokens, idioma)
lemm = teste.stemmer(stop)
teste.lemmatizacao(stop)

tratamento para as informações :Fui para ver este100 200 300 filme com cautela Uma comédia / / * #suicida Não parecia consistente Ter um irmão que tentou suicídio e ver a devastação que causou toda a nossa família Eu sei em primeira mão como pode ser esmagador lidar com esse problema. devo dizer Este filme lida com isso de uma maneira que permite ao espectador dentro de alguém que está sofrendo e simplesmente não sabe por que ou como pará-lo Embora o filme não seja perfeito, ele respeita o assunto e, mais importante, o torna acessível para as massas Eu sei que para a nossa família o humor tem nos ajudado a passar por muita dor E Max e Grace é exatamente o que prenuncia ser uma COMÉDIA suicida É engraçado E eu também senti que os personagens eram reais e vibrantes Também é extremamente inteligente, mas simples vai direto ao ponto e eu aprecio que eu dou um e recomendo 



[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\wiltd\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


[['filme',
  'cautela',
  'comédia',
  '#',
  'irmão',
  'suicídio',
  'devastação',
  'família',
  'mão',
  'esmagador',
  'problema',
  'filme',
  'maneira',
  'espectador',
  'filme',
  'assunto',
  'massa',
  'família',
  'dor',
  'prenuncia',
  'personagem',
  'real',
  'vibrante',
  'ponto',
  'recomendo']]

In [48]:
preprocess = dados(movies_sample)
pipeline = [
    'digito',
    'caractere',
    'minusculo_lower',
    'tokens',
    'remove_stopwords',
    'stemmer']

movies_sample["filtered_words"] = movies_sample['text'].apply(preprocess.pipeline, methods=pipeline)
movies_sample

tratamento para as informações :                                                   text  label
0     The storyline was okay. Akshay Kumar was good ...      0
1     OK, well, no one in their right mind(s) would ...      1
2     Punishment Park is a pseudo-documentary made b...      1
3     Why take a show that millions of us watched an...      0
4     Even if you could get past the idea that these...      0
...                                                 ...    ...
4995  I can't believe I watched this expecting more....      0
4996  Where the Rivers Flow North is a well-told sto...      1
4997  The film really challenges your notions of ide...      1
4998  i totally disagree with the person who first c...      1
4999  "FULL HOUSE," in my opinion, is an absolute AB...      1

[5000 rows x 2 columns]



TypeError: dados.pipeline() got an unexpected keyword argument 'methods'