<h1>Sumário<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Fazendo-a-limpeza-de-stop-words" data-toc-modified-id="Fazendo-a-limpeza-de-stop-words-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Fazendo a limpeza de stop words</a></span></li><li><span><a href="#Lematização" data-toc-modified-id="Lematização-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Lematização</a></span><ul class="toc-item"><li><span><a href="#NLTK" data-toc-modified-id="NLTK-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>NLTK</a></span></li><li><span><a href="#SpaCy" data-toc-modified-id="SpaCy-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>SpaCy</a></span></li></ul></li></ul></div>

# Experimentos Isolados

In [None]:
import nltk
import pandas as pd
import unicodedata
import re

In [None]:
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
def strip_accents(s):
   return ''.join(c for c in unicodedata.normalize('NFD', s)
                  if unicodedata.category(c) != 'Mn')
   
def exclude_special(s):
  rgx_lists = re.findall('[a-zA-Z\s]', s)
  output = ''.join(rgx_lists)
  return output

In [None]:
d = {'texto':['façanha do amanhã!', 'teste do õnõté?']}
df = pd.DataFrame.from_dict(d)

In [None]:
teste = "façanha do amanhã"
df['texto'] = df['texto'].apply(strip_accents)
df['texto']

0    facanha do amanha!
1       teste do onote?
Name: texto, dtype: object

In [None]:
df['texto'].apply(exclude_special)

0    facanha do amanha
1       teste do onote
Name: texto, dtype: object

## Fazendo a limpeza de stop words

In [None]:
texto_exemplo = "Esse é um texto de exemplo. Há de ter um texto melhor do que este!"
print(texto_exemplo)


Esse é um texto de exemplo. Há de ter um texto melhor do que este!


In [None]:
# Limpeza inicial ()
texto_min = texto_exemplo.lower()
texto_n_acentuado = strip_accents(texto_min)
print(texto_n_acentuado)

esse e um texto de exemplo. ha de ter um texto melhor do que este!


In [None]:
texto_s_pontuacao = exclude_special(texto_n_acentuado)
print(texto_s_pontuacao)

esse e um texto de exemplo ha de ter um texto melhor do que este


In [None]:
# declaração de stop_words
stop_words = set(nltk.corpus.stopwords.words('portuguese'))
word_tokens = nltk.word_tokenize(texto_min)
print(word_tokens)

['esse', 'é', 'um', 'texto', 'de', 'exemplo', '.', 'há', 'de', 'ter', 'um', 'texto', 'melhor', 'do', 'que', 'este', '!']


In [None]:
caracteres_sentenca_filtrada = [word for word in word_tokens if not word in stop_words]
sentenca_filtrada = ' '.join(caracteres_sentenca_filtrada)
sentenca_filtrada

'texto exemplo . ter texto melhor !'

In [None]:
texto_s_pontuacao

'esse e um texto de exemplo ha de ter um texto melhor do que este'

A sequência ideal para o tratamento:
- Remoção de stop_words
- Remoção de acentos;
- Remoção de pontuação (RegEx).

## Lematização

### NLTK
`Não funciona para o português até onde vimos`

In [12]:
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')
nltk.download('punkt')


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.stem import WordNetLemmatizer

In [None]:
# Create WordNetLemmatizer object
wnl = WordNetLemmatizer()

In [None]:
# single word lemmatization examples
list1 = ['amigos', 'ammigas', 'amigo', 'amiga', 'amizade']

for words in list1:
    print(words + " ---> " + wnl.lemmatize(words))

amigos ---> amigo
ammigas ---> ammigas
amigo ---> amigo
amiga ---> amiga
amizade ---> amizade


### SpaCy

In [24]:
import spacy
from spacy.lang.pt.examples import sentences 

In [27]:
!python -m spacy download pt_core_news_sm

2023-01-23 17:22:02.412531: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pt-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.4.0/pt_core_news_sm-3.4.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m14.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.4.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [28]:
load_model = spacy.load('pt_core_news_sm', disable = ['parser','ner'])

In [None]:
my_text = "amigos é o plural de amigo e amigas é o plural de amiga. Isso sim é amizade."

In [None]:
doc = load_model(my_text)

In [None]:
" ".join([token.lemma_ for token in doc])

'amigo ser o plural de amigo e amiga ser o plural de amiga . isso sim ser amizade .'

# Modularizando e testando o código

In [12]:
!python -m spacy download pt_core_news_lg

Collecting pt-core-news-lg==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.5.0/pt_core_news_lg-3.5.0-py3-none-any.whl (568.2 MB)
     -----                                   79.7/568.2 MB 2.6 MB/s eta 0:03:08


ERROR: Could not install packages due to an OSError: [Errno 28] No space left on device



In [10]:
import pandas as pd
import unicodedata
import re
import nltk
import spacy
from spacy.lang.pt.examples import sentences 
from utils import utils
import logging

#ToDo: Executar python -m spacy download pt_core_news_lg

logger = logging.getLogger(__name__)
logger = utils.get_logger(logger=logger)

class text_preparer:
    """Class dedicated to the data cleaning and preparation
    """    
    def __init__(self, input_path: str, output_path: str) -> None:
        """Constructor Method of the class text_prepares

        Parameters
        ----------
        input_path : str
            Path where the raw file should be readed
        output_path : str
            Path where the processed file should be written
        """        
        self.input_path = input_path
        self.output_path = output_path
        self.data = pd.read_csv(input_path)
    
    @classmethod
    def __clear_chars__(self, text: str) -> str:
        """Clear the special chars from the text

        Parameters
        ----------
        text : str
            Text to be treated

        Returns
        -------
        str
            Text with no accent or special caracter
        """        
        logging.info("\t Changing caracters with accents")
        # Remoção pontuação
        text_without_accents = ''.join(c for c in unicodedata.normalize('NFD', text)
                        if unicodedata.category(c) != 'Mn')
        
        # Limpeza de caracteres especiais
        logging.info("\t Cleanning special caracters")
        rgx_lists = re.findall('[a-zA-Z0-9\s]', text_without_accents)
        
        # Junção de todos os termos coletados
        output = ''.join(rgx_lists) 

        return output

    @classmethod
    def __remove_stop_words__(self, text: str) -> str:
        """Removes stop words of the text

        Parameters
        ----------
        text : str
            Text to be cleaned

        Returns
        -------
        str
            Text with no stop words
        """      
        logging.info("\rRemovving Stop Words")
        stop_words = set(nltk.corpus.stopwords.words('portuguese'))
        word_tokens = nltk.word_tokenize(text)
        caracteres_sentenca_filtrada = [word for word in word_tokens if not word in stop_words]
        sentenca_filtrada = ' '.join(caracteres_sentenca_filtrada)

        return sentenca_filtrada

    @classmethod
    def __lemmatization__(self, text: str) -> str:
        """Applies the process of lemmatization, which is responsible for transforming the word in its primitive form

        Parameters
        ----------
        text : str
            Text to have the lemmatization applied

        Returns
        -------
        str
            Text with lemmatization applied
        """        
        # Amigos > Amigo
        # Amigo  > Amigo
        # Amiga  > Amigo

        logging.info("\tAplying lemmatization")
        load_model = spacy.load('pt_core_news_sm', disable = ['parser','ner'])
        doc = load_model(text)
        output = " ".join([token.lemma_ for token in doc])
        return output

    def prepare_text(self) -> None:
        """Main method responsible for apply all the methods to treat the text data, and stores it in the text_preparer.data            
        """        
        logging.info("Starting the data cleaning...")
        
        # Copiando para evitar problemas com 
        df_int = self.data.copy()

        # Remoção de nan
        df_int = df_int[df_int['input'].notna()]

        # Declaração do tipo como string
        df_int['x_input'] = df_int['input'].astype(str)

        # Tranformação dos caracteres para letras minúsculas;
        df_int['x_input'] = df_int['x_input'].str.lower()

        # Remoção de palavras irrelevantes (ex: preposições, conjunções, artigos e etc);
        df_int['x_input'] = df_int['x_input'].apply(self.__remove_stop_words__)

        # Aplicação de Lematização:
        df_int['x_input'] = df_int['x_input'].apply(self.__lemmatization__)

        # Limpeza de caracteres especiais e remoção pontuação com RegEx
        df_int['x_input'] = df_int['x_input'].apply(self.__clear_chars__)

        logging.info("Data preparation Done!")

        self.data = df_int.copy()
  
    def export_text(self) -> None:
        """Exports the text in the specified dir as output_path
        """        
        logging.info(f"Exporting treated data in {self.output_path}")
        data = self.data.copy()
        data.to_csv(self.output_path, sep=";", index=False)

In [11]:
preparer = text_preparer(input_path="../data/raw/data.csv", output_path="../data/processed/data.csv")
preparer.prepare_text()

OSError: [E050] Can't find model 'pt_core_news_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

In [39]:
preparer.export_text()