# PLN - Pré-processamento de texto
Os passos da *pipeline* foram baseados no seguinte artigo:
- [https://sol.sbc.org.br/index.php/stil/article/download/31163/30966/](https://sol.sbc.org.br/index.php/stil/article/download/31163/30966/)

In [None]:
import pandas as pd

# Importar o corpus de um arquivo CSV
df = pd.read_csv('data/DepreRedditBR.csv')

# Flag utilizada para definir se a ferramenta Enelvo será utilizada ou não
USE_ENELVO = False

## Show the dataframe

In [None]:
df.head() # Exibir as primeiras linhas do dataframe

Unnamed: 0,text
208601,não há nada que eu queira mais do que voltar n...
462528,Lidando com mudanças de humor Tenho tido muita...
76680,"Se sua noiva não usar com voce, ja sabe. Não p..."
359032,muitas vezes não consigo trabalhar cerca de um...
353889,quais são suas ações quando você está se senti...


In [None]:
# Obter uma amostra do corpus (frac -> de 0 a 1)
df = df.sample(frac=0.015, random_state=42)

# Obter a única coluna do dataframe: text
texts = df.text

In [72]:
texts

440641    a terapia é destinada apenas a pessoas com din...
369918    outra estatística, estive em uma situação muit...
421097    perder alguém que você realmente amava. minha ...
377142    eu vou, mas não vou. (13 homens) não entendo o...
497152    eu preciso desaparecer da vida das pessoas, já...
                                ...                        
279416    Estou em uma situação muito estranha onde idea...
441456    irmã esquizofrenia questiona informações básic...
471791    não consigo nem vencer quando ganho, me sinto ...
87538     Você se livrou, deveria agradecer. Agora vai t...
385652    Escrevi uma nota de suicídio e estou sentado a...
Name: text, Length: 115, dtype: object

## Opcional - Utilizano o Enelvo para normalizar aspectos do corpus
A normalização com Enelvo trata de aspectos como erros ortográficos, gírias, siglas e outros detalhes.

A substituição das virgulas por uma *label* temporária é feita para contornar 

In [None]:

if USE_ENELVO:
    # Enelvo (https://thalesbertaglia.com/enelvo/)
    from enelvo.normaliser import Normaliser

    # Substituir as vírgulas pela label 'chavevirg' para evitar conflitos durante a normalização do texto
    texts = texts.apply(lambda text: text.replace(r',', 'chavevirg'))
    texts.values

    # Criar uma instância do normalizador
    normaliser_instance = Normaliser(tokenizer='readable')
    # Aplicar a normalização com Enelvo para os textos do corpus
    texts = texts.apply(lambda text: normaliser_instance.normalise(text))

## Remoção de URLs

In [None]:
import re
# Remove URLs if there is any
texts = texts.apply(lambda text: re.sub(r'http\S+', '', text))

if USE_ENELVO:
    # Reverter a substituição de vírgulas
    texts = texts.apply(lambda text: text.replace('chavevirg', ','))

texts

329207    ansiedade e tonturachavevirg alguém mais sente...
397553    sentado aqui pensando em acabar com tudo . dói...
279961    eu nem deveria ter acordado hoje . e ainda ass...
137777    imediatamente ligo meu computador pessoalchave...
275451    não há nada de errado na minha vidachavevirg m...
30873     obrigado pela sinceridade ! os melhores textos...
392560    eichavevirg estou conversando com esse cara na...
445733    mania induzida por corticosteroideschavevirg e...
Name: text, dtype: object

## Remoção de pontuação
A remoção de pontuação visa a redução do ruído (mantendo apenas as palavras que importam) e aumenta a eficiência do processamento.
É importante frisar que a pontuação **NÃO** é removida quando faz parte de *hashtags*, datas ou números com vírgula.

In [None]:
texts = texts.apply()