# Limpeza de texto

A limpeza de texto, também chamado de pré-processamento de texto é uma etapa essencial no processamento de linguagem natural (NLP) que visa preparar e limpar os dados textuais para análise por algoritmos de aprendizado de máquina. Envolve uma série de etapas para transformar o texto bruto em um formato mais adequado para análise, incluindo:

#### Configurando Dados

In [1]:
import pandas as pd

df = pd.read_csv('datas/tccs.csv')

df = df.drop('Unnamed: 0', axis=1)

df.head()

Unnamed: 0,titulo,curso
0,Avaliação microscópica dos fragmentos ósseos o...,ZZZ MEST
1,Efeito da Terapia Fotodinâmica sobre Bactérias...,ZZZ MEST
2,Avaliação longitudinal do impacto da Saúde Buc...,ZZZ MEST
3,SOLANUM PANICULATUM LINN E MIMOSA TENUIFLORA (...,ZZZ MEST
4,Condições de saúde bucal e capacidade funciona...,ZZZ MEST


#### Técnicas de limpeza textual

**Transformação de caracteres para tipo ASCII**

```shell
    Exemplo: 
    
        Entrada: "Olá, mundo!"

        Saída: "Ola, mundo!"
```

In [2]:
import unicodedata

def accented_characters(text):

    normalized_text = unicodedata.normalize('NFKD', text)

    ascii_text = normalized_text.encode('ASCII', 'ignore')

    return ascii_text.decode()

# Testando função!
print(f'\nEntrada: {df["titulo"].iloc[0]}\n\nSaída:\t {accented_characters(df["titulo"].iloc[0])}')


Entrada: Avaliação microscópica dos fragmentos ósseos obtidos por diferentes métodos de osteotomia e de irrigação em aloenxertos irradiados e congelados de coelhos

Saída:	 Avaliacao microscopica dos fragmentos osseos obtidos por diferentes metodos de osteotomia e de irrigacao em aloenxertos irradiados e congelados de coelhos


**Remoção de números e pontuações**

```shell
    Exemplo: 
    
        Entrada: "Hello, 123 world!"

        Saída: "Hello world"
```

In [3]:
import re

def numbers_and_punctuation(text):

    text = re.sub(r'[^a-zA-Z ]', ' ', text)

    return text

# Testando função!
print(f'\nEntrada: {df["titulo"].iloc[0]}\n\nSaída:\t {numbers_and_punctuation(df["titulo"].iloc[0])}')


Entrada: Avaliação microscópica dos fragmentos ósseos obtidos por diferentes métodos de osteotomia e de irrigação em aloenxertos irradiados e congelados de coelhos

Saída:	 Avalia  o microsc pica dos fragmentos  sseos obtidos por diferentes m todos de osteotomia e de irriga  o em aloenxertos irradiados e congelados de coelhos


**Remoção de espaços excessivos do texto**

```shell
    Exemplo: 
    
        Entrada: "Hello,    world!"

        Saída: "Hello, world!"
```

In [4]:
def excessive_spaces(text):

    text = re.sub(r'\s+', ' ', text)

    return text

# Testando função!
print(f'\nEntrada: {df["titulo"].iloc[0]}\n\nSaída:\t {excessive_spaces(df["titulo"].iloc[0])}')


Entrada: Avaliação microscópica dos fragmentos ósseos obtidos por diferentes métodos de osteotomia e de irrigação em aloenxertos irradiados e congelados de coelhos

Saída:	 Avaliação microscópica dos fragmentos ósseos obtidos por diferentes métodos de osteotomia e de irrigação em aloenxertos irradiados e congelados de coelhos


**Remoção de palavras de n caracteres**

```shell
    Exemplo (n = 3): 

        Entrada: "Hi, world!"

        Saída: "world!"
```

In [5]:
def n_words(text, n):

    text = ' '.join([word for word in text.split() if len(word) > n])

    return text

# Testando função!
print(f'\nEntrada: {df["titulo"].iloc[0]}\n\nSaída:\t {n_words(df["titulo"].iloc[0], 2)}')


Entrada: Avaliação microscópica dos fragmentos ósseos obtidos por diferentes métodos de osteotomia e de irrigação em aloenxertos irradiados e congelados de coelhos

Saída:	 Avaliação microscópica dos fragmentos ósseos obtidos por diferentes métodos osteotomia irrigação aloenxertos irradiados congelados coelhos


##### Função geral de limpeza textual

In [6]:
def all_clear(text, ac = 0, np = 0, es = 0, nw = 0, n = 3):

    if ac == 1:
        text = accented_characters(text)

    if np == 1:
        text = numbers_and_punctuation(text)

    if es == 1:
        text = excessive_spaces(text)

    if nw == 1:
        text = n_words(text, n)

    return text

print(f'Entrada:\n{df['titulo']}\n')
print(f'Saída:\n{df['titulo'].astype(str).apply(all_clear, ac=1, np=1, es=1, nw=1, n=3)}')

Entrada:
0        Avaliação microscópica dos fragmentos ósseos o...
1        Efeito da Terapia Fotodinâmica sobre Bactérias...
2        Avaliação longitudinal do impacto da Saúde Buc...
3        SOLANUM PANICULATUM LINN E MIMOSA TENUIFLORA (...
4        Condições de saúde bucal e capacidade funciona...
                               ...                        
75479    INOVAÇÃO DOS MINISTÉRIOS PÚBLICOS ESTADUAIS BR...
75480    PLANO DE NEGÓCIOS PARA ABERTURA DE FILIAL EM S...
75481    EMPODERAMENTO DA MULHER LÍDER:DESAFIOS EMERGEN...
75482    ANÁLISE DOS DESAFIOS NA EXECUÇÃO DO PLANEJAMEN...
75483    Inovação gerencial e práticas de gestão de pes...
Name: titulo, Length: 75484, dtype: object

Saída:
0        Avaliacao microscopica fragmentos osseos obtid...
1        Efeito Terapia Fotodinamica sobre Bacterias Or...
2        Avaliacao longitudinal impacto Saude Bucal Est...
3        SOLANUM PANICULATUM LINN MIMOSA TENUIFLORA WIL...
4        Condicoes saude bucal capacidade funcional ido