# **Text Normalization**
É um processo de fazer uma transformação do texto para uma forma padronizada, uma forma canônica, a combinação de palavras fica mais fácil e as diferenças superviciais desaparecem. Normalizar um texto tem várias operações básicas, como redução para caixa baixa, remoção de acentos, e caracteres especiais, moeda, data, hífem e etc.

Em resumo, é transformar texto em uma forma canônica singular simples. A vantagem é o matching de palavras, mas a desvantagem é que o texto perde semântica.

### **Example**

In [5]:
text = "It's true, Ms. Martha Tôpfer black! Are you arguing that $5.00 on 3/21/2023 in cash for an ice-cream and a black coffe in the U.S. market is an absurd? :-( #Truth"
text

"It's true, Ms. Martha Tôpfer black! Are you arguing that $5.00 on 3/21/2023 in cash for an ice-cream and a black coffe in the U.S. market is an absurd? :-( #Truth"

### **Lowercase Reduction**
Toda transformação textual tem benefícios, como processamento eficiente e facilidade no text matching, mas também tem desvantagens, como imprecisão semântica em alguns casos.


In [14]:
lower_text = text.lower()
lower_text

"it's true, ms. martha tôpfer black! are you arguing that $5.00 on 3/21/2023 in cash for an ice-cream and a black coffe in the u.s. market is an absurd? :-( #truth"

Observe que o sobrenome Black do Martha agora não tem diferença em relação ao "black coffe". Esse é um dos exemplos da imprecisão semântica 

### **Acronym Canonicalization**

In [15]:
import re

text_acronym = re.sub('\.(?!(\S[^. ])|\d)', '', lower_text) # acronym normalization
text_acronym

"it's true, ms martha tôpfer black! are you arguing that $5.00 on 3/21/2023 in cash for an ice-cream and a black coffe in the us market is an absurd? :-( #truth"

### **Special Character Removal**

In [16]:
import re

text_acronym = re.sub('(?<!\d)[.,:!?\'\(\)#:-](?!\d)', '', text_acronym) # special character removal
text_acronym = re.sub(' +', ' ', text_acronym) # extra spaces removal
text_acronym

'its true ms martha tôpfer black are you arguing that $5.00 on 3/21/2023 in cash for an icecream and a black coffe in the us market is an absurd truth'

### **Accent and Diacritic Removal**

In [19]:
import unicodedata

def remove_accents(string):
    nfkd_form = unicodedata.normalize('NFKD', string)
    return u"".join([c for c in nfkd_form if not unicodedata.combining(c)])

ascii_text = remove_accents(text_acronym)
ascii_text

'its true ms martha topfer black are you arguing that $5.00 on 3/21/2023 in cash for an icecream and a black coffe in the us market is an absurd truth'