# Normalizando Unicode para comparações seguras

Afinal, como comparar uma string que possui duas codificações diferentes como abaixo?

In [1]:
'café', "cafe\u0301"

('café', 'café')

In [2]:
'café' == "cafe\u0301"

False

A função `normalize` faz esse trabalho e só devemos informar a forma preferida:
- "NFC" para a forma normalizada composta (`'café'` e não `'cafe\u0301'`)
- "NFD" para a forma normalizada decomposta (`'cafe\u0301'` e não `'café'`)

In [3]:
from unicodedata import normalize

normalize('NFC', "café")

'café'

In [4]:
normalize('NFC', "cafe\u0301")

'café'

In [5]:
normalize('NFC', "café") == normalize('NFC', "cafe\u0301")

True

In [7]:
normalize('NFC', "café") == normalize('NFC', "cafe") # sem acento

False

> NFC é o padrão recomendado.

As opções mais fortes de normalização "NFKC" e "NFKD" devem ser usadas com cuidado.

## Case folding

é, basicamente, colocar a string toda em caixa-baixa...

In [9]:
texto = "Receitas de Sanduíche de Unicode escritas em UTF-8 para preparar em 42µs"
texto.casefold()

'receitas de sanduíche de unicode escritas em utf-8 para preparar em 42μs'

In [12]:
texto.lower() == texto.casefold()

False

In [None]:
texto[:-2].lower() == texto[:-2].casefold()

True

... mas com 116 caracteres (em Unicode) que diferem nos métodos .lower() e .casefold().

Usando latin1, .lower() e .casefold() retornam exatamente a mesma string.

## Removendo diacríticos

Diacríticos são os símbolos como acentos e til.

In [14]:
from unicodedata import normalize, combining

def texto_simples(texto: str) -> str:
    """Remove as marcas de diacríticos"""
    texto_aberto = normalize('NFD', texto)
    _texto = ''.join(c for c in texto_aberto if not combining(c))
    return normalize('NFC', _texto)

In [15]:
texto_simples('aminoácido')

'aminoacido'

dá pra ir mais longe no processo de *sanitização* de uma string, mas depende do contexto.