<a href="https://colab.research.google.com/github/adalves-ufabc/2025.Q3-PLN/blob/main/2025_Q3_PLN_AULA_04_Notebook_06.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processamento de Linguagem Natural [2025-Q3]**
Prof. Alexandre Donizeti Alves

## **Correção Ortogográfica**
---

A correção ortográfica em PLN é importante por vários motivos:

  * Melhorar a precisão da análise de texto: a correção ortográfica ajuda a evitar erros de interpretação causados por palavras escritas incorretamente. Isso é especialmente importante para tarefas de análise de texto, como reconhecimento de entidades nomeadas, análise de sentimento e classificação de texto.

  * Aumentar a eficiência da análise: a correção ortográfica permite que os algoritmos de PLN processem o texto com mais eficiência, reduzindo o número de variações de palavras que precisam ser consideradas.

  * Melhorar a experiência do usuário: corrigir erros de ortografia em texto pode melhorar a compreensão do leitor e a credibilidade do autor. Isso é especialmente importante em aplicações de PLN voltadas para usuários finais, como assistentes virtuais e aplicativos de mensagens.

  * Padronizar os dados de texto: a correção ortográfica pode ajudar a padronizar a ortografia de palavras em um conjunto de dados de texto, tornando-o mais fácil de analisar e comparar.


Aqui está um exemplo de correção ortográfica em português usando a biblioteca `pyspellchecker` em `Python`:

In [None]:
!pip install pyspellchecker

Collecting pyspellchecker
  Downloading pyspellchecker-0.8.3-py3-none-any.whl.metadata (9.5 kB)
Downloading pyspellchecker-0.8.3-py3-none-any.whl (7.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m55.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellchecker-0.8.3


In [None]:
from spellchecker import SpellChecker

texto = "Eu gosto de caminhar pela praja"

corretor = SpellChecker(language='pt')
palavras = texto.split()

palavras_corrigidas = []
for palavra in palavras:
    palavra_corrigida = corretor.correction(palavra)
    palavras_corrigidas.append(palavra_corrigida)

In [None]:
print(palavras_corrigidas)

['Eu', 'gosto', 'de', 'caminhar', 'pela', 'praia']


In [None]:
texto_corrigido = " ".join(palavras_corrigidas)

print(texto_corrigido)

Eu gosto de caminhar pela praia


Nesse exemplo, foi definida uma frase com uma palavra escrita incorretamente (`praja` em vez de `praia`). Em seguida, a biblioteca `pyspellchecker` é usada para corrigir a ortografia da palavra.

Para isso, criamos um objeto `SpellChecker` e o usamos para verificar a ortografia de cada palavra na frase usando o método `correction()`. Em seguida, adicionamos as palavras corrigidas a uma nova lista e, por fim, unimos as palavras em uma nova frase corrigida usando a função `join`.

Aqui está um exemplo simples de correção ortográfica em `Python` usando a biblioteca `autocorrect`:

In [None]:
# instalar a biblioteca autocorrect
!pip install autocorrect

Collecting autocorrect
  Downloading autocorrect-2.6.1.tar.gz (622 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/622.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m622.8/622.8 kB[0m [31m34.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: autocorrect
  Building wheel for autocorrect (setup.py) ... [?25l[?25hdone
  Created wheel for autocorrect: filename=autocorrect-2.6.1-py3-none-any.whl size=622364 sha256=ae9d8cbed37b469594dd2f6bd7362a4fd1607e1a394fbdd1eecacf078fdfcddb
  Stored in directory: /root/.cache/pip/wheels/b6/28/c2/9ddf8f57f871b55b6fd0ab99c887531fb9a66e5ff236b82aee
Successfully built autocorrect
Installing collected packages: autocorrect
Successfully installed autocorrect-2.6.1


In [None]:
from autocorrect import Speller

# criar um objeto Speller com o idioma "Portuguese"
corrector = Speller(lang='pt')

# texto com um erro de ortografia
texto = "Este é um exempel de frasi com errro de ortografia."

# corrigir o erro de ortografia no texto
texto_corrigido = corrector(texto)

# imprimir o texto corrigido
print(texto_corrigido)

dictionary for this language not found, downloading...
__________________________________________________
couldn't download http://ipfs.io/ipfs/QmbRSZvfJV6zN12zzWhecphcvE9ZBeQdAJGQ9c9ttJXzcg/pt.tar.gz, trying next url...
__________________________________________________
couldn't download https://gateway.pinata.cloud/ipfs/QmbRSZvfJV6zN12zzWhecphcvE9ZBeQdAJGQ9c9ttJXzcg/pt.tar.gz, trying next url...
__________________________________________________
couldn't download https://cf-ipfs.com/ipfs/QmbRSZvfJV6zN12zzWhecphcvE9ZBeQdAJGQ9c9ttJXzcg/pt.tar.gz, trying next url...
__________________________________________________
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>Este é um exemplo de frase com erro de ortografia.


## **Capitalização**
---

Processo de colocar os tokens em letra minúscula para normalização do texto.

In [None]:
import nltk

nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [None]:
versos = """No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho""".lower()

palavras = nltk.word_tokenize(versos, language='portuguese')

print(len(palavras), palavras, '\n', len(set(palavras)), set(palavras))

14 ['no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', 'tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho'] 
 7 {'do', 'uma', 'pedra', 'no', 'meio', 'caminho', 'tinha'}


## **Segmentação de Sentenças**
---

In [None]:
import nltk
# nltk.download('punkt')

texto = """Eu estou na aula de Processamento de Linguagem Natural.
O exemplo é muito simples."""

nltk.sent_tokenize(texto, language='portuguese')

['Eu estou na aula de Processamento de Linguagem Natural.',
 'O exemplo é muito simples.']

## **Radicalização (Stemização)**
---

A **stemização** (*stemming*) é um processo de normalização de palavras em linguística computacional e processamento de linguagem natural. O objetivo da **stemização** é reduzir as palavras em sua forma raiz ou *stem*, de modo que palavras semelhantes possam ser agrupadas juntas. Isso é útil em aplicações como análise de sentimentos, recuperação de informações e classificação de documentos.

O processo de **stemização** envolve a remoção de sufixos e prefixos das palavras, deixando apenas o núcleo ou raiz da palavra. Por exemplo, a palavra `corrida` pode ser reduzida ao seu *stem* `corrid`, que pode ser usado para agrupar palavras relacionadas, como `correr`, `corredor` e `corredora`.

Existem diferentes algoritmos e técnicas para realizar a **stemização**, como o algoritmo de `Porter`, o `Snowball` e o algoritmo de `Lancaster`. Cada um desses algoritmos tem suas próprias regras e heurísticas para reduzir as palavras à sua forma raiz. A escolha do algoritmo depende da língua em que o processamento será feito e da aplicação específica em questão.

Aqui está um exemplo de código em `Python` usando a biblioteca `NLTK` para realizar a stemização de palavras em português:

In [None]:
import nltk

nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
import nltk
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("portuguese")

def stem_texto(texto):
    words = nltk.word_tokenize(texto, language='portuguese')
    stems = [stemmer.stem(word) for word in words]
    stemmed_text = " ".join(stems)
    return stemmed_text

In [None]:
texto = "Estou correndo no parque e vi um corredor correndo mais rápido do que eu."
texto_stemmed = stem_texto(texto)

print(texto_stemmed)

estou corr no parqu e vi um corredor corr mais ráp do que eu .


Aqui está outro exemplo em `Python` usando a biblioteca `NLTK` para realizar a stemização em português:

In [None]:
import nltk

nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [None]:
import nltk

raiz = nltk.stem.RSLPStemmer()

tokens = nltk.word_tokenize('A comida estava gostosa', language='portuguese')
[raiz.stem(token) for token in tokens]

['a', 'com', 'est', 'gost']

Mais um exemplo usando RSLP:

In [None]:
from nltk.stem import RSLPStemmer

stemmer = RSLPStemmer()

def stem_texto(texto):
    words = nltk.word_tokenize(texto)
    stems = [stemmer.stem(word) for word in words]
    stemmed_text = " ".join(stems)
    return stemmed_text

In [None]:
texto = "Eu estou correndo no parque e vi um corredor correndo mais rápido do que eu."
texto_stemmed = stem_texto(texto)

print(texto_stemmed)

eu est corr no parqu e vi um corr corr mais rápid do que eu .


Observe que a stemização não é perfeita e, às vezes, pode levar a resultados imprecisos. Além disso, a stemização é uma forma de pré-processamento de texto e, portanto, deve ser aplicada antes de outras etapas.


Aqui está um exemplo de código em `Python` usando a biblioteca `NLTK` para realizar a stemização de palavras em inglês:

In [None]:
import nltk
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

def stem_text(text):
    words = nltk.word_tokenize(text)
    stems = [stemmer.stem(word) for word in words]
    stemmed_text = " ".join(stems)
    return stemmed_text

In [None]:
text = "I am running in the park and saw a runner running faster than me."
stemmed_text = stem_text(text)

print(stemmed_text)

i am run in the park and saw a runner run faster than me .


Aqui está outro exemplo:

In [None]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer(language='english')

tokens = ['compute', 'computer', 'computed', 'computing']

for token in tokens:
    print(token + ' --> ' + stemmer.stem(token))

compute --> comput
computer --> comput
computed --> comput
computing --> comput


## **Lematização**
---

A **lematização** (*lemmatization*) é um processo de normalização de palavras em linguística computacional e processamento de linguagem natural. O objetivo da **lematização** é reduzir palavras em sua forma canônica ou base, conhecida como *lemma*, de modo que palavras com significados semelhantes possam ser agrupadas juntas. Isso é útil em aplicações como análise de sentimentos, recuperação de informações e classificação de documentos.


Ao contrário da stemização, a **lematização** não apenas remove os sufixos e prefixos das palavras, mas também leva em consideração a classe gramatical da palavra e sua flexão. Por exemplo, a palavra `correndo` pode ser reduzida ao seu *lemma* `correr`, enquanto a palavra `corrida` pode ser reduzida ao seu *lemma* `corrida`.



Existem diferentes algoritmos e técnicas para realizar a **lematização**, como o algoritmo `WordNet` e o algoritmo de **lematização** baseado em regras. Cada algoritmo tem suas próprias regras e heurísticas para reduzir as palavras ao seu lemma. A escolha do algoritmo também depende da língua em que o processamento será feito e da aplicação específica em questão.

Aqui está um exemplo de código em `Python` usando a biblioteca `NLTK` para realizar a lematização:

In [None]:
import nltk

# baixar o corpus do WordNet, se ainda nao foi baixado
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

O código `nltk.download('wordnet')` faz o download do córpus do `WordNet`, que é um dicionário léxico online usado para a lematização, a consulta de sinônimos e outras tarefas relacionadas ao PLN.

O código `nltk.download('omw-1.4')` faz o download do córpus do *Open Multilingual WordNet* (OMW), que é um recurso linguístico que oferece sinônimos em vários idiomas. O `OMW` é baseado no `WordNet`, mas em vez de se concentrar exclusivamente no inglês, ele inclui sinônimos em várias línguas, como francês, italiano, espanhol e outros.

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

text = "Os gatos estão correndo e brincando juntos"

tokens = nltk.word_tokenize(text)

lemmas = []
for token in tokens:
    lemma = lemmatizer.lemmatize(token)
    lemmas.append(lemma)

In [None]:
print(lemmas)

['Os', 'gatos', 'estão', 'correndo', 'e', 'brincando', 'junto']


Aqui está um exemplo de como realizar a lematização usando a biblioteca `spaCy` em `Python`:

In [None]:
!python -m spacy download pt_core_news_lg

Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# carregar o modelo de linguagem em portugues
nlp = spacy.load('pt_core_news_lg')

# texto de exemplo
texto = "Eu estava correndo no parque quando vi um bando de pássaros."

# processar o texto com o modelo de linguagem
doc = nlp(texto)

In [None]:
# imprimir as palavras e seus lemas
for token in doc:
    print(token.text, token.lemma_)

Eu eu
estava estar
correndo correr
no em o
parque parque
quando quando
vi ver
um um
bando bando
de de
pássaros pássaro
. .


Observe que as palavras `estava` e `correndo` foram reduzidas ao seu lema `estar` e `correr`, respectivamente.

Aqui está um exemplo de código para a lematização e stemização de palavras usando a biblioteca `NLTK` em Python:

In [None]:
import nltk
from nltk.stem import SnowballStemmer, WordNetLemmatizer

# instanciar um objeto lematizador do WordNet
lemmatizer = WordNetLemmatizer()

# instanciar um objeto stemizador para o idioma português
stemmer = SnowballStemmer("portuguese")

# texto de exemplo
texto = "Os cachorros correm no parque enquanto os pássaros cantam."

# realizar a tokenizacao do texto
tokens = nltk.word_tokenize(texto)

# inicializar listas para armazenar as palavras lematizadas e stemizadas
lemas = []
stems = []

# percorrer cada token e realizar a lematização e a stemização
for token in tokens:
    # lematizacao
    lemma = lemmatizer.lemmatize(token)
    lemas.append(lemma)

    # stemizacao
    stem = stemmer.stem(token)
    stems.append(stem)

In [None]:
# imprimir o texto lematizado e stemizado
print("Texto original: ", texto)
print("Lematizado: ", " ".join(lemas))
print("Stemizado: ", " ".join(stems))

Texto original:  Os cachorros correm no parque enquanto os pássaros cantam.
Lematizado:  Os cachorros correm no parque enquanto o pássaros cantam .
Stemizado:  os cachorr corr no parqu enquant os pássar cant .


In [None]:
import nltk

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from collections import Counter

# instanciar um objeto lematizador do WordNet
lemmatizer = WordNetLemmatizer()

# instanciar um objeto stemizador para o idioma ingles
stemmer = SnowballStemmer("english")

# definir o texto de exemplo
texto = "The quick brown fox jumped over the lazy dog. The dog was not amused."

# realizar a tokenização do texto e remover as stopwords
tokens = [token.lower() for token in word_tokenize(texto) if token.isalpha() and token.lower() not in stopwords.words("english")]

# inicializa listas para armazenar as palavras lematizadas e stemizadas
lemas = []
stems = []

# percorrer cada token e realizar a lematizacao e a stemizacao
for token in tokens:
    # lematizacao
    lemma = lemmatizer.lemmatize(token)
    lemas.append(lemma)

    # stemizacao
    stem = stemmer.stem(token)
    stems.append(stem)

# criar um contador para contar a frequencia de cada palavra
frequencias = Counter(tokens)

In [None]:
# imprimir os resultados
print("Texto original: ", texto)
print("Tokens: ", tokens)
print("Palavras unicas: ", set(tokens))
print("Frequencias: ", frequencias)
print("Lemas: ", lemas)
print("Stems: ", stems)

Texto original:  The quick brown fox jumped over the lazy dog. The dog was not amused.
Tokens:  ['quick', 'brown', 'fox', 'jumped', 'lazy', 'dog', 'dog', 'amused']
Palavras unicas:  {'quick', 'amused', 'fox', 'jumped', 'brown', 'lazy', 'dog'}
Frequencias:  Counter({'dog': 2, 'quick': 1, 'brown': 1, 'fox': 1, 'jumped': 1, 'lazy': 1, 'amused': 1})
Lemas:  ['quick', 'brown', 'fox', 'jumped', 'lazy', 'dog', 'dog', 'amused']
Stems:  ['quick', 'brown', 'fox', 'jump', 'lazi', 'dog', 'dog', 'amus']


Observe que a função remove as *stopwords* (palavras comuns que não agregam muito significado ao texto, como `the` e `was`) antes de realizar a lematização e a stemização. Além disso, o código utiliza um objeto `Counter` do `Python` para contar a frequência de cada palavra no texto.

## **Normalização de Textos**
---

**Normalização de textos** é o processo de transformar textos em uma forma mais consistente e uniforme. O objetivo da normalização é tornar o texto mais fácil de ser processado por algoritmos, melhorar a qualidade da análise de texto e tornar as comparações de palavras e frases mais precisas.

A **normalização** pode incluir a remoção de caracteres especiais, a correção ortográfica, a padronização de maiúsculas e minúsculas, a remoção de pontuação, a remoção de *stopwords*  e a lematização/stemização.



A **normalização de texto** é uma tarefa importante em várias aplicações de PLN, incluindo análise de sentimento, classificação de texto, tradução automática, reconhecimento de fala etc.

Aqui está um exemplo de normalização de texto que combina o uso do módulo `unicodedata` do `Python` com expressões regulares:

In [None]:
import re
import unicodedata

# definir um texto com caracteres acentuados, espaços extras e caracteres especiais
texto = "    Olá! Tudo bem? Eu gostaria de pedir um café expresso, por favor.   ☕️ "

# remover caracteres especiais e acentos utilizando o modulo unicodedata
texto_sem_acentos = unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('ASCII')

# remover espacos extras utilizando expressoes regulares
texto_normalizado = re.sub(r'\s+', ' ', texto_sem_acentos).strip()

# imprimir o texto normalizado
print(texto_normalizado)


Ola! Tudo bem? Eu gostaria de pedir um cafe expresso, por favor.


Esse processo de normalização pode ser útil para padronizar o texto e reduzir a variação de caracteres em diferentes fontes de dados. Ele também pode ajudar a simplificar a análise de texto, especialmente quando há diferenças de codificação entre as fontes de dados.

Aqui está um exemplo de normalização de texto que utiliza expressões regulares para substituir padrões específicos de caracteres:

In [None]:
import re

# definir um texto com abreviacoes e girias
texto = "Eu n sei se vc vai cmg, mas acho q a galera vai. Vou t mandar um zap dps"

# definir um dicionario de substituicao
substituicoes = {
    r'n sei': 'não sei',
    r'vc': 'você',
    r'cmg': 'comigo',
    r'q': 'que',
    r'galera': 'turma',
    r't ': 'te ',
    r'zap': 'mensagem',
    r'dps': 'depois'
}

# iterar sobre as chaves do dicionario e aplicar as substituicoes com expressoes regulares
for padrao, substituicao in substituicoes.items():
    texto = re.sub(padrao, substituicao, texto)

# imprimir o resultado
print(texto)

Eu não sei se você vai comigo, mas acho que a turma vai. Vou te mandar um mensagem depois


Nesse exemplo, expressões regulares são usadas para substituir abreviações e gírias por palavras completas. O dicionário `substituicoes` contém as chaves que representam os padrões de caracteres que serão substituídos e os valores que representam as palavras completas que serão utilizadas como substituição. Em seguida, iteramos sobre as chaves do dicionário e aplicamos as substituições com a função `re.sub()` da biblioteca `re`. O resultado é um texto normalizado que utiliza palavras completas em vez de abreviações e gírias.

Aqui está outro exemplo de normalização de texto em `Python`, usando a biblioteca `re` e a técnica de remoção de caracteres especiais:

In [None]:
import re

# definir uma string com caracteres especiais
texto = "Boa noite!!! 😃🎉🔥🎂👋🏼👨🏻‍💻"

# remover caracteres especiais
texto_sem_caracteres_especiais = re.sub(r'[^\w\s]', '', texto)

# imprimir o texto normalizado
print(texto_sem_caracteres_especiais)

Boa noite 


In [None]:
import re

# definir um tweet para normalizar
tweet = "Acabei de assistir um filme incrível! @Netflix, vocês arrasaram! 🎥🍿 http://netflix.com/filme"

# remover URLs e mencoes
tweet_sem_url = re.sub(r"http\S+", "", tweet) # remover URLs
tweet_sem_mencao = re.sub(r"@\S+", "", tweet_sem_url) # remover menções

# imprimir o tweet normalizado
print(tweet_sem_mencao)

Acabei de assistir um filme incrível!  vocês arrasaram! 🎥🍿 


In [None]:
import string

# definir um texto para normalizar
texto = "Esta frase tem! muita pontuação, certo? Mas vamos normalizar."

# transformar todas as letras em minusculas
texto = texto.lower()

# tokenizar o texto e remover a pontuacao
tokens = texto.split()
tokens_sem_pontuacao = [token.translate(str.maketrans('', '', string.punctuation)) for token in tokens]

# imprimir os tokens normalizados
print(tokens_sem_pontuacao)

['esta', 'frase', 'tem', 'muita', 'pontuação', 'certo', 'mas', 'vamos', 'normalizar']


In [None]:
import re

# definir um texto em portugues com uma data
texto = "A reunião está marcada para o dia 15/03/2022."

# normalizar a data para o formato 'YYYY-MM-DD'
padrao_data = r'(\d{2})/(\d{2})/(\d{4})'
texto_normalizado = re.sub(padrao_data, r'\3-\2-\1', texto)

# imprimir o texto normalizado
print(texto_normalizado)

A reunião está marcada para o dia 2022-03-15.


In [None]:
import re

# definir um texto em portugues com um numero de telefone
texto = "Meu número de telefone é (11) 99999-7777."

# normalizar o numero de telefone para o formato '11999999999'
padrao_telefone = r'\((\d{2})\)\s+(\d{5})-(\d{4})'
texto_normalizado = re.sub(padrao_telefone, r'\1\2\3', texto)

# imprimir o texto normalizado
print(texto_normalizado)

Meu número de telefone é 11999997777.
