O Conceito: O computador só entende números (binário). Para transformar letras em números, usamos uma tabela de mapeamento.


O problema: Se você salvar um arquivo usando uma tabela antiga (como Latin-1, comum no Windows antigo) e tentar abrir usando a tabela padrão moderna (UTF-8), os acentos viram "lixo" (ex: Ação vira AÃ§Ã£o) .

In [5]:
# Crie um arquivo novo no VS Code ou célula no Jupyter
# Vamos forçar um erro de encoding para você ver acontecendo

texto_original = "Atenção: Este é um texto com codificação específica."

# 1. ESCREVENDO de forma "errada" (usando encoding antigo 'latin-1')
with open('arquivo_antigo.txt', 'w', encoding='latin-1') as f:
    f.write(texto_original)

print("Arquivo salvo com sucesso em Latin-1.")

# 2. TENTANDO LER do jeito padrão (UTF-8) - Vai dar erro ou ficar estranho
print("\n--- Tentativa 1 (Leitura Padrão UTF-8) ---")
try:
    with open('arquivo_antigo.txt', 'r', encoding='utf-8') as f:
        print(f.read())
except UnicodeDecodeError as e:
    print(f"Erro de leitura: {e}")
    print("(O computador não entendeu os bytes do Latin-1 como UTF-8)")

# 3. LENDO do jeito certo (Informando o encoding correto)
print("\n--- Tentativa 2 (Leitura Correta) ---")
with open('arquivo_antigo.txt', 'r', encoding='latin-1') as f:
    print(f.read())

Arquivo salvo com sucesso em Latin-1.

--- Tentativa 1 (Leitura Padrão UTF-8) ---
Erro de leitura: 'utf-8' codec can't decode byte 0xe7 in position 4: invalid continuation byte
(O computador não entendeu os bytes do Latin-1 como UTF-8)

--- Tentativa 2 (Leitura Correta) ---
Atenção: Este é um texto com codificação específica.


Lição: Sempre que pegar dados de sistemas antigos (bancos legados, arquivos CSV de Excel antigo), você provavelmente terá que especificar encoding='latin-1' ou encoding='cp1252'.