# O que é _encoding_?

Voltar ao [índice](../00_indice.ipynb)

In [1]:
import auxiliar.geral as ag

## 1. Explicação

Computadores lidam apenas com números, e ainda por cima em base binária (isto é, sequências de 0s e 1s). Isso significa que:
* para salvar um texto em um arquivo, é necessário **codificar** cada um de seus caracteres (isto é, transformá-los em uma sequência de 0s e 1s);
* para ler um texto contido em um arquivo, é necessário **decodificar** cada um dos seus caracteres (isto é, passar dos números de volta para os caracteres).

Essa conversão `caractere <-> número` é arbitrária e precisa seguir uma convenção para conseguirmos ler textos que outras pessoas salvaram em arquivos. Cada _encoding_ é uma convenção diferente de conversão.

## 2. Exemplo concreto

Vejamos qual é a conversão feita por alguns _encodings_:

In [37]:
# Codificando a palavra "Piauí" usando a tabela de conversão latin1:
ag.codifica_string('Piauí', 'latin-1')

['1010000', '1101001', '1100001', '1110101', '11101101']

In [36]:
# Codificando a palavra "Piauí" usando a tabela de conversão UTF-8:
ag.codifica_string('Piauí', 'utf-8')

['1010000', '1101001', '1100001', '1110101', '11000011', '10101101']

Vemos que alguns caracteres são codificados da mesma forma (por ex., P -> 1010000). Entretanto, outros são codificados de maneira diferente: í vira 11101101 no padrão latin1, mas vira 11000011 seguido de 10101101 no padrão UTF-8. 

O que acontece se tentarmos ler um arquivo de texto utilizando um _encoding_ diferente do utilizado para salvar o arquivo? Resposta: o computador vai receber uma sequência de números e vai achar que eles correspondem a um caractere diferente do qual ele corresponde de fato. 

## 3. Efeito da escolha do _encoding_

Vamos ver o efeito de ler um arquivo utilizando um _encoding_ diferente do utilizado para salvar o arquivo. No exemplo a seguir, o texto foi salvo num arquivo utilizando o _encoding_ UTF-8:

In [5]:
# Lê arquivo com encoding UTF-8 (igual ao do arquivo):
with open('dados/exemplo_de_texto_01.txt', 'r', encoding='utf-8') as f:
    texto = f.read()
# Imprime o texto:    
print(texto)

"Todo cidadão tem o direito à moradia digna. É pelo menos o que diz o artigo 6° da Constituição Federal do Brasil.
 Direito significa algo que deveria ser garantido de maneira igualitária a todos, sem distinção."

                               -- Guilerme Boulos, no livro "Por que ocupamos? Uma introdução à luta dos sem-teto"



Vemos acima que, quando o arquivo é lido pelo computador com o mesmo _encoding_ utilizado para salvar o arquivo, o texto é decodificado da maneira correta. 

Já o caso abaixo mostra que o texto aparece com erros se utilizarmos um _encoding_ diferente do usado para salvar o arquivo:

In [6]:
# Lê arquivo com encoding latin1 (diferente do utilizado ao salvar o arquivo):
with open('dados/exemplo_de_texto_01.txt', 'r', encoding='latin-1') as f:
    texto = f.read()
# Imprime o texto:    
print(texto)

"Todo cidadÃ£o tem o direito Ã  moradia digna. Ã pelo menos o que diz o artigo 6Â° da ConstituiÃ§Ã£o Federal do Brasil.
 Direito significa algo que deveria ser garantido de maneira igualitÃ¡ria a todos, sem distinÃ§Ã£o."

                               -- Guilerme Boulos, no livro "Por que ocupamos? Uma introduÃ§Ã£o Ã  luta dos sem-teto"



Em alguns casos (quando uma sequência de 0s e 1s não tem correspondência a nenhum caractere no _encoding_ especificado), pode ocorrer um erro:

In [7]:
# Lê arquivo com encoding ascii (diferente do do arquivo):
with open('dados/exemplo_de_texto_01.txt', 'r', encoding='ascii') as f:
    texto = f.read()
# Imprime o texto:    
print(texto)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 11: ordinal not in range(128)

## 4. O que você precisa saber

* Ler um arquivo com um _encoding_ diferente do utilizado para salvá-lo vai resultar em erro ou em um texto com caracteres estranhos.
* O _encoding_ padrão do Python e do Pandas é o UTF-8.
* No Brasil, a maioria dos arquivos estão salvos nos _encodings_ UTF-8 ou latin1.
* O _encoding_ latin1 também é conhecido como "ISO-8859-1", "IBM819" ou "Windows-28591".

<center>
    <img src="https://nucleodetecnologia.com.br/assets/img/novo-logo-tecnologia.svg?bl=tutorial-encoding" width="150">
</center>