# Para saber mais: erro de encoding - Como resolver?

Giovanna é uma cientista de dados que trabalha em uma empresa de comércio eletrônico. Ela é responsável por analisar os dados de vendas para identificar padrões e tendências que possam ajudar a empresa a tomar decisões informadas.

Recentemente, ela recebeu uma nova tarefa: analisar um arquivo CSV contendo informações sobre as vendas da empresa em um determinado período. Para isso, Giovanna tentou fazer a leitura do um arquivo CSV no Google Colab, utilizando a biblioteca Pandas com o seguinte comando:

In [2]:
import pandas as pd
df = pd.read_csv('/content/dados.csv')

Porém, surgiu o erro abaixo:

![image.png](attachment:image.png)

Em português a mensagem quer dizer **UnicodeDecodeError: o codec 'utf-8' não pode decodificar o byte 0xe7 na posição 18: byte de continuação inválido**

## Mas o que isso quer dizer? O que é esse tal de UTF-8?

O erro de encoding ocorre quando a biblioteca Pandas não consegue interpretar corretamente os caracteres de um arquivo CSV. Isso pode acontecer quando ele contém caracteres especiais que não são reconhecidos pela biblioteca Pandas ou quando foi salvo em um formato de codificação diferente do esperado.

Para resolver esse erro, é necessário identificar a codificação correta do arquivo CSV e especificá-la ao carregar o arquivo com a biblioteca Pandas. Essa codificação padrão é o UTF-8, mas em alguns casos, o arquivo pode ter sido salvo com uma codificação diferente, como ISO-8859-1.

O UTF-8 é uma codificação de caracteres universal usada para representar caracteres de diferentes idiomas de forma compatível com a internet e com sistemas de computador em geral. A sigla UTF significa Unicode Transformation Format (Formato de Transformação Unicode) e o número 8 indica que essa codificação associa uma sequência de 1 a 4 bytes (8 a 32 bits) com cada caractere.

A codificação UTF-8 é amplamente utilizada na internet e em sistemas de computador em todo o mundo, pois permite a representação de caracteres de diferentes idiomas em um único conjunto de caracteres. Além disso, essa codificação é capaz de preservar a compatibilidade com outras mais antigas, como ASCII, o que a torna uma escolha popular para a criação e compartilhamento de arquivos de texto.

Pode ser que você esteja pensando neste momento: como será que a Giovanna conseguiu descobrir qual é a codificação do arquivo que ela está tentando ler?

Existem algumas formas para descobrir isso, no entanto, teremos a oportunidade de experimentar uma maneira prática de fazer isso no próprio Google Colab. Vamos lá?

Nós podemos usar uma biblioteca chamada [chardet](https://pypi.org/project/chardet/) para detectar o encoding de um arquivo CSV. Para utilizar essa biblioteca no Google Colab, basta realizar sua importação:

In [4]:
import chardet

In [None]:
with open('/content/dados.csv', 'rb') as file:
    print(chardet.detect(file.read()))