-
Notifications
You must be signed in to change notification settings - Fork 113
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: invalid continuation byte #4
Comments
@jeff-pal obrigado pela dica. Esse problema ocorre pela diferença do encoding mesmo, eu fiz o processo em Windows e o Linux usa outro. Estou pensando qual seria a melhor solução, se passar a Será que passando apenas o |
Realmente @aphonsoar, a solução que propus não vai funcionar para todos os casos. No processo de Estabelecimento, por exemplo, não funcionou com
|
@jeff-pal ; vc achou alguma outra solução de contorno? testou com o |
Eu resolvi utilizando o encoding= 'cp437' |
@victorbertoldo, vc chegou a testar o |
Eu implementei a identificação de encoding/charset de arquivo (seguindo os padrões de encoding) , mas parece que alguns arquivos contém caracteres que não pertencem ao charset identificado. Veja esse caso: Foi identificado que o encoding do arquivo destacado é Ascii, no entanto foi encontrado um carácter que não pode ser decodificado com esse charset. O byte 0xc3, por exemplo, representa o carácter à no padrão Unicode, o qual não existe na tabela Ascii. Quando eu tendo com um valor arbitrário, seja Ansi, cp437 ou outro, não funciona para todos os arquivos. |
Embora o charset da minha lista de arquivos descompactados varie entre ascii e iso-8859-1, só consegui finalizar a inserção dos dados com iso-8859-1. Em alguns casos, o encoding do arquivo é identificado como ascii, mas encontra bytes que não podem ser decodificados com ascii, então tive que setar o encoding manualmente com iso-8859-1 para todas as leituras. Outro problema que tive foi com Null (
|
Eu estou utilizando o Fedora 34 e resolvi passando como |
['cp437', 'cp720', 'cp737', 'cp775', 'cp850', 'cp852', 'cp855', 'cp858', 'cp860', 'cp861', 'cp862', 'cp863', 'cp865', 'cp866', 'cp869', 'cp1006', 'cp1125', 'cp1250', 'cp1251', 'cp1252', 'cp1254', 'cp1256', 'cp1257', 'cp1258', 'latin_1', 'iso8859_2', 'iso8859_4', 'iso8859_5', 'iso8859_7', 'iso8859_9', 'iso8859_10', 'iso8859_13', 'iso8859_14', 'iso8859_15', 'iso8859_16', 'koi8_r', 'koi8_u', 'kz1048', 'mac_cyrillic', 'mac_greek', 'mac_iceland', 'mac_latin2', 'mac_roman', 'mac_turkish', 'ptcp154'] Todos esses resultam em |
Estou obtendo o erro
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: invalid continuation byte
no linux ubuntu, conforme ilustrado na imagem a seguir:Solução: a solução foi adicionar o parâmetro
engine='python'
em todas as chamadas para a funçãoread_csv()
:The text was updated successfully, but these errors were encountered: