## Documentação:
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [1]:
import pandas as pd

## "Não consigo importar meu arquivo csv, txt, dat ..."

Problema 1: Caminho do arquivo com caractere escape(backslash) \\:

In [2]:
pd.read_csv("D:\Pyladies_videos\Users\pyladies.csv")

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 18-19: truncated \UXXXXXXXX escape (Temp/ipykernel_19508/245569121.py, line 1)

In [3]:
pd.read_csv("D:\Pyladies_videos\apyladies.csv")

OSError: [Errno 22] Invalid argument: 'D:\\Pyladies_videos\x07pyladies.csv'

In [4]:
print('Pyladies \nSalvador')

Pyladies 
Salvador


In [5]:
print(r'Pyladies \nSalvador')

Pyladies \nSalvador


In [6]:
pd.read_csv(r".\Users\pyladies.csv")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 33: invalid continuation byte

Solução 1: usar / ou \\ no lugar da \, ou usar r string:

Problema 2: Encoding

In [7]:
pd.read_csv(r".\Users\pyladies.csv")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 33: invalid continuation byte

Solução 2: utilizar o parâmetro encoding buscando o argumento correto para ler o arquivo na lista de codecs: https://docs.python.org/3/library/codecs.html#standard-encodings

geralmente o que mais utilizamos para arquivos em português é o latin_1, que tem outros apelidos também aceitos pelo pandas, são eles: iso-8859-1, iso8859-1, 8859, cp819, latin, latin1, L1

In [8]:
pd.read_csv(r".\Users\pyladies.csv",
            encoding = 'latin1')

Unnamed: 0,Unnamed: 1,nome;documento;sexo;data atualização;altura;peso;idade;meses tratamento;nutricionista
MARIA;8653287; Feminino;10/08/2022;1,54;55,5;50;2;Maria
Celso;2058021; Masculino;22/09/2022;1,63;74,3;45;5;Maria
Zuleide;6600351;Feminino;30/09/2022;1,54;63;31;7;Maria,
BETO;7735611;Masculino;05/06/2022;1,72;102;24;2;Maria,
Cecília;5842713;Feminino;02/02/2022;1,66;79,4;44;1;Maria
Ana Cristina;3504191;Feminino;16/07/2022;1,64;78,6;35;1;Maria
aurora;8894948;Feminino;24/11/2021;1,76;65;19;3;Maria,
;3338125;Masculino;30/12/2021;1,87;83,6;22;5;Maria
Catarina;555784;Feminino;01/10/2022;1,62;78,4;-;4;Maria
Ângelo;8901510; Masculino;04/05/2022;1,92;110,5;44;6;Maria


Problema 3: delimitador/separador dos valores dos campos diferente do padrão do pandas que é vírgula.

Solução 3: usar o parâmetro delimiter ou sep, tanto faz, indicando como argumento o separdor encontrado no seu arquivo

In [9]:
pd.read_csv(r".\Users\pyladies.csv",
            encoding = 'latin', # lista de codecs: https://docs.python.org/3/library/codecs.html#standard-encodings
            sep = ";" # delimitador dos campos/colunas do arquivo
           )

Unnamed: 0,nome,documento,sexo,data atualização,altura,peso,idade,meses tratamento,nutricionista
0,MARIA,8653287,Feminino,10/08/2022,154,555.0,50,2,Maria
1,Celso,2058021,Masculino,22/09/2022,163,743.0,45,5,Maria
2,Zuleide,6600351,Feminino,30/09/2022,154,63.0,31,7,Maria
3,BETO,7735611,Masculino,05/06/2022,172,102.0,24,2,Maria
4,Cecília,5842713,Feminino,02/02/2022,166,794.0,44,1,Maria
5,Ana Cristina,3504191,Feminino,16/07/2022,164,786.0,35,1,Maria
6,aurora,8894948,Feminino,24/11/2021,176,65.0,19,3,Maria
7,,3338125,Masculino,30/12/2021,187,836.0,22,5,Maria
8,Catarina,555784,Feminino,01/10/2022,162,784.0,-,4,Maria
9,Ângelo,8901510,Masculino,04/05/2022,192,1105.0,44,6,Maria


In [10]:
# exemplo de arquivo txt separado por tabulação
pd.read_csv(r".\Users\pyladies_separado_por_tabulação.txt",
            encoding = 'latin', 
            nrows = 2
           )

Unnamed: 0,Unnamed: 1,nome\tdocumento\tsexo\tdata_atualizacao\taltura\tpeso\tidade
MARIA\t8653287\tF\t10/08/2022\t1,54\t55,5\t50
Celso\t2058021\t M\t22/09/2022\t1,63\t74,3\t45


In [11]:
pd.read_csv(r".\Users\pyladies_separado_por_tabulação.txt",
            encoding = 'latin', # lista de codecs: https://docs.python.org/3/library/codecs.html#standard-encodings
            sep = "\t", # separador dos campos utilizado no arquivo
            nrows = 2 # especifica a quantidade de linhas do aquivo que devem ser carregadas
           )

Unnamed: 0,nome,documento,sexo,data_atualizacao,altura,peso,idade
0,MARIA,8653287,F,10/08/2022,154,555,50
1,Celso,2058021,M,22/09/2022,163,743,45


RESUMO DOS PARÂMETROS UTILIZADOS PARA CONSEGUIR IMPORTAR O ARQUIVO CSV

In [12]:
pd.read_csv(r".\Users\pyladies.csv", # r string
            encoding = 'latin', # lista de codecs: https://docs.python.org/3/library/codecs.html#standard-encodings
            sep = ";" # separador dos campos utilizado no arquivo
            # nrows =2  especifica a quantidade de linhas do aquivo que devem ser carregadas, ajuda a conhecer o arquivo
           )

Unnamed: 0,nome,documento,sexo,data atualização,altura,peso,idade,meses tratamento,nutricionista
0,MARIA,8653287,Feminino,10/08/2022,154,555.0,50,2,Maria
1,Celso,2058021,Masculino,22/09/2022,163,743.0,45,5,Maria
2,Zuleide,6600351,Feminino,30/09/2022,154,63.0,31,7,Maria
3,BETO,7735611,Masculino,05/06/2022,172,102.0,24,2,Maria
4,Cecília,5842713,Feminino,02/02/2022,166,794.0,44,1,Maria
5,Ana Cristina,3504191,Feminino,16/07/2022,164,786.0,35,1,Maria
6,aurora,8894948,Feminino,24/11/2021,176,65.0,19,3,Maria
7,,3338125,Masculino,30/12/2021,187,836.0,22,5,Maria
8,Catarina,555784,Feminino,01/10/2022,162,784.0,-,4,Maria
9,Ângelo,8901510,Masculino,04/05/2022,192,1105.0,44,6,Maria


MAIS UM PARÂMETRO INTERESSANTE PARA CARREGAR ARQUIVOS CSV

In [13]:
pd.read_csv(r".\Users\pyladieszip.zip", 
            encoding = 'latin', 
            sep = ";", 
            compression = "zip" # importa arquivos compactados
           )

Unnamed: 0,nome,documento,sexo,data atualização,altura,peso,idade,meses tratamento,nutricionista
0,MARIA,8653287,Feminino,10/08/2022,154,555.0,50,2,Maria
1,Celso,2058021,Masculino,22/09/2022,163,743.0,45,5,Maria
2,Zuleide,6600351,Feminino,30/09/2022,154,63.0,31,7,Maria
3,BETO,7735611,Masculino,05/06/2022,172,102.0,24,2,Maria
4,Cecília,5842713,Feminino,02/02/2022,166,794.0,44,1,Maria
5,Ana Cristina,3504191,Feminino,16/07/2022,164,786.0,35,1,Maria
6,aurora,8894948,Feminino,24/11/2021,176,65.0,19,3,Maria
7,,3338125,Masculino,30/12/2021,187,836.0,22,5,Maria
8,Catarina,555784,Feminino,01/10/2022,162,784.0,-,4,Maria
9,Ângelo,8901510,Masculino,04/05/2022,192,1105.0,44,6,Maria
