# Arquivos no Google Colab
- Inicialmente, há apenas a pasta **sample_data** no Google Colab.
- Nela, já conseguimos explorar alguns arquivos em formatos básicos (markdown, JSON, CSV).
- Se quisermos acesso aos nossos arquivos, precisamos "montar" o Google Drive primeiro.

## Caminho para um arquivo
- Pelo explorador de arquivos, podemos copiar o caminho para um arquivo no Google Drive.
- Vamos pegar o caminho até o arquivo de viagens (`2023_Viagem.csv`) e colá-lo no código abaixo:

In [None]:
caminho_dados = '/content/drive/MyDrive/Curso AD/dados_viagens/2023_Viagem.csv'

Criamos o caminho como uma *variável* porque futuramente podemos querer **rodar o mesmo código com outros dados**.

# Lendo os dados

Com o caminho para os dados, podemos lê-los. Para isso, vamos:
- Importar a **biblioteca Pandas** usando a palavra-chave `import` de Python.
- Usar a função `pd.read_csv()` para ler os dados no formato CSV, passando o caminho como um argumento.
- Por convenção, chamamos a variável de `df`. No Pandas, chamamos as tabelas de **DataFrames**.

In [None]:
import pandas as pd

df_viagens = pd.read_csv(caminho_dados)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfa in position 40: invalid start byte

Tivemos um erro. **Mas não se preocupe!**

Primeiro, vamos ver se conseguimos ler um arquivo de exemplo do Google Colab:

In [None]:
caminho_exemplo = '/content/sample_data/california_housing_test.csv'
df_exemplo = pd.read_csv(caminho_exemplo)

In [None]:
df_exemplo

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


**Deu certo!** Veja que a tabela já aparece formatada na saída da célula. Como são muitas linhas (3000), o Google Colab "escondeu" os valores no meio.



### Solucionando o erro
- A função pd.read_csv parece estar OK. O erro deve ser causado pelo **arquivo que estamos tentando ler**.
- A mensagem de erro fala de Unicode, codec, encoding...
- Neste [FAQ do Portal da Transparência](https://portaldatransparencia.gov.br/perguntas-frequentes/dados-abertos), descobrimos que:
  - O arquivo usa a **codificação de caracteres** `Windows-1252`, e não UTF-8 (padrão do Python).
  - O separador de colunas é o ponto-e-vírgula (muito utilizado para arquivos CSV em português).

Com base nessas informações, vamos ajustar nosso código inicial:

In [None]:
df_viagens = pd.read_csv(caminho_dados, encoding='Windows-1252', sep=';')

In [None]:
df_viagens

Unnamed: 0,Identificador do processo de viagem,Número da Proposta (PCDP),Situação,Viagem Urgente,Justificativa Urgência Viagem,Código do órgão superior,Nome do órgão superior,Código órgão solicitante,Nome órgão solicitante,CPF viajante,...,Função,Descrição Função,Período - Data de início,Período - Data de fim,Destinos,Motivo,Valor diárias,Valor passagens,Valor devolução,Valor outros gastos
0,17821923,000001/23-1C,Realizada,NÃO,Sem informação,26000,Ministério da Educação,26352,Fundação Universidade Federal do ABC,***.875.238-**,...,-1,Sem informação,01/01/2023,02/12/2023,Loughborough/Reino Unido,Intercâmbio acadêmico PCDP anterior 07/21-3C,000,000,000,000
1,18236583,000018/23,Realizada,NÃO,Sem informação,26000,Ministério da Educação,26236,Universidade Federal Fluminense,,...,-1,Sem informação,16/01/2023,28/02/2024,Rio de Janeiro/RJ,Afastamento para pós-graduação stricto sensu n...,000,000,000,000
2,18288418,000007/23-1C,Realizada,SIM,Por necessidade do serviço.,52000,Ministério da Defesa,52121,Comando do Exército,***.621.358-**,...,OfSuperior,OfSuperior,10/01/2023,29/01/2023,Nova York/Estados Unidos da América,Participar da revisão do COE Manual (Contingen...,3956570,743413,000,109535
3,18296348,000070/23,Realizada,SIM,A efetivação do empenho no Siafi e a respectiv...,26000,Ministério da Educação,26406,Instituto Federal do Espírito Santo,***.407.547-**,...,-1,Sem informação,05/02/2023,10/02/2023,Vitória/ES,Participação das aulas de Mestrado Interinstit...,101396,000,000,000
4,18302983,000001/23,Realizada,NÃO,Sem informação,52000,Ministério da Defesa,52111,Comando da Aeronáutica,***.855.388-**,...,OfIntermed,OfIntermed,01/01/2023,07/07/2023,Gotemburgo/Suécia,PARTICIPAR DO CURSO DE PILOTO DE GRIPEN C/D.,000,1490310,000,000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
825756,2023001618,Sem informaçã,Realizada,NÃO,Sem informação,-1,Sem informação,-1,Sem informação,***.748.269-**,...,-1,Sem informação,05/12/2023,06/12/2023,Sem informação,Participar de tratativas nos locais das reuniõ...,60689,333129,000,000
825757,2023001619,Sem informaçã,Realizada,NÃO,Sem informação,-1,Sem informação,-1,Sem informação,***.231.806-**,...,-1,Sem informação,11/12/2023,13/12/2023,Sem informação,Participar da reunião do COPOM .,108900,183718,000,000
825758,2023001628,Sem informaçã,Realizada,NÃO,Sem informação,-1,Sem informação,-1,Sem informação,***.632.011-**,...,-1,Sem informação,07/12/2023,08/12/2023,Sem informação,Acompanhamento do Presidente do BC - São Paulo,73413,455595,000,000
825759,2023001631,Sem informaçã,Realizada,NÃO,Sem informação,-1,Sem informação,-1,Sem informação,***.407.445-**,...,-1,Sem informação,11/12/2023,11/12/2023,Sem informação,Acompanhamento do Presidente - São Paulo.,31928,374553,000,40000


**Sucesso!**

Acabamos de carregar **825 mil linhas** em Python em poucos segundos.

Além disso, conseguimos **contornar erros e buscar por soluções** de forma eficiente. Basta ter força de vontade e procurar!

**Para tentar solucionar erros como este, utilize:**
- Informações na fonte dos dados
- Documentação do Python ou da biblioteca
- Google (StackOverflow e outros sites)
- ChatGPT