In [1]:
import pandas as pd

In [2]:
url = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'

In [5]:
data = pd.read_excel(url)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                63104 non-null  object 
 1   ISO 3166-1 alpha-3  61472 non-null  object 
 2   Ano                 63104 non-null  int64  
 3   Total               62904 non-null  float64
 4   Carvão              21744 non-null  float64
 5   Oléo                21717 non-null  float64
 6   Gás                 21618 non-null  float64
 7   Cimento             20814 non-null  float64
 8   Queima              21550 non-null  float64
 9   Outro               1620 non-null   float64
 10  Per Capita          18974 non-null  float64
dtypes: float64(8), int64(1), object(2)
memory usage: 5.3+ MB


In [None]:
# Descobrir sheets adicionais, quando uma arquivo de planilha tem mais de uma folha(guia), ao fazer a leitura padrao, o pandas busca apenas a primeira folha (sheet), sendo necessaria a passagem de parametros para a funcao read_excel, para acessar as outras sheets.

pd.ExcelFile(url).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

## Formatos suportados pela função read_excel()

O Microsoft Excel é uma das ferramentas de planilha mais utilizadas no mundo, sendo amplamente utilizado para armazenar e analisar dados em formato de tabela. No vídeo anterior, demonstramos como a função read_excel pode ser utilizada para ler um arquivo Excel no formato xlsx. No entanto, essa função é capaz de ler arquivos em outros formatos, como: xls, xlsm, xlsb, odf, ods e odt.

Vamos entender um pouco mais sobre esses diferentes tipos de arquivos?

* xls
O xls é um formato de arquivo do Excel mais antigo e usado até a versão de 2003.

* xlsx
Já o xlsx é o formato de arquivo padrão do Excel a partir da versão 2007. Esse formato é baseado em XML (Extensible Markup Language - Linguagem de marcação extensível) e é amplamente suportado por outras ferramentas de planilha eletrônica, incluindo o Google Planilhas.

Atenção: Se surgiram algumas dúvidas com o termo XML, não se preocupe! Mais adiante teremos uma aula sobre esse tema. Nela você entenderá o que é esse formato, na medida em que lê e escreve em XML.

* xlsm
Há também o xlsm, uma extensão de arquivo usada pelo Excel para armazenar planilhas que contêm as macros. Estas são sequências de comandos ou instruções que podem ser executadas automaticamente para realizar tarefas específicas na planilha.

Então, o formato xlsm permite que as macros sejam salvas juntamente com a planilha, para que possam ser executadas sempre que a planilha for aberta.

* xlsb
Por fim, temos o formato xlsb, uma extensão de arquivo usada pelo Excel para armazenar planilhas em formato binário. A codificação binária permite que as planilhas sejam abertas e salvas com mais rapidez do que aquelas no formato xlsx.

Já os formatos odf, ods e odt são arquivos abertos, livres e universais que podem ser usados por qualquer software, ou seja, foram criados para serem independentes de plataformas, isso significa que podem ser usados em sistemas operacionais diferentes, como Windows, Linux e Mac OS.

Além disso, são independentes de aplicativos e podem ser usados em vários programas diferentes, incluindo o OpenOffice, o LibreOffice, o Google Docs e o Microsoft Office. Esse padrão de arquivos foi criado e é mantido pela OASIS (Organization for the Advancement of Structured Information Standards), uma organização internacional criada para desenvolver e promover padrões digitais para uso na Internet.


### Parâmetros da função read_excel

In [9]:
percapita = pd.read_excel(url, sheet_name='emissoes_percapita')

In [10]:
percapita.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                63104 non-null  object 
 1   ISO 3166-1 alpha-3  61472 non-null  object 
 2   Ano                 63104 non-null  int64  
 3   Total               18972 non-null  float64
 4   Carvão              17138 non-null  float64
 5   Óleo                17039 non-null  float64
 6   Gás                 17012 non-null  float64
 7   Cimento             15448 non-null  float64
 8   Queima              16944 non-null  float64
 9   Outro               1620 non-null   float64
dtypes: float64(7), int64(1), object(2)
memory usage: 4.8+ MB


In [12]:
fontes = pd.read_excel(url, sheet_name='fontes')
fontes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   País                63104 non-null  object
 1   ISO 3166-1 alpha-3  61472 non-null  object
 2   Ano                 63104 non-null  int64 
 3   Total               63104 non-null  object
 4   Carvão              63104 non-null  object
 5   Oléo                63104 non-null  object
 6   Gás                 63104 non-null  object
 7   Cimento             63104 non-null  object
 8   Queima              63104 non-null  object
 9   Outro               63104 non-null  object
 10  Per Capita          63104 non-null  object
dtypes: int64(1), object(10)
memory usage: 5.3+ MB


In [13]:
intervalo = pd.read_excel(url, sheet_name='emissoes_C02', usecols= 'A:D')
intervalo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                63104 non-null  object 
 1   ISO 3166-1 alpha-3  61472 non-null  object 
 2   Ano                 63104 non-null  int64  
 3   Total               62904 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 1.9+ MB


### Parâmetro nrows

Outro parâmetro da função **read_excel()** é o nrows, responsável por definir a quantidade a linhas exibidas. Para demonstrá-lo, vamos criar uma variável chamada intervalo_2 e chamar read_excel(). Além da URL, do nome da página e do intervalo de colunas, definiremos a exibição de apenas 10 linhas com nrows=10

In [15]:
intervalo_2 = pd.read_excel(url, sheet_name='emissoes_C02', usecols= 'A:D', nrows=10)

intervalo_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   País                10 non-null     object
 1   ISO 3166-1 alpha-3  10 non-null     object
 2   Ano                 10 non-null     int64 
 3   Total               10 non-null     int64 
dtypes: int64(2), object(2)
memory usage: 452.0+ bytes


## Salvando em formato de planilha excel



In [16]:
percapita.to_excel('data/co2_percapita.xlsx', index=False)

### Lendo dados do Google Planilhas

No Google Planilhas, é possível carregar dados no formato Excel e CSV. Uma vez carregados, vamos visualizar as páginas dessa planilha — algo que não tínhamos conseguido fazer no GitHub.

Com a planilha aberta no Google Planilhas, temos as seguintes páginas listadas na parte inferior da interface:

* emissoes_CO2
* emissoes_percapita
* fontes


### Acessando pelo Google Planilhas

No Google Planilhas, é possível obter o link da planilha e compartilhá-lo com outras pessoas. Além disso, podemos usar esse link para acessar a planilha no Colab!

Ao clicar no botão "Compartilhar" no canto superior direito, será aberta uma caixa de diálogo no centro da tela. No tópico "Acesso geral", selecionaremos a opção "Qualquer pessoa com o link". Em seguida, clicaremos em "Copiar link" no canto inferior esquerdo, depois em "Concluído" no canto inferior direito.

Toda planilha possui um ID para identificá-la. Este ID está presente nessa URL, entre **/d/ e /edit?usp=sharing**. No caso, o ID da planilha é o seguinte:
```bash
1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog
```

Em uma nova célula, criaremos uma variável chamada sheet_id para armazenar esse ID:

```python
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
```
Para acessar a planilha no Colab, precisaremos alterar alguns trechos da URL. Em uma nova célula, criaremos uma variável chamada url, cujo valor inicial será a URL de compartilhamento até o /d/:
```python
url = https://docs.google.com/spreadsheets/d/
```
Após /d/, vamos inserir a variável sheet_id entre chaves:
```python
url = https://docs.google.com/spreadsheets/d/{sheet_id}
```
Para acessar a variável sheet_id nessa URL, empregaremos uma f-string, uma maneira interessante de formatar strings em Python. Basta envolver a URL entre aspas simples e incluir a letra "f" no início:

```python
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}'
```
Assim, todos os elementos que aparecem entre chaves serão substituídos pelas variáveis correspondentes. No caso, o trecho {sheet_id} da URL será substituído pela string que armazenamos na variável sheet_id anteriormente. Essa prática torna o código mais simples, melhorando sua escrita e a leitura.

A seguir, adicionaremos alguns parâmetros para permitir o acesso à planilha. Vamos colocar uma barra após {sheet_id} e inserir o parâmetro gviz/tq:

```python
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq'
```
O que é esse parâmetro e para que ele serve? Para ter acesso à planilha, é necessário acessar a API de visualização de dados do Google. API significa Application Programming Interface, isto é, uma interface de programação de aplicações. Elas permitem sistemas diferentes se comuniquem.

No caso, queremos criar a comunicação entre o Google Colab e o Google Planilhas. O parâmetro gviz/tq permite o acesso à API responsável por essa comunicação.

Após gviz/tq, adicionaremos um ponto de interrogação e o parâmetro tqx=out:csv:
```python
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv'
```
Dessa forma, nossos dados serão retornados em formato CSV (que já temos familiaridade, de aulas anteriores). Por fim, incluiremos o símbolo do "e comercial" e a palavra sheet:

```python
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'
```
Assim, todos os dados da planilha serão retornados, incluindo cabeçalho, linhas e colunas. Nossa URL está pronta! A seguir, vamos verificar se tudo funciona como esperado.

Em uma nova célula, criaremos uma variável chamada dados_co2_sheets. Como definimos que o retorno será em formato CSV, chamaremos a função read_csv() da biblioteca Pandas. Como parâmetro, passaremos a variável url:

In [18]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'

url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [19]:
dados_co2_sheets = pd.read_csv(url)
dados_co2_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,
3,Afeganistão,AFG,1753,0,,,,,,,
4,Afeganistão,AFG,1754,0,,,,,,,


In [20]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [21]:
percapita_sheets = pd.read_csv(url_percapita)
percapita_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
