<a href="https://colab.research.google.com/github/diegoflxgarcia/Pandas/blob/main/read_excel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Função [pd.read_excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

Vamos explorar um pouco essa função do Pandas e seus parâmetros para ler arquivos Excel de vários tipos (ela consegue ler: xls, xlsx, xlsm, xlsb, odf, ods e odt).


In [32]:
import pandas as pd

- O dataset são planilhas Excel referente a dados de emissões de carbono por vários países do mundo. Vamos ler o mesmo como Dataframes Pandas.

In [33]:
# Vamos ler o arquivo excel na forma bruta (raw) dado na url abaixo, é um arquivo grande e a leitura demora
url = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'
dados_CO2 = pd.read_excel(url)

In [34]:
# Dando uma olhada no dataframe gerado...
dados_CO2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


- O arquivo Excel importado possuí 3 planilhas, conforme pode ser constatado no arquivo. Portanto, é necessário uma forma de especificar que planilha da pasta queremos ler com o Pandas.

In [35]:
# Checando as páginas dessa planilha com a classe ExcelFile...
print(pd.ExcelFile(url).sheet_names)

['emissoes_C02', 'emissoes_percapita', 'fontes']


In [36]:
# Lendo cada planilha separadamente e dando uma olhada nelas...
dados_emissoes = pd.read_excel(url, sheet_name='emissoes_C02')

In [37]:
dados_percapita = pd.read_excel(url, sheet_name='emissoes_percapita')

In [38]:
dados_fontes = pd.read_excel(url, sheet_name='fontes')

In [39]:
display(dados_emissoes.head())
display(dados_percapita.head())
display(dados_fontes.head())

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


- Também é possível ler com o Pandas apenas intervalos das planilhas excel.

In [40]:
intervalo_colunas = 'A:D'
intervalo_linhas = 10
display(pd.read_excel(url, sheet_name='emissoes_C02', usecols=intervalo_colunas, nrows=intervalo_linhas))

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


- Vamos fingir que trabalhamos com os DataFrames obtidos anteriormente etc. É possível escrever e salvar um DataFrame como um arquivo de uma (ou várias) planilha(s) Excel (ou outro formato de sua preferência), usando o método [to_excel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html). No caso vamos juntar todas "planilhas" (DataFrames no momento) novamente em um único arquivo Excel cada uma com nomes adequados (os originais no caso), para isso será necessário também a classe [ExcelWriter](https://pandas.pydata.org/docs/reference/api/pandas.ExcelWriter.html) (se for apenas um DataFrame basta o método to_excel).

In [41]:
# Vamos salvar os 3 dataframes anteriores como 3 planilhas em um único arquivo Excel
with pd.ExcelWriter('emissaos_CO2_atualizado.xlsx') as writer:
  dados_emissoes.to_excel(writer, sheet_name='emissoes_CO2', index=False)
  dados_percapita.to_excel(writer, sheet_name='emissoes_percapita', index=False)
  dados_fontes.to_excel(writer, sheet_name='fontes', index=False)