#### Lendo arquivos Excel

O Microsoft Excel é uma das ferramentas de planilha mais utilizadas no mundo, sendo amplamente utilizado para armazenar e analisar dados em formato de tabela. No vídeo anterior, demonstramos como a função read_excel pode ser utilizada para ler um arquivo Excel no formato xlsx. No entanto, essa função é capaz de ler arquivos em outros formatos, como: xls, xlsm, xlsb, odf, ods e odt.

Vamos entender um pouco mais sobre esses diferentes tipos de arquivos?

xls
O xls é um formato de arquivo do Excel mais antigo e usado até a versão de 2003.

xlsx
Já o xlsx é o formato de arquivo padrão do Excel a partir da versão 2007. Esse formato é baseado em XML (Extensible Markup Language - Linguagem de marcação extensível) e é amplamente suportado por outras ferramentas de planilha eletrônica, incluindo o Google Planilhas.

Atenção: Se surgiram algumas dúvidas com o termo XML, não se preocupe! Mais adiante teremos uma aula sobre esse tema. Nela você entenderá o que é esse formato, na medida em que lê e escreve em XML.

xlsm
Há também o xlsm, uma extensão de arquivo usada pelo Excel para armazenar planilhas que contêm as macros. Estas são sequências de comandos ou instruções que podem ser executadas automaticamente para realizar tarefas específicas na planilha.

Então, o formato xlsm permite que as macros sejam salvas juntamente com a planilha, para que possam ser executadas sempre que a planilha for aberta.

xlsb
Por fim, temos o formato xlsb, uma extensão de arquivo usada pelo Excel para armazenar planilhas em formato binário. A codificação binária permite que as planilhas sejam abertas e salvas com mais rapidez do que aquelas no formato xlsx.

Já os formatos odf, ods e odt são arquivos abertos, livres e universais que podem ser usados por qualquer software, ou seja, foram criados para serem independentes de plataformas, isso significa que podem ser usados em sistemas operacionais diferentes, como Windows, Linux e Mac OS.

Além disso, são independentes de aplicativos e podem ser usados em vários programas diferentes, incluindo o OpenOffice, o LibreOffice, o Google Docs e o Microsoft Office. Esse padrão de arquivos foi criado e é mantido pela OASIS (Organization for the Advancement of Structured Information Standards), uma organização internacional criada para desenvolver e promover padrões digitais para uso na Internet.

In [22]:
import pandas as pd

In [23]:
pip install openpyxl --upgrade


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.2[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [24]:
pip install pandas --upgrade


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.2[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [44]:
# para carregar o link da planilha com os dados brutos necessário incluir ?raw=True após o formato o arquivo
url = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'

In [45]:
dados_co2 = pd.read_excel(url)

In [46]:
dados_co2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


In [47]:
# Para verificar o nome das abas que contem na planilha
pd.ExcelFile(url).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

In [48]:
# o sheet_names é o parametro das paginas/abas da planilha. O default é 0 (zero), então caso não selecionado,
# será importado a primeira aba.
# selecionando a aba 'emissoes_percapita'
percapita = pd.read_excel(url, sheet_name='emissoes_percapita')

In [49]:
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [50]:
fontes = pd.read_excel(url, sheet_name='fontes')

In [51]:
fontes.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


In [52]:
# selecionando colunas da planilha - usecols
intervalo = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D')

In [53]:
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.000000e+00
1,Afeganistão,AFG,1751,0.000000e+00
2,Afeganistão,AFG,1752,0.000000e+00
3,Afeganistão,AFG,1753,0.000000e+00
4,Afeganistão,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


In [54]:
# selecionando as primeiras 10 linhas - nrows
intervalo_2 = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D', nrows=10)

In [55]:
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


#### Salvando arquivos no formato Excel

In [56]:
# Para salvar o arquivo e não inserir uma nova coluna com index, necessário seleciona-lo como False
percapita.to_excel('co2_percapita.xlsx', index=False)

In [57]:
# check do arquivo salvo
pd.read_excel('/workspaces/2Projeto_Desenvolve_OBoticario/pandas_formatos_de_arquivos/co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


O Google Planilhas é uma ferramenta de planilha eletrônica baseada em nuvem que permite criar, editar e colaborar em planilhas de forma fácil e conveniente. É um dos aplicativos do Google Workspace que oferece uma alternativa ao Microsoft Excel.

Com o Google Planilhas é possível criar e formatar planilhas, adicionar fórmulas e funções, criar gráficos e tabelas dinâmicas, além de trabalhar com dados em tempo real com outras pessoas. Ele também suporta a importação e exportação de vários formatos de arquivos, como CSV e XLSX.

Uma das principais vantagens do Google Planilhas é a colaboração em tempo real. Várias pessoas podem trabalhar simultaneamente na mesma planilha, visualizando as alterações simultaneamente. Isso torna mais fácil trabalhar em projetos em equipe, aumentando a eficiência e a produtividade.

Para importar o arquivo Excel emissoes_CO2.xlsx no Google Planilhas, siga as seguintes etapas:

Abra a página do Google Planilhas e clique em “Acesse o Sheets”. Faça login em sua conta do Google, se necessário.
Clique em “Arquivo” (File) no menu superior e depois clique na opção “Importar arquivo” (Import).
Clique na guia "Fazer upload" (Upload) e selecione o arquivo que deseja importar. Você pode clicar na opção Browse para localizar o arquivo no seu computador ou arrastar o arquivo dentro da guia.
Aguarde enquanto o arquivo é carregado. Quando o upload estiver completo, você verá uma mensagem de confirmação e pode clicar em “Importar dados” (Import data).
Após a importação os dados serão exibidos.

#### Lendo dados do Google Planilhas

O conjunto de dados foi obtido no Kaggle e consiste em emissões de CO2 per capita de todos os países do mundo de 1990 a 2019.

O link do Google Planilhas que contém dados importantes sobre as emissões de gás carbônico pelo mundo.
https://docs.google.com/spreadsheets/d/1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw/edit?usp=sharing

In [58]:
# Vamos começar criando uma variável que vai receber o ID da planilha.
# O ID é tudo o que aparece entre d/ e /edit.

sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw'



Em seguida, criamos uma variável que vai armazenar o endereço da url, mas podemos facilitar a escrita utilizando uma f string para o sheet_id. Após o sheet_id temos alguns parâmetros que devem ser adicionados.

Nesse primeiro momento, é importante acessar a API de visualização de dados do Google. Isso vai permitir a exibição dos dados da planilha do Google Planilhas no Google Colab. Então, o parâmetro gviz/tq indica que você deseja acessar o recurso de consulta de dados da API de visualização de dados.

A API também oferece uma forma de recuperar dados da planilha como CSV que é um dos formatos que a biblioteca Pandas pode ler. Por conta disso, indicamos a utilização do parâmetro tqx=out:csv para que os dados sejam retornados no formato CSV. Já o parâmetro sheetrecupera todos os dados na planilha, incluindo cabeçalhos de coluna e linhas de dados.

In [59]:
url_google_planilhas = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [61]:
dados_google_planilhas = pd.read_csv(url_google_planilhas)

In [62]:
dados_google_planilhas

Unnamed: 0,Country,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191.745.115,167.681.579,95.957.742,8.472.111,75.545.827,68.467.956,...,29.650.624,259.295.334,18.562.366,146.235.617,172.896.741,149.789.334,131.694.556,1.632.953,159.824.372,159.824.372
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553.661.955,544.538.649,543.557.223,70.898.423,836.804.405,912.141.485,...,985.522.312,950.695.879,1.036.293.852,1.099.779.111,113.504.405,1.031.811.348,81.330.073,777.674.934,792.137.069,792.137.069
3,Albania,ALB,Europe & Central Asia,CO2 emissions (metric tons per capita),1.819.541.634,124.281.022,683.699.826,638.307.036,645.355.189,605.436.253,...,166.942.319,150.324.046,1.533.630.039,1.668.337.371,160.377.515,1.557.664.358,1.788.786.074,1.782.738.948,169.224.832,169.224.832
4,Andorra,AND,Europe & Central Asia,CO2 emissions (metric tons per capita),7.521.831.658,723.537.924,69.630.787,6.724.177.518,6.541.578.914,6.733.479.486,...,5.850.886.105,5.944.654.173,5.942.800.412,5.807.127.723,6.026.181.822,6.080.600.282,6.104.133.912,6.362.975.399,6.481.217.432,6.481.217.432
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
210,Samoa,WSM,East Asia & Pacific,CO2 emissions (metric tons per capita),55.283.574,609.756.098,604.266.119,658.221.486,592.806.881,705.674.802,...,1.066.843.067,1.057.703.002,1.048.701.723,1.092.498.145,1.240.245.954,1.542.099.372,1.586.830.344,1.478.626.161,1.522.124.134,1.522.124.134
211,"Yemen, Rep.",YEM,Middle East & North Africa,CO2 emissions (metric tons per capita),56.703.735,690.937.429,704.793.064,627.104.927,653.255.714,706.080.534,...,963.978.488,858.490.955,1.106.687.715,1.062.211.282,511.361.652,399.363.829,359.621.635,341.068.402,380.633.361,380.633.361
212,South Africa,ZAF,Sub-Saharan Africa,CO2 emissions (metric tons per capita),6.729.798.587,6.424.621.766,6.175.429.944,6.219.193.872,6.215.847.077,6.378.789.568,...,7.869.815.906,8.077.957.969,8.138.264.312,8.212.241.156,7.669.937.662,7.563.739.495,7.641.675.086,7.515.678.605,7.507.736.092,7.507.736.092
213,Zambia,ZMB,Sub-Saharan Africa,CO2 emissions (metric tons per capita),340.929.635,349.232.211,33.722.439,289.956.061,241.269.619,234.153.214,...,217.496.732,27.860.069,284.057.568,304.549.552,312.354.964,325.114.844,404.067.778,445.489.133,380.717.051,380.717.051


In [63]:
dados.to_csv('dados_emissoes_co2.csv', index=False)