# ETL com o Pandas - extrair, transformar e carregar dados

### IMPORTAÇÃO DE BIBLIOTECA

In [None]:
# Importando a biblioteca pandas, para o processo de ETL (Extração, Transformação e Carga de dados)
import pandas as pd

### EXTRAÇÃO DOS DADOS

In [39]:
# Definindo a URL do arquivo Excel hospedado no GitHub (dados de emissões de CO2)
url = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=true'

In [40]:
# Lendo a planilha principal ('emissoes_CO2') com os dados brutos
# Essas colunas contém as emissões totais de CO2 por país e por ano
dados_co2 = pd.read_excel(url)
dados_co2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


In [41]:
# Extraindo outras colunas para futura transformação (per capita e fontes de emissão)
emissoes_percapita = pd.read_excel(url, sheet_name='emissoes_percapita')
emissoes_percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [42]:
fontes_emissao = pd.read_excel(url, sheet_name='fontes')
fontes_emissao.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


### TRANSFORMAÇÃO DOS DADOS

In [None]:
# Filtrando apenas 'emissoes_C02' (colunas A até D)
intervalo = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D')
intervalo.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.0
1,Afeganistão,AFG,1751,0.0
2,Afeganistão,AFG,1752,0.0
3,Afeganistão,AFG,1753,0.0
4,Afeganistão,AFG,1754,0.0


In [None]:
#  Leitura das 10 primeiras linhas da aba 'emissoes_C02'
intervalo_2 = pd.read_excel(url, sheet_name='emissoes_C02', usecols= 'A:D', nrows=10)
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


# Exportação para Excel

In [52]:
# Escrevendo o arquivo Excel localmente (sem o índice)
percapita.to_excel('co2_percapita.xlsx', index=False)

# Lendo o arquivo gerado
pd.read_excel('co2_percapita.xlsx')


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


# Leitura de dados do Google Sheets

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet=emissoes_CO2'

In [54]:
dados_co2_sheets = pd.read_csv(url)
dados_co2_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,
3,Afeganistão,AFG,1753,0,,,,,,,
4,Afeganistão,AFG,1754,0,,,,,,,


In [55]:
# Leitura da aba 'emissoes_percapita'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [56]:
percapita_sheets = pd.read_csv(url_percapita)
percapita_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [57]:
# Leitura da aba 'fontes'
sheet_name = 'fontes'
url_fontes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [58]:
fontes_sheets = pd.read_csv(url_fontes)
fontes_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
