In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Trabalho Pratico 2
#### Matrizes energeticas Brasileiras comparadas com o mundo e seus consumos finais
*Vitor Hugo - 3049*  
*Jose Gregorio - 3046*

## Introdução
#### O dado Trabalho foi realizado com o intuito de aplicar os conhecimentos vistos nas aulas e encontros remotos da materia de ciencia de dados.
#### O trabalho foi divido em 4 parte escolha dos dados, preparação dos dados, análise exploratória e análise preditiva estás estarão explícitas no documento para melhor entendimento do fluxo de desenvolvimento do trabalho.

## Escolha e motivação

#### A motivação encontrada para realização do trabalho além de aplicarmos de forma realística os conhecimentos visto em aula queríamos a possibilidade de realizar análise sobre assuntos que tangem a relação do brasil com o meio ambiente, assim escolhemos falar sobre dados energéticos e seus consumos ao longo dos anos, que é um retrato nítido de como vem sendo levado questões ambientais no país.  E além do contexto brasileiro queríamos comparar o brasil com outros países do mundo, para melhor entendimento de como estão as matrizes energéticas ao longo do globo.
#### Para isso os dados escolhidos para análise foram encontrados na IEA(Internetional Energy Agency) no seguinte [link](https://www.iea.org/subscribe-to-data-services/world-energy-balances-and-statistics).Na tabela encontrada no link temos dados das matrizes energeticas de 44 paises diferentes dispostos durante os anos de 1971 a 2018.
#### Dessa forma, essa tabela nos permite um panorama geral dos meios de produção energético de cada país e o fluxo tomado por essa energia produzida. Assim, através desses dados podemos extrair muitos conhecimentos sobre como os países estão lidando com suas matrizes energéticas ao longo dos anos é quais setores mais consomem essa energia.

## Preparação dos dados

#### O primeiro passo da preparação dos dados foi o entendimento mais profundo da tabela e o significado de cada label nela presente. Para isso criamos uma tabela de índices que explica melhor como foi agrupado os dados na tabela e o significado de cada label da tabela usada.
#### Devido a extensão do arquivos criamos este em outro local para ficar mais facil seu entendimento [link](indexes_IEA.md).


## Selecionando tabela bruta

In [9]:
xls = pd.ExcelFile('data/WorldEnergyBalancesHighlights_final.xlsx')

FileNotFoundError: [Errno 2] No such file or directory: 'data/WorldEnergyBalancesHighlights_final.xlsx'

In [None]:
df = pd.read_excel(xls, 'TimeSeries_1971-2019')
df.head(5)

### Limpando e tratando dados
- O primeiro problema que encontramos ao analisar a tabela bruta mostrada acima foi a falha ao atribuir o header, de forma que os headers estão sendo reconhecidos como Unnamed. Para resolver esse problema ao iniciar a tabela colocamos como padrão a linha de numero 1 como header, assim os headers corretos são reconhecidos.

In [None]:
df = pd.read_excel(xls, 'TimeSeries_1971-2019',header=1)
df.head(5)

- Outro problema encontrado na tabela foi acriação dos indexes automaticos que não condiziam com os indexes que gostariamos Country, Product e Flow. Assim para solucionar esse problema aplicamos as colunas 0,1 e 2 como as colunas indexes.

In [None]:
df = pd.read_excel(xls, 'TimeSeries_1971-2019',header=1,index_col=[0,1,2])
df.head(5)

- Outros 2 problemas encontrados na tabela foi a leitura incorreta de colunas que não haviam dados com as "Unnamed: 55" a "Unnamed: 64", e as colunas com valores de repetidos de outras colunas como e o caso das colunas NoCountry, NoProduct, NoFlow. Para esses problemas como estavamos usando uma tabela do exel a solução foi basicamente selecionar os ranges dos nomes das colunas que queriamos usar, assim descartando as outras com erros.

In [None]:
df = pd.read_excel(xls, 'TimeSeries_1971-2019',header=1,index_col=[0,1,2],usecols="A:C,G:BC")
df.head(5)

In [None]:
## Lendo dados do Brasil
br = df.loc[('Brazil')]
br.head(5)

- Ao lermos os dados do Brasil é perceptivel que não há dados entre os anos de 1971-1989 e 2019(devido estarem sendo apurado ainda). Assim, foi removido as colunas referente aos anos de 1971-1989, 2019, pois não seria interessante em nossas analises já que o Brasil é o foco principal de analise. Novamente, utilizamos do artificio de podermos selecionar o range dos nomes das colunas que nos mais interessa.

In [None]:
df = pd.read_excel(xls, 'TimeSeries_1971-2019',header=1,index_col=[0,1,2],usecols="A:C,Z:BB")
df.head(5)

In [None]:
df.dtypes

- Percebemos que os tipos de dados das colunas estevão como objetos apesar de ser esperados serem do tipo float. Assim ao estudarmos a fundo a planilha e abrir está em um leitor de arquivos xlsx, encontramos na pagina definitions a existencia de dois tipos de valores os  '..' : Não há dados e o 'c' : confidencial. Assim percebemos que haveria a necessidade de transformar esses valores em valores Nan para que houve-se a possibilidade de tratar as colunas como float.

In [None]:
df = pd.read_excel(xls, 'TimeSeries_1971-2019',header=1,index_col=[0,1,2],usecols="A:C,Z:BB",na_values=['..','c'])
df.dtypes

## Análise exploratória

In [None]:
countries = [
"Australia",
"Austria",
"Belgium",
"Canada",
"Chile",
"Czech Republic",
"Denmark",
"Estonia",
"Finland",
"France",
"Germany",
"Greece",
"Hungary",
"Iceland",
"Ireland",
"Israel",
"Italy",
"Japan",
"Korea",
"Latvia",
"Lithuania",
"Luxembourg",
"Mexico",
"Netherlands",
"New Zealand",
"Norway",
"Poland",
"Portugal",
"Slovak Republic",
"Slovenia",
"Spain",
"Sweden",
"Switzerland",
"Turkey",
"United Kingdom",
"United States",
"Brazil",
"People's Republic of China",
"India",
"Indonesia",
"Morocco",
"Singapore",
"South Africa",
"Thailand"]

In [None]:
asia = [
"Japan",
"Korea",
"People's Republic of China",
"India",
"Indonesia",
"Singapore",
"Thailand"
]

oceania= [
"Australia",
"New Zealand"]

america= [
"Canada",
"Chile",
"Mexico",
"United States",
"Brazil",
]

europa= [
"Austria",
"Belgium",
"Czech Republic",
"Denmark",
"Estonia",
"Finland",
"France",
"Germany",
"Greece",
"Hungary",
"Iceland",
"Ireland",
"Israel",
"Italy",
"Latvia",
"Lithuania",
"Luxembourg",
"Netherlands",
"New Zealand",
"Norway",
"Poland",
"Portugal",
"Slovak Republic",
"Slovenia",
"Spain",
"Sweden",
"Switzerland",
"Turkey",
"United Kingdom",]

In [None]:
br = df.loc[('Brazil')]
br.to_csv('br.csv')

In [None]:
total:pd.DataFrame = br.loc[('Total')].iloc[6:12].transpose()
years= total.index.tolist()

In [None]:
def commanPlot(obj,list_year=years):
    obj.plot(figsize=(15,10))
    plt.xticks(list_year)
    plt.xticks(rotation=90)
    plt.show()


### Algumas informações sobre o total de consumo no brasil

In [None]:
commanPlot(total)

In [None]:
#produção energetica no brasil
eletric = br.xs('Electricity output (GWh)',level='Flow').transpose()
commanPlot(eletric)

In [None]:
renewable_br = br.loc[('Renewables and waste')]
renewable_br

In [None]:
#consumo de energias renovaveis no brasil
renewable_br_prod = renewable_br.iloc[6:12].transpose()
commanPlot(renewable_br_prod)

In [None]:
#consumo de gas natural no brasil
total_br_prod = br.loc[('Natural gas')].iloc[6:12].transpose()
commanPlot(total_br_prod)

In [None]:
#consumo residencial no brasil
residential = br.xs('Residential (ktoe)',level='Flow').iloc[0:6].transpose()
commanPlot(residential)

In [None]:
world = df.loc[('World')]
world.to_csv('world.csv')

In [None]:
total_wrld:pd.DataFrame = world.loc[('Total')].iloc[6:12].transpose()

In [None]:
#consumo total no mundo inteiro
total_wrld.plot(figsize=(15,10))
plt.xticks(years)
plt.xticks(rotation=90)
plt.yscale('log')
plt.show()

In [None]:
#Comparação de produção de energia mundial
eletric_wrld = world.xs('Electricity output (GWh)',level='Flow').transpose()
commanPlot(eletric_wrld)

In [None]:
#Comparaçao da producao de energia no brasil desde 1990
eletricity_output = df.xs('Electricity output (GWh)',level='Flow')
eletricity_output_nototal = eletricity_output[eletricity_output.index.get_level_values('Product') != 'Total']
eletricity_output_br  = eletricity_output_nototal.loc[('Brazil')]
eletricity_output_br.transpose().sum().plot.bar()

In [None]:
#maiores produtores de energias renovaveis desde 1990
eletricity_output_renew = eletricity_output.xs('Renewable sources',level='Product')
eletricity_output_renew.filter(items=countries, axis=0).transpose().sum().sort_values(ascending = False).plot.bar(figsize=(15,10))

In [None]:
#maiores produtores em 2018
eletricity_output_renew.filter(items=countries, axis=0)[2018].transpose().sort_values(ascending = False).plot.bar(figsize=(15,10))

In [None]:
#maiores consumidores de energia no total
all_total = df.xs('Total', level = 'Product')
all_total_consuption = all_total.xs('Total final consumption (ktoe)', level = 'Flow')
all_total_consuption.filter(items=countries, axis=0).transpose().sum().sort_values(ascending = False).plot.bar(figsize=(15,10))

In [None]:
#maiores consumidores em 2018
all_total_consuption.filter(items=countries, axis=0)[2018].transpose().sort_values(ascending = False).plot.bar(figsize=(15,10))

In [None]:
#crescimento do uso de energias não renovaveis em sob as energias renovaveis
all_consuption = df.xs('Total final consumption (ktoe)', level = 'Flow')
all_total_cons = all_consuption.xs('Total', level = 'Product')
all_renew_cons = all_consuption.xs('Renewables and waste', level = 'Product')
## all_total_renew_ratio é igual a todo consumo menos o consumo renovavel, divido pelo consumo renovavel, ou seja, todo consumo não renovavel divido pelo consumo renovavel, é a grandeza de vezes a qual o consumo nao renovavel é maior que o consumo renovavel.
all_total_renew_ratio = (all_total_cons - all_renew_cons) / all_renew_cons
commanPlot(all_total_renew_ratio.loc[('World')])

In [None]:
# africa é o unico continente que utiliza mais energia renovavel que não renovavel, mesmo que entre os dados existam varios paises
renovaveis2018 = all_total_renew_ratio[all_total_renew_ratio[2018] <= 1]
renovaveis2018

In [None]:
all_total_renew_ratio

In [10]:
#quais setores a energia renovavel cresceu
world.loc[('Renewables and waste')].iloc[7:].transpose().plot(figsize=(15,10))
plt.xticks(years)
plt.xticks(rotation=90)
plt.yscale('log')
plt.show()

NameError: name 'br' is not defined

In [None]:
#crescimento da produção total ao longo dos anos por regioẽs
regions_prod = eletricity_output.xs('Total', level = 'Product')
europe = regions_prod.filter(items=europa, axis=0).sum()
asia_prod = regions_prod.filter(items=asia, axis=0).sum()
america_prod = regions_prod.filter(items=america, axis=0).sum()
oceania_prod = regions_prod.filter(items=oceania, axis=0).sum()
africa_prod = eletricity_output.loc[('Africa', 'Total')]
plt.figure(figsize=(15,10))
europe.plot()
asia_prod.plot()
america_prod.plot()
oceania_prod.plot()
africa_prod.plot()
plt.xticks(years)
plt.xticks(rotation=90)
plt.yscale('log')
plt.legend(['Europa','Asia', 'America', 'Oceania', 'Africa'])
plt.show()

In [None]:
#crescimento da produção de energia renovavel ao longo dos anos por regioẽs
regions_renew = eletricity_output.xs('Renewable sources', level = 'Product')
europe_renew = regions_renew.filter(items=europa, axis=0).sum()
asia_renew = regions_renew.filter(items=asia, axis=0).sum()
america_renew = regions_renew.filter(items=america, axis=0).sum()
oceania_renew = regions_renew.filter(items=oceania, axis=0).sum()
africa_renew = eletricity_output.loc[('Africa', 'Renewable sources')]
plt.figure(figsize=(15,10))
europe_renew.plot()
asia_renew.plot()
america_renew.plot()
oceania_renew.plot()
africa_renew.plot()
plt.legend(['Europa','Asia', 'America', 'Oceania', 'Africa'])
plt.xticks(years)
plt.xticks(rotation=90)
plt.show()
