# Análise e exploração de dados

Este ficheiro é para me "ambientar" com o que é pedido.
O "trabalho" oficial está no reposítório **git** da equipa: 
https://bitbucket.org/anadi-rita/anadi/src/main/

~~~bash
git clone git@bitbucket.org:anadi-rita/anadi.git
~~~

## Imports

In [None]:
from pathlib import Path
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import colors as mcolors
import utilidades as ut

## Variáveis

In [None]:
proj_root_dir = Path(".").resolve().parent.parent
data_files_dir = "/ficheiros/Trabalho 1/"
ficheiro_dados_co = f"{proj_root_dir}{data_files_dir}CO_data.csv"
ficheiro_dicio_dados_co = f"{proj_root_dir}{data_files_dir}CO_data_dicionario.xlsx"

colunas_em_estudo = ["year", "country", "coal_co2", "population"]
paises = ["United States", "China", "India", "European Union (27) (GCP)", "Russia"]

# Preparar uma lista de cores
cores = list(mcolors.BASE_COLORS.keys())


## Carregar os dados

In [None]:
dados_co = pd.read_csv(
    ficheiro_dados_co,
    delimiter=",",
    header=0,
)

### Espreitar os dados

In [None]:
dados_co.head()

## Carregar o dicionário

In [None]:
dicionario_dados = pd.read_excel(ficheiro_dicio_dados_co)

## Análise e exploração de dados

Ponto 4.1 do trabalho

### Ponto 4
Construa um gráfico que permita comparar as emissões de CO2 originadas pelo carvão dos Estados
Unidos, China, Índia, União Europeia (a 27) e a Rússia no período 2000-2021. 


#### Extrair os dados dos areas pretendidas

In [None]:
dados_co_areas = dados_co.loc[dados_co.country.isin(paises), colunas_em_estudo]

### Solução Rita

NOTA: Não usei o dataset filtrado por anos.

In [None]:
# gráfico pedido pelo professor(time series)
plt.figure(figsize=(14, 8))
#para cada país filtra os dados(usado para a label) e apresenta
for country in paises:
    # Filtra os dados para o país atual
    country_co2 = dados_co_areas[dados_co_areas['country'] == country]
    # Plota os dados para o país atual
    plt.plot(country_co2['year'], country_co2['coal_co2'], label=country)
plt.xlabel('Ano')
plt.ylabel('CO2 (milhões de toneladas)')
plt.title('Emissões de CO2 ao longo do tempo em vários países 2000-2021')
plt.legend()
plt.grid(True)
plt.show()

### Minha solução

#### Preparação dos dados

In [None]:
dados_co_areas.head()

#### Filtrar os paises e anos

In [None]:
filtro_anos = dados_co.year >= 2000
filtro_paises = dados_co.country.isin(paises)
dados_co_areas_anos = dados_co.loc[filtro_paises & filtro_anos, colunas_em_estudo]

#### Preencher os NaN 

In [None]:
dados_co_areas_anos.fillna(0, inplace=True)

In [None]:
dados_co_areas_anos.head()

In [None]:
plot_fig, plot_ax = plt.subplots(figsize=(12, 8))
# Configuraçao do ``Axes``.
plot_ax.set_title(r"Emissões de CO$_2$ grande áreas entre 2000 e 2021")
plot_ax.set_xlabel("Ano")
plot_ax.set_ylabel(r"Emissão CO$_2$ (milhões de toneladas)")
plot_ax.grid(True)

graficos = []

# Construir as várias "linhas"
for idx, pais in enumerate(paises):
    grafico = plot_ax.plot(
        "year",  # Seria a utilizar para o eixo dos XX.
        "coal_co2",  # Seria a utilizar para o eixo dos YY.
        data=dados_co_areas_anos[dados_co_areas_anos.country == pais],  # Estrutura de dados a utilizar, neste caso 1 DataFrame. 
        color=cores[idx],  # Cor da "linha".
        label=paises[idx],  # O valor "humano" das etiquetas. 
    )
    # Vou guardar as linhas numa lista caso queira mais tarde referênciar as mesmas.
    graficos.append(grafico)

plot_ax.legend(loc="upper left")