# Bibliotecas para o funcionamento do programa  📔 

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, mean_squared_error, accuracy_score

# Carregando o conjunto de dados de emissões de carbono  📈 

FONTE - *Data on CO2 and Greenhouse Gas Emissions by Our World in Data: https://github.com/owid/co2-data*

In [24]:
df = pd.read_csv('owid-co2-data.csv')


## Análise Exploratória dos Dados

Descrição do Processo de Limpeza:

Remover dados ausentes e inconsistentes.
Filtrar registros irrelevantes e corrigir valores extremos.
Verificar a consistência das variáveis e remover duplicatas.
Realizar transformações de dados necessárias, como normalização e padronização.


In [27]:

df = df.dropna()
df = df.drop_duplicates()

threshold = len(df) * 0.5
df_cleaned = df.dropna(thresh=threshold, axis=1)

df_cleaned.fillna(df_cleaned.select_dtypes(include=['float64', 'int64']).mean(), inplace=True)




### Calculando os 5 primeiros paises que mais emetiram carbono entre 1970 (Inicio da producao de micro computadores e computadores) ate a atualidade ano de 2024


In [26]:
df_filtered = df[(df['year'] >= 1970) & (df['year'] <= 2024)]
total_emissions = df_filtered.groupby('country')['co2'].sum().sort_values(ascending=False)

total_emissions = df_filtered.groupby('country')['co2'].sum().sort_values(ascending=False)
top_emitters = total_emissions.head(5).index


# Plotando Graficos

In [None]:
df_pivot.plot(figsize=(12, 8))
plt.title('Emissões de CO₂ dos Maiores Emissores (1970-2024)')
plt.xlabel('Ano')
plt.ylabel('Emissões de CO₂ (milhões de toneladas)')
plt.legend(title='País')
plt.grid(True)
plt.show()


# Modelagem de Machine Learning
Para analisar e prever tendências, vamos utilizar dois algoritmos: regressão linear para prever valores numéricos e um classificador (Random Forest) para classificação de categorias de emissão.

1. Regressão Linear
Usaremos o modelo de regressão linear para prever as emissões de CO2 futuras com base nos dados históricos.

In [None]:
X = df[['Year']]
y = df['CO2 Emissions (Mt)']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

y_pred = linear_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')


# Criando uma coluna de categorias para classificar as regiões


In [None]:
df['Emission Category'] = pd.cut(df['Per Capita Emissions'], bins=[0, 5, 10, 15], labels=['Baixo', 'Médio', 'Alto'])


# Separando os dados para classificação


In [None]:
X = df[['Year']]
y = df['Emission Category']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# Treinando o modelo de classificação


In [None]:
classifier = RandomForestClassifier()
classifier.fit(X_train, y_train)

# Avaliando o modelo de classificação


In [None]:
y_pred = classifier.predict(X_test)
print(classification_report(y_test, y_pred))
