<a href="https://colab.research.google.com/github/guilherme-2003/Programming/blob/main/a3_inteligencia_artificial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Comparação dos modelos Algoritmo de Classificação, Regressão e Árvore de decisão para análise de emissões de carbono por veículos do Canadá.**

In [59]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler

from sklearn.neighbors import KNeighborsRegressor as KNN
from sklearn.linear_model import LinearRegression as RL
from sklearn.tree import DecisionTreeRegressor as AD

In [47]:
df = pd.read_csv("/CO2_emissoes_canada.csv")

In [48]:
display(df)

Unnamed: 0,Make,Model,Vehicle Class,Engine Size(L),Cylinders,Transmission,Fuel Type,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km)
0,ACURA,ILX,COMPACT,2.0,4,AS5,Z,9.9,6.7,8.5,33,196
1,ACURA,ILX,COMPACT,2.4,4,M6,Z,11.2,7.7,9.6,29,221
2,ACURA,ILX HYBRID,COMPACT,1.5,4,AV7,Z,6.0,5.8,5.9,48,136
3,ACURA,MDX 4WD,SUV - SMALL,3.5,6,AS6,Z,12.7,9.1,11.1,25,255
4,ACURA,RDX AWD,SUV - SMALL,3.5,6,AS6,Z,12.1,8.7,10.6,27,244
...,...,...,...,...,...,...,...,...,...,...,...,...
7380,VOLVO,XC40 T5 AWD,SUV - SMALL,2.0,4,AS8,Z,10.7,7.7,9.4,30,219
7381,VOLVO,XC60 T5 AWD,SUV - SMALL,2.0,4,AS8,Z,11.2,8.3,9.9,29,232
7382,VOLVO,XC60 T6 AWD,SUV - SMALL,2.0,4,AS8,Z,11.7,8.6,10.3,27,240
7383,VOLVO,XC90 T5 AWD,SUV - STANDARD,2.0,4,AS8,Z,11.2,8.3,9.9,29,232


In [49]:
df = df[["Engine Size(L)", "Cylinders", "Fuel Consumption City (L/100 km)",
"Fuel Consumption Hwy (L/100 km)", "Fuel Consumption Comb (L/100 km)",
"Fuel Consumption Comb (mpg)", "CO2 Emissions(g/km)"]] # Selecionando apenas as colunas que serão utilizadas como dados de entrada
df = df.dropna() # Apaga dados nulos e NaN

dados_entrada = df.drop("CO2 Emissions(g/km)", axis=1) # Dropa a coluna CO2 Emissions(g/km) para os dados de entrada
dados_saida = df["CO2 Emissions(g/km)"] # Seleciona apenas a coluna com as taxas de emissão de carbono

scaler = StandardScaler()
dados_entrada = scaler.fit_transform(dados_entrada) # Normalizando os dados, deixando os dados com uma escala menor.

In [50]:
dados_entrada_treino, dados_entrada_teste, dados_saida_treino, dados_saida_teste = train_test_split(dados_entrada, dados_saida, test_size=0.25, random_state=42) # Dividir os dados em treino e teste

**Algoritmo de Classificação - K-Nearest Neighbors (KNN)**

In [56]:
modelo_knn = KNN(n_neighbors=10)  # 10 vizinhos
modelo_knn.fit(dados_entrada_treino, dados_saida_treino)
dados_saida_previsao_knn = modelo_knn.predict(dados_entrada_teste)

print("Coeficiente de Determinação:", round(r2_score(dados_saida_teste, dados_saida_previsao_knn) * 100, 2),"%")
print("Erro Médio Quadrático:", round(np.sqrt(mean_squared_error(dados_saida_teste, dados_saida_previsao_knn)), 3))
print("Erro Médio Absoluto:", round(mean_absolute_error(dados_saida_teste, dados_saida_previsao_knn), 3))

df_knn = pd.DataFrame({"Valores Reais": dados_saida_teste.values, "Valores Previstos": dados_saida_previsao_knn})
print("\n")
print("Previsões do Modelo KNN:")
print(df_knn)

Coeficiente de Determinação: 96.85 %
Erro Médio Quadrático: 10.369
Erro Médio Absoluto: 4.501


Previsões do Modelo KNN:
      Valores Reais  Valores Previstos
0               253              252.9
1               344              341.9
2               322              325.5
3               297              296.1
4               308              310.2
...             ...                ...
1842            261              258.7
1843            292              292.8
1844            279              279.4
1845            280              279.2
1846            182              184.0

[1847 rows x 2 columns]


In [57]:
modelo_regressao_linear = RL()
modelo_regressao_linear.fit(dados_entrada_treino, dados_saida_treino)
dados_saida_previsao_rl = modelo_regressao_linear.predict(dados_entrada_teste)

print("Coeficiente de Determinação:", round(r2_score(dados_saida_teste, dados_saida_previsao_rl) * 100, 2),"%")
print("Erro Médio Quadrático:", round(np.sqrt(mean_squared_error(dados_saida_teste, dados_saida_previsao_rl)), 3))
print("Erro Médio Absoluto:", round(mean_absolute_error(dados_saida_teste, dados_saida_previsao_rl), 3))

df_rl = pd.DataFrame({"Valores Reais": dados_saida_teste.values, "Valores Previstos": dados_saida_previsao_rl})
print("\n")
print("Previsões do Modelo Regressão Linear:")
print(df_rl)

Coeficiente de Determinação: 90.09 %
Erro Médio Quadrático: 18.385
Erro Médio Absoluto: 11.533


Previsões do Modelo Regressão Linear:
      Real    Previsão
0      253  257.367879
1      344  321.742868
2      322  324.697485
3      297  306.279956
4      308  296.070268
...    ...         ...
1842   261  265.835407
1843   292  301.358082
1844   279  296.060750
1845   280  267.790982
1846   182  189.388374

[1847 rows x 2 columns]


In [60]:
modelo_arvore_decisao = AD(max_depth=10, random_state=42)
modelo_arvore_decisao.fit(dados_entrada_treino, dados_saida_treino)
dados_saida_previsao_ad = modelo_arvore_decisao.predict(dados_entrada_teste)

print("Coeficiente de Determinação:", round(r2_score(dados_saida_teste, dados_saida_previsao_ad) * 100, 2),"%")
print("Erro Médio Quadrático:", round(np.sqrt(mean_squared_error(dados_saida_teste, dados_saida_previsao_ad)), 3))
print("Erro Médio Absoluto:", round(mean_absolute_error(dados_saida_teste, dados_saida_previsao_ad), 3))

df_ad = pd.DataFrame({"Valores Reais": dados_saida_teste.values, "Valores Previstos": dados_saida_previsao_ad})
print("\n")
print("Previsões do Modelo Árvore de Decisão:")
print(df_ad)

Coeficiente de Determinação: 96.87 %
Erro Médio Quadrático: 10.339
Erro Médio Absoluto: 3.519


Previsões do Modelo Árvore de Decisão:
      Real    Previsão
0      253  252.606061
1      344  342.818182
2      322  325.100000
3      297  297.076923
4      308  310.089888
...    ...         ...
1842   261  257.829268
1843   292  289.692308
1844   279  277.000000
1845   280  278.736842
1846   182  185.090909

[1847 rows x 2 columns]
