<a href="https://colab.research.google.com/github/hevertonvalerio/Analise_Exploratoria/blob/main/Machine_Learning_Projeto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="http://meusite.mackenzie.br/rogerio/mackenzie_logo/UPM.2_horizontal_vermelho.jpg"  width=300, align="right">
<br>
<br>
<br>
<br>
<br>

# ***Air Quality Classification***
---

In [None]:
#@title Identificação do Grupo

#@markdown Integrantes do Grupo (*informe \<TIA\>,\<nome\>*)
Aluno1 = '10433404, Diogo Rezende' #@param {type:"string"}
Aluno2 = '10348034, Heverton Lima ' #@param {type:"string"}
Aluno3 = '10441222, Bruna Soares' #@param {type:"string"}
Aluno4 = '10441047, João Fontebasso' #@param {type:"string"}

# **Apresentação**

# Problema

Esse trabalho tem como objetivo realizar uma classificação da qualidade do ar a partir de diversas características presentes, como: humidade, temperatura, gases tóxicos, etc.



# Referencial Teórico

O referencial teórico do nosso projeto de classificação da qualidade do ar envolve uma série de conceitos e técnicas de diferentes áreas entre Ciência de Dados, Aprendizado de Máquina e Ciência Ambiental. Especialmente o livro Hands-On Machine Learning with Scikit-Learn.



**Ciência Ambiental e Qualidade do Ar**

A qualidade do ar é um indicador da pureza do ar atmosférico, que pode ser afetado por poluentes naturais e antropogênicos. Os principais poluentes monitorados incluem partículas em suspensão (PM2.5 e PM10), ozônio (O3), dióxido de nitrogênio (NO2), dióxido de enxofre (SO2) e monóxido de carbono (CO). A Organização Mundial da Saúde (OMS) e agências ambientais como a Agência de Proteção Ambiental dos Estados Unidos (EPA) estabelecem diretrizes e padrões para a concentração desses poluentes.

----
**Aprendizado de Máquina e Classificação**
A classificação é uma tarefa de aprendizado supervisionado onde o objetivo é prever a qual categoria uma observação pertence. Modelos de classificação comuns incluem regressão logística, árvores de decisão, florestas aleatórias, gradient boosting machines (GBMs) e redes neurais profundas.


----

**Ferramentas**
O projeto utiliza frameworks populares como scikit-learn para a implementação de modelos de aprendizado de máquina, além de bibliotecas de ciência de dados como Pandas, NumPy e Matplotlib para manipulação e visualização de dados.


# Metodologia

Neste projeto, propomos um modelo de classificação de qualidade do ar.

Na fase de processamento, aplicamos Label Encoder para encodar a variável alvo. Removemos outliers usando o cálculo de limite superior e limite inferior. Aplicamos StandardScaler para padronizar os dados e deixá-los com média zero e desvio padrão 1, fazendo com que os dados se aproximem de uma distribuição normal. Posterior a isso, foi feito o split dos dados para aplicação dos modelos preditivos.

Após a análise exploratória de dados e a preparação dos dados, testamos diversos algoritmos de classificação, como:
- Logistic Regression;
- K-Nearest Neighbors;
- Gaussian Naive Bayes;
- Decision Tree;
- Random Forest;
- LightGBM;
- CatBoost;
- XGBoost.

Após a obtenção dos resultados iniciais, foi feito um stack com os 3 melhores modelos.



Avaliação no conjunto de teste:

Modelo: Logistic Regression

Melhores hiperparâmetros: {'model__C': np.float64(0.3004180608409973), 'model__penalty': 'l2', 'model__solver': 'newton-cg'}

Acurácia no conjunto de teste: 0.97

<br>

Modelo: KNN

Melhores hiperparâmetros: {'model__metric': 'manhattan', 'model__n_neighbors': 6, 'model__weights': 'distance'}

Acurácia no conjunto de teste: 0.96

<br>

Modelo: Gaussian NB

Acurácia no conjunto de teste: 0.94

<br>

Modelo: Decision Tree

Melhores hiperparâmetros: {'model__min_samples_split': np.int64(2), 'model__min_samples_leaf': np.int64(8), 'model__max_depth': np.int64(2), 'model__criterion': 'gini'}

Acurácia no conjunto de teste: 0.98

<br>

Modelo: Random Forest

Melhores hiperparâmetros: {'model__max_depth': np.int64(8), 'model__min_samples_split': np.int64(6), 'model__n_estimators': 88}

Acurácia no conjunto de teste: 0.98

<br>

Modelo: LightGBM

Melhores hiperparâmetros: {'model__learning_rate': 0.1, 'model__max_depth': np.int64(2), 'model__n_estimators': 96, 'model__num_leaves': np.int64(6)}

Acurácia no conjunto de teste: 0.98

<br>

Modelo: CatBoost

Melhores hiperparâmetros: {'model__depth': np.int64(5), 'model__iterations': 88, 'model__l2_leaf_reg': np.int64(2), 'model__learning_rate': 0.001}

Acurácia no conjunto de teste: 0.98

<br>

Modelo: XGBoost

Melhores hiperparâmetros: {'model__learning_rate': 0.1, 'model__max_depth': np.int64(10), 'model__min_child_weight': np.int64(6), 'model__n_estimators': 93}

Acurácia no conjunto de teste: 0.98

# **Implementação**

# Base de Dados

Os dados são referentes




In [None]:
!pip install --upgrade scikit-learn==1.4.2

In [None]:
!pip install catboost



In [None]:
# Ignore warnings
import warnings
warnings.filterwarnings('ignore')
warnings.filterwarnings('ignore', category=UserWarning, module='lightgbm')

# Manipulation
import pandas as pd
import numpy as np
from statsmodels import robust
from scipy import stats
from scipy.stats import uniform, randint

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')

# Preprocessing
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Model selection
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score, RandomizedSearchCV

# Evaluation
from sklearn.metrics import (accuracy_score, f1_score, classification_report,
                             roc_auc_score, confusion_matrix, precision_recall_curve,
                             ConfusionMatrixDisplay, roc_curve, auc)

# SkLearn & XGBoost
import sklearn
import xgboost

# Models
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, StackingClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier
from xgboost import XGBClassifier

import time
import requests

In [None]:
pip freeze | grep sklearn

sklearn-compat==0.1.3
sklearn-pandas==2.2.0


In [None]:
pip freeze | grep xgboost

xgboost==2.1.4


In [None]:
sklearn.__version__

'1.4.2'

## **Modelo 1**


In [None]:
url = 'https://raw.githubusercontent.com/kelvins/municipios-brasileiros/main/csv/municipios.csv'
cidades = pd.read_csv(url)
locations = cidades[["latitude","longitude"]].head(100)
locations.head()

Unnamed: 0,latitude,longitude
0,-16.7573,-49.4412
1,-18.4831,-47.3916
2,-16.197,-48.7057
3,-19.1551,-45.4444
4,-1.72183,-48.8788


In [None]:
api_key = 'c2f19d3619a10c04427348043f2f8129'

dados = []

for index, row in locations.iterrows():
    lat = row['latitude']
    lon = row['longitude']

    try:
        url_pollution = f"http://api.openweathermap.org/data/2.5/air_pollution?lat={lat}&lon={lon}&appid={api_key}"
        pollution_data = requests.get(url_pollution).json()

        url_weather = f"http://api.openweathermap.org/data/2.5/weather?lat={lat}&lon={lon}&appid={api_key}&units=metric"
        weather_data = requests.get(url_weather).json()

        components = pollution_data['list'][0]['components']
        aqi = pollution_data['list'][0]['main']['aqi']
        aqi_map = {1: "Good", 2: "Fair", 3: "Moderate", 4: "Poor", 5: "Very Poor"}

        dados.append({
            'Temperature': weather_data['main']['temp'],
            'Humidity': weather_data['main']['humidity'],
            'PM2.5': components.get('pm2_5'),
            'PM10': components.get('pm10'),
            'NO2': components.get('no2'),
            'SO2': components.get('so2'),
            'CO': components.get('co'),
            'Air Quality': aqi_map.get(aqi)
        })

        time.sleep(1)

    except Exception as e:
        print(f"Erro em {lat},{lon}: {e}")

# Criando o DataFrame
df = pd.DataFrame(dados)

In [None]:
df.head()

Unnamed: 0,Temperature,Humidity,PM2.5,NO2,SO2,CO,Air Quality
0,19.85,63,2.1,3.3,0.15,99.01,1
1,16.77,72,5.93,4.16,0.64,117.54,1
2,15.52,81,1.44,2.79,0.45,85.91,1
3,17.62,72,4.77,6.99,0.55,107.92,1
4,24.01,97,1.24,0.5,0.09,70.36,1


### **Modelo 1:** Preparação dos Dados


In [None]:
# Vamos começar aplicando LabelEncoder na nossa variável alvo.
le = LabelEncoder()
df['Air Quality'] = le.fit_transform(df['Air Quality'])

In [None]:
df['Air Quality'].value_counts()

Unnamed: 0_level_0,count
Air Quality,Unnamed: 1_level_1
1,761
0,202
2,23
3,10
4,4


Segue a legenda de como ficou a atribuição de valores para a variável target.

- 0 = Good
- 1 = Hazardous
- 2 = Moderate
- 3 = Poor

In [None]:
df['Air Quality'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 1000 entries, 0 to 999
Series name: Air Quality
Non-Null Count  Dtype
--------------  -----
1000 non-null   int64
dtypes: int64(1)
memory usage: 7.9 KB


In [None]:
df.drop('PM10', axis=1, inplace=True)

In [None]:
# Remocao dos outliers

colunas = ['Temperature', 'Humidity','PM2.5', 'NO2', 'SO2', 'CO']

Q1 = df[colunas].quantile(.25)
Q3 = df[colunas].quantile(.75)
IQR = Q3 - Q1

limite_superior = Q3 + 1.5 * IQR
limite_inferior = Q1 - 1.5 * IQR

mask = (df[colunas] >= limite_inferior) & (df[colunas] <= limite_superior)

df_sem_outliers = df[mask.all(axis=1)].copy()

In [None]:
# Aplicacao do StandardScaler

colunas = ['Temperature', 'Humidity', 'PM2.5', 'NO2', 'SO2', 'CO']

scaler = StandardScaler()
df_sem_outliers[colunas] = scaler.fit_transform(df_sem_outliers[colunas])

### **Modelo 1:** Modelo


In [None]:
# Split das variaveis
X = df_sem_outliers.drop('Air Quality', axis=1)
y = df_sem_outliers['Air Quality']

In [None]:
# Split dos dados
X_tr, X_ts, y_tr, y_ts = train_test_split(X, y, test_size=.2, shuffle=True, random_state=42)

In [None]:
# Validação cruzada
strat_kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

In [None]:
params_grid = {
    "Logistic Regression": {
        "model__C": uniform(0.01, 5),
        "model__penalty": ["l2"],
        "model__solver": ["lbfgs", "newton-cg"]
    },
    "KNN": {
        "model__n_neighbors": randint(1, 10),
        "model__weights": ["uniform", "distance"],
        "model__metric": ["euclidean", "manhattan", "minkowski"]
    },
    "Gaussian NB": {
    },
    "Decision Tree": {
        "model__max_depth": np.arange(1, 11, 1),
        "model__min_samples_split": np.arange(2, 11, 1),
        "model__min_samples_leaf": np.arange(2, 11, 1),
        "model__criterion": ["gini", "entropy"]
    },
    "Random Forest": {
        "model__n_estimators": randint(50, 100),
        "model__max_depth": np.arange(1, 11, 1),
        "model__min_samples_split": np.arange(2, 11, 1)
    },
    "LightGBM": {
        "model__n_estimators": randint(50, 100),
        "model__learning_rate": [0.1, 0.01, 0.001],
        "model__num_leaves": np.arange(2, 11, 1),
        "model__max_depth": np.arange(1, 11, 1)
    },
    "CatBoost": {
        "model__iterations": randint(50, 100),
        "model__learning_rate": [0.1, 0.01, 0.001],
        "model__depth": np.arange(1, 11, 1),
        "model__l2_leaf_reg": np.arange(1, 7, 1)
    },
    "XGBoost": {
        "model__n_estimators": randint(50, 100),
        "model__learning_rate": [0.1, 0.01, 0.001],
        "model__max_depth": np.arange(1, 11, 1),
        "model__min_child_weight": np.arange(1, 7, 1),
    }
}

In [None]:
# Criação dos pipelines

pipelines = {
    "Logistic Regression": Pipeline([
        ("model", LogisticRegression())
    ]),
    "KNN": Pipeline([
        ("model", KNeighborsClassifier())
    ]),
    "Gaussian NB": Pipeline([
        ("model", GaussianNB())
    ]),
    "Decision Tree": Pipeline([
        ("model", DecisionTreeClassifier())
    ]),
    "Random Forest": Pipeline([
        ("model", RandomForestClassifier())
    ]),
    "LightGBM": Pipeline([
        ("model", LGBMClassifier())
    ]),
    "CatBoost": Pipeline([
        ("model", CatBoostClassifier(verbose=False))
    ]),
    "XGBoost": Pipeline([
        ("model", XGBClassifier())
    ])
}

In [None]:
best_models = {}

for model_name, pipeline in pipelines.items():
  print(f"Treinando {model_name}...")
  param_grid = params_grid.get(model_name, {})
  search = RandomizedSearchCV(
      pipeline,
      param_distributions=param_grid,
      n_iter=50,
      scoring="accuracy",
      cv=strat_kfold,
      random_state=42,
      n_jobs=-1
  )

  search.fit(X_tr, y_tr)
  best_models[model_name] = search
  print(f"Melhor acurácia: {search.best_score_}")
  print(f"Melhores parâmetros: {search.best_params_}")
  print(f"{model_name} treinado com sucesso!\n")

Treinando Logistic Regression...
Melhor acurácia: 0.9850634047806082
Melhores parâmetros: {'model__C': np.float64(0.3004180608409973), 'model__penalty': 'l2', 'model__solver': 'newton-cg'}
Logistic Regression treinado com sucesso!

Treinando KNN...
Melhor acurácia: 0.982089552238806
Melhores parâmetros: {'model__metric': 'manhattan', 'model__n_neighbors': 6, 'model__weights': 'distance'}
KNN treinado com sucesso!

Treinando Gaussian NB...
Melhor acurácia: 0.926753450791157
Melhores parâmetros: {}
Gaussian NB treinado com sucesso!

Treinando Decision Tree...
Melhor acurácia: 0.9925373134328359
Melhores parâmetros: {'model__min_samples_split': np.int64(2), 'model__min_samples_leaf': np.int64(8), 'model__max_depth': np.int64(2), 'model__criterion': 'gini'}
Decision Tree treinado com sucesso!

Treinando Random Forest...
Melhor acurácia: 0.9940298507462686
Melhores parâmetros: {'model__max_depth': np.int64(8), 'model__min_samples_split': np.int64(6), 'model__n_estimators': 88}
Random Forest

### **Modelo 1:** Resultados


In [None]:
print("\nAvaliação no conjunto de teste:")
for model_name, search in best_models.items():
    print(f"\nModelo: {model_name}")
    print(f"Melhores hiperparâmetros: {search.best_params_}")
    best_model = search.best_estimator_
    y_pred = best_model.predict(X_ts)
    acc = accuracy_score(y_ts, y_pred)
    print(f"Acurácia no conjunto de teste: {acc:.2f}")


Avaliação no conjunto de teste:

Modelo: Logistic Regression
Melhores hiperparâmetros: {'model__C': np.float64(0.3004180608409973), 'model__penalty': 'l2', 'model__solver': 'newton-cg'}
Acurácia no conjunto de teste: 0.97

Modelo: KNN
Melhores hiperparâmetros: {'model__metric': 'manhattan', 'model__n_neighbors': 6, 'model__weights': 'distance'}
Acurácia no conjunto de teste: 0.96

Modelo: Gaussian NB
Melhores hiperparâmetros: {}
Acurácia no conjunto de teste: 0.94

Modelo: Decision Tree
Melhores hiperparâmetros: {'model__min_samples_split': np.int64(2), 'model__min_samples_leaf': np.int64(8), 'model__max_depth': np.int64(2), 'model__criterion': 'gini'}
Acurácia no conjunto de teste: 0.98

Modelo: Random Forest
Melhores hiperparâmetros: {'model__max_depth': np.int64(8), 'model__min_samples_split': np.int64(6), 'model__n_estimators': 88}
Acurácia no conjunto de teste: 0.98

Modelo: LightGBM
Melhores hiperparâmetros: {'model__learning_rate': 0.1, 'model__max_depth': np.int64(2), 'model__

## **Stacking dos 3 melhores modelos**


In [None]:
# Verificação de quais são os três melhores modelos.

model_score = {}

for model_name, search in best_models.items():
  best_model = search.best_estimator_
  y_pred = best_model.predict(X_ts)
  acc = accuracy_score(y_ts, y_pred)
  model_score[model_name] = acc

# Ordenação em ordem decrescente
score_ordenado = sorted(model_score.items(), key=lambda x: x[1], reverse=True)

# 3 Melhores modelos
top_3 = score_ordenado[:3]
print(f"Top 3 modelos: {top_3}")

Top 3 modelos: [('Decision Tree', 0.9821428571428571), ('Random Forest', 0.9821428571428571), ('LightGBM', 0.9821428571428571)]


In [None]:
# Criação de uma lista com os melhores modelos que serão utilizados posteriormente
melhores_modelos = []

for model_name, _ in top_3:
  best_model = best_models[model_name].best_estimator_
  melhores_modelos.append((model_name, best_model))

In [None]:
# Criação do Stack

stack_model = StackingClassifier(
    estimators=melhores_modelos,
    final_estimator=LogisticRegression(),
    cv=strat_kfold,
    n_jobs=-1
)

In [None]:
# Ajuste do modelo
stack_model.fit(X_tr, y_tr)

In [None]:
# Avaliação no conjunto de teste
y_pred_stack = stack_model.predict(X_ts)
y_prob_stack = stack_model.predict_proba(X_ts)

acc_stack = accuracy_score(y_ts, y_pred_stack)
f1_stack = f1_score(y_ts, y_pred_stack, average='weighted')
# roc_auc_stack = roc_auc_score(y_ts, y_prob_stack, multi_class='ovr')

print(f"Acurácia no conjunto de teste: {acc_stack:.2f}")
print(f"F1-Score no conjunto de teste: {f1_stack:.2f}")
# print(f"ROC AUC no conjunto de teste: {roc_auc_stack:.2f}")

Acurácia no conjunto de teste: 0.98
F1-Score no conjunto de teste: 0.98


# **Conclusão**

*Apresente a conclusão do seu estudo comparando ainda os resultados obtidos com o referencial teórico apresentado.*



# **Referências**
GÉRON, Aurélien. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn, Keras & TensorFlow: Conceitos, Ferramentas e Técnicas Para a Construção de Sistemas Inteligentes. 1. ed. Rio de Janeiro: Alta Books, 2021.
