### Machine Learning I - Fase 2


Nome: **Marcel Luís dos Santos Albuquerque**

### Aplicação e validação de algoritmos de Machine Learning


Nesta fase, o objetivo é usar os dados preparados na fase anterior para construir um classificador binário. Use o atributo invertebrae_origins (com os valores: native e non-native) como classe. Se for necessário selecionar ainda mais os atributos para que o classificador funcione melhor, comente as suas escolhas e a necessidade desse novo filtro.


Experimente ao menos 4 dos algoritmos vistos em aula para classificação. Obrigatoriamente, dentre esses 4 você deve incluir **Árvores de Decisão** e **MultiLayer Perceptron**. Explore os hiperparâmetros dos algoritmos visando a obtenção de melhores resultados.


### 1) Tratamento da coluna alvo desbalanceada


A coluna alvo “invertebrate_origins” está desbalanceada. Você precisa balanceá-la usando alguma técnica vista em aula.

In [None]:
# Insira seu código aqui.
# Você pode criar células de código adicionais


# TODO
# 1) Balanceamento da coluna alvo

##### Carregando o dataset tratado da Fase 1

In [3]:
import pandas as pd

# Carregando e lendo o arquivo CSV
df = pd.read_csv('../data/processed/dataset_fase1_tratado.csv')

# Visualizando as 5 primeiras linhas
print(df.head())

   municipality  state  country  veg_landuse_type_point_level1  \
0             3      9        1                              9   
1             3      9        1                              9   
2             3      9        1                              9   
3             3      9        1                              9   
4             3      9        1                              9   

   veg_landuse_type_point_level2  veg_landuse_type_buffer5km_level1  \
0                             39                                  7   
1                             39                                  7   
2                             39                                  7   
3                             39                                  7   
4                             39                                  7   

   veg_landuse_type_buffer5km_level2  temperature  relative_humidity  \
0                                  6         25.0               65.0   
1                               

##### Verificando a coluna alvo invertebrate_origins

In [7]:
# Verificando a presença das classes
print(df['invertebrate_origins'].value_counts())

# Checando se existem valores inválidos (como 0)
print("Valores únicos encontrados:", df['invertebrate_origins'].unique())

invertebrate_origins
1    11094
0     5288
2     2040
Name: count, dtype: int64
Valores únicos encontrados: [1 2 0]


- Insights: o valor '0' está presente e não faz parte da classificação binária esperada (1 = native, 2 = non-native).
- Próximos passos: remover as registros com invertebrate_origins = 0, pois não representam a classe native ou non-native. Manter essas linhas prejudicaria a performance do classificador e as métricas de avaliação.

##### 1.1) Balanceamento da coluna alvo

In [10]:
from sklearn.utils import resample

# Removendo registros com classe inválida (0)
df = df[df['invertebrate_origins'].isin([1, 2])]

# Separando os dados por classe
df_majority = df[df['invertebrate_origins'] == 1]  # native
df_minority = df[df['invertebrate_origins'] == 2]  # non-native

# Oversampling da classe minoritária
df_minority_oversampled = resample(
    df_minority,
    replace=True,                
    n_samples=len(df_majority), 
    random_state=42
)

# Combinando as classes balanceadas
df_balanceado = pd.concat([df_majority, df_minority_oversampled])

# Verificando nova distribuição
print(df_balanceado['invertebrate_origins'].value_counts())

invertebrate_origins
1    11094
2    11094
Name: count, dtype: int64


#2) Escolha dos algoritmos e exploração dos hiper-parâmetros


Agora, você precisa escolher 2 algoritmos de classificação, junto com Árvore de decisão e MLP, e o conjunto de hiper parâmetros que será explorado.


In [None]:
# Insira seu código aqui.
# Você pode criar células de código adicionais

# TODO
# 1) Criação dos modelos Árvore de decisão, MLP e mais dois algoritmos de sua escolha
# 2) Definição do cojunto de hiper-parâmetros a serem explorados (use GridSearch)
#     Link de referência: https://scikit-learn.org/dev/modules/generated/sklearn.model_selection.GridSearchCV.html
# 3) Execução da exploração dos hiper-parâmetros e escolhe dos melhores estimadores

#3) Divisão dos subconjunto de dados de treino e teste, com estratificação




Agora, você precisa dividir os dados em subconjuntos de treino e teste. Para isso, você também deve fazer a divisão com a estratificação da coluna alvo.

O treinamento e teste devem ser feitos usando a técnica de validação cruzada.


In [None]:
# Insira seu código aqui
# Você pode adicionar células adicionais

# TODO
# 1) Divisão do dataset em treino e teste, com estratificação
# 2) Execução do treinamento e validação com Cross-Validation

# 4) Análise dos resultado

Após a execução do treinamento e validação, você deve coletar as métricas de validação para problemas de classificação e compará-las entre os algoritmos.

Você deve coletar e plotar as métricas:
- Acurácia;
- Precisão;
- Recall;
- F1-Score;
- Matriz de confusão;

Após a plotagem dos resultado de forma gráfica, análise os resultados e tente identificar possíveis problemas de overfitting/underfitting, bem como os melhores algoritmos.


In [None]:
# Insira seu código aqui
# Você pode adicionar células adicionais

# TODO
# 1) Coleta das métricas de validação
# 2) Plotagem do resutaldos em gráficos
# 3) Análise textual dos resultados

# 5) Conclusão


Conclua seu estudo indicando o melhor algoritmo (modelo de IA) para o problema e comente os resultados alcançados. No caso de resultados ruins, comente e formule hipóteses para as possíveis causas.

### Insira sua conclusão aqui!
##### Você pode adicionar células adicionais

# Check-List

Com isso, você completa a fase 2 da disciplina. Para auxiliar você a verificar se o trabalho está adequado para a entrega, criamos uma lista de item que devem ser satisfeitos ao final do trabalho.

- Balanceamento da coluna alvo;
- Utilização de 4 algoritmos de classificação, incluindo Árvore de decisão e MLP;
- Exploração dos hiper parâmetros dos algoritmos;
- Divisão do dataset em treino e teste, com estratificação na coluna alvo;
- Validação dos algoritmos usando cross-validation e coleta das métricas de avaliação (acurácia, precisão, recall, f1, matriz de confusão);
- Analise da matriz de confusão e métricas.
- Plotagem e análise textual sobre os resultados, indicando melhor modelo de IA;
- Conclusão do trabalho realizado, comentando os resultados e as dificuldades encontradas;
