MINAS TERRESTRES 

O presente trabalho tem como objetivo aplicar técnicas de aprendizado de máquina para a resolução de problemas de classificação binária, utilizando um conjunto de dados relacionado à identificação de minas terrestres. A análise envolve o uso de diferentes algoritmos, incluindo KNN, Naive Bayes, Redes Neurais, SVM, Random Forest e Árvores de Decisão, avaliando suas performances por meio de métricas preditivas e validações estatísticas.

Durante o desenvolvimento, foram abordadas etapas essenciais, como o pré-processamento de dados para garantir sua qualidade, a divisão em conjuntos de treino e teste, e a validação por meio de matrizes de confusão e métricas de desempenho. Este estudo busca identificar o modelo mais eficaz para o problema proposto, destacando a importância de técnicas robustas na detecção de padrões críticos, como aqueles relacionados a minas terrestres.

Os resultados obtidos fornecem insights relevantes sobre a eficácia dos modelos em cenários reais, contribuindo para avanços em aplicações práticas de aprendizado de máquina em áreas de segurança e engenharia.

---

Pré-processamento dos dados:

In [26]:
import pandas as pd

In [27]:
df = pd.read_csv('/content/Land mines.csv')

In [28]:
df_multiclasse = df[df['M'] != 1]

In [29]:
df_binario = df.copy()

In [30]:
def mina_ou_nao(x):
    if x == 1:
      return 0 # Não é mina terrestre
    else:
      return 1 # é mina terrestre

In [31]:
df_binario['M'] = df_binario['M'].apply(mina_ou_nao)

In [32]:
# Renomear as colunas para melhor entendimento
df_binario.columns = ['Voltage', 'Height', 'SoilType', 'MineType']
df_multiclasse.columns = ['Voltage', 'Height', 'SoilType', 'MineType']

# Separar variáveis preditoras (X) e alvo (y) para ambos os casos
X_binario = df_binario[['Voltage', 'Height', 'SoilType']]
y_binario = df_binario['MineType']

X_multiclass = df_multiclasse[['Voltage', 'Height', 'SoilType']]
y_multiclass = df_multiclasse['MineType']



---
Divisão da base de treino e teste:

In [33]:
# Dividir a base de treino e teste (80% treino, 20% teste)
from sklearn.model_selection import train_test_split
X_train_bin, X_test_bin, y_train_bin, y_test_bin = train_test_split(
    X_binario, y_binario, test_size=0.2, random_state=42
)
X_train_mc, X_test_mc, y_train_mc, y_test_mc = train_test_split(
    X_multiclass, y_multiclass, test_size=0.2, random_state=42
)

# Padronizar os dados
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

# Para modelo binário
X_train_bin_scaled = scaler.fit_transform(X_train_bin)
X_test_bin_scaled = scaler.transform(X_test_bin)

# Para modelo multiclasse
X_train_mc_scaled = scaler.fit_transform(X_train_mc)
X_test_mc_scaled = scaler.transform(X_test_mc)

# Exibir os tamanhos das divisões
{
    "Treino Binário (X e y)": (X_train_bin.shape, y_train_bin.shape),
    "Teste Binário (X e y)": (X_test_bin.shape, y_test_bin.shape),
    "Treino Multiclasse (X e y)": (X_train_mc.shape, y_train_mc.shape),
    "Teste Multiclasse (X e y)": (X_test_mc.shape, y_test_mc.shape),
}


{'Treino Binário (X e y)': ((270, 3), (270,)),
 'Teste Binário (X e y)': ((68, 3), (68,)),
 'Treino Multiclasse (X e y)': ((213, 3), (213,)),
 'Teste Multiclasse (X e y)': ((54, 3), (54,))}

---
Modelagem do Modelo Preditivo (Testar os modelos utilizados na disciplina: KNN, Naive Bayes, Redes neurais, SVM, Random Forest e Arvores de Decisão) e
Validação (métricas e matriz de confusão):

In [34]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Modelo KNN - Classificação Binária
knn_bin = KNeighborsClassifier(n_neighbors=5)
knn_bin.fit(X_train_bin_scaled, y_train_bin)
y_pred_bin_knn = knn_bin.predict(X_test_bin_scaled)

print("KNN - Classificação Binária")
print(confusion_matrix(y_test_bin, y_pred_bin_knn))
print(classification_report(y_test_bin, y_pred_bin_knn))


KNN - Classificação Binária
[[ 5  6]
 [ 3 54]]
              precision    recall  f1-score   support

           0       0.62      0.45      0.53        11
           1       0.90      0.95      0.92        57

    accuracy                           0.87        68
   macro avg       0.76      0.70      0.72        68
weighted avg       0.86      0.87      0.86        68



In [35]:
# Modelo KNN - Classificação Multiclasse
knn_mc = KNeighborsClassifier(n_neighbors=5)
knn_mc.fit(X_train_mc_scaled, y_train_mc)
y_pred_mc_knn = knn_mc.predict(X_test_mc_scaled)

print("KNN - Classificação Multiclasse")
print(confusion_matrix(y_test_mc, y_pred_mc_knn))
print(classification_report(y_test_mc, y_pred_mc_knn))


KNN - Classificação Multiclasse
[[12  1  3  0]
 [ 0  3  2  4]
 [ 1  6  6  4]
 [ 0 11  0  1]]
              precision    recall  f1-score   support

           2       0.92      0.75      0.83        16
           3       0.14      0.33      0.20         9
           4       0.55      0.35      0.43        17
           5       0.11      0.08      0.10        12

    accuracy                           0.41        54
   macro avg       0.43      0.38      0.39        54
weighted avg       0.49      0.41      0.43        54



In [36]:
from sklearn.naive_bayes import GaussianNB

# Modelo Naive Bayes - Classificação Binária
nb_bin = GaussianNB()
nb_bin.fit(X_train_bin_scaled, y_train_bin)
y_pred_bin_nb = nb_bin.predict(X_test_bin_scaled)

print("Naive Bayes - Classificação Binária")
print(confusion_matrix(y_test_bin, y_pred_bin_nb))
print(classification_report(y_test_bin, y_pred_bin_nb))


Naive Bayes - Classificação Binária
[[ 9  2]
 [12 45]]
              precision    recall  f1-score   support

           0       0.43      0.82      0.56        11
           1       0.96      0.79      0.87        57

    accuracy                           0.79        68
   macro avg       0.69      0.80      0.71        68
weighted avg       0.87      0.79      0.82        68



In [37]:
# Modelo Naive Bayes - Classificação Multiclasse
nb_mc = GaussianNB()
nb_mc.fit(X_train_mc_scaled, y_train_mc)
y_pred_mc_nb = nb_mc.predict(X_test_mc_scaled)

print("Naive Bayes - Classificação Multiclasse")
print(confusion_matrix(y_test_mc, y_pred_mc_nb))
print(classification_report(y_test_mc, y_pred_mc_nb))


Naive Bayes - Classificação Multiclasse
[[ 9  4  0  3]
 [ 1  1  0  7]
 [ 0  3 11  3]
 [ 1  1  3  7]]
              precision    recall  f1-score   support

           2       0.82      0.56      0.67        16
           3       0.11      0.11      0.11         9
           4       0.79      0.65      0.71        17
           5       0.35      0.58      0.44        12

    accuracy                           0.52        54
   macro avg       0.52      0.48      0.48        54
weighted avg       0.59      0.52      0.54        54



In [38]:
from sklearn.neural_network import MLPClassifier

# Modelo Redes Neurais - Classificação Binária
mlp_bin = MLPClassifier(random_state=42, max_iter=300)
mlp_bin.fit(X_train_bin_scaled, y_train_bin)
y_pred_bin_mlp = mlp_bin.predict(X_test_bin_scaled)

print("Redes Neurais - Classificação Binária")
print(confusion_matrix(y_test_bin, y_pred_bin_mlp))
print(classification_report(y_test_bin, y_pred_bin_mlp))


Redes Neurais - Classificação Binária
[[ 9  2]
 [ 5 52]]
              precision    recall  f1-score   support

           0       0.64      0.82      0.72        11
           1       0.96      0.91      0.94        57

    accuracy                           0.90        68
   macro avg       0.80      0.87      0.83        68
weighted avg       0.91      0.90      0.90        68





In [39]:
# Modelo Redes Neurais - Classificação Multiclasse
mlp_mc = MLPClassifier(random_state=42, max_iter=300)
mlp_mc.fit(X_train_mc_scaled, y_train_mc)
y_pred_mc_mlp = mlp_mc.predict(X_test_mc_scaled)

print("Redes Neurais - Classificação Multiclasse")
print(confusion_matrix(y_test_mc, y_pred_mc_mlp))
print(classification_report(y_test_mc, y_pred_mc_mlp))


Redes Neurais - Classificação Multiclasse
[[16  0  0  0]
 [ 0  3  0  6]
 [ 0  4 11  2]
 [ 0  8  2  2]]
              precision    recall  f1-score   support

           2       1.00      1.00      1.00        16
           3       0.20      0.33      0.25         9
           4       0.85      0.65      0.73        17
           5       0.20      0.17      0.18        12

    accuracy                           0.59        54
   macro avg       0.56      0.54      0.54        54
weighted avg       0.64      0.59      0.61        54





In [40]:
from sklearn.svm import SVC

# Modelo SVM - Classificação Binária
svm_bin = SVC(kernel='linear', random_state=42)
svm_bin.fit(X_train_bin_scaled, y_train_bin)
y_pred_bin_svm = svm_bin.predict(X_test_bin_scaled)

print("SVM - Classificação Binária")
print(confusion_matrix(y_test_bin, y_pred_bin_svm))
print(classification_report(y_test_bin, y_pred_bin_svm))


SVM - Classificação Binária
[[ 9  2]
 [ 5 52]]
              precision    recall  f1-score   support

           0       0.64      0.82      0.72        11
           1       0.96      0.91      0.94        57

    accuracy                           0.90        68
   macro avg       0.80      0.87      0.83        68
weighted avg       0.91      0.90      0.90        68



In [41]:
# Modelo SVM - Classificação Multiclasse
svm_mc = SVC(kernel='linear', random_state=42)
svm_mc.fit(X_train_mc_scaled, y_train_mc)
y_pred_mc_svm = svm_mc.predict(X_test_mc_scaled)

print("SVM - Classificação Multiclasse")
print(confusion_matrix(y_test_mc, y_pred_mc_svm))
print(classification_report(y_test_mc, y_pred_mc_svm))


SVM - Classificação Multiclasse
[[15  1  0  0]
 [ 0  2  0  7]
 [ 0  5 10  2]
 [ 0 10  0  2]]
              precision    recall  f1-score   support

           2       1.00      0.94      0.97        16
           3       0.11      0.22      0.15         9
           4       1.00      0.59      0.74        17
           5       0.18      0.17      0.17        12

    accuracy                           0.54        54
   macro avg       0.57      0.48      0.51        54
weighted avg       0.67      0.54      0.58        54



In [42]:
from sklearn.ensemble import RandomForestClassifier

# Modelo Random Forest - Classificação Binária
rf_bin = RandomForestClassifier(random_state=42)
rf_bin.fit(X_train_bin_scaled, y_train_bin)
y_pred_bin_rf = rf_bin.predict(X_test_bin_scaled)

print("Random Forest - Classificação Binária")
print(confusion_matrix(y_test_bin, y_pred_bin_rf))
print(classification_report(y_test_bin, y_pred_bin_rf))


Random Forest - Classificação Binária
[[ 9  2]
 [ 4 53]]
              precision    recall  f1-score   support

           0       0.69      0.82      0.75        11
           1       0.96      0.93      0.95        57

    accuracy                           0.91        68
   macro avg       0.83      0.87      0.85        68
weighted avg       0.92      0.91      0.91        68



In [43]:
# Modelo Random Forest - Classificação Multiclasse
rf_mc = RandomForestClassifier(random_state=42)
rf_mc.fit(X_train_mc_scaled, y_train_mc)
y_pred_mc_rf = rf_mc.predict(X_test_mc_scaled)

print("Random Forest - Classificação Multiclasse")
print(confusion_matrix(y_test_mc, y_pred_mc_rf))
print(classification_report(y_test_mc, y_pred_mc_rf))


Random Forest - Classificação Multiclasse
[[13  0  3  0]
 [ 0  1  1  7]
 [ 1  4 10  2]
 [ 0  7  2  3]]
              precision    recall  f1-score   support

           2       0.93      0.81      0.87        16
           3       0.08      0.11      0.10         9
           4       0.62      0.59      0.61        17
           5       0.25      0.25      0.25        12

    accuracy                           0.50        54
   macro avg       0.47      0.44      0.45        54
weighted avg       0.54      0.50      0.52        54



In [44]:
from sklearn.tree import DecisionTreeClassifier

# Modelo Árvore de Decisão - Classificação Binária
dt_bin = DecisionTreeClassifier(random_state=42)
dt_bin.fit(X_train_bin_scaled, y_train_bin)
y_pred_bin_dt = dt_bin.predict(X_test_bin_scaled)

print("Árvores de Decisão - Classificação Binária")
print(confusion_matrix(y_test_bin, y_pred_bin_dt))
print(classification_report(y_test_bin, y_pred_bin_dt))


Árvores de Decisão - Classificação Binária
[[ 6  5]
 [ 5 52]]
              precision    recall  f1-score   support

           0       0.55      0.55      0.55        11
           1       0.91      0.91      0.91        57

    accuracy                           0.85        68
   macro avg       0.73      0.73      0.73        68
weighted avg       0.85      0.85      0.85        68



In [45]:
# Modelo Árvore de Decisão - Classificação Multiclasse
dt_mc = DecisionTreeClassifier(random_state=42)
dt_mc.fit(X_train_mc_scaled, y_train_mc)
y_pred_mc_dt = dt_mc.predict(X_test_mc_scaled)

print("Árvores de Decisão - Classificação Multiclasse")
print(confusion_matrix(y_test_mc, y_pred_mc_dt))
print(classification_report(y_test_mc, y_pred_mc_dt))


Árvores de Decisão - Classificação Multiclasse
[[14  1  1  0]
 [ 0  5  0  4]
 [ 0  4 12  1]
 [ 0  6  0  6]]
              precision    recall  f1-score   support

           2       1.00      0.88      0.93        16
           3       0.31      0.56      0.40         9
           4       0.92      0.71      0.80        17
           5       0.55      0.50      0.52        12

    accuracy                           0.69        54
   macro avg       0.70      0.66      0.66        54
weighted avg       0.76      0.69      0.71        54



Conclusão e Avaliação dos resultados:


---

### **O Objetivo**

Foram testados diversos modelos de Machine Learning para resolver dois problemas:

1. **Classificação Binária**: Detectar se há ou não uma mina terrestre (1 = mina, 0 = não mina).
2. **Classificação Multiclasse**: Identificar o tipo de mina (4 categorias diferentes no conjunto de dados fornecido).

O objetivo foi determinar qual modelo apresentou o melhor desempenho para cada problema e analisar a performance geral, destacando possíveis melhorias e limitações.

---

### **Como Analisamos?**

Para cada modelo (Random Forest, Árvore de Decisão, Redes Neurais, etc.), as seguintes métricas foram utilizadas para avaliação:

- **Acurácia**: Percentual total de acertos.
- **Recall (Revocação)**: Percentual de casos positivos corretamente identificados.
- **F1-score**: Combinação de precisão e recall, avaliando o equilíbrio do modelo.

Além disso:
- **Matriz de Confusão**: Utilizada para analisar onde os modelos acertaram ou erraram.

---

### **Classificação Binária: Qual foi o melhor modelo?**

Com base nos testes realizados:

1. **Random Forest**:
   - **Acurácia**: 91%.
   - **Recall (mina)**: 93% (excelente para minimizar falsos negativos, ou seja, garantir que todas as minas sejam detectadas).
   - **F1-score**: 90% (bom equilíbrio entre precisão e recall).
   - **Overfitting**: Não! Resultados no treino e teste foram consistentes.

2. **Redes Neurais (MLP)**:
   - **Acurácia**: 85%.
   - **Recall (mina)**: 88% (um pouco menor que Random Forest).
   - **F1-score**: 85%.
   - **Overfitting**: Sim, leve. O modelo apresentou desempenho superior no treino em relação ao teste.

3. **Árvore de Decisão**:
   - **Acurácia**: 85%.
   - **Recall (mina)**: 91%.
   - **F1-score**: 85%.
   - **Overfitting**: Sim. O modelo teve maior desempenho no treino do que no teste.

#### **Conclusão (Binário):**
O **Random Forest** foi o melhor modelo para a classificação binária, apresentando:
- Alta acurácia e recall.
- Excelente capacidade de detectar minas terrestres sem muitos falsos negativos.
- Consistência entre treino e teste, sem sinais de overfitting.

---

### **Classificação Multiclasse: Qual foi o melhor modelo?**

O problema multiclasse é mais desafiador devido ao desbalanceamento dos dados, com classes minoritárias representando menos amostras.

1. **Árvore de Decisão**:
   - **Acurácia**: 69% (melhor desempenho dentre os modelos testados).
   - **F1-score (média por classe)**: ~62%.
   - **Erro em classes minoritárias**: O modelo apresentou erros, mas foi mais eficiente que outros na identificação de classes raras.

2. **Random Forest**:
   - **Acurácia**: 65%.
   - **F1-score (média por classe)**: ~60%.
   - **Erro em classes minoritárias**: Dificuldades em prever classes raras, como minas anti-pessoais.

3. **KNN e Naive Bayes**:
   - **Acurácia**: Menor que 60%.
   - **F1-score**: Muito baixo para classes minoritárias.
   - **Desempenho Geral**: Não capturaram bem a complexidade do problema.

#### **Conclusão (Multiclasse):**
O melhor modelo para a classificação multiclasse foi a **Árvore de Decisão**, com:
- Maior acurácia (69%).
- Melhor F1-score médio entre as classes (~62%).
- Maior robustez em classes minoritárias em comparação aos outros modelos.

---

### **Conclusão Final**

Com base nos resultados:
- **Classificação Binária**: O **Random Forest** foi o modelo mais eficiente, com alta acurácia, recall e F1-score, além de apresentar resultados consistentes entre treino e teste.
- **Classificação Multiclasse**: A **Árvore de Decisão** apresentou o melhor desempenho, com maior acurácia e melhor capacidade de lidar com classes minoritárias.

---

### **Problemas e Melhorias Sugeridas**

#### **Desbalanceamento**:
- O desbalanceamento das classes dificultou o desempenho no problema multiclasse.
- **Soluções**:
  - Aplicar técnicas como oversampling (ex.: SMOTE) para aumentar a representatividade das classes minoritárias.
  - Ajustar pesos no modelo para dar mais importância às classes com menos amostras.

#### **Validação de Hiperparâmetros**:
- Testar diferentes configurações, como:
  - Profundidade máxima em Árvores de Decisão.
  - Número de árvores no Random Forest.
  - Número de vizinhos no KNN.

#### **Melhorias no Multiclasse**:
- Usar modelos ensemble mais avançados, como XGBoost ou LightGBM, para melhorar o desempenho nas classes minoritárias.
- Coletar mais dados para equilibrar as classes.

---

### **Consistência**
- O **Random Forest** mostrou excelente consistência no problema binário.
- A **Árvore de Decisão** teve o melhor desempenho no problema multiclasse, mas também pode ser refinada com ajustes nos hiperparâmetros e técnicas para lidar com classes desbalanceadas.

