# Algoritmos Supervisionados

Este relat√≥rio descreve como foram aplicados algoritmos supervisionados na base de dados CovType. Tamb√©m cont√©m escolhas e justificativas dos par√¢metros e t√©cnicas utilizadas, assim como uma indica√ß√£o objetiva de qual algoritmo √© melhor para a base selecionada.

## Base de Dados CovType

A base de dados **CovType** cont√©m informa√ß√µes sobre uma grande quantidade de dados relacionados √† cobertura florestal, com o objetivo de classificar diferentes tipos de vegeta√ß√£o em uma √°rea geogr√°fica. O conjunto de dados foi originalmente coletado no estado do Colorado, nos Estados Unidos, e √© frequentemente utilizado em estudos de aprendizado de m√°quina, especialmente para problemas de classifica√ß√£o.

### Caracter√≠sticas da Base de Dados:
- **N√∫mero de amostras**: 581.012 inst√¢ncias (linhas de dados).
- **Atributos**: 54 caracter√≠sticas, incluindo vari√°veis num√©ricas relacionadas ao ambiente, como:
  - Elevation (altitude),
  - Aspect (orienta√ß√£o da encosta),
  - Slope (declive),
  - Dist√¢ncia at√© cursos d'√°gua,
  - Dados sobre a vegeta√ß√£o local (como tipo de cobertura florestal).
  
- **Objetivo**: A tarefa principal √© classificar o tipo de cobertura do terreno, que √© uma vari√°vel categ√≥rica com 7 classes poss√≠veis de cobertura florestal (por exemplo, florestas de con√≠feras, florestas de √°rvores de folha larga, etc.).

### Comportamento em algoritmos supervisionados

A base de dados **CovType** √© √≥tima para testar algoritmos de aprendizado supervisionado, porque possui muitas informa√ß√µes (mais de 580 mil registros) e v√°rias caracter√≠sticas ambientais, como a eleva√ß√£o e a proximidade de rios, que ajudam a classificar diferentes tipos de vegeta√ß√£o. Cada registro na base cont√©m essas caracter√≠sticas e um tipo de cobertura florestal, que √© a "resposta" que o algoritmo precisa aprender a prever. A tarefa √© classificar o tipo de vegeta√ß√£o em uma de sete categorias, o que torna o problema um caso de classifica√ß√£o multiclasse. Como a base tem muitos dados e diferentes tipos de informa√ß√µes, ela permite que os algoritmos encontrem padr√µes complexos, como quais caracter√≠sticas est√£o mais associadas a um tipo de floresta espec√≠fico. Al√©m disso, apesar de algumas classes de vegeta√ß√£o aparecerem mais vezes que outras (ou seja, a base √© desbalanceada), ainda assim √© poss√≠vel treinar modelos que aprendem a fazer previs√µes de forma precisa, se bem aplicados.

# An√°lise Explorat√≥ria de Dados CovType

Neste relat√≥rio, ser√° realizada uma an√°lise explorat√≥ria da base de dados CovType, com o objetivo de compreender melhor suas caracter√≠sticas antes da aplica√ß√£o de algoritmos supervisionados. Ser√£o apresentados dados gerais do conjunto, como quantidade de amostras e vari√°veis, al√©m de informa√ß√µes sobre a presen√ßa de valores ausentes. Tamb√©m analisaremos a distribui√ß√£o da vari√°vel alvo (Cover_Type), a distribui√ß√£o das vari√°veis num√©ricas, a correla√ß√£o entre atributos e a composi√ß√£o das vari√°veis categ√≥ricas relacionadas a √°reas selvagens e tipos de solo. Essa an√°lise inicial √© fundamental para identificar padr√µes, poss√≠veis desequil√≠brios e particularidades dos dados que poder√£o influenciar a escolha e a prepara√ß√£o dos modelos de aprendizado supervisionado.

1. Carregamento e Primeira Vis√£o dos Dados

In [None]:
from sklearn.datasets import fetch_covtype
import pandas as pd

# Carregar a base
cov_type = fetch_covtype()
df = pd.DataFrame(cov_type.data, columns=cov_type.feature_names)

# Adicionar a vari√°vel alvo (Cover_Type)
df['Cover_Type'] = cov_type.target

# Estat√≠sticas descritivas
df.describe()

A an√°lise descritiva da base CovType revela um conjunto de dados com grande diversidade nas caracter√≠sticas do terreno. A eleva√ß√£o m√©dia √© de cerca de 2959 metros, com varia√ß√µes significativas, indo de 1859 a 3858 metros. O aspecto (orienta√ß√£o do terreno) tem uma m√©dia de 156 graus, variando bastante entre 0 e 360 graus. A declividade m√©dia √© de 14,1 graus, com alguns terrenos mais √≠ngremes, chegando a 66 graus.

As dist√¢ncias para diferentes pontos, como fontes de √°gua e rodovias, tamb√©m mostram grande dispers√£o. Por exemplo, a dist√¢ncia m√©dia at√© rodovias √© de 2350 metros, mas pode variar de 0 a 7117 metros. Al√©m disso, o tipo de solo √© amplamente distribu√≠do, com muitos tipos diferentes de solos representados na base.

Em resumo, os dados revelam uma grande variabilidade nas caracter√≠sticas do terreno, o que sugere que o modelo de previs√£o precisar√° lidar com essa diversidade para fazer boas previs√µes sobre o tipo de cobertura do terreno. Para isso, decidimos normalizar os dados e aplicar PCA.

2. An√°lise da Vari√°vel Alvo (Cover_Type)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Contagem das classes
df['Cover_Type'].value_counts()

# Gr√°fico da distribui√ß√£o das classes
sns.countplot(x='Cover_Type', data=df)
plt.title('Distribui√ß√£o das Classes de Cover Type')
plt.xlabel('Tipo de Vegeta√ß√£o')
plt.ylabel('Quantidade')
plt.show()

Esse gr√°fico nos mostra que 'Cover_Type' √© uma vari√°vel discreta, e n√£o cont√≠nua. Ou seja, algoritmos de classifica√ß√£o s√£o os mais indicados para agrupar essa base de dados.

3. An√°lise das Vari√°veis Num√©ricas

In [None]:
# Histograma de todas as vari√°veis
df.hist(figsize=(20, 20), bins=30)
plt.tight_layout()
plt.show()

O histograma de todas as vari√°veis mostra como os dados est√£o distribu√≠dos. Algumas vari√°veis, como dist√¢ncias para rodovias ou inc√™ndios, t√™m distribui√ß√µes assim√©tricas, com muitos valores concentrados em uma faixa e alguns poucos valores muito distantes, indicando outliers. Outras vari√°veis, como a eleva√ß√£o, podem ter distribui√ß√µes mais pr√≥ximas de uma curva normal, com a maioria dos dados agrupados em torno de um valor central. Tamb√©m √© poss√≠vel notar picos em algumas distribui√ß√µes, que s√£o indicativos de outliers, ou seja, valores extremos que est√£o bem afastados do restante dos dados. 

Al√©m disso, no caso dos 40 tipos de solo da base CovType, 0 indica que o tipo de solo n√£o est√° presente, e 1 indica que o tipo de solo est√° presente.
Portanto, os histogramas mostram a distribui√ß√£o desses valores bin√°rios (0 ou 1) para cada tipo de solo, com a maioria dos pontos de dados exibindo 0, ou seja, indicando que o tipo de solo n√£o est√° presente. A quantidade de 1 indica a presen√ßa desse tipo de solo, mas de forma esparsa, j√° que nem todos os pontos t√™m o mesmo tipo de solo.

Esses padr√µes s√£o importantes para entender a natureza dos dados e decidir como trat√°-los antes de aplicar modelos de machine learning.

4. Matriz de Correla√ß√£o

In [None]:
# Matriz de correla√ß√£o
corr = df.corr()

plt.figure(figsize=(16, 12))
sns.heatmap(corr, cmap='coolwarm')
plt.title('Matriz de Correla√ß√£o entre Vari√°veis')
plt.show()

O que podemos inferir do heatmap:

1. Diagonal principal:

* Todos os valores na diagonal s√£o 1.0 (vermelho escuro), pois cada vari√°vel √© perfeitamente correlacionada com ela mesma.

2. Correla√ß√£o fraca entre a maioria das vari√°veis:

* Fora da diagonal, a maioria das correla√ß√µes est√° em tons claros ou azulados, indicando baixa ou nenhuma correla√ß√£o entre muitas vari√°veis (valores pr√≥ximos de 0).

3. Algumas correla√ß√µes not√°veis:

* Existe correla√ß√£o moderada entre algumas vari√°veis:

    * Elevation com Vertical_Distance_To_Hydrology (ligeiramente positiva).

    * Horizontal_Distance_To_Hydrology com Horizontal_Distance_To_Fire_Points (tamb√©m mostra alguma correla√ß√£o).

* Vari√°veis como Hillshade_9am, Hillshade_Noon e Hillshade_3pm mostram alguma correla√ß√£o entre si, o que √© esperado, j√° que todas se referem √† incid√™ncia de luz solar em diferentes hor√°rios.

4. Vari√°veis one-hot encoded:

* Soil_Type_0 at√© Soil_Type_39 e Wilderness_Area_0 at√© Wilderness_Area_3 t√™m correla√ß√µes pr√≥ximas de zero entre si (esperado, pois s√£o codifica√ß√µes bin√°rias mutuamente exclusivas).

* Estas colunas n√£o t√™m rela√ß√£o direta entre si, como esperado em uma codifica√ß√£o one-hot.

5. Vari√°vel alvo (Cover_Type):

* Est√° inclu√≠da no canto inferior direito.

* Apresenta correla√ß√£o muito fraca com todas as vari√°veis, indicando que nenhuma vari√°vel individual explica bem a vari√°vel alvo ‚Äî o que √© comum em problemas mais complexos de classifica√ß√£o, exigindo modelos mais sofisticados (ex: florestas aleat√≥rias).

# Escolha dos algoritmos utilizados

Para a base selecionada, a equipe decidiu, dentre as op√ß√µes dispon√≠veis (KNN, Regress√£o Linear e Naive Bayes), aplicar KNN e Naive Bayes. 

## Por qu√™ KNN?

O KNN √© um algoritmo eficaz para problemas de classifica√ß√£o multiclasse, como o da base de dados CovType, que visa classificar diferentes tipos de vegeta√ß√£o. Al√©m disso, o KNN n√£o faz suposi√ß√µes sobre a distribui√ß√£o dos dados, o que √© vantajoso, pois a base de dados cont√©m caracter√≠sticas ambientais que podem n√£o seguir uma distribui√ß√£o conhecida. No entanto, o KNN pode ser computacionalmente caro e sens√≠vel √† dimensionalidade dos dados, mas ele ainda se destaca pela sua capacidade de lidar bem com a classifica√ß√£o de inst√¢ncias com base na proximidade, algo adequado para este tipo de tarefa.

## Por qu√™ Naive Bayes?

Por outro lado, o Naive Bayes √© simples, r√°pido e ideal para problemas de classifica√ß√£o multiclasse. Ele √© particularmente eficiente para grandes volumes de dados, como os da base CovType, e lida bem com vari√°veis cont√≠nuas, como aquelas presentes no conjunto de dados. Embora o Naive Bayes fa√ßa a suposi√ß√£o de que as vari√°veis s√£o independentes, o que pode nem sempre ser o caso, ele ainda tende a ter um bom desempenho na pr√°tica, especialmente em tarefas de classifica√ß√£o com v√°rias classes.

## Por qu√™ n√£o escolhemos Regress√£o Linear?

A Regress√£o Linear, por sua vez, n√£o √© a melhor escolha para este problema, pois √© um modelo de regress√£o e n√£o de classifica√ß√£o. Embora existam formas de adaptar a regress√£o linear para classifica√ß√£o (como em regress√£o log√≠stica), ela n√£o foi projetada para lidar diretamente com problemas de classifica√ß√£o multiclasse como o da base CovType. Al√©m disso, a regress√£o linear pressup√µe que as vari√°veis possuem uma rela√ß√£o linear com a vari√°vel alvo, o que √© uma suposi√ß√£o forte e provavelmente n√£o se aplica √† classifica√ß√£o de tipos de vegeta√ß√£o, que envolve rela√ß√µes mais complexas.

# Algoritmo Naive Bayes



Primeiramente, importamos as bibliotecas necess√°rias, carregamos o dataset e verificamos o formato dos dados para garantir que as vari√°veis X (atributos) e y (r√≥tulos) estejam no formato esperado antes de prosseguir com a modelagem. Isso ajuda a garantir que os dados foram carregados corretamente e que n√£o h√° problemas com a estrutura, como tamanhos incompat√≠veis ou dados faltantes.

In [None]:
# Importando as bibliotecas necess√°rias
from sklearn.datasets import fetch_covtype
from sklearn.model_selection import train_test_split
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np

# Carregando o dataset
data = fetch_covtype()
X = data.data
y = data.target

# Verificando o formato dos dados
print("Formato de X (atributos):", X.shape)
print("Formato de y (r√≥tulos):", y.shape)


Depois, dividimos os dados entre treino (80%) e teste (20%), pois proporciona um bom equil√≠brio entre a quantidade de dados para treinar o modelo e a quantidade para testar o modelo, permitindo uma avalia√ß√£o confi√°vel. Para o teste, 20% √© uma quantidade comum usada para valida√ß√£o e avalia√ß√£o do desempenho do modelo em dados que ele n√£o viu. J√° o random_state √© uma "semente" que garante que, todas as vezes que o c√≥digo for executado, a divis√£o dos dados sempre ser√° a mesma. Poder√≠amos ter escolhido qualquer n√∫mero inteiro n√£o negativo, mas escolhemos o 42 por conven√ß√£o.

In [None]:
# Dividindo os dados entre treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Verificando as dimens√µes dos dados divididos
print("Tamanho de X_train:", X_train.shape)
print("Tamanho de X_test:", X_test.shape)
print("Tamanho de y_train:", y_train.shape)
print("Tamanho de y_test:", y_test.shape)

Agora, precisamos normalizar os dados, decis√£o tomada com base na observa√ß√£o das estat√≠sticas descritivas da Covertype. A presen√ßa de atributos com magnitudes significativamente diferentes (por exemplo, eleva√ß√£o vs. dist√¢ncias a hidrologia/estradas) tornam uma boa pr√°tica a normaliza√ß√£o dos dados. Al√©m disso, decidimos tamb√©m aplicar PCA, pelos seguintes motivos:
-  Redu√ß√£o da Dimensionalidade: Reduz a complexidade do modelo e o tempo de treinamento, mantendo a maior parte da informa√ß√£o relevante.
-  Elimina√ß√£o de Multicolinearidade: Eliminar a multicolinearidade e reduzir redund√¢ncias nas vari√°veis, o que melhora a generaliza√ß√£o do modelo.
-  Aumento da Performance do Modelo: Melhorar o tempo de execu√ß√£o do modelo e, em alguns casos, aumentar a performance geral ao reduzir o risco de overfitting.
-  Ru√≠do nos Dados: Focar nas informa√ß√µes mais relevantes e eliminar varia√ß√µes que s√£o apenas ru√≠do.

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Normaliza√ß√£o dos dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

pca = PCA(n_components=0.95)  
X_train_scaled = pca.fit_transform(X_train_scaled)
X_test_scaled = pca.transform(X_test_scaled)

print(f"N√∫mero de componentes que explicam 95% da vari√¢ncia: {pca.n_components_}")

plt.figure(figsize=(10, 5))
plt.plot(np.cumsum(pca.explained_variance_ratio_), marker='o')
plt.xlabel('N√∫mero de Componentes')
plt.ylabel('Vari√¢ncia Explicada Acumulada')
plt.title('PCA - Vari√¢ncia Explicada Acumulada')
plt.grid(True)
plt.axhline(y=0.95, color='r', linestyle='--') 
plt.show()


A seguir, podemos partir para a aplica√ß√£o do algoritmo supervisionado em si.

O trecho de c√≥digo abaixo implementa o treinamento e a utiliza√ß√£o do modelo de Naive Bayes para classifica√ß√£o. Primeiro, o classificador GaussianNB √© importado da biblioteca sklearn.naive_bayes. Esse classificador √© baseado no Teorema de Bayes e assume que as caracter√≠sticas das vari√°veis seguem uma distribui√ß√£o normal.

Em seguida, o modelo √© instanciado com a cria√ß√£o do objeto nb_model, que ser√° respons√°vel por fazer as previs√µes. Para treinar o modelo, o m√©todo fit() √© utilizado, passando os dados de treinamento normalizados (X_train_scaled) e os r√≥tulos correspondentes (y_train). Isso ajusta o modelo aos dados de entrada, permitindo que ele aprenda a rela√ß√£o entre as features e o target.

Depois de treinado, o modelo √© usado para prever os r√≥tulos dos dados de teste (X_test_scaled) com o m√©todo predict(). Essas previs√µes s√£o armazenadas na vari√°vel y_pred. Por fim, o c√≥digo exibe os primeiros 10 exemplos das previs√µes geradas, dando uma amostra dos resultados do modelo.

In [None]:
# Treinando o modelo Naybe Bayes e fazendo predi√ß√µes
from sklearn.naive_bayes import GaussianNB

# Criando o classificador Naive Bayes
nb_model = GaussianNB()

# Treinando o modelo com os dados de treino normalizados
nb_model.fit(X_train_scaled, y_train)

# Fazendo previs√µes com os dados de teste normalizados
y_pred = nb_model.predict(X_test_scaled)

# Mostrando uma amostra das previs√µes
print("Exemplos de previs√µes:", y_pred[:10])

O √∫ltimo trecho de c√≥digo se dedica a avaliar o desempenho do modelo de Naive Bayes utilizando v√°rias m√©tricas de avalia√ß√£o e visualizando os resultados por meio de gr√°ficos.

Primeiramente, o c√≥digo calcula as principais m√©tricas de desempenho para o modelo usando os dados de teste (y_test) e as previs√µes (y_pred). S√£o calculados:

- Acur√°cia: A porcentagem de previs√µes corretas realizadas pelo modelo.

- Precis√£o (Precision): A propor√ß√£o de verdadeiros positivos entre todas as previs√µes positivas feitas pelo modelo, ponderada pelo n√∫mero de inst√¢ncias em cada classe.

- Recall: A propor√ß√£o de verdadeiros positivos entre todos os casos reais positivos, tamb√©m ponderada por classe.

Essas m√©tricas s√£o impressas no console, arredondadas para quatro casas decimais para uma leitura mais clara.

Em seguida, o c√≥digo cria e exibe a matriz de confus√£o. A matriz √© uma ferramenta √∫til para entender como o modelo est√° classificando as diferentes classes. Ela mostra os verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos para cada classe. A matriz √© visualizada com o uso da biblioteca seaborn, gerando um gr√°fico de calor para facilitar a an√°lise.

In [None]:
# Avaliando o desempenho do modelo Naive Bayes

from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Calculando m√©tricas
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted') 
recall = recall_score(y_test, y_pred, average='weighted')

print("Acur√°cia:", round(accuracy, 4))
print("Precis√£o:", round(precision, 4))
print("Recall:", round(recall, 4))

# Matriz de confus√£o
cm = confusion_matrix(y_test, y_pred)

# Exibindo matriz de confus√£o com seaborn
plt.figure(figsize=(10, 7))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel("Classe Predita")
plt.ylabel("Classe Real")
plt.title("Matriz de Confus√£o - Naive Bayes")
plt.show()

## üìä An√°lise da Matriz de Confus√£o ‚Äì Naive Bayes

A matriz de confus√£o abaixo mostra o desempenho do classificador **Naive Bayes** na predi√ß√£o da vari√°vel `Cover_Type`, que possui **7 classes (0 a 6)**.

Cada **linha** representa a **classe real**, enquanto cada **coluna** representa a **classe predita**. Os valores indicam a quantidade de amostras.

---

### üìå An√°lise por Classe

#### Classe 0 (real):
- ‚úÖ **36.703** acertos como 0.
- ‚ùå Erros comuns:
  - **3.300** confundidas com classe 4.
  - **1.570** com classe 6.

#### Classe 1 (real):
- ‚úÖ **5.428** acertos.
- ‚ùå Muitos erros:
  - **37.686** classificadas como 0.
  - **10.454** como 4.
  - **776** como 2.
- ‚û§ **Alta confus√£o com a classe 0**, o que indica que essas classes t√™m caracter√≠sticas muito semelhantes.

#### Classe 2 (real):
- ‚úÖ **4.194** acertos.
- ‚ùå Erros:
  - **1.407** como classe 4.
  - **1.126** como classe 3.

#### Classe 3 (real):
- ‚úÖ Apenas **359** acertos.
- ‚ùå Baixo desempenho:
  - **151** confundidas com classe 2.

#### Classe 4 (real):
- ‚úÖ **1.026** acertos.
- ‚ùå **710** confundidas com classe 0.

#### Classe 5 (real):
- ‚úÖ **1.555** acertos.
- ‚ùå Muitos erros distribu√≠dos em:
  - Classes 0, 2 e 3.

#### Classe 6 (real):
- ‚úÖ **995** acertos.
- ‚ùå **2.929** confundidas como classe 0.

---

### üîç Conclus√µes

- O modelo teve desempenho **razo√°vel apenas na classe 0**.
- Houve **forte confus√£o entre as classes 0, 1 e 4**.
- O **Naive Bayes n√£o se adequou bem √† base**, provavelmente por:
  - **Alta correla√ß√£o entre vari√°veis** (violando a suposi√ß√£o de independ√™ncia do modelo).
  - **Distribui√ß√µes complexas** nas vari√°veis cont√≠nuas.
  - **Desbalanceamento entre as classes**.



Por fim, o relat√≥rio de classifica√ß√£o √© exibido, fornecendo uma vis√£o mais detalhada do desempenho do modelo para cada classe individualmente. Esse relat√≥rio inclui m√©tricas como precis√£o, recall e F1-score para cada classe.

In [None]:
# Relat√≥rio completo
print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred))

# Algoritmo KNN

Primeiramente, precisamos decidir se vamos utilizar classifica√ß√£o ou regress√£o com o algoritmo KNN. 
Utilizamos classifica√ß√£o quando o r√≥tulo for categ√≥rico ou discreto. Ou seja, quando desejamos prever uma categoria ou classe (por exemplo, 'sim' ou 'n√£o', 'gato' ou 'cachorro'). O KNN ir√° prever a classe da nova amostra com base no voto da maioria dos seus k vizinhos mais pr√≥ximos.
Por outro lado, utilizamos regress√£o quando o r√≥tulo for cont√≠nuo, ou seja, um n√∫mero real (por exemplo: altura, pre√ßo, temperatura). Nesse caso, o KNN retorna a m√©dia (ou m√©dia ponderada) dos valores dos vizinhos mais pr√≥ximos.

Dessa forma, decidimos utilizar o KNN para classifica√ß√£o por tr√™s motivos principais:
1. A vari√°vel-alvo √© 'Cover_Type', que representa categorias de cobertura do solo - como diferentes tipos de florestas. Segundo a descri√ß√£o da bae no UCI Machine Learning Repository, ela assume valores inteiros de 1 a 7, correspondendo a sete tipos distintos de cobertura florestal.

2. Os gr√°ficos da an√°lise preliminar demonstram que 'Cover_Type' √© uma vari√°vel discreta, com distribi√ß√£o claramente categ√≥rica. Isso confirma que se trata de uma tarefa de classifica√ß√£o multiclasse.

3. O resposit√≥rio analisado utiliza o algoritmo Naive Bayes, que √© tamb√©m um classificador. Comparar dois classificadores (Naive Bayes vs. KNN) mant√©m a coer√™ncia metodol√≥gica e permite avaliar desempenho em uma mesma tarefa supervisionada.

### Gr√°fico de apoio

![image.png](attachment:image.png)

O gr√°fico acima mostra claramente que a vari√°vel-alvo n√£o possui continuidade, sendo mais adequado o uso de algoritmos de classifica√ß√£o.

Dessa forma, podemos iniciar a importa√ß√£o das bibliotecas necess√°rias, carregar o dataset e preparar o dataframe.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_covtype
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

cov_type = fetch_covtype()

# Preparando o DataFrame
df = pd.DataFrame(cov_type.data, columns=[
    'Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology',
    'Vertical_Distance_To_Hydrology', 'Horizontal_Distance_To_Roadways',
    'Hillshade_9am', 'Hillshade_Noon', 'Hillshade_3pm',
    'Horizontal_Distance_To_Fire_Points'] + [f'Soil_Type_{i}' for i in range(40)] + 
    ['Wilderness_Area_1', 'Wilderness_Area_2', 'Wilderness_Area_3', 'Wilderness_Area_4'])

df['target'] = cov_type.target

Depois, selecionamos aleatoriamente 50.000 amostras do conjunto de dados original com o objetivo de otimizar o tempo de processamento. Em seguida, separamos as vari√°veis independentes (armazenadas em X) da vari√°vel dependente (armazenada em y, que representa a classe a ser prevista). Por fim, dividimos os dados em conjuntos de treino e teste, mantendo a propor√ß√£o original das classes (estratifica√ß√£o), sendo 70% para treino e 30% para teste. Essa divis√£o √© feita antes da aplica√ß√£o do PCA.

In [None]:
# Separando X e y
df_sample = df.sample(n=100000, random_state=42)
X = df_sample.drop('target', axis=1)
y = df_sample['target']

# Dividindo em treino e teste (antes de aplicar o PCA)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y)

Na pr√≥xima etapa, os dados s√£o primeiro normalizados utilizando o StandardScaler, que padroniza as vari√°veis para que tenham m√©dia 0 e desvio padr√£o 1 ‚Äî o que √© essencial para muitos algoritmos de machine learning, especialmente o PCA. Ap√≥s a normaliza√ß√£o, aplicamos PCA com o par√¢metro n_components=0.95, o que significa que o modelo ir√° manter o menor n√∫mero poss√≠vel de componentes principais que preservem 95% da vari√¢ncia original dos dados. Isso reduz a dimensionalidade do conjunto de dados, facilitando o processamento e potencialmente melhorando o desempenho do modelo. Por fim, √© exibido o n√∫mero de componentes que foram mantidas ap√≥s a transforma√ß√£o.

In [None]:
# Normalizando os dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Aplicando PCA
pca = PCA(n_components=0.95) 
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)

# Gr√°fico de vari√¢ncia explicada
plt.figure(figsize=(10, 5))
plt.plot(np.cumsum(pca.explained_variance_ratio_), marker='o')
plt.xlabel('N√∫mero de Componentes Principais')
plt.ylabel('Vari√¢ncia Explicada Acumulada')
plt.title('Vari√¢ncia Explicada por Componentes do PCA')
plt.grid(True)
plt.axhline(y=0.95, color='r', linestyle='--')  
plt.show()

# Verificando quantas componentes foram mantidas
print(f"N√∫mero de componentes principais mantidas: {pca.n_components_}")

Ent√£o, fazemos uma busca pelos melhores valores de k (de 1 a 20) para o algoritmo KNN, testando tr√™s diferentes m√©tricas de dist√¢ncia: euclidean, manhattan e minkowski. Para cada combina√ß√£o, calculamos a acur√°cia com os dados reduzidos pelo PCA. Em seguida, os resultados s√£o plotados em um gr√°fico comparativo para visualizar o desempenho de cada m√©trica. Por fim, o c√≥digo identifica e exibe qual valor de k gerou a melhor acur√°cia para cada tipo de dist√¢ncia.

In [None]:
# Definindo o intervalo de valores de k para testar (1 a 20)
k_values = range(1, 21)
metrics = ['euclidean', 'manhattan', 'minkowski']

# Dicion√°rios para armazenar acur√°cias
accuracies = {metric: [] for metric in metrics}

# Testando diferentes valores de k e diferentes m√©tricas de dist√¢ncia
for metric in metrics:
    for k in k_values:
        knn = KNeighborsClassifier(n_neighbors=k, metric=metric)
        knn.fit(X_train_pca, y_train)  
        y_pred = knn.predict(X_test_pca)

        accuracy = accuracy_score(y_test, y_pred)
        accuracies[metric].append(accuracy)

# Plotando os resultados para comparar as m√©tricas de dist√¢ncia
plt.figure(figsize=(10, 5))

for metric in metrics:
    plt.plot(k_values, accuracies[metric], '-o', label=metric)

plt.title('Acur√°cia por k para diferentes m√©tricas de dist√¢ncia')
plt.xlabel('N√∫mero de vizinhos (k)')
plt.ylabel('Acur√°cia')
plt.legend()
plt.grid(True)
plt.xticks(k_values) 
plt.show()

# Melhor k para cada tipo de dist√¢ncia
melhor_k = {metric: k_values[np.argmax(accuracies[metric])] for metric in metrics}
melhor_acuracia = {metric: max(accuracies[metric]) for metric in metrics}

# Exibindo o melhor k e acur√°cia para cada m√©trica
for metric in metrics:
    print(f"Melhor valor de k para {metric}: {melhor_k[metric]} com acur√°cia: {melhor_acuracia[metric]:.4f}")

O pr√≥ximo trecho de c√≥digo define o modelo final do KNN usando a melhor m√©trica de dist√¢ncia (manhattan) e o melhor valor de k encontrado anteriormente. O modelo √© treinado com os dados de treino j√° normalizados e transformados pelo PCA, e depois faz previs√µes nos dados de teste. Em seguida, s√£o calculadas e exibidas as m√©tricas de desempenho: acur√°cia, precis√£o e recall, permitindo avaliar a performance do modelo final otimizado.

In [None]:
# Definindo o melhor k e a melhor m√©trica com base nos resultados
melhor_k = melhor_k['manhattan'] 
melhor_metric = 'manhattan'  

# Modelo final com a melhor m√©trica
knn_final = KNeighborsClassifier(n_neighbors=melhor_k, metric=melhor_metric)
knn_final.fit(X_train_pca, y_train)
y_pred_knn = knn_final.predict(X_test_pca)

# Calculando m√©tricas
accuracy = accuracy_score(y_test, y_pred_knn)
precision = precision_score(y_test, y_pred_knn, average='weighted')
recall = recall_score(y_test, y_pred_knn, average='weighted')

print("\nAcur√°cia:", round(accuracy, 4))
print("Precis√£o:", round(precision, 4))
print("Recall:", round(recall, 4))

Logo ap√≥s, o trecho abaixo gera a matriz de confus√£o do modelo KNN otimizado com PCA, permitindo visualizar como o classificador est√° acertando ou errando cada classe. A matriz √© exibida com seaborn para facilitar a leitura. 

In [None]:

# Matriz de confus√£o
cm = confusion_matrix(y_test, y_pred_knn)

# Exibindo matriz de confus√£o com seaborn
plt.figure(figsize=(10, 7))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=np.unique(y), yticklabels=np.unique(y))
plt.xlabel("Classe Predita")
plt.ylabel("Classe Real")
plt.title("Matriz de Confus√£o - KNN com PCA")
plt.show()

## üìä An√°lise da Matriz de Confus√£o ‚Äì KNN com PCA

Esta matriz de confus√£o mostra os resultados do classificador **K-Nearest Neighbors (KNN)** com aplica√ß√£o de **PCA (An√°lise de Componentes Principais)** na redu√ß√£o de dimensionalidade.

Cada **linha representa a classe real**, enquanto cada **coluna representa a classe predita**.

---

### üìå An√°lise por Classe

#### Classe 1 (real):
- ‚úÖ **4.653** acertos.
- ‚ùå Principais erros:
  - **776** amostras foram classificadas como classe 2.
  - Alguns erros esparsos em classes 6 e 7.

#### Classe 2 (real):
- ‚úÖ **6.253** acertos.
- ‚ùå Principais erros:
  - **827** amostras foram confundidas com classe 1.
  - Pequenos erros em classes 3, 5 e 6.

#### Classe 3 (real):
- ‚úÖ **740** acertos.
- ‚ùå **105** confundidas com classe 6.
- Outros erros menores: classes 2, 4 e 5.

#### Classe 4 (real):
- ‚úÖ **40** acertos.
- ‚ùå Confundida com classes 3 e 6.

#### Classe 5 (real):
- ‚úÖ **140** acertos.
- ‚ùå Alguns erros com classes 2 e 6.

#### Classe 6 (real):
- ‚úÖ **268** acertos.
- ‚ùå Confundida principalmente com classe 3 (112 casos).

#### Classe 7 (real):
- ‚úÖ **441** acertos.
- ‚ùå Pequenos erros em classes 1 e 2.

---

### ‚úÖ Compara√ß√£o com Naive Bayes

- O **KNN com PCA apresentou desempenho significativamente melhor** do que o Naive Bayes, com menos confus√µes entre as classes.
- As classes 1 e 2, que apresentavam grande confus√£o no Naive Bayes, foram melhor separadas aqui.
- O modelo mostra **boa generaliza√ß√£o**, mesmo com a redu√ß√£o de dimensionalidade.


Por fim, √© impresso o relat√≥rio de classifica√ß√£o, que traz as m√©tricas detalhadas por classe (precis√£o, recall, f1-score e suporte), oferecendo uma avalia√ß√£o completa do desempenho do modelo final em cada categoria.

In [None]:
# Avalia√ß√£o final
print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred_knn))

# Comparando o relat√≥rio de classifica√ß√£o dos algoritmos para a base Cobertype

Comparando os resultados dos dois algoritmos, podemos observar diferen√ßas significativas no desempenho:

### Naive Bayes:

-  Acur√°cia: 0.4196

-  Precis√£o: 0.6611

-  Recall: 0.4196

-  F1-Score (macro avg): 0.28

-  F1-Score (weighted avg): 0.36

O modelo de Naive Bayes apresenta uma acur√°cia de 41.96%, o que √© bastante abaixo do desejado para uma boa classifica√ß√£o. A precis√£o √© razo√°vel (66.11%), mas o recall de 41.96% indica que o modelo tem dificuldade em identificar corretamente as inst√¢ncias da classe positiva. O desempenho do modelo √© mais evidenciado pela m√©dia ponderada do f1-score (0.36), que tamb√©m √© baixa. O modelo tem bons resultados em algumas classes, mas apresenta dificuldades em classes com menor suporte, como as classes 4, 5, 6 e 7, que t√™m recall muito baixo, o que significa que ele falha em capturar muitas inst√¢ncias dessas classes.

### KNN:

-  Acur√°cia: 0.8357

-  Precis√£o: 0.8359

-  Recall: 0.8357

-  F1-Score (macro avg): 0.73

-  F1-Score (weighted avg): 0.84

O KNN apresenta resultados bem melhores. A acur√°cia de 83.57% √© muito superior √† do Naive Bayes. A precis√£o e recall de 83.57% indicam que o modelo tem um bom equil√≠brio entre prever corretamente as classes e capturar a maior parte das inst√¢ncias positivas. O f1-score m√©dio ponderado de 0.84 √© significativamente superior ao do Naive Bayes, o que indica que o KNN consegue fazer uma boa combina√ß√£o de precis√£o e recall.

### Conclus√£o:

O modelo KNN apresentou resultados muito mais robustos em compara√ß√£o com o Naive Bayes, com uma acur√°cia muito mais alta (83.57% contra 41.96%) e m√©tricas de desempenho mais consistentes, como precis√£o e recall em torno de 83%, o que indica um modelo equilibrado e eficaz para esta tarefa de classifica√ß√£o.

-  O Naive Bayes teve dificuldades com algumas classes, especialmente aquelas com menor suporte (como 4, 5, 6 e 7), e seu desempenho geral √© mais fraco.

-  O KNN, por outro lado, mostrou um desempenho mais robusto e uniforme em todas as classes, com destaque para a boa precis√£o e recall, tornando-o o modelo preferido para este conjunto de dados.

Portanto, o KNN trouxe melhores resultados em termos de acur√°cia, precis√£o, recall e f1-score.