<a href="https://colab.research.google.com/github/L4r1Cardoso/MVP/blob/main/mvp_sprint_ml_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP | Sprint 1 - Machine Learning & Analytics

* Nome: Larissa Silva Cardoso
* Matrícula: 4052024000816
* Curso: Ciência de Dados e Analytics


---



## Definição do Problema

O dataset "load_breast_cancer" é um conjunto de dados disponível na biblioteca scikit-learn muito utilizado para demonstrar o comportamento de algoritmos de machine learning para problemas de classificação.

O objetivo deste código é realizar a classificação de tumores de mama como malignos ou benignos com base em características calculadas a partir de imagens digitalizadas de tecido mamário.

Esse código abordará desde a preparação dos dados até a avaliação e comparação dos modelos, proporcionando uma visão geral do processo de classificação.


---



## Preparação de Dados

1. Configuração para não exibir os avisos.

2. Importação das bibliotecas necessárias.

3. Importação do conjunto de dados.

4. Conversão do conjunto de dados.

5. Separação dos atributos e da classe alvo.

6. Codificação da classe alvo para converter os rótulos de classe em valores numéricos.

7. Divisão da base em conjuntos de treino e teste.


---



In [None]:
# Configuração para não exibir os avisos
import warnings
warnings.filterwarnings("ignore")

# Importação de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Importação do dataset
from sklearn.datasets import load_breast_cancer

# Importação dos módulos e algoritmos de classificação do scikit-learn
from sklearn.model_selection import train_test_split # particionamento da base em treino e teste (holdout)
from sklearn.model_selection import KFold # preparação dos folds da validação cruzada
from sklearn.model_selection import cross_val_score # execução da validação cruzada
from sklearn.metrics import accuracy_score # exibição da acurácia dos modelos
from sklearn.neighbors import KNeighborsClassifier # algoritmo KNN
from sklearn.tree import DecisionTreeClassifier # algoritmo Árvore de Classificação
from sklearn.naive_bayes import GaussianNB # algoritmo Naive Bayes
from sklearn.svm import SVC # algoritmo SVM

# Carga do dataset
cancer = load_breast_cancer()
dataset = pd.DataFrame(cancer.data, columns = cancer.feature_names) # conversão para dataframe
dataset["target"] = cancer.target # adição da coluna "target"
dataset.head() # visualização resumida do dataset (primeiras cinco linhas)

In [None]:
# Preparação dos dados
from sklearn.preprocessing import LabelEncoder

# Separação em bases de treino e teste (holdout)
x = cancer.data # atributos
y = cancer.target # classe

label_encoder = LabelEncoder() # conversão dos rótulos das classes para valores numéricos
y = label_encoder.fit_transform(y)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=7) # divisão das bases

## Modelagem e Treinamento

1. Criação dos folds para validação cruzada.
2. Definição de seed global para garantir a reprodutibilidade do código com os mesmos resultados.
3. Criação de listas para armazenar os modelos, resultados e nomes dos modelos.
4. Definição dos modelos de classificação.
5. Avaliação dos modelos, treinando cada um deles usando os dados de treinamento e avaliando-os usando validação cruzada.
6. Impressão da média e do desvio padrão da acurácia para cada modelo.


---



In [None]:
# Criação dos folds para a validação cruzada
num_particoes = 10 # número de folds
kfold = KFold (n_splits=num_particoes, shuffle=True, random_state=7) # particionamento

# Definição de semente glogal
np.random.seed(7)

# Criação das listas
models = []
results = []
names = []

# Definição dos modelos
models.append(("KNN", KNeighborsClassifier()))
models.append(("CART", DecisionTreeClassifier()))
models.append(("NB", GaussianNB()))
models.append(("SVM", SVC()))

# Avaliação de cada modelo
for name, model in models:
  cv_results = cross_val_score(model, x_train, y_train, cv=kfold, scoring="accuracy")
  results.append(cv_results)
  names.append(name)
  msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std()) # média e desvio padrão dos 10 resultados da validação cruzada
  print (msg)


## Avaliação e Resultados

1. Visualização dos resultados usando um boxplot para comparar a acurácia e desvio padrão dos diferentes modelos.
2. Avaliação de performance dos modelos.
3. Criação de modelos com algoritmos que apresentaram melhor resultado.


---



In [None]:
# Visualização dos resultados
fig = plt.figure()
fig.suptitle("Comparação da Acurácia dos Modelos")
ax = fig.add_subplot(111)
plt.boxplot(results)
ax.set_xticklabels(names)
plt.show()

Com base na saída do código e gráfico acima, podemos observar que dois modelos tiveram a média de acurácia superior aos demais. São eles:

- KNN (K-nearest neighbours): 0.936232 (0.045443)
- NB (Naive Bayes): 0.933720 (0.041136)

Os modelos treinados com os algoritmos NKK e NB apresentaram os melhores resultados (93% de acurácia e desvio padrão de 4%).

Em relação ao desvio padrão, todos os modelos tiveram um valor relativamente baixo e bem próximos, indicando pouca variabilidade nos resultados.

Com isso, abaixo serão criados novos modelos, treinados com toda a base de treino e avaliados utilizando a base de teste.


---



In [None]:
# Criando um modelo com algoritmo KNN com o conjunto de treino
model = KNeighborsClassifier()
model.fit(x_train, y_train)

# Fazendo as predições com o conjunto de teste
predictions = model.predict(x_test)

# Estimando a acurácia no conjunto de teste
print(accuracy_score(y_test, predictions))

In [None]:
# Criando um modelo com algoritmo Naive Bayes com o conjunto de treino
model = GaussianNB()
model.fit(x_train, y_train)

# Fazendo as predições com o conjunto de teste
predictions = model.predict(x_test)

# Estimando a acurácia no conjunto de teste
print(accuracy_score (y_test, predictions))

Com as saídas resultantes dos modelos, podemos observar que a acurácia do algoritmo Naive Bayes é maior quando aplicado o conjunto de teste, fazendo com que esse seja o melhor modelo treinado para esse caso.

A validação cruzada foi utilizada para reduzir a probabilidade de overfitting dos modelos, o que nesse caso deu certo, dada a pequena diferença de performance do modelo nos dados de treino e teste.


---

