<a href="https://colab.research.google.com/github/ericbrsp/codd_machine_learning/blob/main/codedex_ml3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Supervised: Classification

Muitos modelos de aprendizado de máquina tentam resolver o problema da classificação. Você já viu um exemplo disso!

No primeiro exercício, carregamos um conjunto de dados com informações sobre tumores de mama. Cada tumor tinha medidas como radius, texturee compactness. E se pudéssemos prever se um tumor é benigno (não canceroso) ou maligno (canceroso) com base nessas informações?

Este é um problema de classificação : a função do modelo é atribuir um ponto de dados a uma de várias categorias. Ele prevê um rótulo/categoria.

Aqui estão alguns exemplos reais de problemas de classificação:

- Reconhecimento de imagem : O objeto na foto é um chihuahuaou um muffin?-
- Análise de sentimentos : Dada uma avaliação de produto, ele é positive, negative, ou neutral.
- Detecção de fraude : a última transação é no seu cartão de crédito fraudou normal?
- Filtragem de spam : este é um e-mail frio spamou not spam...?

Em todos esses exemplos, a saída é um rótulo ou classe . Contanto que seu objetivo seja prever uma categoria com base nos dados de entrada, você estará resolvendo um problema de classificação!

# Variáveis ​​de recurso e variável de destino

Em problemas de classificação, existem dois tipos de variáveis, assim como em problemas de regressão:

- Variáveis ​​de recurso (X) são as entradas que o modelo usa.
- A variável alvo (y) é o que o modelo está tentando prever.

Então ainda: Variáveis ​​de recurso (X) ➡️ Modelo de ML ➡️ Variável de destino (y)

A única diferença é o tipo de variável de destino:

- Regressão → meta (y) é um número (por exemplo, preço da casa, temperatura).
- Classificação → alvo (y) é uma categoria (por exemplo, "gato" vs. "cachorro").

Por exemplo, em nossos exemplos de câncer de mama, a variável-alvo é se o tumor é maligno ou benigno. As características, ou preditores, são todas as outras medições sobre o tumor, como radius, texture, etc.


## Modelos de Classificação

Assim como na regressão, há uma variedade de modelos de aprendizado de máquina que tentam resolver problemas de classificação de uma maneira ligeiramente diferente.

Alguns dos mais comuns são:

- Árvores de Decisão
- Máquinas de Vetores de Suporte (SVMs)
- Redes Neurais
- K-Vizinhos Mais Próximos (KNN)

À medida que nos aprofundamos na classificação no capítulo 3, aprenderemos sobre a diferença entre cada uma delas e seus prós e contras, mas, por enquanto, sua principal lição deve ser que os classificadores de ML supervisionados visam colocar novos pontos de dados em uma categoria específica com base em exemplos históricos.


In [1]:
import pandas as pd
import sklearn.datasets
import sklearn.neighbors

# Gets the data from sklearn
data = sklearn.datasets.load_breast_cancer()

# Loads the data into a DataFrame
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Getting the first 500 tumors and splitting the data into features and target
X = df.drop(columns='target').iloc[:500]
y = df['target'].iloc[:500]

Vamos criar um classificador K-Nearest Neighbors para prever se um tumor é maligno/benigno.

Já criamos:

- X: as características dos primeiros 500 tumores
- y: os rótulos correspondentes (maligno ou benigno)

Agora você treinará um modelo usando esses dados e o utilizará para prever o 501º tumor.



- Etapa 1: Crie um novo objeto KNeighborsClassifier

Primeiro, use o importado sklearn.neighborsque contém a KNeighborsClassifierclasse e crie um novo KNeighborsClassifierchamado my_model:

In [2]:
my_model = sklearn.neighbors.KNeighborsClassifier()

Etapa 2: Treine o modelo usando.fit()

Seu classificador nomeado my_modelpossui um método chamado .fit(). Ao "ajustar o modelo aos dados", você está instruindo o modelo a fazer todos os cálculos de bastidores para encontrar padrões entre os recursos e os rótulos. Isso também é conhecido como treinamento do modelo.

Este método usa dois parâmetros: os recursos ( X) e os rótulos ( y).

Use .fit()para treinar o modelo:

In [3]:
my_model.fit(X, y)

Etapa 3: Faça uma previsão usando.predict()

Vamos fingir que não sabemos se o 501º tumor é maligno ou benigno. Vamos analisar suas características e usar o modelo para fazer uma previsão:

Execute a seguinte linha de código para obter as características do 501º tumor no conjunto de dados.

In [7]:
row_501 = df.drop(columns='target').iloc[[500]]

Em seguida, use my_modelo .predict()método de para prever se o 501º tumor é maligno ou benigno. .predict()deve tomar um parâmetro: row_501.

In [9]:
prediction = my_model.predict(row_501)

Imprima os resultados de .predict():

In [10]:
print(prediction)

[1]


O modelo previu que o 501º tumor era maligno ( 0) ou benigno ( 1)?