# Aula 01

Há dois tipos principais de aprendizado de máquina: supervisionado e não supervisionado.

O aprendizado supervisionado precisa que tenha uma resposta clara, ou seja, os dados devem ter uma classificação. Por exemplo, se a pessoa é diabética ou não, se deve ou não comprar uma ação, se possui câncer ou não. No aprendizado supervisioando, o seu conjunto vem com a resposta que será utilizada como gabarito para o seu modelo.

O aprendizado não supervisionado não necessita de uma resposta clara, basta que ele apresente (geralmente) os grupos onde os dados estão presentes. Nesse tipo de aprendizado, não temos uma resposta, é mais uma separação dos dados, a resposta (rótulos/*labels*) é determinada pelo desenvolvedor.

## Importação das bibliotecas

In [1]:
# Importar as bibliotecas
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

## Carregando e visualizando os dados

In [2]:
# Carregar os dados
iris = load_iris()

# Visualizar o que há dentro do conjunto
print(f'''Nomes das features (medidas): {iris.feature_names}
Nomes das classes (espécies): {iris.target_names}''')

Nomes das features (medidas): ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Nomes das classes (espécies): ['setosa' 'versicolor' 'virginica']


In [3]:
# Transformar em DataFrame
df = pd.DataFrame(
    data=iris.data,
    columns=iris.feature_names
)
df['target'] = iris.target  # 0=setosa, 1=versicolor, 2=virginica
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


## Separando os dados e a resposta

In [4]:
X = df.drop('target', axis=1)
y = df['target']

## Divisão dos dados de treino e de teste

In [5]:
X_treino, X_teste, y_treino, y_teste = train_test_split(
    X,
    y,
    test_size=0.2,  # 20% dos dados serão destinados ao teste (igual a train_size=0.8)
    random_state=42  # garante que a divisão seja sempre a mesma (reprodutibilidade)
)

print(f'''Total de amostras: {len(X)}
Amostras par treino: {len(X_treino)}
Amostrar para teste: {len(X_teste)}''')

Total de amostras: 150
Amostras par treino: 120
Amostrar para teste: 30


## Criando e treinando o modelo

In [6]:
# Carregar o modelo (cru)
modelo = KNeighborsClassifier(n_neighbors=3)

# Treinar o modelo
modelo.fit(X_treino, y_treino)

print('Modelo treinando com sucesso!')

Modelo treinando com sucesso!


## Fazendo a previsão

In [7]:
# Fazer as previsões com os dados de teste
previsao = modelo.predict(X_teste)

# Analisar algumas previsões
print(f'Previsões do modelo: {previsao[:5]}')
print(f'Repostas reais: \n{y_teste[:5]}')

Previsões do modelo: [1 0 2 1 1]
Repostas reais: 
73     1
18     0
118    2
78     1
76     1
Name: target, dtype: int64


## Validando a acurácia

In [8]:
# Avaliar a performance
acuracia = accuracy_score(y_teste, previsao)

print(f'Acurácia do modelo: {acuracia:.2%}')

Acurácia do modelo: 100.00%
