
# Exemplo de Aprendizado Supervisionado com o Conjunto de Dados Iris

O que é o **conjunto de dados Iris**?

Imagine que você tem várias flores, e para cada uma delas, você anota algumas informações sobre elas, como:
- O **comprimento** da pétala (aquela parte colorida da flor).
- A **largura** da pétala.
- O **comprimento** da sépala (parte que segura a flor).
- A **largura** da sépala.

Além dessas informações, para cada flor, você também sabe qual é o **tipo da flor**. No caso do conjunto de dados Iris, existem 3 tipos de flores:
1. **Setosa**
2. **Versicolor**
3. **Virginica**

Então, o **conjunto de dados Iris** é apenas uma grande tabela com essas informações de várias flores (150 flores no total) e o tipo de flor correspondente.

Exemplo de uma linha dessa tabela:
- Comprimento da pétala: 5 cm
- Largura da pétala: 3 cm
- Comprimento da sépala: 4.5 cm
- Largura da sépala: 2.3 cm
- Tipo de flor: Setosa

O que o **aprendizado supervisionado** faz?

**Aprendizado supervisionado** significa que o computador aprende a partir de exemplos que já têm a **resposta certa**.

No seu caso, o computador vai aprender a **identificar o tipo da flor** (Setosa, Versicolor ou Virginica) com base nas características dela (comprimento e largura da sépala e pétala). Ou seja, você já tem os dados de entrada (as medidas da flor) e as respostas (o tipo de flor).

O que é um **classificador Random Forest**?

Agora, o **Random Forest** é uma ferramenta que o computador usa para **fazer previsões** com base nos dados que ele já aprendeu.

Imagine que o computador precisa decidir, por exemplo, se uma flor é "Setosa" ou "Versicolor". Ele vai usar o **Random Forest**, que é como se fosse um time de "árvores de decisão". Cada árvore vai fazer sua própria previsão com base nos dados, e no final, o time (o "Random Forest") decide qual é a melhor resposta, ou seja, qual é o tipo de flor.

Como o código funciona?

Agora que já sabemos o que é o conjunto de dados Iris, o aprendizado supervisionado e o classificador Random Forest, vamos entender o código passo a passo de maneira bem simples:

1. **Carregar os dados das flores**:
   O código começa carregando o conjunto de dados Iris, ou seja, ele pega as informações sobre as flores e suas características (como o tamanho das pétalas) e o tipo de flor.

2. **Separar os dados em dois grupos**:
   O código divide esses dados em dois grupos:
   - **Grupo de treino**: Onde o computador vai aprender as características das flores e seus tipos (80% dos dados).
   - **Grupo de teste**: Onde o computador vai tentar adivinhar o tipo da flor e a gente vai verificar se ele acertou (20% dos dados).

3. **Treinar o modelo**:
   Usando o grupo de treino, o **Random Forest** começa a "aprender". Ele vê as características das flores e tenta descobrir qual tipo de flor é associada a cada conjunto de características.

4. **Fazer previsões**:
   Depois de aprender, o **Random Forest** usa o que aprendeu para tentar adivinhar o tipo das flores no **grupo de teste** (que ele nunca viu antes).

5. **Verificar se ele acertou**:
   Por fim, o código compara as previsões do computador com as respostas certas (os tipos de flores no grupo de teste) e calcula a **acurácia**, que é a porcentagem de vezes que o computador acertou.

### Em resumo:
- O **conjunto de dados Iris** é uma tabela que contém informações sobre flores (características como o tamanho das pétalas) e o tipo da flor.
- O **aprendizado supervisionado** é um tipo de aprendizado onde o computador aprende a partir de dados que já têm a resposta certa (tipo de flor).
- O **Random Forest** é um modelo de computador que usa várias "árvores" para prever o tipo de flor, com base nas características que ele aprendeu.

O código treina esse modelo e, ao final, calcula a porcentagem de vezes que o modelo acertou o tipo das flores no grupo de teste.


In [None]:

# Importar bibliotecas necessárias
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Carregar o dataset Iris
data = load_iris()
X = data.data
y = data.target

# Dividir os dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar um modelo de RandomForest
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Prever os resultados
y_pred = model.predict(X_test)

# Avaliar a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy * 100:.2f}%")
