# Exemplo prático do algoritmo Random Forest aplicado à base de dados Iris. 
Usaremos a biblioteca Scikit-learn com a base de dados Iris, uma das mais conhecidas para classificação.

Temos a leitura dos dados, processamento, treinamento, valização e por fim, com o modelo treinado, faremos a classificação de novos dados e assim, será retornado qual classe ele pertence

### 01. Dependências e importações

#### Dependências

In [60]:
# !pip install pandas scikit-learn

#### Importações das bibliotecas necessárias

In [61]:
# Importação de bibliotecas
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

### 02. Carregar o dataset Iris


In [62]:
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

In [63]:
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)
print(f"O dataset df_iris possui {df_iris.shape[0]} linhas e {df_iris.shape[1]} colunas.")
print("iris é apenas um DataFrame com os dados do dataset Iris. Não será utilizado em nenhuma fase do projeto. Apenas foi aqui criado para mostrar o dataset.")
df_iris.head()

O dataset df_iris possui 150 linhas e 4 colunas.
iris é apenas um DataFrame com os dados do dataset Iris. Não será utilizado em nenhuma fase do projeto. Apenas foi aqui criado para mostrar o dataset.


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [64]:
print(f"O dataset X possui {X.shape[0]} linhas e {X.shape[1]} colunas.")
print("X é o DataFrame que contém as características das flores no dataset Iris.")
X.head()

O dataset X possui 150 linhas e 4 colunas.
X é o DataFrame que contém as características das flores no dataset Iris.


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [26]:
print(f"O array y possui {len(y)} elementos.")
print("y é o array de rótulos das classes das flores no dataset Iris.")
y

O array y possui 150 elementos.
y é o array de rótulos das classes das flores no dataset Iris.


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

### 03. Divisão dos dados em treino e teste

In [34]:
# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"X_train: {X_train.shape}")
print(f"X_test: {X_test.shape}")
print(f"y_train: {y_train.shape}")
print(f"y_test: {y_test.shape}")

# Calcular a porcentagem de dados utilizados para treinamento
train_percentage = (X_train.shape[0] / X.shape[0]) * 100
# Calcular a porcentagem de dados utilizados para teste
test_percentage = (X_test.shape[0] / X.shape[0]) * 100
print(f"{train_percentage:.2f}% dos dados estão sendo utilizados para treinamento.")
print(f"{test_percentage:.2f}% dos dados estão sendo utilizados para teste.")


X_train: (105, 4)
X_test: (45, 4)
y_train: (105,)
y_test: (45,)
70.00% dos dados estão sendo utilizados para treinamento.
30.00% dos dados estão sendo utilizados para teste.


### 04. Criar e treinar o modelo Random Forest

In [36]:
# Criar e treinar o modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

### 05. Realizar previsões

In [37]:
# Realizar previsões
y_pred = model.predict(X_test)

### 06. Avaliação do modelo

In [38]:
# Avaliar o modelo
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))

Acurácia: 1.0

Relatório de Classificação:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



## Classificando novos valores com o modelo treinado. 

### 07. Função para classificar uma nova amostra com o Predict

In [40]:
# Função para classificar uma nova amostra
def classify_new_iris(new_data):
    """
    Classifica uma nova amostra de flor Iris.
    Args:
        new_data (list): Lista contendo os valores de comprimento e largura de sépala e pétala.
    Returns:
        str: Nome da classe prevista (setosa, versicolor ou virginica).
    """
    predicted_class = model.predict([new_data])[0]  # Previsão da classe
    class_name = iris.target_names[predicted_class]  # Obter o nome da classe
    return f"A flor pertence à classe: {class_name}"

### 08. Exemplo de uso com uma nova flor

In [58]:
# Exemplo de uso com uma nova flor
new_iris = [1.0, 2.6, 0.4, 0.2]  # Comprimento/largura de sépala e pétala
result = classify_new_iris(new_iris)
print("\nNova Previsão:")
print(result)

new_iris = [5.7, 3.0, 5.1, 1.8]  # Comprimento/largura de sépala e pétala
result = classify_new_iris(new_iris)
print("\nNova Previsão:")
print(result)



Nova Previsão:
A flor pertence à classe: setosa

Nova Previsão:
A flor pertence à classe: virginica


