Importando bibliotecas necessárias

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

1. Abrindo o arquivo csv

In [None]:
df = pd.read_csv('iris.csv')

print(df[:20])

    sepal_length_cm  sepal_width_cm  petal_length_cm  petal_width_cm  \
0               5.1             3.5              1.4             0.2   
1               4.9             3.0              1.4             0.2   
2               4.7             3.2              1.3             0.2   
3               4.6             3.1              1.5             0.2   
4               5.0             3.6              1.4             0.2   
5               5.4             3.9              1.7             0.4   
6               4.6             3.4              1.4             0.3   
7               5.0             3.4              1.5             0.2   
8               4.4             2.9              1.4             0.2   
9               4.9             3.1              1.5             0.1   
10              5.4             3.7              1.5             0.2   
11              4.8             3.4              1.6             0.2   
12              4.8             3.0              1.4            

2. Substituindo nomes por números na classificação

In [None]:
df_alterado = df.replace({'Iris-setosa':1, 'Iris-versicolor':2, 'Iris-virginica':3})

print(df_alterado[:20])

    sepal_length_cm  sepal_width_cm  petal_length_cm  petal_width_cm  species
0               5.1             3.5              1.4             0.2        1
1               4.9             3.0              1.4             0.2        1
2               4.7             3.2              1.3             0.2        1
3               4.6             3.1              1.5             0.2        1
4               5.0             3.6              1.4             0.2        1
5               5.4             3.9              1.7             0.4        1
6               4.6             3.4              1.4             0.3        1
7               5.0             3.4              1.5             0.2        1
8               4.4             2.9              1.4             0.2        1
9               4.9             3.1              1.5             0.1        1
10              5.4             3.7              1.5             0.2        1
11              4.8             3.4              1.6            

  df_alterado = df.replace({'Iris-setosa':1, 'Iris-versicolor':2, 'Iris-virginica':3})


3. Separando colunas de entrada e saída

In [None]:
X = df_alterado.drop('species', axis=1)
y = df_alterado['species']

print(X, y)

     sepal_length_cm  sepal_width_cm  petal_length_cm  petal_width_cm
0                5.1             3.5              1.4             0.2
1                4.9             3.0              1.4             0.2
2                4.7             3.2              1.3             0.2
3                4.6             3.1              1.5             0.2
4                5.0             3.6              1.4             0.2
..               ...             ...              ...             ...
145              6.7             3.0              5.2             2.3
146              6.3             2.5              5.0             1.9
147              6.5             3.0              5.2             2.0
148              6.2             3.4              5.4             2.3
149              5.9             3.0              5.1             1.8

[150 rows x 4 columns] 0      1
1      1
2      1
3      1
4      1
      ..
145    3
146    3
147    3
148    3
149    3
Name: species, Length: 150, dtype: in

4. Fazendo separação de dados em treino e teste, e garantido que esteja embaralhado

In [None]:
#O argumento shuffle já é setado como true por padrão, e para garantir um padrão no embaralhamento, usaremos seed com o random_state=42
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


5. Treinando o modelo

In [None]:
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(y_pred)

[2 1 3 2 2 1 2 3 2 2 3 1 1 1 1 2 3 2 2 3 1 3 1 3 3 3 3 3 1 1]


6. Exibindo métricas de avaliação


In [None]:
# Calculando e exibindo a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.4f} ({accuracy*100:.2f}%)")
print("\n" + "="*60)
print("Relatório de Classificação:")
print("="*60)
print(classification_report(y_test, y_pred, target_names=['setosa', 'versicolor', 'virginica']))
print("\n" + "="*60)
print("Matriz de Confusão:")
print("="*60)
print(confusion_matrix(y_test, y_pred))


7. Classificando dados arbitrários inseridos pelo usuário


In [None]:
# Função para classificar uma nova amostra
def classificar_amostra(sepal_length, sepal_width, petal_length, petal_width):
    """
    Classifica uma amostra de íris com base nas medidas fornecidas.
    
    Parâmetros:
    - sepal_length: comprimento da sépala (em cm)
    - sepal_width: largura da sépala (em cm)
    - petal_length: comprimento da pétala (em cm)
    - petal_width: largura da pétala (em cm)
    
    Retorna:
    - Nome da espécie prevista (setosa, versicolor ou virginica)
    """
    # Criar um DataFrame com os dados fornecidos
    nova_amostra = pd.DataFrame({
        'sepal_length_cm': [sepal_length],
        'sepal_width_cm': [sepal_width],
        'petal_length_cm': [petal_length],
        'petal_width_cm': [petal_width]
    })
    
    # Fazer a predição
    predicao = model.predict(nova_amostra)[0]
    
    # Mapear o número de volta para o nome da espécie
    mapeamento = {1: 'setosa', 2: 'versicolor', 3: 'virginica'}
    especie = mapeamento[predicao]
    
    return especie

# Exemplo de uso: classificar uma amostra
print("Exemplo de classificação:")
print("-" * 60)
sepal_length = 5.1
sepal_width = 3.5
petal_length = 1.4
petal_width = 0.2

especie_predita = classificar_amostra(sepal_length, sepal_width, petal_length, petal_width)
print(f"Medidas fornecidas:")
print(f"  Comprimento da sépala: {sepal_length} cm")
print(f"  Largura da sépala: {sepal_width} cm")
print(f"  Comprimento da pétala: {petal_length} cm")
print(f"  Largura da pétala: {petal_width} cm")
print(f"\nEspécie prevista: {especie_predita}")
print("\n" + "="*60)
print("Para classificar uma nova amostra, use:")
print("classificar_amostra(sepal_length, sepal_width, petal_length, petal_width)")
print("="*60)
