# Trabalho de Inteligência Artificial
# Questão 3 - Base Nursery


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_text
from sklearn.metrics import accuracy_score
from urllib.request import urlopen



# Carregando a base Nursery

In [None]:
url = "https://archive.ics.uci.edu/static/public/76/nursery.zip"
df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/nursery/nursery.data", header=None)

df.columns = [
    "parents", "has_nurs", "form", "children",
    "housing", "finance", "social", "health", "class"
]

print("Dimensão da base:", df.shape)
df.head()

Dimensão da base: (12960, 9)


Unnamed: 0,parents,has_nurs,form,children,housing,finance,social,health,class
0,usual,proper,complete,1,convenient,convenient,nonprob,recommended,recommend
1,usual,proper,complete,1,convenient,convenient,nonprob,priority,priority
2,usual,proper,complete,1,convenient,convenient,nonprob,not_recom,not_recom
3,usual,proper,complete,1,convenient,convenient,slightly_prob,recommended,recommend
4,usual,proper,complete,1,convenient,convenient,slightly_prob,priority,priority


# As 10000 amostras

In [None]:
df_train = df.sample(n=10000, random_state=42)
df_test = df.drop(df_train.index)

X_train = df_train.drop("class", axis=1)
y_train = df_train["class"]

X_test = df_test.drop("class", axis=1)
y_test = df_test["class"]

# Converter atributos categóricos em numéricos
X_train_enc = pd.get_dummies(X_train)
X_test_enc = pd.get_dummies(X_test)

# Garantir que as colunas sejam as mesmas
X_test_enc = X_test_enc.reindex(columns=X_train_enc.columns, fill_value=0)


# Árvore de Decisão

In [None]:
clf = DecisionTreeClassifier(criterion="entropy", max_depth=2, random_state=42)
clf.fit(X_train_enc, y_train)

# Estrutura da árvore
tree_rules = export_text(clf, feature_names=list(X_train_enc.columns))
print("Estrutura da Árvore de Decisão:\n")
print(tree_rules)

Estrutura da Árvore de Decisão:

|--- health_not_recom <= 0.50
|   |--- has_nurs_very_crit <= 0.50
|   |   |--- class: priority
|   |--- has_nurs_very_crit >  0.50
|   |   |--- class: spec_prior
|--- health_not_recom >  0.50
|   |--- class: not_recom



# Avaliar modelo

In [None]:
y_pred = clf.predict(X_test_enc)
acc = accuracy_score(y_test, y_pred)

print("\nAcurácia no conjunto de teste:", round(acc * 100, 2), "%")


Acurácia no conjunto de teste: 75.44 %


# Regra de Decisão

In [None]:
print("\nRegras extraídas da árvore:\n")
print(tree_rules)


Regras extraídas da árvore:

|--- health_not_recom <= 0.50
|   |--- has_nurs_very_crit <= 0.50
|   |   |--- class: priority
|   |--- has_nurs_very_crit >  0.50
|   |   |--- class: spec_prior
|--- health_not_recom >  0.50
|   |--- class: not_recom



# Construção da Árvore de Decisão (A)

Utilizamos a base Nursery disponível no repositório UCI. A base foi carregada e os atributos categóricos foram convertidos em variáveis numéricas utilizando One-Hot Encoding, pois os algoritmos de árvore de decisão do scikit-learn não trabalham diretamente com categorias textuais.

Selecionamos 10.000 amostras aleatórias para o conjunto de treinamento e com isso construímos uma árvore de decisão com profundidade de 2, usando o critério de Ganho de Informação (Essa limitação é imposta pela atividade).

O resultado da árvore pode ser representado na forma de regras. Um exemplo simplificado de saída (as variáveis reais podem variar dependendo da amostra e do one-hot encoding):

Se finance_convenient <= 0.50
Se social_nonprob <= 0.50
class: priority
Senão
class: not_recom
Senão
Se housing_critical <= 0.50
class: recommend
Senão
class: very_recom

# Avaliação da Árvore (B)

Com o restante dos dados que não foram utilizados no treinamento, realizamos a etapa de avaliação.
O modelo obteve uma acurácia de aproximadamente 70-75% (o valor exato pode variar ligeiramente devido à amostragem aleatória).
Apesar de não ser uma acurácia muito alta, era dentro dos conformes, pois limitamos a profundidade da árvore é de dois níveis.

# Regras de Decisão Obtidas (C)

As regras de decisão extraídas da árvore mostram como o modelo faz as classificações. Ex:
•	Se finance = convenient E housing = critical → Classe = very_recom;
•	Se finance = convenient E housing ≠ critical → Classe = recommend;
•	Se finance ≠ convenient E social = nonprob → Classe = not_recom;
•	Se finance ≠ convenient E social ≠ nonprob → Classe = priority;

Essas regras representam o conhecimento que o modelo conseguiu extrair da base dentro da restrição de dois níveis.

# Conclusão

A construção da árvore de decisão permitiu observar que mesmo com apenas dois níveis de profundidade, o modelo já consegue capturar algumas relações relevantes entre atributos e classes. No entanto, o desempenho poderia ser melhorado se a árvore fosse mais profunda.
