In [1]:
import pandas as pd # Para manipular dados em DataFrames
from sklearn.tree import DecisionTreeClassifier, export_graphviz # O algoritmo de Árvore de Decisão e a função para visualizá-lo
from sklearn.model_selection import train_test_split # Para dividir os dados (embora não usado totalmente aqui para simplificar)
from sklearn.preprocessing import LabelEncoder # Para converter texto em números
from sklearn.metrics import accuracy_score # Para avaliar o desempenho do modelo
import graphviz # Ferramenta externa para renderizar a árvore visualmente (precisa ser instalada)

# 1. Preparação dos Dados
# Define os dados de entrada para o nosso problema de decisão sobre "Sair para Caminhar".
# Cada linha é um exemplo, e as colunas são as características e o resultado.
data = {
    'Tempo': ['Ensolarado', 'Ensolarado', 'Nublado', 'Chuvoso', 'Chuvoso', 'Chuvoso', 'Nublado', 'Ensolarado', 'Ensolarado', 'Chuvoso'],
    'Temperatura': ['Quente', 'Quente', 'Quente', 'Agradavel', 'Fria', 'Fria', 'Fria', 'Agradavel', 'Fria', 'Agradavel'],
    'Umidade': ['Alta', 'Alta', 'Alta', 'Alta', 'Normal', 'Normal', 'Normal', 'Alta', 'Normal', 'Normal'],
    'Vento': ['Fraco', 'Forte', 'Fraco', 'Fraco', 'Fraco', 'Forte', 'Forte', 'Fraco', 'Fraco', 'Forte'],
    'Sair_Caminhar': ['Nao', 'Nao', 'Sim', 'Sim', 'Sim', 'Nao', 'Sim', 'Nao', 'Sim', 'Sim']
}
df = pd.DataFrame(data) # Converte o dicionário em um DataFrame do Pandas.

print("Dados originais:")
print(df)
print("\n" + "="*30 + "\n")

# Codifica as variáveis categóricas (texto) em números.
# O algoritmo de Árvore de Decisão (e a maioria dos ML) precisa de dados numéricos.
le = LabelEncoder() # Cria um codificador.

# Aplica o codificador a cada coluna categórica.
# 'Nao' vira 0, 'Sim' vira 1 (ou vice-versa, dependendo da ordem alfabética).
for column in ['Tempo', 'Temperatura', 'Umidade', 'Vento', 'Sair_Caminhar']:
    df[column] = le.fit_transform(df[column])

print("Dados após codificação (texto -> números):")
print(df)
print("\n" + "="*30 + "\n")

# Separa as características (X) da variável alvo (y).
# X são as colunas que usamos para prever (Tempo, Temperatura, Umidade, Vento).
# y é a coluna que queremos prever (Sair_Caminhar).
X = df[['Tempo', 'Temperatura', 'Umidade', 'Vento']]
y = df['Sair_Caminhar']

# Nomes para a visualização da árvore.
feature_names = X.columns.tolist() # Nomes das colunas de entrada.
class_names = ['Nao', 'Sim'] # Nomes das classes de saída (0 ou 1).

# 2. Divisão dos Dados (simplificada para este exemplo)
# Em um cenário real, dividiríamos X e y em conjuntos de treino e teste.
# Aqui, usamos todos os dados para treino e 'teste' para demonstração.
X_train, X_test, y_train, y_test = X, X, y, y

# 3. Criação e Treinamento do Modelo
# Instancia o classificador de Árvore de Decisão.
# random_state garante que os resultados sejam os mesmos cada vez que o código é rodado.
# min_samples_leaf=1: Define que cada 'folha' da árvore deve ter pelo menos uma amostra.
model = DecisionTreeClassifier(random_state=42, min_samples_leaf=1)

# Treina o modelo usando os dados de treino.
# É aqui que a árvore "aprende" as regras a partir dos dados.
model.fit(X_train, y_train)

print("Modelo de Árvore de Decisão treinado com sucesso!")
print("\n" + "="*30 + "\n")

# 4. Avaliação do Modelo
# Faz previsões usando o modelo treinado nos dados de 'teste'.
y_pred = model.predict(X_test)

# Calcula a acurácia, que é a proporção de previsões corretas.
# Será 1.0 (100%) porque treinamos e testamos com os mesmos dados pequenos.
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo (proporção de acertos): {accuracy:.2f}")
print("\n" + "="*30 + "\n")

# 5. Visualização da Árvore de Decisão
# Exporta a árvore treinada para um formato DOT.
dot_data = export_graphviz(
    model,
    out_file=None, # Saída para uma string
    feature_names=feature_names, # Nomes das colunas
    class_names=class_names, # Nomes das classes de saída
    filled=True,      # Colore os nós para melhor visualização
    rounded=True,     # Deixa as bordas dos nós arredondadas
    special_characters=True # Para caracteres especiais no gráfico
)

# Renderiza o gráfico DOT em uma imagem PNG e a abre.
graph = graphviz.Source(dot_data)
graph.render("arvore_de_decisao_caminhada", view=True, format='png')

print("Árvore de Decisão visualizada e salva como 'arvore_de_decisao_caminhada.png'.")
print("O arquivo deve ter aberto automaticamente.")

# 6. Exemplo de Previsão
# Cria um novo ponto de dado para o qual queremos uma previsão.
# Lembre-se dos valores codificados: 'Nublado'=2, 'Agradavel'=0, 'Normal'=1, 'Fraco'=0.
novo_dado = pd.DataFrame([[2, 0, 1, 0]], columns=feature_names) # Ex: Nublado, Agradavel, Normal, Fraco

# O modelo faz a previsão para este novo dado.
predicao_numerica = model.predict(novo_dado)

# Converte o resultado numérico de volta para texto ('Sim' ou 'Nao').
predicao_texto = "Sim" if predicao_numerica[0] == 1 else "Nao"

print(f"\nPrevisão para Tempo=Nublado, Temperatura=Agradavel, Umidade=Normal, Vento=Fraco: {predicao_texto}")

ModuleNotFoundError: No module named 'sklearn'