**Atualizando a biblioteca para plotagem de gráficos**


In [None]:
%pip install --upgrade -q pandas numpy seaborn matplotlib scikit-learn

**Importando bibliotecas**

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn import tree
from sklearn.compose import ColumnTransformer
from yellowbrick.classifier import ConfusionMatrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

**Abrindo um arquivo CSV do drive**

In [None]:
base = pd.read_csv("restaurante.csv", delimiter=";")
base = base.drop(base.columns[0], axis=1)

print(base)
print(base.head(3))
print(base.tail(2))

**Contando quantidade de instâncias**


In [None]:
np.unique(base["conc"], return_counts=True)
sns.countplot(x=base["conc"])

**Separando os atributos de entrada e de classe**

In [None]:
X_prev = X_prev_label = base.iloc[:, 0:10].values
y_classe = base.iloc[:, 10].values

print(X_prev)
print(X_prev_label)
print(X_prev[:, 4])
print(y_classe)

**Tratamento de dados categóricos**

> *LabelEncoder - Vamos tratar os dados categóricos colocando 1, 2, 3 e etc**



In [None]:
label_encoder = LabelEncoder()

colunas_para_codificar = [0, 1, 2, 3, 4, 5, 6, 7, 9]

for coluna in colunas_para_codificar:
    X_prev[:, coluna] = label_encoder.fit_transform(X_prev[:, coluna])

print(X_prev)

**Contando quantas opções de resposta tem cada atributo**

In [None]:
len(np.unique(base["Cliente"]))



> OneHotEncoder - Agora vamos binarizar atributos não ordinais

In [None]:
onehotencoder_tipo = ColumnTransformer(
    transformers=[("OneHot", OneHotEncoder(), [8])], remainder="passthrough"
)

X_prev = onehotencoder_tipo.fit_transform(X_prev)

print(X_prev)
print(X_prev.shape)

**Método de amostragem Holdout**

In [None]:
print(X_prev)
print(y_classe)
print(y_classe.shape)

X_treino, X_teste, y_treino, y_teste = train_test_split(
    X_prev, y_classe, test_size=0.20, random_state=23
)

print(X_treino.shape)
print(X_teste.shape)

**Vamos experimentar agora o algoritmo Decision Tree?**

In [None]:
modelo = tree.DecisionTreeClassifier(criterion="entropy")
Y = modelo.fit(X_treino, y_treino)

**Vamos testar o modelo?**

In [None]:
previsoes = modelo.predict(X_teste)

**Será se o modelo acertou?**

In [None]:
y_teste
accuracy_score(y_teste, previsoes)
confusion_matrix(y_teste, previsoes)

cm = ConfusionMatrix(modelo)
cm.fit(X_treino, y_treino)
cm.score(X_teste, y_teste)

print(classification_report(y_teste, previsoes))

**Vamos ver a árvore?**

In [None]:
plt.show(tree.plot_tree(Y))

**O que você achou? podemos fazê-la melhor! :-)**

In [None]:
previsores = [
    "Alternativo",
    "Bar",
    "Sex/Sab",
    "Fome",
    "Cliente",
    "Preço",
    "Chuva",
    "Res",
    "Tipo",
    "Tempo",
]

figura, eixos = plt.subplots(nrows=1, ncols=1, figsize=(13, 13))
tree.plot_tree(
    modelo, feature_names=previsores, class_names=modelo.classes_.tolist(), filled=True
)