The following decision tree algorithm analysis the dataset: `'../datasets/restaurantev2.csv'`.

### 📚 **Importação de Bibliotecas**

In [1]:
!pip -q install plotly --upgrade

Este comando foi usado para atualizar o pacote `plotly` para a versão mais recente usando o gerenciador de pacotes `pip`. 

A opção **``-q``** significa “quiet” e suprime a saída do comando, então nenhuma mensagem será exibida enquanto o pacote estiver sendo instalado. A opção **``--upgrade``** indica ao `pip` para atualizar o pacote para a versão mais recente, caso ele já esteja instalado. Se o pacote não estiver instalado, a instalação será induzida. Sendo que `plotly` é uma biblioteca de visualização de dados interativa e de código aberto para Python.

In [2]:
!pip -q install yellowbrick

Agora foi instalado o pacote `yellowbrick` usando o gerenciador de pacotes `pip`. Tal como anteriormente, a opção **``-q``** suprime a saída do comando. `yellowbrick` é um conjunto de ferramentas de análise visual e diagnóstico projetado para facilitar o aprendizado de máquina com scikit-learn. A biblioteca implementa um novo objeto de API central, o Visualizer, que é um estimador scikit-learn - um objeto que aprende com os dados.

In [4]:
!pip -q install pandas

Desta vez foi instalado o pacote pandas usando o gerenciador de pacotes pip. O `pandas` é uma biblioteca de análise de dados que fornece estruturas de dados flexíveis e permite a manipulação de dados relacionais ou rotulados de forma fácil e intuitiva. 

In [6]:
!pip -q install seaborn

Por fim, foi instalado o pacote seaborn usando o gerenciador de pacotes pip. O `seaborn` é uma biblioteca de visualização de dados baseada em `matplotlib`. Ela fornece uma interface de alto nível para desenhar gráficos estatísticos atraentes e informativos. 

In [7]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

Esta sequência de código importa cinco bibliotecas Python: `pandas`, `numpy`, `seaborn`, `matplotlib.pyplot` e `plotly.express`, que são comumente usadas juntas para análise e visualização de dados em Python.

- `numpy` é uma biblioteca para computação científica em Python que fornece um objeto de matriz multidimensional e várias funções para trabalhar com essas matrizes.
- `matplotlib.pyplot` é um módulo da biblioteca `matplotlib` que fornece uma interface semelhante ao MATLAB para fazer gráficos.
- `plotly.express` é um módulo da biblioteca `plotly`, que é uma biblioteca de gráficos interativa e de código aberto. Ela suporta mais de 40 tipos únicos de gráficos, cobrindo uma ampla gama de casos de uso estatístico, financeiro, geográfico, científico e tridimensional.

## 🌲 **Decision Tree Classifier**

In [8]:
from sklearn.tree import DecisionTreeClassifier

Aqui começa de verdade a Árvore de Decisão, o comando foi usado para importar a classe `DecisionTreeClassifier` do módulo `sklearn.tree`, este último é um módulo da biblioteca `scikit-learn`, que é uma biblioteca de Machine Learning em Python.

Destrinchando mais um pouco; `DecisionTreeClassifier` é uma classe que implementa um classificador de árvore de decisão. Ela possui vários parâmetros que podem ser ajustados para controlar o comportamento do modelo, como o critério usado para medir a qualidade de uma divisão, a estratégia usada para escolher a divisão em cada nó e a profundidade máxima da árvore.

In [22]:
base = pd.read_csv('../datasets/restaurantev2.csv', sep=';', encoding='ISO-8859-1')

Aqui estamos usando a função `read_csv` da biblioteca `pandas` para ler o arquivo CSV. O separador entre os campos no arquivo CSV é especificado como ponto e vírgula (`;`) usando o parâmetro `sep`. Além disso, o parâmetro `encoding` é usado para especificar que o arquivo está codificado em `ISO-8859-1`. O DataFrame resultante está sendo atribuído a uma variável chamada `base`.

A função `read_csv` é usada para ler arquivos CSV (valores separados por vírgula) e converter seu conteúdo em um DataFrame do pandas. Um DataFrame é uma estrutura de dados bidimensional, semelhante a uma planilha ou tabela de banco de dados, onde as colunas podem ter tipos diferentes. É uma das estruturas de dados mais comumente usadas em análise de dados e ciência de dados.

In [23]:
base

Unnamed: 0,Exemplo,Alternativo,Bar,Sex/Sab,fome,Cliente,Preço,Chuva,Res,Tipo,Tempo,conc
0,X1,Sim,Não,Não,Sim,Alguns,RRR,Não,Sim,Francês,0-10,Sim
1,x2,Sim,Não,Não,Sim,Cheio,R,Não,Não,Tailandês,30-60,Não
2,x3,Não,Sim,Não,Não,Alguns,R,Não,Não,Hamburger,0-10,Sim
3,x4,Sim,Não,Sim,Sim,Cheio,R,Sim,Não,Tailandês,10-30,Sim
4,X5,Sim,Não,Sim,Não,Cheio,RRR,Não,Sim,Francês,>60,Não
5,X6,Não,Sim,Não,Sim,Alguns,RR,Sim,Sim,Italiano,0-10,Sim
6,X7,Não,Sim,Não,Não,Nenhum,R,Sim,Não,Hamburger,0-10,Não
7,X8,Não,Não,Não,Sim,Alguns,RR,Sim,Sim,Tailandês,0-10,Sim
8,X9,Não,Sim,Sim,Não,Cheio,R,Sim,Não,Hamburger,>60,Não
9,X10,Sim,Sim,Sim,Sim,Cheio,RRR,Não,Sim,Italiano,10-30,Não


Ao executar a variável **`base`**, o conteúdo do DataFrame armazenado nessa variável será exibido na saída da célula. Isso pode ser útil para visualizar rapidamente os dados armazenados no DataFrame. No entanto, se o DataFrame for muito grande, apenas as primeiras e últimas linhas serão exibidas, juntamente com um resumo das informações do DataFrame.

In [24]:
base.head(5)

Unnamed: 0,Exemplo,Alternativo,Bar,Sex/Sab,fome,Cliente,Preço,Chuva,Res,Tipo,Tempo,conc
0,X1,Sim,Não,Não,Sim,Alguns,RRR,Não,Sim,Francês,0-10,Sim
1,x2,Sim,Não,Não,Sim,Cheio,R,Não,Não,Tailandês,30-60,Não
2,x3,Não,Sim,Não,Não,Alguns,R,Não,Não,Hamburger,0-10,Sim
3,x4,Sim,Não,Sim,Sim,Cheio,R,Sim,Não,Tailandês,10-30,Sim
4,X5,Sim,Não,Sim,Não,Cheio,RRR,Não,Sim,Francês,>60,Não


O método **``head()``** de um DataFrame do pandas retorna as primeiras `n` linhas do DataFrame, onde `n` é especificado como um argumento para o método. Se `n` não for especificado, o valor padrão é 5. Neste caso, **``base.head(5)``** retornará as primeiras 5 linhas do DataFrame **``base``**. Este método é útil para inspecionar rapidamente o conteúdo de um DataFrame para ver se ele contém o tipo certo de dados

In [25]:
base.tail(5)

Unnamed: 0,Exemplo,Alternativo,Bar,Sex/Sab,fome,Cliente,Preço,Chuva,Res,Tipo,Tempo,conc
7,X8,Não,Não,Não,Sim,Alguns,RR,Sim,Sim,Tailandês,0-10,Sim
8,X9,Não,Sim,Sim,Não,Cheio,R,Sim,Não,Hamburger,>60,Não
9,X10,Sim,Sim,Sim,Sim,Cheio,RRR,Não,Sim,Italiano,10-30,Não
10,X11,Não,Não,Não,Não,Nenhum,R,Não,Não,Tailandês,0-10,Não
11,X12,Sim,Sim,Sim,Sim,Cheio,R,Não,Não,Hamburger,30-60,Sim


O método **``tail()``** de um DataFrame do pandas retorna as últimas `n` linhas do DataFrame, onde `n` é especificado como um argumento para o método. Se `n` não for especificado, o valor padrão é 5. Neste caso, **`base.tail(5)`** retornará as últimas 5 linhas do DataFrame **`base`**. Este método é útil para inspecionar rapidamente o conteúdo de um DataFrame para ver se ele contém o tipo certo de dados.