## Loading the csv file and making some changes and verifications

In [None]:
import pandas as pd

In [None]:
# load the dataset mushroom, where the objective is predict whether a mushroom is poisonous or not ("class" column)
dataset = pd.read_csv('./dataset/mushroom_cleaned.csv')
dataset

In [None]:
# change the name "class" to "poisonous"
dataset.rename(columns={'class':'poisonous'}, inplace=True)
dataset.info()

In [None]:
### TO - DO
# Fazer uns gráficos mostrando como os valores de cada parâmetro se distribui
# Se for possível fazer esses valores em relação a ser ou não venenoso

In [None]:
# see if there are any null values
dataset.isnull().sum(axis=0)

## Making the tests and predictions

In [None]:
from sklearn.model_selection import train_test_split
import graphviz

In [None]:
labels = dataset.poisonous

dataframe = dataset.drop('poisonous',inplace=False, axis=1)
dataframe

In [None]:
# separating the data in 2 groups (training and testing), the test group will have 10% of the data
train, test, res_train, res_test = train_test_split(dataframe, labels, test_size=0.99)

### Decision Tree

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
# Complexity parameter used for Minimal Cost-Complexity Pruning. The subtree with the largest cost complexity that is smaller than ccp_alpha will be chosen. 
# In short, this value will reduce the tree, but the probabilities will change
tree = DecisionTreeClassifier(ccp_alpha=0.001)
tree.fit(train, res_train)

In [None]:
# plotar a arvore de decisão em pdf para melhor visualização
labels_name = ['0', '1']
graph_date = export_graphviz(tree, feature_names=dataframe.columns, class_names=labels_name, filled=True)
graph = graphviz.Source(graph_date.replace(' fillcolor="#399de5"', ' fillcolor="#399de5", shape="diamond"'))
# graph.render('decision_tree')

# interpretação dos nós da arvore
# +-----------------+
# |  atributo <= ?  | # indica qual atribulo foi selecionado por ter maior ganho de informação e a valor que melhor divide o dataset com base nesse atributo (se verdadeiro vai pra esquerda se falso direita)
# |    gini = ?     | # nivel de impureza do atributo com base na classe
# |   samples = ?   | # quantidade de exemplos dos dados de treino utilizado na analise desse nó
# | values = [ ?]?, | # quantidade de exemplos por classe
# |    class = ?    | # qual a classe se a analise parar nesse nó (selecionado com base na classe com maior número de exemplo (classe majoritária))
# +-----------------+

In [None]:
# predicting using the test group (0 or 1)
predict_values = tree.predict(test)
predict_values

In [None]:
# predicting using the test group (probability of 0 or 1)
predict_probabilities = tree.predict_proba(test)
predict_probabilities

### K-Nearest Neighbors (KNN)

### Regressçao Logística

### Random Forest

### Support Vector Machine (SVM)

## Make some differents evalutions

In [None]:
from sklearn.metrics import confusion_matrix

confusion_matrix(res_test, predict_values)

# mostra em forma de matriz, quantos deram (1,1), (1,0) (0,1), (0,0)
# como a precisão é alta, os valores da diagonal principal sao maiores
# (0,0)   (0,1)
# (1,0)   (1,1)
# PODE OLHAR SE TA TENDO MAIS FALSO POSITIVO OU FALSO NEGATIVO

In [None]:
from sklearn.metrics import classification_report

print(classification_report(res_test, predict_values, target_names=['0', '1']))

## Making some insights

In [None]:
features_names = dataframe.columns
features_names

In [None]:
feature_importance = pd.DataFrame(tree.feature_importances_, index=features_names).sort_values(0, ascending=False)
feature_importance

In [None]:
feature_importance.plot(kind='bar')