# DecisionTreeClassifier

Application of Sklearn's decision tree classifier

In [1]:
import os
import pandas as pd

import functions as func

from sklearn.pipeline import make_pipeline
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import (cross_validate, train_test_split)

## Constants

In [2]:
WORKDIR = "" #os.path.abspath(os.getcwd())
YEARS_AVAILABLE = [2014, 2018, 2021]

## Get the data

In [3]:
file = ''.join([WORKDIR, "../../data/output/hotspot_spi.csv"]) 
dataset = pd.read_csv(file)

## 1º Scenario - Consider only SPI Dimensions

### Feature Selection

_Legend:_

X: Feature Variables (or Independent Variables)

y: Target Variables (or dependent Variables)

In [4]:
X = dataset[["Necessidades Humanas Básicas", "Fundamentos para o Bem-Estar", "Oportunidades"]]


# X = dataset[[
#     "Nutrição e cuidados médicos básicos", "Água e saneamento","Moradia","Segurança pessoal",
#     "Acesso ao conhecimento básico", "Acesso à informação e comunicação", "Saúde e bem-estar", "Qualidade do meio ambiente",
#     "Direitos individuais", "Liberdade individual e de escolha", "Tolerância e inclusão", "Acesso à educação superior"]]



# X= dataset[[ 
#     "Mortalidade infantil até 5 anos", "Mortalidade materna", "Mortalidade por desnutrição", "Mortalidade por doenças infecciosas", "Subnutrição", 
#     "Abastecimento de água", "Esgotamento sanitário", "Índice de atendimento de agua",
#     "Coleta de lixo", "Moradias com iluminação adequada", "Moradias com parede adequada", "Moradias com piso adequado",
#     "Assassinatos de jovens", "Assassinatos de jovens Taxa", "Homicídios", "Homicídios Taxa", "Mortes por acidente no trânsito",
    
#     "Abandono escolar ensino fundamental", "Distorção idade-série ensino fundamental", "Distorção idade-série ensino médio", "Qualidade da educação Ideb ensino fundamental", "Reprovação escolar ensino fundamental",
#     "Densidade internet banda-larga", "Densidade telefonia fixa", "Densidade telefonia movel", "Densidade TV por assinatura",
#     "Mortalidade por diabetes mellitus", "Mortalidade por câncer", "Mortalidade por doenças circulatórias", "Mortalidade por doenças respiratórias", "Mortalidade por suicídios",
#     "Áreas Protegidas", "Desmatamento acumulado", "Desmatamento recente", "Emissões CO2", "Focos de calor por habitantes", 
    
#     "Diversidade Partidária", "Transporte Público", 
#     "Acesso à cultura, esporte e lazer", "Gravidez na infância e adolescência", "Trabalho Infantil" , "Vulnerabilidade familiar",
#     "Violência contra indígenas", "Violência contra indígenas Taxa", "Violência contra mulheres", "Violência infantil", "Violência infantil Taxa",
#     "Empregos ensino superior", "Mulheres com empregos ensino superior"
# ]]


y = LabelEncoder().fit_transform(dataset["riscofogocat"])

### Split dataset into train and test sets

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print("X_train.shape:", X_train.shape, "y_train.shape:", y_train.shape)
print("X_test.shape:", X_test.shape, "y_test.shape:", y_test.shape)

X_train.shape: (1737, 3) y_train.shape: (1737,)
X_test.shape: (579, 3) y_test.shape: (579,)


## Modeling

**Building, train and predict model**

**Getting Best Hyperparameter Optimization**

*Note: The execution of the code below may take a few minutes or hours.*

*Uncomment and run it when you need to optimize hyperparameters.*

In [6]:
# space = dict()
# space['criterion'] = ["gini", "entropy"]
# space['splitter'] = ["best", "random"]
# space['max_depth'] = [n for n in range(50)]
# space['min_samples_split'] = [n for n in range(10)]
# space['min_samples_leaf'] = [n for n in range(10)]

# func.show_best_hyperparameter_optimization(
#     DecisionTreeClassifier(), 
#     space, 
#     X_train, 
#     y_train
# )

In [7]:
decision_tree_classifier = DecisionTreeClassifier()
pipeline = make_pipeline(
    StandardScaler(),
    decision_tree_classifier
)

_ = pipeline.fit(X_train, y_train)

__Check the most relevant features for the training model__

In [8]:
func.get_feature_importances(decision_tree_classifier, X_train)

Unnamed: 0,Features,Relevance (%)
0,Necessidades Humanas Básicas,36
1,Fundamentos para o Bem-Estar,34
2,Oportunidades,30


__Predict and show model result__

In [9]:
y_predict = pipeline.predict(X_test)
func.show_model_result(pipeline, X, y, y_test, y_predict)


Computing cross-validated metrics
----------------------------------------------------------------------
Scores: [0.25646552 0.23542117 0.25917927 0.2699784  0.26133909]
Mean = 0.26 / Standard Deviation = 0.01

Confunsion Matrix
----------------------------------------------------------------------
[[59 27 40 16 25]
 [30 13 30  8 20]
 [56 16 46 19 28]
 [26 10 17  3  9]
 [19 15 25  5 17]]

Classification Report
----------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.31      0.35      0.33       167
           1       0.16      0.13      0.14       101
           2       0.29      0.28      0.28       165
           3       0.06      0.05      0.05        65
           4       0.17      0.21      0.19        81

    accuracy                           0.24       579
   macro avg       0.20      0.20      0.20       579
weighted avg       0.23      0.24      0.23       579

-------------------------

ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted'].

**Show Curve ROC and Area Under the ROC**

In [None]:
func.show_curve_roc(pipeline, X_test, y_test, y_predict)