# $\large{\color{CadetBlue}{\textbf{Biomechanical Features com Decision Tree üå≥}}}$


### Neste dataset, as categorias *H√©rnia de Disco* e *Espondilolistese* foram fundidas em uma √∫nica categoria rotulada como *‚Äòanormal‚Äô*. o objetivo consiste em classificar os pacientes como pertencentes a uma de duas categorias: 

* ### Normal (100 pacientes)
* ### Anormal (210 pacientes)

### Para este desafio, foi decido aplicar o modelo de **Machine Learning Decision Tree**

<a id = "table-of-content"></a>
# $\large{\color{CadetBlue}{\textbf{Sum√°rio üìë}}}$ 

- **[1. Carregando as Bibliotecas üìö](#lib)**
- **[2. Lendo os dados üëÄ](#ler)**
- **[3. An√°lise Explorat√≥ria dos Dados üîé](#an√°lise)**
    - [3.1. Propor√ß√£o das colunas e linhas üìã](#an√°lise1)
    - [3.2. Observando o tipo das Vari√°veis üî¢](#an√°lise2)
    - [3.3. Verificando se h√° Valores Nulos ‚ùå](#an√°lise3)
    - [3.4. Separando Vari√°veis Preditoras e Vari√°vel Alvo üéØ](#an√°lise4)
    - [3.5. Propor√ß√£o dos valores da Vari√°vel Alvo üéØ](#an√°lise5)
    - [3.6. Gr√°fico de Dispers√£o das Vari√°veis Preditoras ‚ú®](#an√°lise6)
    - [3.7. HeatMap de Correla√ß√£o üó∫Ô∏èüî•](#an√°lise7)
- **[4. Cria√ß√£o do Modelo üß†](#modelo)**
    - [4.1. T√©cnica de Valida√ß√£o Cruzada ‚úîÔ∏è](#kfold)
    - [4.2. Aplica√ß√£o do GridSearchCV ü§ñ](#grid)
    - [4.3. Treinando o Modelo üèãÔ∏è](#modelo)
    - [4.4. Visualizando os resultados üñ®Ô∏è](#print)    
    - [4.5. Obtendo o Melhor Modelo üèÜ](#best) 
    - [4.6. Visualizando a √Ärvore de Decis√£o üå≥](#tree) 

    

## $\large{\color{RoyalBlue}{1.}}$ $\large{\color{CadetBlue}{\textbf{Carregando as Bibliotecas üìö}}}$ <a id = "lib"></a>

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import itertools
import graphviz
import subprocess
from sklearn.model_selection import cross_val_score, KFold, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from IPython.display import Image
import os

## $\large{\color{RoyalBlue}{2.}}$ $\large{\color{CadetBlue}{\textbf{Lendo os dados üëÄ}}}$ <a id = "ler"></a>

In [None]:
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
df = pd.read_csv("/kaggle/input/biomechanical-features-of-orthopedic-patients/column_2C_weka.csv")
df.groupby(['class']).head()

In [None]:
df.tail()

## $\large{\color{RoyalBlue}{3.}}$ $\large{\color{CadetBlue}{\textbf{An√°lise Explorat√≥ria dos Dados üîé}}}$ <a id = "an√°lise"></a>

##### $\large{\color{RoyalBlue}{3.1.}}$ $\large{\color{CadetBlue}{\textbf{Propor√ß√£o das colunas e linhas üìã}}}$ <a id = "an√°lise1"></a>

In [None]:
df.shape

##### $\large{\color{RoyalBlue}{3.2.}}$ $\large{\color{CadetBlue}{\textbf{Observando o tipo das Vari√°veis üî¢}}}$ <a id = "an√°lise2"></a>

In [None]:
df.dtypes

##### $\large{\color{RoyalBlue}{3.3.}}$ $\large{\color{CadetBlue}{\textbf{Verificando se h√° Valores Nulos ‚ùå}}}$ <a id = "an√°lise3"></a>

In [None]:
faltantes = (df.isnull().sum()/len(df['pelvic_incidence']))*100
print(faltantes)

### N√£o dados faltantes!

##### $\large{\color{RoyalBlue}{3.4.}}$ $\large{\color{CadetBlue}{\textbf{Separando Vari√°veis Preditoras e Vari√°vel Alvo üéØ}}}$ <a id = "an√°lise4"></a>

In [None]:
y = df['class']
x = df.drop('class', axis=1)

##### $\large{\color{RoyalBlue}{3.5.}}$ $\large{\color{CadetBlue}{\textbf{Propor√ß√£o dos valores da Vari√°vel Alvo üéØ}}}$ <a id = "an√°lise5"></a>

In [None]:
contagem = df['class'].value_counts()
proporcao = (contagem / len(df))*100

print('Quantidade: ', contagem)
print()
print('Porcentagem: ',proporcao)

##### $\large{\color{RoyalBlue}{3.6.}}$ $\large{\color{CadetBlue}{\textbf{Gr√°fico de Dispers√£o das Vari√°veis Preditoras ‚ú®}}}$ <a id = "an√°lise6"></a>

### Tratando-se de 6 vari√°veis preditoras neste conjunto de dados, todas n√∫mericas, resolvi aplicar uma combina√ß√£o de todos os gr√°ficos, a fim de ver como as v√°riaveis comportam-se entre si, resultando em 15 gr√°ficos de dispers√£o, al√©m disso, usei a vari√°vel alvo para separar os valores:

In [None]:
# Lista de todas as combina√ß√µes poss√≠veis de pares de colunas
column_combinations = list(itertools.combinations(df.columns, 2))

# N√∫mero de linhas e colunas para o layout do subplot
num_rows = len(column_combinations) // 3
if len(column_combinations) % 3 != 0:
    num_rows += 1

# Cria um grid de subplots para os gr√°ficos de dispers√£o
fig, axes = plt.subplots(nrows=5, ncols=3, figsize=(10, 15))
fig.subplots_adjust(wspace=0.4, hspace=0.4)

# Cria uma lista de combina√ß√µes v√°lidas que n√£o inclua 'class' como vari√°vel independente
valid_combinations = [(col1, col2) for col1, col2 in column_combinations if col1 != 'class' and col2 != 'class']

# Cria os gr√°ficos de dispers√£o apenas para combina√ß√µes v√°lidas
for i, combination in enumerate(valid_combinations):
    row = i // 3
    col = i % 3
    ax = axes[row, col]
    
    sns.scatterplot(data=df, x=combination[0], y=combination[1], hue='class', palette='Set1', ax=ax)
    ax.set_title(f'{combination[0]} vs {combination[1]}', fontsize=10)

# Ajuste o layout e exiba os gr√°ficos
plt.tight_layout()
plt.show()

### Um ponto interessante de agrupamento foi como todas as vari√°veis preditoras comportam-se em rela√ß√£o a vari√°vel *'degree_spondylolisthesis'*, onde em todos os casos as pessoas normal teve uma concentra√ß√£o maior em baixos n√≠veis desta vari√°vel.

### Como o n√∫mero de pacientes com uma condi√ß√£o anormal √© maior que o dobro dos pacientes normal, em muitos gr√°ficos d√° uma ilus√£o de agrupamento diferente entre a condi√ß√£o normal e a anormal, como no caso do *'pelvic_incidence  vs lumbar_lordosis_angle'*, mas a correla√ß√£o  entre essas vari√°veis √© bem similar entre as duas condi√ß√µes, para esclarecer isto, a seguir foi realizado um heatmap de correla√ß√£o todas as vari√°veis preditoras, tamb√©m agrupadas pela vari√°vel alvo, desta forma, temos um gr√°fico duplo, onde na parte de cima aparece os dados para a condi√ß√£o anormal e embaixo para a normal.

### Neste  exemplo da *'pelvic_incidence  vs lumbar_lordosis_angle'* , foi obtido uma correla√ß√£o de 0,68 na condi√ß√£o anormal e 0,70 na condi√ß√£o normal, confirmando o que foi dito anteriormente.

##### $\large{\color{RoyalBlue}{3.7.}}$ $\large{\color{CadetBlue}{\textbf{HeatMap de Correla√ß√£o üó∫Ô∏èüî•}}}$ <a id = "an√°lise7"></a>

In [None]:
# Calcule a matriz de correla√ß√£o
correlation_matrix = df.groupby(['class']).corr()

# Crie um gr√°fico de matriz de correla√ß√£o
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correla√ß√£o')
plt.show()

### O ponto de distin√ß√£o das classes com o *'degree_spondylolisthesis'* se mant√©m nesta visualiza√ß√£o tamb√©m, al√©m, ficou claro mais outra vari√°vel, a *'pelvic_radius'* tem um n√≠vel de correla√ß√£o muito baixo comparado a todas as vari√°veis preditoras na condi√ß√£o normal, aparecendo com uma forte linha azul na horizontal e vertical do mapa.

## $\large{\color{RoyalBlue}{4.}}$ $\large{\color{CadetBlue}{\textbf{Cria√ß√£o do Modelo üß†}}}$ <a id = "modelo"></a>

##### $\large{\color{RoyalBlue}{4.1}}$ $\large{\color{CadetBlue}{\textbf{T√©cnica de Valida√ß√£o Cruzada ‚úîÔ∏è}}}$ <a id = "kfold"></a>

In [None]:
kfold = KFold(n_splits=5)

modelo = DecisionTreeClassifier()
resultado = cross_val_score(modelo,x,y,cv = kfold)

print('Acur√°cia: ',resultado.mean())

### Podemos buscar uma acur√°cia maior, usando o *GridSearchCV* para encontrar os melhores valores de hiperpar√¢metros.

##### $\large{\color{RoyalBlue}{4.2.}}$ $\large{\color{CadetBlue}{\textbf{Aplica√ß√£o do GridSearchCV ü§ñ}}}$ <a id = "grid"></a>

In [None]:
# Definindo os valores que ser√£o testados em DecisionTree
minimos_split = np.array([2,3,4,5,6,7,8,9,10])
maximo_nivel = np.array([3,4,5,6,7])
algoritmo = ['gini','entropy', 'log_loss']
valores_grid = {'min_samples_split':minimos_split,'max_depth':maximo_nivel,'criterion':algoritmo}

##### $\large{\color{RoyalBlue}{4.3.}}$ $\large{\color{CadetBlue}{\textbf{Treinando o Modelo üèãÔ∏è}}}$ <a id = "fit"></a>

In [None]:
modelo = DecisionTreeClassifier()

grid = GridSearchCV(estimator = modelo, param_grid = valores_grid)
grid.fit(x,y)

##### $\large{\color{RoyalBlue}{4.4.}}$ $\large{\color{CadetBlue}{\textbf{Visualizando os resultados üñ®Ô∏è}}}$ <a id = "print"></a>

In [None]:
print('M√≠nimo split: ', grid.best_estimator_.min_samples_split)
print('M√°xima profundidade: ', grid.best_estimator_.max_depth)
print('Algoritmo escolhido: ', grid.best_estimator_.criterion)
print('Acur√°cia: ', grid.best_score_)

### Deste modo tivemos mais de 10% de melhora nos resultados, √© poss√≠vel atrav√©s do *best_estimator_* usar o melhor modelo encontrado nesta busca autom√°tica e us√°-lo para gerar uma visualiza√ß√£o da *√°rvore de decis√£o*, mas para isso, treinaremos os dados novamente com os valores encontrados.

##### $\large{\color{RoyalBlue}{4.5.}}$ $\large{\color{CadetBlue}{\textbf{Obtendo o Melhor Modelo üèÜ}}}$ <a id = "best"></a>

In [None]:
melhor_modelo = grid.best_estimator_
melhor_modelo.fit(x, y)

##### $\large{\color{RoyalBlue}{4.6.}}$ $\large{\color{CadetBlue}{\textbf{Visualizando a √Ärvore de Decis√£o üå≥}}}$ <a id = "tree"></a>

In [None]:
# Definir nome do arquivo .dot
arquivo_dot = "/kaggle/working/arvore_decisao.dot"

# Exportar a √°rvore de decis√£o para o arquivo .dot
export_graphviz(melhor_modelo, out_file=arquivo_dot, feature_names=list(x.columns), filled=True, rounded=True, class_names=melhor_modelo.classes_)

# Definir o nome do arquivo de sa√≠da 
arquivo_png = "/kaggle/working/arvore_decisao.png"

# Comando para converter o arquivo .dot em .png usando o Graphviz
subprocess.run(["dot", "-Tpng", arquivo_dot, "-o", arquivo_png])

# Exibir a imagem diretamente no notebook
Image(filename=arquivo_png)