# Clasificador de árbol de decisión

Este modelo fue realizado por: Arturo Garza Campuzano, miembro del equipo 7 del curso TC3006C.101. El dataset utilizado en esta implementación es *Diabetes Dataset* y se puede encontrar en https://www.kaggle.com/datasets/mathchi/diabetes-data-set.

**Descripción del dataset**

En particular, todos los pacientes aquí son mujeres de al menos 21 años de edad de ascendencia india Pima. El dataset cuenta con las siguientes características:

* Pregnancies: Number of times pregnant.
* Glucose: Plasma glucose concentration a 2 hours in an oral glucose tolerance test.
* BloodPressure: Diastolic blood pressure (mm Hg).
* SkinThickness: Triceps skin fold thickness (mm).
* Insulin: 2-Hour serum insulin (mu U/ml).
* BMI: Body mass index (weight in kg/(height in m)^2).
* DiabetesPedigreeFunction: Diabetes pedigree function.
* Age: Age (years).
* Outcome: Class variable (0 or 1).

**Problema**

El propósito del modelo es predecir, en base a medidas diagnósticas, si un paciente tiene diabetes o no. Por lo tanto, este problema puede ser considerado como de clasificación.

## Importar módulos

In [None]:
# Se importan  las librerias requeridas para la implementación
import math
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split # Para dividir el conjunto de datos de entrenamiento
from sklearn.preprocessing import StandardScaler # Para evitar el sesgo de datos (escalamiento)
from sklearn.tree import DecisionTreeClassifier # Para crear el modelo de arbol de decision
# Herramientas para evaluar el modelo
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

## Cargar datos

In [None]:
# Este bloque de codigo no es necesario si el archivo esta guardado localmente
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Cambiar ruteo con de acuerdo a la ubicacion los archivos en su dispositivo
diabetes_df = pd.read_csv('/content/drive/MyDrive/TC3006C101_A00828096/Aprendizaje_Maquina/diabetes.csv')

# Descripcion de datos
cantidad_registros = len(diabetes_df)
numero_caracteristicas = len(diabetes_df.columns) - 1
valores_salida = diabetes_df["Outcome"].unique()

print(f"Cantidad de registros: {cantidad_registros}")
print(f"Número de características: {numero_caracteristicas}")
print(f"Valores de salida: {valores_salida}")
diabetes_df

Cantidad de registros: 768
Número de características: 8
Valores de salida: [1 0]


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


## Limpieza del conjunto

El valor cero no es aceptable para algunas variables. Se reemplazan estos valores con la media respectiva a cada variable.

In [None]:
# Se reemplazan los ceros por la media de las variables
zero_not_accepted = ['Glucose', 'BloodPressure', 'SkinThickness', 'BMI', "Insulin"]

for column in zero_not_accepted:
  diabetes_df[column] = diabetes_df[column].replace(0, np.NaN)
  mean = int(diabetes_df[column].mean(skipna = True))
  diabetes_df[column] = diabetes_df[column].replace(np.NaN, mean)

## Separación de datos en subconjuntos

Se divide el conjunto de datos en entrenamiento y prueba.

In [None]:
# Seleccion de columnas de train_df
X = diabetes_df.iloc[:, 0:8]
y = diabetes_df.iloc[:, 8]

# Dividir el dataset en conjuntos de entrenamiento (60%) y prueba (40%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.6, random_state=42)

Cualquier algoritmo en el que se calcula la distancia o se asume normalidad, los atributos se escalan. En este caso, se asume la normalidad de los datos y, por lo tanto, se escalan.

In [None]:
# Escalamiento de variables
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

## Entrenamiento del modelo

In [None]:
tree = DecisionTreeClassifier(criterion="entropy")
tree.fit(X_train, y_train)

## Análisis de desempeño

In [None]:
# Metricas de desempeno para subconjunto de entrenamiento
y_pred_train = tree.predict(X_train)
confusion_matrix_train = confusion_matrix(y_train, y_pred_train)
accuracy_score_train = accuracy_score(y_train, y_pred_train)
precision_score_train = precision_score(y_train, y_pred_train)
recall_score_train = recall_score(y_train, y_pred_train)
f1_score_train = f1_score(y_train, y_pred_train)

# Metricas de desempeno para subconjunto de prueba
y_pred_test = tree.predict(X_test)
accuracy_score_test = accuracy_score(y_test, y_pred_test)

# Entrenamiento
print(confusion_matrix_train)
print(accuracy_score_train)
print(precision_score_train)
print(recall_score_train)
print(f1_score_train)

# Prueba
print(accuracy_score_test)


[[201   0]
 [  0 106]]
1.0
1.0
1.0
1.0
0.7396963123644251
