In [2]:
# Librerías para manejo de datos
import pandas as pd
# Para preparar los datos
from sklearn.preprocessing import LabelEncoder
# Para crear el arbol de decisión 
from sklearn.tree import DecisionTreeClassifier 
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para evaluar el modelo
from sklearn.metrics import accuracy_score
# Para el reporte de rendimiento con métricas de clasificación 
from sklearn.metrics import confusion_matrix, classification_report, precision_score, recall_score, f1_score

# Para búsqueda de hiperparámetros
from sklearn.model_selection import GridSearchCV
# Para la validación cruzada
from sklearn.model_selection import KFold 
#Librerías para la visualización
import matplotlib.pyplot as plt

In [4]:
data = pd.read_excel("datos_proyecto_modulo4.xlsx" ,na_values=['?'])

In [5]:
# Cantidad de datos y número de variables
data.shape

(3276, 10)

In [6]:
# Mostrar los datos
data.head()

Unnamed: 0,pH,Dureza,Sólidos,Cloraminas,Sulfatos,Conductividad,Carbono_orgánico,Trihalometanos,Turbidez,Potabilidad
0,,204.89,20791.32,7.3,368.52,564.31,10.38,86.99,2.96,NO
1,3.72,129.42,18630.06,6.64,,592.89,15.18,56.33,4.5,NO
2,8.1,224.24,19909.54,9.28,,418.61,16.87,66.42,3.06,NO
3,8.32,214.37,22018.42,8.06,356.89,363.27,18.44,100.34,4.63,NO
4,9.09,181.1,17978.99,6.55,310.14,398.41,11.56,32.0,4.08,NO


In [7]:
# Es recomendable que todos los pasos de limpieza y preparación se realicen sobre otro archivo.
data_t = data
# Eliminación data vacía
data_t=data_t.dropna()
# Eliminación de registros duplicados.
data_t=data_t.drop_duplicates()

In [10]:
data_t.shape

(2011, 10)

In [11]:
# Para hacer la transformación o codificación de la variable objetivo utilizaremos la función labelEncoder. Es importante 
# que tengas en cuenta que, aunque la representación de esta variable sea numérica, la tarea a resolver seguirá siendo 
# una clasificación.
# Primero tenemos que generar el objeto
codificacion = LabelEncoder()
# Ahora se ajusta a los datos
data_t['Potabilidad']=codificacion.fit_transform(data_t['Potabilidad'])

In [13]:
# Podemos ver cómo quedaron nuestro datos
data_t.head()

Unnamed: 0,pH,Dureza,Sólidos,Cloraminas,Sulfatos,Conductividad,Carbono_orgánico,Trihalometanos,Turbidez,Potabilidad
3,8.32,214.37,22018.42,8.06,356.89,363.27,18.44,100.34,4.63,0
4,9.09,181.1,17978.99,6.55,310.14,398.41,11.56,32.0,4.08,0
5,5.58,188.31,28748.69,7.54,326.68,280.47,8.4,54.92,2.56,0
6,10.22,248.07,28749.72,7.51,393.66,283.65,13.79,84.6,2.67,0
7,8.64,203.36,13672.09,4.56,303.31,474.61,12.36,62.8,4.4,0


In [14]:
# Se selecciona la variable objetivo, en este caso "Potabilidad".
Y=data_t['Potabilidad']
# Del conjunto de datos se elimina la variable "Renuncia".
X=data_t.drop(['Potabilidad'], axis=1)

In [15]:
# Dividir los datos en entrenamiento y test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [16]:
# Crear el objeto de arbol de decisión. Utilicemos como criterio de pureza la entropía.
arbol = DecisionTreeClassifier(criterion='entropy', random_state=0)

In [17]:
# Entrenar el modelo de arbol de decisión con los datos de entrenamiento
arbol = arbol.fit(X_train,Y_train)

In [18]:
# Determinamos las predicciones del modelo sobre el conjunto test.
y_pred = arbol.predict(X_test)

In [19]:
# Se genera la matriz de confusión
confusion_matrix(Y_test, y_pred)

array([[164,  88],
       [ 72,  79]], dtype=int64)

In [20]:
print('Exactitud: %.2f' % accuracy_score(Y_test, y_pred))
print("Recall: {}".format(recall_score(Y_test,y_pred)))
print("Precisión: {}".format(precision_score(Y_test,y_pred)))
print("Puntuación F1: {}".format(f1_score(Y_test,y_pred)))

Exactitud: 0.60
Recall: 0.5231788079470199
Precisión: 0.47305389221556887
Puntuación F1: 0.4968553459119497


In [21]:
# Mostrar reporte de clasificación
print(classification_report(Y_test, y_pred))

              precision    recall  f1-score   support

           0       0.69      0.65      0.67       252
           1       0.47      0.52      0.50       151

    accuracy                           0.60       403
   macro avg       0.58      0.59      0.58       403
weighted avg       0.61      0.60      0.61       403



In [22]:
# Crear el objeto de arbol de decisión. Utilicemos como criterio de pureza la entropía.
arbol = DecisionTreeClassifier(criterion='entropy', class_weight='balanced', random_state=0)
arbol = arbol.fit(X_train,Y_train)
y_pred = arbol.predict(X_test)
print(classification_report(Y_test, y_pred))

              precision    recall  f1-score   support

           0       0.69      0.65      0.67       252
           1       0.47      0.52      0.49       151

    accuracy                           0.60       403
   macro avg       0.58      0.58      0.58       403
weighted avg       0.61      0.60      0.60       403



In [23]:
# Fijemos el número de particiones. Utilizaremos K = 10.
particiones = KFold(n_splits=10, shuffle=True, random_state = 0)

In [24]:
param_grid = {'criterion':['gini', 'entropy'],'max_depth':[4,6,8,10,12],'min_samples_split':[3, 4, 5]}

In [25]:
# Definimos el modelo sin ningún valor de estos hiperparámetros
arbol = DecisionTreeClassifier(class_weight='balanced', random_state=0)

DecisionTreeClassifier(class_weight='balanced', random_state=0)


In [26]:
# Ahora utilizamos GridSearch sobre el grid definido y con 10 particiones en la validación cruzada.
mejor_modelo = GridSearchCV(arbol, param_grid, cv=particiones)
# Ajuste del modelo
mejor_modelo.fit(X_train, Y_train)

In [27]:
# Podemos ver cual fue el resultado de la búsqueda (mejores valores de hiperparámetros)
mejor_modelo.best_params_

{'criterion': 'gini', 'max_depth': 10, 'min_samples_split': 4}

In [28]:
# Obtener el mejor modelo.
modelo_final = mejor_modelo.best_estimator_
# Probemos ahora este modelo sobre test.
y_pred = modelo_final.predict(X_test)
print(classification_report(Y_test, y_pred))

              precision    recall  f1-score   support

           0       0.71      0.58      0.64       252
           1       0.46      0.61      0.53       151

    accuracy                           0.59       403
   macro avg       0.59      0.59      0.58       403
weighted avg       0.62      0.59      0.60       403

