In [1]:
import pandas as pd 
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
import matplotlib.pyplot as plat
import warnings
warnings.filterwarnings("ignore")

import os
os.chdir("/Users/gilgu/OneDrive/Escritorio")

# Ejemplo 1

In [2]:
fraudes = pd.read_csv("Fraude.csv")
fraudes.head()

Unnamed: 0,ID,Reembolso,EdoCivil,Ingresos,Fraude
0,1,Sí,Soltero,125000,No
1,2,No,Casado,100000,No
2,3,No,Soltero,70000,No
3,4,Sí,Casado,120000,No
4,5,No,Divorciado,95000,Sí


# División de quienes serán la matrix X de variables predictoras y el vector y de la variable que se presenta en esta situación:

# Columnas que se van a utilizar:

In [3]:
feature_cols = ["Reembolso", "EdoCivil", "Ingresos"]
X = fraudes[feature_cols].values      #<----- para prevenir un texto enmascarado como número, que lo convierta a número.
y = fraudes.Fraude

# Codificar las variables predictoras 

In [None]:
#Eliminar textos por que necesitamos números para hacer predicciones.

In [4]:
from sklearn import preprocessing

Cod_Reembolso = preprocessing.LabelEncoder()     #va a hacer la codificación de etiquetas
Cod_Reembolso.fit(["Sí", "No"])
X[:,0] = Cod_Reembolso.transform(X[:,0])

Cod_EdoCivil = preprocessing.LabelEncoder()
Cod_EdoCivil.fit(["Soltero", "Casado", "Divorciado"])
X[:,1] = Cod_EdoCivil.transform(X[:,1])

In [5]:
X[0:5] 

array([[1, 2, 125000],
       [0, 0, 100000],
       [0, 2, 70000],
       [1, 0, 120000],
       [0, 1, 95000]], dtype=object)

In [6]:
y[0:5]

0    No
1    No
2    No
3    No
4    Sí
Name: Fraude, dtype: object

# Creación de grupos de entrenamiento y prueba.

In [None]:
#¿Qué porcentaje asignar a una base tan pequeña?

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1)

# Crear objeto de clasificación del árbol de decisión:

In [8]:
clf = DecisionTreeClassifier()

# Aplicación del algoritmo de árboles de decisión a los grupos de entrenamiento

clf = clf.fit(X_train, y_train)

# Predicción de la respuesta para el grupo de prueba

y_pred = clf.predict(X_test)

In [9]:
X_test                    #<---- cuales fueron los datos de prueba

array([[0, 2, 70000],
       [0, 2, 90000],
       [1, 1, 220000]], dtype=object)

In [10]:
y_pred         #<----    que fué lo que predijo para cada uno de ellos

array(['Sí', 'Sí', 'No'], dtype=object)

In [11]:
y_test          # cuales eran los valores reales

2    No
9    Sí
6    No
Name: Fraude, dtype: object

# Matriz de Confusión

In [12]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cm

array([[1, 1],
       [0, 1]], dtype=int64)

# Estadísticas de desempeño

In [13]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

          No       1.00      0.50      0.67         2
          Sí       0.50      1.00      0.67         1

    accuracy                           0.67         3
   macro avg       0.75      0.75      0.67         3
weighted avg       0.83      0.67      0.67         3



# Instalación de Bibliotecas necesarias para graficar el árbol de decisión

In [17]:
!pip install graphviz
!pip install pydotplus

Collecting graphviz
  Downloading graphviz-0.20.1-py3-none-any.whl.metadata (12 kB)
Downloading graphviz-0.20.1-py3-none-any.whl (47 kB)
   ---------------------------------------- 0.0/47.0 kB ? eta -:--:--
   ---------------------------------- ----- 41.0/47.0 kB 991.0 kB/s eta 0:00:01
   ---------------------------------------- 47.0/47.0 kB 584.1 kB/s eta 0:00:00
Installing collected packages: graphviz
Successfully installed graphviz-0.20.1
Collecting pydotplus
  Downloading pydotplus-2.0.2.tar.gz (278 kB)
     ---------------------------------------- 0.0/278.7 kB ? eta -:--:--
     ----- ------------------------------- 41.0/278.7 kB 960.0 kB/s eta 0:00:01
     -------------------------- ----------- 194.6/278.7 kB 2.0 MB/s eta 0:00:01
     -------------------------------------- 278.7/278.7 kB 2.1 MB/s eta 0:00:00
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to

In [14]:
from sklearn import tree
import graphviz
import pydotplus
from PIL import Image 

# Creación de información para el árbol (reglas de decisión)

In [15]:
dot_data = tree.export_graphviz(clf, out_file=None, feature_names = feature_cols, class_names = ["No fraude", "Fraude"])

#Creación de la gráfica del árbol 

graph = pydotplus.graph_from_dot_data(dot_data)

# Creación del árbol en formato PDF

In [17]:
graph.write_pdf("fraudes.pdf")

# Creación del árbol en formato PNG

graph.write_png("fraudes.png")

image = Image.open("fraudes.png")
image.show()

# Ejemplo 2

In [20]:
pima = pd.read_csv("diabetes.csv")
pima.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [19]:
col_names = ["pregnant", "glucose", "bp", "skin", "insulin", "bmi", "pedigree", "age", "label"]

In [21]:
pima = pd.read_csv("diabetes.csv", header=None, names = col_names)
pima.head()

Unnamed: 0,pregnant,glucose,bp,skin,insulin,bmi,pedigree,age,label
0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
1,6,148,72,35,0,33.6,0.627,50,1
2,1,85,66,29,0,26.6,0.351,31,0
3,8,183,64,0,0,23.3,0.672,32,1
4,1,89,66,23,94,28.1,0.167,21,0


In [22]:
df = pima.iloc[1:,:]
df

Unnamed: 0,pregnant,glucose,bp,skin,insulin,bmi,pedigree,age,label
1,6,148,72,35,0,33.6,0.627,50,1
2,1,85,66,29,0,26.6,0.351,31,0
3,8,183,64,0,0,23.3,0.672,32,1
4,1,89,66,23,94,28.1,0.167,21,0
5,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
764,10,101,76,48,180,32.9,0.171,63,0
765,2,122,70,27,0,36.8,0.34,27,0
766,5,121,72,23,112,26.2,0.245,30,0
767,1,126,60,0,0,30.1,0.349,47,1


# Selección de características

In [23]:
feature_cols = ['pregnant', 'insulin', 'bmi', 'age', 'glucose', 'bp', 'pedigree']
X = df[feature_cols]
y = df.label

In [24]:
X

Unnamed: 0,pregnant,insulin,bmi,age,glucose,bp,pedigree
1,6,0,33.6,50,148,72,0.627
2,1,0,26.6,31,85,66,0.351
3,8,0,23.3,32,183,64,0.672
4,1,94,28.1,21,89,66,0.167
5,0,168,43.1,33,137,40,2.288
...,...,...,...,...,...,...,...
764,10,180,32.9,63,101,76,0.171
765,2,0,36.8,27,122,70,0.34
766,5,112,26.2,30,121,72,0.245
767,1,0,30.1,47,126,60,0.349


In [25]:
y

1      1
2      0
3      1
4      0
5      1
      ..
764    0
765    0
766    0
767    1
768    0
Name: label, Length: 768, dtype: object

# Creación de grupos de entrenamiento y prueba.

In [26]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1)

In [27]:
# Crear objeto de clasificación del árbol de decisión:

clf = DecisionTreeClassifier(criterion = "gini")

# Aplicación del algoritmo de árboles de decisión a los grupos de entrenamiento

clf = clf.fit(X_train, y_train)

# Predicción de la respuesta para el grupo de prueba

y_pred = clf.predict(X_test)

# Matriz de  confusión

In [28]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cm

array([[83, 16],
       [25, 30]], dtype=int64)

# Estadísticas de desempeño

In [29]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.77      0.84      0.80        99
           1       0.65      0.55      0.59        55

    accuracy                           0.73       154
   macro avg       0.71      0.69      0.70       154
weighted avg       0.73      0.73      0.73       154



# Creación de información para el árbol (reglas de decisión)

In [30]:
dot_data = tree.export_graphviz(clf, out_file=None, feature_names = feature_cols, class_names = ["Normal", "Diabetes"])

#Creación de la gráfica del árbol 

graph = pydotplus.graph_from_dot_data(dot_data)

In [31]:
#Creación del árbol en formato PDF

graph.write_pdf("diabetes.pdf")

# Creación del árbol en formato PNG

graph.write_png("diabetes.png")

image = Image.open("diabetes.png")
image.show()

# Optimización del desempeño del árbol de decisión.

In [32]:
# Crear objeto de clasificación del árbol de decisión:

clf = DecisionTreeClassifier(criterion = "entropy", max_depth = 3)

# Aplicación del algoritmo de árboles de decisión a los grupos de entrenamiento

clf = clf.fit(X_train, y_train)

# Predicción de la respuesta para el grupo de prueba

y_pred = clf.predict(X_test)

# Estadísticas de desempeño

In [33]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.81      0.89      0.85        99
           1       0.76      0.64      0.69        55

    accuracy                           0.80       154
   macro avg       0.79      0.76      0.77       154
weighted avg       0.80      0.80      0.79       154



In [34]:
# Crear objeto de clasificación del árbol de decisión:

clf = DecisionTreeClassifier(criterion = "entropy", max_depth = 5)

# Aplicación del algoritmo de árboles de decisión a los grupos de entrenamiento

clf = clf.fit(X_train, y_train)

# Predicción de la respuesta para el grupo de prueba

y_pred = clf.predict(X_test)

In [35]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.85      0.81      0.83        99
           1       0.68      0.75      0.71        55

    accuracy                           0.79       154
   macro avg       0.77      0.78      0.77       154
weighted avg       0.79      0.79      0.79       154



In [40]:
#Creación de información para el árbol (reglas de decisión)

dot_data = tree.export_graphviz(clf, out_file=None, feature_names = feature_cols, class_names = ["Normal", "Diabetes"])

#Creación de la gráfica del árbol 

graph = pydotplus.graph_from_dot_data(dot_data)

In [42]:
#Creación del árbol en formato PDF

graph.write_pdf("diabetes.pdf")

# Creación del árbol en formato PNG

graph.write_png("diabetes.png")

image = Image.open("diabetes.png")
image.show()

# Este árbol se puede mejorar:

# Adición de colores al árbol de decisión:

In [50]:
from six import StringIO
from IPython.display import Image
from sklearn.tree import export_graphviz
from io import StringIO

In [52]:
dot_data = StringIO()
export_graphviz(clf, out_file = dot_data, filled = True, rounded = True, special_characters = True,
                feature_names = feature_cols, class_names = ["Normal", "Diabetes"])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())

# Creación del archivo PNG

In [53]:
from PIL import Image

graph.write_png("Diabetes.png")
image = Image.open("Diabetes.png")
image.show()