In [1]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
import warnings
warnings.filterwarnings ("ignore")

import matplotlib.pyplot as plt

import os
os.chdir("C:/Users/odela/Downloads")

# Ejemplo 1

In [2]:
Fraudes= pd.read_csv("Fraude.csv")
Fraudes

Unnamed: 0,ID,Reembolso,EdoCivil,Ingresos,Fraude
0,1,Sí,Soltero,125000,No
1,2,No,Casado,100000,No
2,3,No,Soltero,70000,No
3,4,Sí,Casado,120000,No
4,5,No,Divorciado,95000,Sí
5,6,No,Casado,60000,No
6,7,Sí,Divorciado,220000,No
7,8,No,Soltero,85000,Sí
8,9,No,Casado,75000,No
9,10,No,Soltero,90000,Sí


In [5]:
feature_col=["Reembolso", "EdoCivil","Ingresos"]
x= Fraudes[feature_col].values
y=Fraudes.Fraude

In [7]:
from sklearn import preprocessing

Cod_Rembolso= preprocessing.LabelEncoder()
Cod_Rembolso.fit(["Sí","No"])
x[:,0]=Cod_Rembolso.transform(x[:,0]) # x[:,0] hace referencia a la columna 0 de x que es Reembolso

Cod_EdoCivil= preprocessing.LabelEncoder()
Cod_EdoCivil.fit(["Soltero","Casado","Divorciado"])
x[:,1]=Cod_EdoCivil.transform(x[:,1])

In [39]:
x[0:5]

array([[1, 2, 125000],
       [0, 0, 100000],
       [0, 2, 70000],
       [1, 0, 120000],
       [0, 1, 95000]], dtype=object)

In [41]:
y[0:5]

0    No
1    No
2    No
3    No
4    Sí
Name: Fraude, dtype: object

In [43]:
# Creación de grupos de entrenamiento y prueba (cuando la base es muy pequeña se recomienda darle un pocentaje de al menos un 30% a la prueba

In [9]:
x_train, x_test, y_train, y_test= train_test_split(x,y, test_size=.30, random_state=1)

In [11]:
# Crear objeto de clasificación de árbol de decisión

clf= DecisionTreeClassifier()

#Aplicación de algoritmo de árbol de decisión a bases de entrenamiento

clf=clf.fit(x_train,y_train)

#Predicción de la respuesta para el grupo de prueba

y_pred=clf.predict(x_test)

In [53]:
x_test

array([[0, 2, 70000],
       [0, 2, 90000],
       [1, 1, 220000]], dtype=object)

In [55]:
y_pred

array(['Sí', 'Sí', 'No'], dtype=object)

In [57]:
y_test

2    No
9    Sí
6    No
Name: Fraude, dtype: object

In [13]:
# Matriz de confusión 

from sklearn.metrics import confusion_matrix
cm= confusion_matrix(y_test, y_pred)
cm


array([[1, 1],
       [0, 1]], dtype=int64)

In [15]:
# Estadísticas de desempeño 

from sklearn.metrics import classification_report
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

          No       1.00      0.50      0.67         2
          Sí       0.50      1.00      0.67         1

    accuracy                           0.67         3
   macro avg       0.75      0.75      0.67         3
weighted avg       0.83      0.67      0.67         3



In [65]:
# Instalación de Bibliotecas necesarias para graficar el árbol de decisión

!pip install graphviz
!pip install pydotplus

Collecting pydotplus
  Downloading pydotplus-2.0.2.tar.gz (278 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: pydotplus
  Building wheel for pydotplus (setup.py): started
  Building wheel for pydotplus (setup.py): finished with status 'done'
  Created wheel for pydotplus: filename=pydotplus-2.0.2-py3-none-any.whl size=24575 sha256=c57e70e124c49002511e9edb70dd4cff586a0fb3945a0a913dfc797a579ebf45
  Stored in directory: c:\users\odela\appdata\local\pip\cache\wheels\bd\ce\e8\ff9d9c699514922f57caa22fbd55b0a32761114b4c4acc9e03
Successfully built pydotplus
Installing collected packages: pydotplus
Successfully installed pydotplus-2.0.2


In [17]:
from sklearn import tree
import graphviz
import pydotplus
from PIL import Image

In [19]:
# Creaciónd e información para el árbol (reglas de decisión)

dot_data= tree.export_graphviz(clf,out_file=None, feature_names= feature_col, class_names=["No fraude", "Fraude"])

#Creación gráfica del árbol

graph= pydotplus.graph_from_dot_data(dot_data)

In [21]:
# Creación del árbol en formato pdf

graph.write_pdf("fraudes.pdf")

# Creación del árbol en formato PNG

graph.write_png("fraudes.png")

image= Image.open("fraudes.png")
image.show()

# Caso 2

In [23]:
prima= pd.read_csv("diabetes.csv")
prima.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [25]:
col_names= ["pregnant","glucose","bp", "skin", "insulin", "BMI", "pedigree","age","label"]
prima= pd.read_csv("diabetes.csv", header= None, names=col_names)
prima.head()

Unnamed: 0,pregnant,glucose,bp,skin,insulin,BMI,pedigree,age,label
0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
1,6,148,72,35,0,33.6,0.627,50,1
2,1,85,66,29,0,26.6,0.351,31,0
3,8,183,64,0,0,23.3,0.672,32,1
4,1,89,66,23,94,28.1,0.167,21,0


In [27]:
df= prima.iloc[1:,:]
df.head()

Unnamed: 0,pregnant,glucose,bp,skin,insulin,BMI,pedigree,age,label
1,6,148,72,35,0,33.6,0.627,50,1
2,1,85,66,29,0,26.6,0.351,31,0
3,8,183,64,0,0,23.3,0.672,32,1
4,1,89,66,23,94,28.1,0.167,21,0
5,0,137,40,35,168,43.1,2.288,33,1


In [31]:
# Selección de características 
feature_cols= ["pregnant","insulin", "BMI","age","glucose", "bp","pedigree"]
x=df[feature_cols]
y=df.label

In [234]:
x

Unnamed: 0,pregnant,insulin,BMI,age,glucose,bp,pedigree
1,6,0,33.6,50,148,72,0.627
2,1,0,26.6,31,85,66,0.351
3,8,0,23.3,32,183,64,0.672
4,1,94,28.1,21,89,66,0.167
5,0,168,43.1,33,137,40,2.288
...,...,...,...,...,...,...,...
764,10,180,32.9,63,101,76,0.171
765,2,0,36.8,27,122,70,0.34
766,5,112,26.2,30,121,72,0.245
767,1,0,30.1,47,126,60,0.349


In [115]:
y

1      1
2      0
3      1
4      0
5      1
      ..
764    0
765    0
766    0
767    1
768    0
Name: label, Length: 768, dtype: object

In [33]:
x_train, x_test, y_train, y_test= train_test_split(x,y, test_size=.20, random_state=1)

In [35]:
# Crear objeto de clasificación de árbol de decisión (puede ser criterio de gini y otro, si no se pone, por default es gini

clf= DecisionTreeClassifier(criterion="gini")
#Aplicación de algoritmo de árbol de decisión a bases de entrenamiento

clf=clf.fit(x_train,y_train)

#Predicción de la respuesta para el grupo de prueba

y_pred=clf.predict(x_test)

In [37]:
# Matriz de confusión 

from sklearn.metrics import confusion_matrix
cm= confusion_matrix(y_test, y_pred)
cm

array([[76, 23],
       [26, 29]], dtype=int64)

In [39]:
# Estadísticas de desempeño 

from sklearn.metrics import classification_report
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

           0       0.75      0.77      0.76        99
           1       0.56      0.53      0.54        55

    accuracy                           0.68       154
   macro avg       0.65      0.65      0.65       154
weighted avg       0.68      0.68      0.68       154



In [41]:
# Creaciónd e información para el árbol (reglas de decisión)

dot_data= tree.export_graphviz(clf,out_file=None, feature_names= feature_cols, class_names=["Normal", "Diabetes"])

#Creación gráfica del árbol

graph= pydotplus.graph_from_dot_data(dot_data)

In [43]:
# Creación del árbol en formato pdf

graph.write_pdf("diabetes.pdf")

# Creación del árbol en formato PNG

graph.write_png("diabetes.png")

image= Image.open("diabetes.png")
image.show()

# Optimización de desempeño del árbol de decisión

In [45]:
# Crear objeto de clasificación de árbol de decisión (puede ser criterio de gini o entropy, si no se pone, por default es gini

clf= DecisionTreeClassifier(criterion="entropy", max_depth=3) #se puede definir cantidad máxima de niveles para el árbol y que este no sea tan grande
#Aplicación de algoritmo de árbol de decisión a bases de entrenamiento

clf=clf.fit(x_train,y_train)

#Predicción de la respuesta para el grupo de prueba

y_pred=clf.predict(x_test)

In [47]:
# Estadísticas de desempeño 

from sklearn.metrics import classification_report
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

           0       0.81      0.89      0.85        99
           1       0.76      0.64      0.69        55

    accuracy                           0.80       154
   macro avg       0.79      0.76      0.77       154
weighted avg       0.80      0.80      0.79       154



In [49]:
# Creaciónd e información para el árbol (reglas de decisión)

dot_data= tree.export_graphviz(clf,out_file=None, feature_names= feature_cols, class_names=["Normal", "Diabetes"])

#Creación gráfica del árbol

graph= pydotplus.graph_from_dot_data(dot_data)

In [51]:
# Creación del árbol en formato pdf

graph.write_pdf("diabetes.pdf")

# Creación del árbol en formato PNG

graph.write_png("diabetes.png")

image= Image.open("diabetes.png")
image.show()

In [222]:
# Adición de colores al árbol de decisión

from six import StringIO
from IPython.display import Image
from sklearn.tree import export_graphviz

In [226]:
dot_data= StringIO()
export_graphviz(clf, out_file=dot_data, filled= True, rounded = True, special_characters= True, 
                feature_names= feature_cols,class_names=["Normal", "Diabetes"])
graph= pydotplus.graph_from_dot_data(dot_data.getvalue())

In [228]:
from PIL import Image

graph.write_png("Diabetes.png")
image= Image.open("Diabetes.png")
image.show()