In [1]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, cross_val_score

from joblib import dump, load

In [2]:
datos = pd.read_csv('./data/iris.csv')
datos[:5]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


## Creación de la matriz _X_ y el vector _y_

In [3]:
X = datos.drop(columns=['variety'])
y = datos['variety']

## Entrenamiento y predicción

In [4]:
clasificador = DecisionTreeClassifier()
clasificador.fit(X,y)

DecisionTreeClassifier()

In [5]:
clasificador.predict(X[:10])

array(['Setosa', 'Setosa', 'Setosa', 'Setosa', 'Setosa', 'Setosa',
       'Setosa', 'Setosa', 'Setosa', 'Setosa'], dtype=object)

## Evaluación

In [6]:
# Mediante partición train-test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)
clasificador.fit(X_train, y_train)

y_test_pred = clasificador.predict(X_test)
accuracy_score(y_test, y_test_pred)

0.9777777777777777

In [7]:
# Mediante validación cruzada
scores = cross_val_score(clasificador, X, y, cv=10)
scores.mean()

0.9533333333333334

## Persistencia de modelos

In [8]:
# Guardar un modelo
clasificador.fit(X,y)
dump(clasificador, './models/iris-arbol.joblib') 

['./models/iris-arbol.joblib']

In [9]:
# Recuperar un modelo
clasificador_recuperado = load('./models/iris-arbol.joblib')
clasificador_recuperado.predict(X[:10])

array(['Setosa', 'Setosa', 'Setosa', 'Setosa', 'Setosa', 'Setosa',
       'Setosa', 'Setosa', 'Setosa', 'Setosa'], dtype=object)