## Clasificador de un tipo de animal y evaluar el desempeño del modelo

- Se tiene un dataset de datos de un zoologico https://archive.ics.uci.edu/ml/datasets/Zoo
- Se usara RandomForest

In [1]:
import pandas as pd

In [2]:
file_url = 'https://raw.githubusercontent.com/PacktWorkshops/The-Data-Science-Workshop/master/Chapter04/Dataset/openml_phpZNNasq.csv'

In [3]:
df = pd.read_csv(file_url)

In [4]:
df.head()

Unnamed: 0,animal,hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize,type
0,aardvark,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True,mammal
1,antelope,True,False,False,True,False,False,False,True,True,True,False,False,4,True,False,True,mammal
2,bass,False,False,True,False,False,True,True,True,True,False,False,True,0,True,False,False,fish
3,bear,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True,mammal
4,boar,True,False,False,True,False,False,True,True,True,True,False,False,4,True,False,True,mammal


In [5]:
#Quitamos la columna de el 'animal', unicamente usaremos las demas caracteristicas
df.drop(columns='animal', inplace=True)
#Separamos nuestra variable target
target = df.pop('type')
df.head()

Unnamed: 0,hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize
0,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True
1,True,False,False,True,False,False,False,True,True,True,False,False,4,True,False,True
2,False,False,True,False,False,True,True,True,True,False,False,True,0,True,False,False
3,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True
4,True,False,False,True,False,False,True,True,True,True,False,False,4,True,False,True


In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, target, test_size=0.4, random_state=188)

In [7]:
#Instanciamos nuestro modelo y lo inicializamos con un unico estimador
from sklearn.ensemble import RandomForestClassifier
rf_model = RandomForestClassifier(random_state=42, n_estimators=1)

In [8]:
#Ajustamos nuestro modelo a los datos de entrenamiento
rf_model.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=1,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)

In [9]:
#Predecimos para los datos de entrenamiento
train_preds = rf_model.predict(X_train)
# train_preds

In [10]:
#Medimos la exactitud del modelo con los datos predecidos del entramiento con nuestro target de entrenamiento
from sklearn.metrics import accuracy_score
train_acc = accuracy_score(y_train, train_preds)
print(train_acc)

0.9166666666666666


In [11]:
test_preds = rf_model.predict(X_test)
test_acc = accuracy_score(y_test, test_preds)
print(test_acc)

0.8048780487804879


A diferencia del ejercicio donde obtuvimos un 99% de exactitud para el set de entrenamiento y un 87% para el set de test, aqui el desempeño disminuyo, pero la diferencia entre ambas mediciones es menor.

In [12]:
#Ahora entrenamos un modelo con 30 arboles de deciision
rf_model2 = RandomForestClassifier(random_state=42, n_estimators=30)
rf_model2.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=30,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)

In [13]:
train_preds2 = rf_model2.predict(X_train)
test_preds2 = rf_model2.predict(X_test)

In [14]:
train_acc2 = accuracy_score(y_train, train_preds2)
test_acc2 = accuracy_score(y_test, test_preds2)

In [15]:
print(train_acc2)
print(test_acc2)

1.0
0.9024390243902439


En este ejemplo podemos ver que el modelo sobrejusta menos los datos de entrenamiento, porque tenemos un buen rendimiento para el entramiento de set y la misma diferencia con la exactitud en el set de test.

Aun no es el resultado esperado, pero parece ir mejorando nuestro modelo con el simple ajuste de este hiperparametro.

### Maximum Depth


In [16]:
#Vamos a establecer una produndidad maxima del arbol de 5 y 30 arboles para este modelo
rf_model3 = RandomForestClassifier(random_state=42, n_estimators=30, max_depth=5)
rf_model3.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=5, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=30,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)

In [17]:
train_preds3 = rf_model3.predict(X_train)
test_preds3 = rf_model3.predict(X_test)

In [18]:
train_acc3 = accuracy_score(y_train, train_preds3)
test_acc3 = accuracy_score(y_test, test_preds3)

In [19]:
print(train_acc3)
print(test_acc3)

1.0
0.9024390243902439


Como vemos el modelo sigue sobreajustando para los datos de entrenamiento.

In [20]:
#Probemos ahora con un modelo con una profundidad maxima de 2 y 30 arboles
rf_model4 = RandomForestClassifier(random_state=42, n_estimators=30, max_depth=2)
rf_model4.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=2, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=30,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)

In [21]:
train_preds4 = rf_model4.predict(X_train)
test_preds4 = rf_model4.predict(X_test)

In [22]:
train_acc4 = accuracy_score(y_train, train_preds4)
test_acc4 = accuracy_score(y_test, test_preds4)

In [23]:
print(train_acc4)
print(test_acc4)

0.9
0.8292682926829268


Vemos que aqui el valor de la exactiud para el set de entrenamiento disminuyo, pero a la vez disminuyo el sobreajuste ya que esta generalizando mejor para el set de test, puesto que la diferencia entre ambas puntuaciones es menor.