<a href="https://colab.research.google.com/github/Nyota-Lab/Flores/blob/Primeros-pasos/Modelo_de_Clasificaci%C3%B3n_Iris.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Modelo de clasificacion en sklearn
* Primero vamos a importar el dataset y nuestro algoritmo de clasificacion

In [0]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

* Tambien vamos a generar un random seed, el cual nos va a servir para limitar la aleatoriedad y que el codigo sea replicable

In [0]:
np.random.seed(0)

* Instanciamos nuestro dataset

In [0]:
iris = load_iris()

* Lo convertimos en un dataframe dandole el nombre de las features que tiene el dataset y tambien organizando las columnas

In [0]:
df_iris = pd.DataFrame(iris.data,columns=iris.feature_names)

In [0]:
df_iris.head()

* Ahora nos falta agregarle los nombres de nuestras especies de flores al dataframe para lo cual tenemos que agregar una nueva columna

In [0]:
df_iris['species']=pd.Categorical.from_codes(iris.target, iris.target_names)

In [0]:
df_iris.head()

* Una forma manual de realizar la division de los datos es sacarlos a través de porcentajes del total del dataframe:
 * Instanciamos el total de los datos en una función random
 * De esa función random sacamos un porcentaje del total de los datos
 * Instanciamos el porcentaje mayor como datos de entrenamiento y la diferencia como datos de prueba

In [0]:
trainRandom = np.random.rand(len(df_iris))<0.8

In [0]:
train = df_iris[trainRandom]

In [0]:
test = df_iris[~trainRandom]
test

In [27]:
print(len(train)+len(test))
print(len(df_iris))

150
150


* Una vez hemos separado nuestros sets de entrenamiento y de prueba, establezcamos el objetivo

In [63]:
features = train.drop('species', axis=1)
features.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [64]:
target = train['species']
target.head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: category
Categories (3, object): [setosa, versicolor, virginica]

* Vamos a convertir las especies en números para su clasificación

In [0]:
target = pd.factorize(train['species'])[0]

In [66]:
target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

* Procedemos a entrenar nuestro modelo de clasificacion

In [0]:
clf = RandomForestClassifier(n_estimators=150, n_jobs=2, random_state=0)

In [74]:
clf.fit(features, target)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=150, n_jobs=2,
                       oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

In [0]:
test_features = test.drop('species', axis=1)

* Realizamos una prediccion con nuestro set de test

In [80]:
clf.predict(test_features)

array([0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 1, 1, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2])

* Solicitamos que nos muestre los nombres de las especies y nó los valores numéricos

In [83]:
preds = iris.target_names[clf.predict(test_features)]
preds

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'virginica', 'virginica', 'versicolor', 'versicolor', 'virginica',
       'virginica', 'virginica', 'virginica', 'virginica', 'virginica',
       'virginica', 'virginica', 'virginica', 'virginica', 'virginica',
       'virginica'], dtype='<U10')

In [84]:
test['species']

7          setosa
8          setosa
13         setosa
17         setosa
19         setosa
20         setosa
27         setosa
38         setosa
52     versicolor
66     versicolor
68     versicolor
70     versicolor
72     versicolor
89     versicolor
98     versicolor
103     virginica
109     virginica
111     virginica
114     virginica
116     virginica
118     virginica
122     virginica
140     virginica
143     virginica
144     virginica
147     virginica
149     virginica
Name: species, dtype: category
Categories (3, object): [setosa, versicolor, virginica]

* Para  poder visualizar de manera mucho mas rápida y sencilla el desempeño del modelo con datos entrenados podemos crear una matriz de confusión, dentro de la cual los datos que se encuentren en la diagonal son los que corresponden a los aciertos y fuera de esta contamos errores

In [88]:
pd.crosstab(test['species'],preds, rownames=['Real'], colnames=['Pred'])

Pred,setosa,versicolor,virginica
Real,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
setosa,8,0,0
versicolor,0,5,2
virginica,0,0,12


* Por último podemos ver la importancia de las features en nuestra predicción, en este caso el ancho y largo de los pétalos fue lo mas importante a la hora de redecir que tipo de flor es

In [90]:
list(zip(features, clf.feature_importances_))

[('sepal length (cm)', 0.09541421399414007),
 ('sepal width (cm)', 0.02428037176747053),
 ('petal length (cm)', 0.4482435865255965),
 ('petal width (cm)', 0.43206182771279295)]

In [107]:
y2=([[5.0, 3.0, 2.0, 0.1]])
test2 = y2
clf.predict(test2)

array([0])

In [109]:
preds2 = iris.target_names[clf.predict(test2)]
preds2

array(['setosa'], dtype='<U10')