# Clasificadores

## ¿Qué es la clasificación de datos?

La clasificación consiste en a partir de un conjunto de características (`features`) en nuestro conjunto (`dataset`), encontrar las clases a las que pertenece cada muestra (`sample`).

Es decir, encontraremos un algoritmo que determine de forma automática, dado un conjunto de características a qué clase pertenecen.

Para esto debemos identificar cuál es la clase asociada a una muestra y dividiremos nuestro conjunto en dos conjuntos:

* El conjunto entrenamiento (`X_train`, `y_train`) dónde `X_train` representa las características de entrenamiento y `y_train` representa la clase asociada a esas características de entrenamiento.
* El conjunto de pruebas (`X_test`, `y_test`) dónde `X_test` representa las características de prueba y `y_test` la clase asociada a las características de prueba. Este es generalmente el 25% de los datos aunque podría variar.

El algoritmo de clasificación tomará todas las características (deben ser numéricas) y aprenderá qué clase está asociada a cada característica, entonces el entrenamiento tomará gran parte de los datos para ajustar (enseñarle) al algoritmo cómo decidir qué clase esta asociada una muestra de características dada y validar su exactitud para un conjunto de muestras independientes al entrenamiento.

Por ejemplo, el conjunto de datos llamado `iris` contiene las mediciones sobre el pétalo (ancho y largo) y el sépalo (ancho y largo) y la clase o tipo de flor iris (virgínica, versicolor, setosa).

> Muestra de algunos datos:

| Sepal L | Sepal W | Petal L | Petal W | Clase       |
|---------|---------|---------|---------|-------------|
| 5.1     | 3.5     | 1.4     | 0.2     | Iris-setosa |
| 4.9     | 3       | 1.4     | 0.2     | Iris-setosa |
| 4.7     | 3.2     | 1.3     | 0.2     | Iris-setosa |
| 4.6     | 3.1     | 1.5     | 0.2     | Iris-setosa |
| 5	      | 3.6     | 1.4     | 0.2     | Iris-setosa |

El problema de clasificación involucra encontrar la clase dado un conjunto de características, por ejemplo:

    ¿A qué clase pertenece una muestra con las siguientes características?

    5.3, 3.8, 1.2, 0.3 -> ???

Podemos pensar que los datos o características son la matriz `X` de muestras y el vector `y` las clases de cada muestra.

## 1. Importar el dataset

In [1]:
import pandas as pd

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header=None, names=["SL", "SW", "PL", "PW", "C"])

data.sample(5)

Unnamed: 0,SL,SW,PL,PW,C
146,6.3,2.5,5.0,1.9,Iris-virginica
33,5.5,4.2,1.4,0.2,Iris-setosa
40,5.0,3.5,1.3,0.3,Iris-setosa
90,5.5,2.6,4.4,1.2,Iris-versicolor
91,6.1,3.0,4.6,1.4,Iris-versicolor


## 2. Ubicar las distintas clases

In [2]:
data["C"].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

## 3. Crear la columna `CC` a partir de mapear la columna `C`

In [3]:
data["CC"] = data["C"].map({
    "Iris-setosa": 1,
    "Iris-versicolor": 2,
    "Iris-virginica": 3
})

data.sample(5)

Unnamed: 0,SL,SW,PL,PW,C,CC
47,4.6,3.2,1.4,0.2,Iris-setosa,1
105,7.6,3.0,6.6,2.1,Iris-virginica,3
85,6.0,3.4,4.5,1.6,Iris-versicolor,2
147,6.5,3.0,5.2,2.0,Iris-virginica,3
95,5.7,3.0,4.2,1.2,Iris-versicolor,2


## 4. Construir la matriz y vector para el entrenamiento

In [4]:
X = data[ ["SL", "SW", "PL", "PW"] ].values # Matriz 150x4

X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [5]:
y = data["CC"].values # Vector 150

y

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3], dtype=int64)

## 5. Cortar la matriz `X` y el vector `y` en `X_train` (75% de los datos), `X_test` (25% de los datos restantes), `y_train` (75% de los datos) y `y_test` (25% de los datos restantes)

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

X_train, X_test, y_train, y_test

(array([[6.5, 3. , 5.5, 1.8],
        [5. , 3.5, 1.6, 0.6],
        [6.7, 3. , 5. , 1.7],
        [5.8, 2.8, 5.1, 2.4],
        [6.7, 3.3, 5.7, 2.1],
        [6.6, 3. , 4.4, 1.4],
        [6.7, 3.1, 4.7, 1.5],
        [5.1, 3.8, 1.5, 0.3],
        [6.7, 3. , 5.2, 2.3],
        [6.3, 2.5, 4.9, 1.5],
        [4.8, 3.4, 1.9, 0.2],
        [5.1, 3.5, 1.4, 0.3],
        [5.1, 3.4, 1.5, 0.2],
        [5.5, 2.5, 4. , 1.3],
        [6.3, 3.3, 6. , 2.5],
        [5. , 3.2, 1.2, 0.2],
        [5.6, 3. , 4.5, 1.5],
        [7.3, 2.9, 6.3, 1.8],
        [6. , 2.7, 5.1, 1.6],
        [7. , 3.2, 4.7, 1.4],
        [5.7, 2.9, 4.2, 1.3],
        [4.8, 3.1, 1.6, 0.2],
        [7.4, 2.8, 6.1, 1.9],
        [7.7, 2.6, 6.9, 2.3],
        [6.3, 3.4, 5.6, 2.4],
        [6.7, 3.1, 4.4, 1.4],
        [5.8, 2.7, 5.1, 1.9],
        [7.2, 3. , 5.8, 1.6],
        [5.1, 3.7, 1.5, 0.4],
        [5.8, 2.7, 4.1, 1. ],
        [6.3, 2.5, 5. , 1.9],
        [5.7, 4.4, 1.5, 0.4],
        [5. , 3.3, 1.4, 0.2],
        [5

In [7]:
X_train.shape, X_test.shape, y_train.shape, y_test

((112, 4),
 (38, 4),
 (112,),
 array([1, 1, 3, 2, 3, 1, 2, 2, 2, 1, 3, 1, 1, 2, 1, 1, 3, 1, 3, 3, 2, 1,
        1, 3, 1, 3, 3, 3, 2, 3, 3, 2, 3, 2, 3, 2, 1, 1], dtype=int64))

## 6. Crear un clasificador basado en árboles de decisiones

In [8]:
from sklearn.tree import DecisionTreeClassifier

estimator = DecisionTreeClassifier() # Nos crea un clasificador/estimador

estimator

## 7. Ajustar el clasificador (algoritmo) a los datos de entrenamiento

In [9]:
estimator.fit(X_train, y_train) # X - Matriz NxM     y - Vector N    (N - muestras, M - características)

estimator.n_classes_, estimator.n_features_in_

(3, 4)

## 8. Realizar predicciones de prueba

In [25]:
data[ ["C", "CC"] ].groupby("C").first()

Unnamed: 0_level_0,CC
C,Unnamed: 1_level_1
Iris-setosa,1
Iris-versicolor,2
Iris-virginica,3


In [34]:
estimator.predict([
    [5.2, 3.2, 1.5, 0.6],
    [6.2, 1.2, 2.5, 1.6],
    [6, 2, 6, 2],
])

array([1, 2, 3], dtype=int64)

In [35]:
X_test[:5]

array([[4.4, 3.2, 1.3, 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [6.9, 3.2, 5.7, 2.3],
       [5.5, 2.6, 4.4, 1.2],
       [6. , 2.2, 5. , 1.5]])

In [36]:
y_test[:5]

array([1, 1, 3, 2, 3], dtype=int64)

In [10]:
y_predicted = estimator.predict(X_test)

y_predicted, y_test

(array([1, 1, 3, 2, 2, 1, 2, 2, 2, 1, 3, 1, 1, 2, 1, 1, 3, 1, 3, 3, 2, 1,
        1, 3, 1, 3, 3, 3, 2, 3, 3, 2, 3, 2, 3, 2, 1, 1], dtype=int64),
 array([1, 1, 3, 2, 3, 1, 2, 2, 2, 1, 3, 1, 1, 2, 1, 1, 3, 1, 3, 3, 2, 1,
        1, 3, 1, 3, 3, 3, 2, 3, 3, 2, 3, 2, 3, 2, 1, 1], dtype=int64))

## 9. Calcular el promedio de cuántas clasifica correctamente

In [37]:
y_predicted == y_test

array([ True,  True,  True,  True, False,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True])

In [11]:
100 * (y_predicted == y_test).mean()

97.36842105263158

## 10. Evaluar qué tan confiable es el clasificador sobre nuestros datos

In [48]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(estimator, X, y, scoring='accuracy')

scores.mean() * 100

96.66666666666669

## 11. Comparar otros clasificadores

In [13]:
from sklearn.neighbors import KNeighborsClassifier

scores = cross_val_score(KNeighborsClassifier(), X, y, scoring='accuracy')

scores.mean()

0.9733333333333334

In [14]:
from sklearn.svm import SVC

scores = cross_val_score(SVC(), X, y, scoring='accuracy')

scores.mean()

0.9666666666666666

In [15]:
from sklearn.neural_network import MLPClassifier

scores = cross_val_score(MLPClassifier(), X, y, scoring='accuracy')

scores.mean()



0.9800000000000001