#  <center> VISIÓN ARTIFICIAL </center>

Introducción a la extracción de características, selección de características y clasificación.

In [1]:
# Paquete para la manipulación de datos provenientes de archivos excel o csv
import pandas

# Funciones para el entrenamiento de un modelo de clasificación (arbol de decisiones)
from sklearn.model_selection import train_test_split  
from sklearn.tree import DecisionTreeClassifier  
from sklearn.metrics import confusion_matrix, precision_score

El objetivo de un sistema de reconocimiento es reconocer objetos sobre una imagen, tomando el ejemplo de las etiquetas en neveras HACEB como sigue:

<center><img src="res/1.jpg" width=500></center>
<center><img src="res/nevera.jpg" width=500></center>

Queremos un sistema que dada la imagen anterior pueda marcar la presencia o ausencia de ambas etiquetas.
Lo primero que se hace es la segmentación arrojando el siguiente resultado:

<center><img src="res/plantilla.jpg" width=500></center>
<center><img src="res/segmentacion.png" width=500></center>

Sobre cada objeto segmentado se extraen algunas características como el alto, ancho, promedio de color en cada canal, para usar un modelo como el siguiente:

<center><img src="res/modelo.png" width=500></center>

Así entonces queremos construir un modelo como el anterior para poder categorizar objetos en una imagen dadas algunas medidas numéricas. Este proceso consiste de tres pasos: Extracción de características, Selección de características y Clasificación.

# Extracción de características  
Dado un objeto, se quiere obtener características numéricas o categóricas de estas, que describan el objeto de interés, y más importante, que diferencien el objeto de interés de otros objetos presentes. Pueden ser características que miden la forma, color o textura del objeto.

In [2]:
df = pandas.read_csv("res/caracteristicas.csv", sep=";", decimal=",")
df.head(10)

Unnamed: 0,mean_rojo,sd_rojo,mean_verde,sd_verde,mean_azul,sd_azul,aspect_ratio,extent,clase
0,215.43,250.39,242.66,8.71,8.58,8.99,0.93,0.85,nada
1,213.5,253.16,240.07,8.88,4.52,6.8,1.42,0.89,nada
2,208.98,253.13,239.71,12.24,6.0,10.89,1.31,0.67,nada
3,212.36,241.18,239.87,9.33,10.83,11.19,0.85,0.89,nada
4,98.76,164.67,165.11,44.84,29.33,25.09,0.72,0.96,energia
5,112.55,128.09,119.36,42.86,42.34,38.45,0.64,0.92,garantia
6,101.85,136.16,159.04,6.65,9.46,13.66,0.26,0.63,nada
7,135.87,215.13,228.29,58.05,34.6,28.51,0.7,0.96,energia
8,112.25,131.42,128.46,57.32,59.94,54.63,0.65,0.9,garantia
9,217.39,254.97,242.39,4.69,0.24,5.64,2.18,0.76,nada


*Mean* se refiere al promedio de color en el canal dado, *sd* a la desviación estándar de color en el canal dado.    
*Aspect ratio* y *Extent* son calculados sobre un rectángulo envolvente. El *aspect_ratio* se refiere a la relación alto/ancho, y *extent* se refiere al porcentaje de área que ocupa el objeto sobre el rectángulo.   

**Nota**: Algunos modelos de clasificación no admiten la presencia de valores vacíos, o solo admiten variables categóricas o numéricas, es importante considerar esto al momento de escoger un modelo a entrenar.

# Selección de características 
Se refiere a, dado un conjunto grande de características, escojer aquellas que pueden realizar la clasificación de la mejor manera.    

Algunos propósitos de la selección de caracteristicas son los siguientes:
1. Evitar el uso de características poco discriminativas.
2. Evitar características correlacionadas.
3. Simplificar la etapa de pruebas.
4. Evitar la maldición de la dimensionalidad.
5. Evitar falsas correlaciones.

Algunos ejemplos básicos de selección de caracteristicas son:
- Si alguna característica es igual para todos los objetos en los que se mide, entonces esta se elimina.
- Si hay dos características altamente correlacionadas, eliminar una de ellas.
- Según el problema de aplicación, eliminar aquellas que por lógica no son importantes, como por ejemplo en el caso de las etiquetas medir la rotación de estos respecto a la horizontal no ayuda a diferenciarlos.

# Clasificación
Es la última etapa de todo sistema de visión artificial, es aquí donde se construye el modelo que clasificará los objetos dados usando las características medidas.
Esta etapa aunque es la última suele ser la que más atención necesita, pues aquí se verán reflejados todos los errores cometidos en etapas anteriores además de ser necesario asegurar que el modelo construido sea útil para su uso posterior.

In [3]:
# Separar en X los datos de entrada (las características medidas), y en Y la clasificación del objeto
X = df.drop("clase", axis=1)
Y = df["clase"]

In [4]:
X.head(10)

Unnamed: 0,mean_rojo,sd_rojo,mean_verde,sd_verde,mean_azul,sd_azul,aspect_ratio,extent
0,215.43,250.39,242.66,8.71,8.58,8.99,0.93,0.85
1,213.5,253.16,240.07,8.88,4.52,6.8,1.42,0.89
2,208.98,253.13,239.71,12.24,6.0,10.89,1.31,0.67
3,212.36,241.18,239.87,9.33,10.83,11.19,0.85,0.89
4,98.76,164.67,165.11,44.84,29.33,25.09,0.72,0.96
5,112.55,128.09,119.36,42.86,42.34,38.45,0.64,0.92
6,101.85,136.16,159.04,6.65,9.46,13.66,0.26,0.63
7,135.87,215.13,228.29,58.05,34.6,28.51,0.7,0.96
8,112.25,131.42,128.46,57.32,59.94,54.63,0.65,0.9
9,217.39,254.97,242.39,4.69,0.24,5.64,2.18,0.76


In [5]:
Y.head(10)

0        nada
1        nada
2        nada
3        nada
4     energia
5    garantia
6        nada
7     energia
8    garantia
9        nada
Name: clase, dtype: object

## División de los datos en conjuntos de entrenamiento y validación
Para los modelos de aprendizaje supervisado, se pone a prueba el modelo con datos no usados durante la construcción de este. Con el objetivo de validar la utilidad del modelo además de buscar problemas que pueda presentar.

Se dividen los datos disponibles en dos conjuntos:
- el primero llamado "train" es un conjunto de datos a usar para el entrenamiento de modelos de aprendizaje de máquinas.
- el segundo llamado "test" es un conjunto de validación, se usará para verificar la precisión del modelo construido.

Esta división es necesaria para validar que el modelo construido no sufra el problema de overfitting o sobre-entrenamiento, que es cuando un modelo aprende de forma perfecta los datos de entrenamiento, pero a la hora de evaluar un nuevo dato (una etiqueta) arroja un valor completamente errado creando así un modelo inservible.

In [6]:
# Dividir X y Y en conjuntos de entrenamiento y pruebas, separando el 20% de los datos como datos de pruebas
# Se establece un random_state para que los resultados sean reproducibles
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=5) 

In [7]:
X_train

Unnamed: 0,mean_rojo,sd_rojo,mean_verde,sd_verde,mean_azul,sd_azul,aspect_ratio,extent
285,111.74,128.67,202.59,30.66,36.17,29.45,0.31,0.66
53,123.96,168.90,150.64,17.60,17.61,11.02,2.04,0.67
281,107.13,127.23,167.02,9.52,13.16,11.26,0.28,0.77
138,223.17,251.51,251.10,8.14,5.89,5.99,1.08,0.64
347,180.89,223.31,178.36,21.04,21.01,21.26,1.33,0.89
...,...,...,...,...,...,...,...,...
8,112.25,131.42,128.46,57.32,59.94,54.63,0.65,0.90
73,193.30,229.08,222.79,20.12,22.85,21.63,1.09,0.84
400,104.79,120.96,165.64,23.36,23.97,23.50,0.49,0.70
118,176.21,234.06,186.71,22.98,25.41,28.30,6.25,0.89


In [8]:
X_test

Unnamed: 0,mean_rojo,sd_rojo,mean_verde,sd_verde,mean_azul,sd_azul,aspect_ratio,extent
166,58.36,86.52,84.51,8.34,10.35,10.33,1.05,0.91
282,105.17,123.66,155.82,5.50,5.63,6.63,1.16,0.68
309,163.29,209.57,181.41,27.64,31.72,31.47,1.05,0.83
104,181.62,232.17,211.16,24.42,25.05,28.01,0.52,0.62
365,192.29,237.52,198.75,22.40,21.37,25.67,1.35,0.54
...,...,...,...,...,...,...,...,...
129,207.52,248.10,231.60,11.69,10.48,14.06,0.55,0.50
381,73.56,91.57,128.70,8.61,8.81,5.61,0.43,0.88
247,88.20,107.49,142.02,10.23,11.54,12.82,0.68,0.75
444,95.30,134.40,155.65,30.92,36.58,36.72,1.29,0.80


In [9]:
y_train

285        nada
53         nada
281        nada
138        nada
347        nada
         ...   
8      garantia
73         nada
400        nada
118        nada
206    garantia
Name: clase, Length: 554, dtype: object

In [10]:
y_test

166    nada
282    nada
309    nada
104    nada
365    nada
       ... 
129    nada
381    nada
247    nada
444    nada
312    nada
Name: clase, Length: 139, dtype: object

## Construcción del modelo
Ya realizada la división de los datos de entrenamiento y pruebas, se construye el modelo usando los datos de entrenamiento.

In [11]:
# Arbol de clasificación para predecir la calidad del vino a partir de las caracteristicas dadas
# Se establece un random_state para que los resultados sean reproducibles
classifier = DecisionTreeClassifier(random_state=10)  
# Se entrena el arbol de decisión usando el conjunto de entrenamiento
classifier.fit(X_train, y_train)

## Evaluación de desempeño
Usar el conjunto de datos de evaluación para verificar el desempeño del modelo construido. La evaluación consiste en usar el modelo para predecir el valor de salida para los datos de pruebas, y luego comparar los datos predichos contra los datos reales.

In [None]:
# Para ver que tan bien funciona el modelo, se usa este para dar una predicción al conjunto de evaluación,
# luego se compara la predicción contra el valor real del conjunto de evaluación.
y_pred = classifier.predict(X_test)

# Precisión final del modelo sobre el conjunto de pruebas
print("Precisión del modelo")
# EL argumento average='macro' indica que se calcula la precisión para cada clase y se promedia
print(precision_score(y_test, y_pred, average='macro'))

Precisión del modelo
0.8941798941798943


In [13]:
from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, y_pred))

0.9784172661870504


In [14]:
from sklearn.ensemble import RandomForestClassifier

classifier2 = RandomForestClassifier(random_state=0)

classifier2.fit(X_train, y_train)

y_pred2 = classifier2.predict(X_test) # Predicción sobre el conjunto de pruebas

print("Precisión del modelo")
print(precision_score(y_test, y_pred2, average="macro")) # Precisión sobre el conjunto de pruebas


Precisión del modelo
0.8328458942632171


In [15]:
print(accuracy_score(y_test, y_pred2)) # Precisión sobre el conjunto de pruebas

0.9640287769784173


Al final, el modelo es efectivo en el 96% de los casos de prueba.

In [16]:
# Hacemos otra implementación de un clasificador, en este caso un clasificador KNN
from sklearn.neighbors import KNeighborsClassifier

classifier_knn = KNeighborsClassifier()

classifier_knn.fit(X_train, y_train)
y_pred_knn = classifier_knn.predict(X_test)

print("Precisión del modelo")
print(precision_score(y_test, y_pred_knn, average="macro")) # Precisión sobre el conjunto de pruebas
print("Exactitud del modelo")
print(accuracy_score(y_test, y_pred_knn)) # Precisión sobre el conjunto de pruebas

Precisión del modelo
0.9523809523809524
Exactitud del modelo
0.9928057553956835


Esto deja al K-Nearest Neighbours como el método de clasificación más efectivo