#  <center> VISIÓN ARTIFICIAL </center>

Introducción a la extracción de características, selección de características y clasificación.

In [2]:
# Paquete para la manipulación de datos provenientes de archivos excel o csv
import pandas

# Funciones para el entrenamiento de un modelo de clasificación (arbol de decisiones)
from sklearn.model_selection import train_test_split  
from sklearn.tree import DecisionTreeClassifier  
from sklearn.metrics import confusion_matrix, precision_score

El objetivo de un sistema de reconocimiento es reconocer objetos sobre una imagen, tomando el ejemplo de las etiquetas en neveras HACEB como sigue:

<img src="res/1.jpg" width=500>

Queremos un sistema que dada la imagen anterior pueda marcar la presencia o ausencia de ambas etiquetas.
Lo primero que se hace es la segmentación arrojando el siguiente resultado:

<img src="res/segmentacion.png" width=500>

Sobre cada objeto segmentado se extraen algunas características como el alto, ancho, promedio de color en cada canal, para usar un modelo como el siguiente:

<img src="res/modelo.png" width=500>

Así entonces queremos construir un modelo como el anterior para poder categorizar objetos en una imagen dadas algunas medidas numéricas. Este proceso consiste de tres pasos: Extracción de características, Selección de características y Clasificación.

# Extracción de características  
Dado un objeto, se quiere obtener características numéricas o categóricas de estas, que describan el objeto de interés, y más importante, que diferencien el objeto de interés de otros objetos presentes. Pueden ser características que miden la forma, color o textura del objeto.

In [3]:
df = pandas.read_csv("res/caracteristicas.csv", sep=";", decimal=",")
df.head(10)

Unnamed: 0,mean_rojo,sd_rojo,mean_verde,sd_verde,mean_azul,sd_azul,aspect_ratio,extent,clase
0,215.43,250.39,242.66,8.71,8.58,8.99,0.93,0.85,nada
1,213.5,253.16,240.07,8.88,4.52,6.8,1.42,0.89,nada
2,208.98,253.13,239.71,12.24,6.0,10.89,1.31,0.67,nada
3,212.36,241.18,239.87,9.33,10.83,11.19,0.85,0.89,nada
4,98.76,164.67,165.11,44.84,29.33,25.09,0.72,0.96,energia
5,112.55,128.09,119.36,42.86,42.34,38.45,0.64,0.92,garantia
6,101.85,136.16,159.04,6.65,9.46,13.66,0.26,0.63,nada
7,135.87,215.13,228.29,58.05,34.6,28.51,0.7,0.96,energia
8,112.25,131.42,128.46,57.32,59.94,54.63,0.65,0.9,garantia
9,217.39,254.97,242.39,4.69,0.24,5.64,2.18,0.76,nada


mean se refiere al promedio de color en el canal dado, sd a la desviación estandar de color en el canal dado.    
Aspect ratio y Extent son calculados sobre un rectangulo envolvente.
aspect_ratio se refiere a alto/ancho, y extent se refiere al porcentaje de area que ocupa el objeto sobre el rectangulo.   

Nota: algunos modelos de clasificación no admiten la presencia de valores vacíos, o solo admiten variables categóricas o numéricas, considerar esto al momento de escoger un modelo a entrenar.

# Selección de características 
Se refiere a, dado un conjunto grande de características, escojer aquellas que pueden realizar la clasificación de la mejor manera.    

Algunos propositos de la selección de caracteristicas son los siguientes:
1. Evitar el uso de características poco discriminativas
2. Evitar características correlacionadas
3. Simplificar la etapa de pruebas
4. Evitar la maldición de la dimensionalidad
5. Evitar falsas correlaciones

Algunos ejemplos básicos de selección de caracteristicas son:
- Si alguna característica es igual para todos los objetos en los que se mide, entonces esta se elimina.
- Si hay dos características altamente correlacionadas, eliminar una de ellas.
- Según el problema de aplicación, eliminar aquellas que por lógica no son importantes, como por ejemplo en el caso de las etiquetas medir la rotación de estos respecto a la horizontal no ayuda a diferenciarlos.

# Clasificación
Es la última etapa de todo sistema de visión artificial, es aquí donde se construye el modelo que clasificaran los objetos dados usando las características medidas.
Esta etapa aunque es la última suele ser la que más atención necesita, pues aquí se verán reflejados todos los errores cometidos en etapas anteriores además de ser necesario asegurar que el modelo construido sea útil para su uso posterior.

In [4]:
# Separar en X los datos de entrada (las características medidas), y en Y la clasificación del objeto
X = df.drop("clase", axis=1)
Y = df["clase"]

**División de los datos en conjuntos de entrenamiento y validación**   
Para los modelos de aprendizaje supervisado, se pone a prueba el modelo con datos no usados durante la construcción de este. Con el objetivo de validar la utilidad del modelo además de buscar problemas que pueda presentar.

Se dividen los datos disponibles en dos conjuntos:
- el primero llamado "train" es un conjunto de datos a usar para el entrenamiento de modelos de aprendizaje de máquinas.
- el segundo llamado "test" es un conjunto de validación, se usará para verificar la precisión del modelo construido.

Esta división es necesaria para validar que el modelo construido no sufra el problema de overfitting o sobre-entrenamiento, que es cuando un modelo aprende de forma perfecta los datos de entrenamiento, pero a la hora de evaluar un nuevo dato (una etiqueta) arroja un valor completamente errado creando así un modelo inservible.

In [5]:
# Dividir X y Y en conjuntos de entrenamiento y pruebas, separando el 20% de los datos como datos de pruebas
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20) 

**Construcción del modelo**   
Ya realizada la división de los datos de entrenamiento y pruebas, se construye el modelo usando los datos de entrenamiento.

In [6]:
# Arbol de clasificación para predecir la calidad del vino a partir de las caracteristicas dadas.
classifier = DecisionTreeClassifier()  
# Se entrena el arbol de decisión usando el conjunto de entrenamiento
classifier.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

**Evaluación de desempeño**  
Usar el conjunto de datos de evaluación para verificar el desempeño del modelo construido. La evaluación consiste en usar el modelo para predecir el valor de salida para los datos de pruebas, y luego comparar los datos predichos contra los datos reales.

In [7]:
# Para ver que tan bien funciona el modelo, se usa este para dar una predicción al conjunto de evaluación,
# luego se compara la predicción contra el valor real del conjunto de evaluación.
y_pred = classifier.predict(X_test)

# Precisión final del modelo sobre el conjunto de pruebas
print("Precisión del modelo")
print(precision_score(y_test, y_pred, average='weighted'))

Precisión del modelo
0.9708633093525179


Al final, el modelo es efectivo en el 94% por los casos de prueba.