# Entrega 2 - Clasificador (Árboles de Decisión)

### Grupo 07:
     - Renzo Gambone C.I. 5.155.486-4
     - Germán Ouviña C.I. 4.823.566-1
     - Leandro Rodríguez C.I 4.691.736-4


## 1. Introducción
***
### 1.1. Objetivo
***
El objetivo de esta tarea fue implementar un modelo de **árboles de decisión**, basándose su entrenamiento en el algoritmo **ID3** con una serie de modificaciones. Una vez generados distintos clasificadores en base a ciertos parámetros, se evaluó la performance de los mismos utilizando distintos tipos de métrica y comparando dichas evaluaciones para determinar cual modelo se ajustó mejor a cada escenario.

En términos formales, los parámetros del problema se reducen a lo siguiente:
- **Tarea *T*:** Clasificar ejemplos siguiendo cierto formato.
- **Experiencia *E*:** Conjunto de datos con ejemplos ya clasificados siguiendo cierto formato.
- **Performance *P*:** Múltiples tipos de medidas (las cuales se profundizan en la sección 3).

### 1.2. Entrega
***
La entrega de esta tarea consta de dos grandes componentes:
- **Informe** en formato de Jupyter Notebook (este informe).
- **Programa** que permite entrenar clasificadores, evaluar su desempeño y clasificar nuevos ejemplos.

El objetivo del informe es centralizar la información relativa a la construcción del modelo así como los datos obtenidos mediante pruebas realizadas con distintas configuraciones paramétricas. Como agregado opcional, se adjuntan algunos scripts para ayudar a la lectura o probar en tiempo real ciertas funcionalidades.

Por otra parte, el programa ofrece una interfaz en consola que permite entrenar y evaluar árboles acorde a múltiples configuraciones paramétricas, mostrar los arboles entrenados y calificar elementos del conjunto asociado al árbol. También se agregó un script para entrenar y evaluar modelos automáticamente. Si bien todas estas herramientas fueron pensadas para uso del grupo, en el archivo README.md se adjunta una sencilla guía de como utilizarlas.

### 1.3. Formato
***
En las siguientes secciones se especifica el diseño del modelo, justificando la toma de decisiones a la hora de construirlo y se detallan las estrategias o algoritmos que fueron implementados para la configuración paramétrica, junto a las métricas utilizadas en la evaluación. Luego, se detalla la metodología de experimentación y con la misma los resultados obtenidos para cada modelo y cada conjunto de datos, habiendo entrenado con distintas configuraciones paramétricas. Finalmente se agregan conclusiones respecto a los resultados obtenidos. 

## 2. Diseño
***
En esta sección se detallan las características del diseño utilizado para construir el modelo, se profundizan las estrategias y algoritmos empleados en la configuración paramétrica y se tratan otros puntos como el procesamiento previo al entrenamiento y la evaluación posterior al mismo.

### 2.1. Modelo
***
La consigna propone la utilización y comparación de dos tipos de modelos que basan su entrenamiento en **ID3**. Dichos modelos serán denominados **árboles de decisión** y **bosques de decisión** respectivamente. A continuación, se especifican las características de cada uno:

**Notas:**
* No se ahonda en dichas descripciones puesto que son conceptos trabajados en el teórico.
* Se utiliza notación matemática para visualizar fácilmente la definición de cada modelo.

#### 2.1.1. Árbol de decisión
***
Para este escenario uno de los modelos propuestos es el de un **árbol de decisión** multiclase, es decir, una estructura de árbol que para un ejemplo dado, lo clasifica en una de múltiples clases.

Se definen más formalmente las siguientes nociones:
* $D =$ Conjunto de entrenamiento
* $C_D =$ Conjunto de posibles clasificaciones para $d \in D$
* $T_D =$ Árbol de decisión generado en base a $D$
* Se representa una clasificación de un ejemplo $d \in D$ realizada por el árbol $T_D$ como $T_D(d) = c : c \in C_D$ y $d \in D$

#### 2.1.2. Bosque de decisión
***

El otro modelo propuesto es el de un **bosque de decisión** multiclase de árboles binarios. El modelo de bosque se basa fuertemente en el modelo de árbol, consistiendo básicamente en un conjunto de árboles de decisión que clasifican un ejemplo para cada clase. El bosque pondera las clasificaciones de cada árbol en base a cierto criterio y genera una clasificación.

Se definen más formalmente las siguientes nociones:
* $D =$ Conjunto de entrenamiento
* $C_D =$ Conjunto de posibles clasificaciones para $d \in D$
* $B_D =$ Bosque de decisión generado en base a $D$
* $B_D(d) = c : c \in C_D ^ d \in D$, Representando esto una clasificación de un ejemplo $d \in D$ realizada por el bosque $B_D$
* $T_{(B, c)} =$ Árbol de decisión binario perteneciente a $B_D$ y generado en base a la clasificación $c \in C_D$
* Sea $|C_D| = n$, hay $n$ árboles de decisión binarios en $B_D$
* Se representa una clasificación de un ejemplo $d \in D$ realizada por el árbol $T_{(B, c)}$ como $T_{(B, c)}(d) = c' : c' \in \{True, False\}$ y $d \in D$

Los detalles sobre los algoritmos de entrenamiento y clasificación utilizados por cada modelo se expanden en la sección 2.3.



### 2.2. Preprocesamiento
***
Con los objetivos tanto de hacer viable, como de mejorar la performance de entrenamiento, se realizaron ciertos cambios en el conjunto de datos a utilizar. A continuación, se listan los cambios realizados agrupandolos en base a motivación y área cambiada en el conjunto original.

**Notas:**
* Los cambios realizados en el conjunto de datos fueron hechos en memoria, sin modificar de forma alguna los archivos originales.

#### 2.2.1. Optimización (Representación)
***
La elección de la representación interna fue compleja, ya que se tuvo en cuenta tanto la performance como la facilidad a la hora de programar e interpretar el código.

Luego de numerosas pruebas utilizando distintas representaciones, se determinó la utilización del objeto **DataFrame** de la biblioteca *pandas*. Al principio trajo muchos problemas de performance (tanto en uso de memoria como en velocidad) pero al implementar técnicas ofrecidas por la biblioteca dichos problemas se palearon, generando eventualmente un uso de memoria reducido y un entrenamiento veloz.

#### 2.2.2. Estructura (Atributos)
***
Originalmente se buscó mantener la estructura de atributos estática, con el fin de impactar lo menos posible en el entrenamiento y su posterior evaluación. No obstante, para el segundo conjunto de datos (detallado en la sección 2.4), fue necesario cambiar la estructura eliminando varios atributos y generando otros nuevos.

Más concretamente, el cambio realizado fue el proceso inverso al conocido como **one hot encoding**, ya que habia múltiples atributos que representaban "la idea" de un sólo atributo discreto. En múltiples problemas, la implementación de dicho algoritmo resulta de gran utilidad para mejorar el rendimiento tanto a nivel de performance como de clasificación, generando $x$ atributos binarios para $x$ posibles valores del atributo original. 

En el contexto de árboles de decisión, sucede lo opuesto: el aumento lineal en cantidad de atributos genera un aumento exponencial en el tamaño del árbol y en el tiempo de entrenamiento. Tomando esto en cuenta, se deshizo el **one hot encoding**, tratando a los atributos generados como continuos (este punto junto a sus implicancias son expandidos en las siguientes secciones).

#### 2.2.3. Clasificación (Resultados)
***
Para el modelo de **árbol de decisión** no fue necesario realizar ningún cambio en el conjunto de datos. No obstante, para entrenar a los árboles pertenecientes al **bosque de decisión**, al ser estos de carácter binario y funcionar para una sola clase, hubo que modificar los resultados del conjunto.

Utilizando las nociones de la sección 2.1, se procesó el conjunto de datos generando $|C_D| = n$ conjuntos con las clasificaciones correspondientes, uno para cada posible valor. Cada árbol del bosque fue entrenado utilizando uno de esos conjuntos generados. 

El conjunto original no fue modificado, por lo que el bosque en sí puede clasificar para las clases originales.

### 2.3. Algoritmo
***
En la siguiente sección se centralizan todas las especificaciones relativas a los algoritmos empleados, tanto para entrenar como para clasificar. 

**Notas:**
* Se hace referencia a puntos mencionados en secciones anteriores, sin entrar en detalle en lo que ya fue explicado.

#### 2.3.1. Algoritmo de entrenamiento
***
El algoritmo de entrenamiento se basa en el conocido **algoritmo ID3** para construcción de **árboles de decisión**. Dicho algoritmo sigue las pautas generales vistas en el teórico. Se agregó la posibilidad de tratar atributos continuos y se varió el uso de medidas para detectar el mejor atributo. Dichos cambios se tratan en las subsecciones 2.3.3 y 2.3.4. 

Teniendo en cuenta lo mencionado en secciones anteriores, el algoritmo de entrenamiento implementado puede entrenar dos tipos de modelos, generando dos tipos de clasificadores:

- **Árbol de decisión:** Se implementa el entrenamiento greedy estándar de ID3 con los cambios anteriormente mencionados y se obtiene como resultado un árbol de decisión multiclase.
- **Bosque de decisión:** Se itera sobre cada posible clasificación, procesando el conjunto de datos según corresponda y generando un árbol de decisión binario utilizando el algoritmo ID3 adaptado anteriormente mencionado.

#### 2.3.2. Algoritmo de clasificación
***
A la hora de clasificar un elemento como miembro de una clase, el procedimiento difiere dependiendo del modelo utilizado. No obstante, al igual que con el entrenamiento, la clasificación de un bosque se basa fuertemente en la de un árbol. 

Es importante mencionar que los árboles generados tienen una **probabilidad** asignada a cada hoja. Dicha probabilidad es calculada al momento de generar la hoja durante el entrenamiento. Al no quedar más atributos, se calcula la frecuencia de cada clase en el subconjunto de datos que hay en la hoja y aquella clasificación con mayor frecuencia es la elegida por la hoja, adjuntandose dicha frecuencia junto a ella.

Teniendo esto en cuenta, a grandes rasgos, los algoritmos funcionan como sigue:

- **Árbol de decisión:** Se toma el ejemplo a clasificar y se recorre recursivamente los nodos del árbol hasta llegar a una hoja. Se devuelve la clasificación junto a su probabilidad. Por la naturaleza del algoritmo, dicha probabilidad suele ser mayor a 0.5. 
- **Bosque de decisión:** Se toma el ejemplo a clasificar y se itera sobre cada árbol, obteniendo la clasificación del mismo. Una vez obtenidas todas las clasificaciones, se procede a realizar una **votación**. El resultado de dicha votación es la clasificación del ejemplo en cuestión.

La clasificación del **árbol de decisión** no cuenta con grandes especificidades, ya que es la misma utilizada por los árboles de decisión genéricos. No obstante, para determinar el algoritmo de votación del **bosque de decisión** fue necesario determinar un criterio, por lo que a continuación se explaya sobre este asunto.

En el escenario donde todos los árboles indican *False*, aludiendo a que el elemento no es de su clasificación y uno de los árboles indica *True*, la clasificación es trivial. En este caso el resultado final es la clasificación del elemento. Sin embargo este no es siempre el caso, dado que los árboles de decisión si bien son resistentes al ruido, no son inmunes al mismo.

Un problema a resolver a la hora de trabajar con bosques son los *empates*, en donde uno o más árboles devuelven *True* para determinado ejemplo. El desempate se alcanza comparando la **probabilidad** con la que cada árbol clasificó al ejemplo y tomando aquella clasificación con mayor frecuencia. 

En caso de que haya empate entre varias clasificaciones y sus probabilidades, el bosque elige una de ellas aleatoriamente. En la sección 4 se expanden las implicancias de este hecho.

#### 2.3.3. Selección de mejor atributo
***
Un paso crucial del algoritmo es decidir que atributo "bifurca mejor" el árbol. ID3 propone elegir el atributo que maximice la **ganancia de información**. Sin embargo, esta métrica favorece los atributos que toman múltiples valores sobre otros. A raiz de esto es que también se experimentó con otras estrategias en la configuración paramétrica, como el **ratio de ganancia** y la **reducción de "impureza"**

Todas las siguientes estrategias trabajan con una métrica que determina *"cuánto un atributo separa a los ejemplos según la clasificación objetivo"*, esta métrica es la **entropía** y se define como:
- Sea $D = $ Conjunto de datos
- Sea $C_D = $ Conjunto de posibles clasificaciones para $d \in D$
- Sea $|C_D| = n =$ Cantidad de posibles clasificaciones en $C_D$
- Sea $f_D : D \rightarrow C_D =$ Función que clasifica elementos en $D$
- Sea $p_i$ la proporción de ejemplos $d \in D : f_D(d) = c_i$ con $c_i \in C_D$ la i-ésima clasificación

$$Entropía(D) = -\sum p_i log_2(p_i)$$

La entropía mide la heterogeneidad de los datos: cuanto más homogéneos, menor será la misma.

A continuación, se adjunta una breve noción de las tres medidas utilizadas para determinar *"el mejor atributo"*:

##### 2.3.3.1. Ganancia
***
Se define la **ganancia de información** de un atributo $a$ sobre una muestra $D$ como:

$$Ganancia(D,a) = Entropía(D) - \sum_{v \in Val(a)}\frac{|D_v|}{|D|}\cdotp
 Entropía(D_v)\$$

La fundamentación de tomar la ganancia es que se desea que el atributo sobre el cual se particione divida el conjunto de datos de la forma más homogénea en cuanto a su clasificación posible.

Como se mencionó anteriormente, una desventaja de la ganancia es que favorece a los atributos que asumen un espectro muy alto de valores distintos con respecto a otros atributos. Un conjunto amplio y uniformemente distribuido de valores para el atributo no necesariamente es una característica que debería formar parte a la hora de determinar el mejor atributo para bifurcar.

##### 2.3.3.2. Ratio de ganancia
***
Se define el **ratio de ganancia** de un atributo $a$ sobre una muestra $D$, en función de la **separación de información** de un atributo $a$ sobre una muestra $D$. Dichas definiciones son las siguientes:

$$SeparacionDeInformacion(D,a) = - \sum_{v \in Val(a)}\frac{|D_v|}{|D|} \cdotp log_2(\frac{|D_v|}{|D|})$$

$$RatioGanancia(D,Aa) = \frac{Ganancia(D,a)}{SeparacionDeInformacion(D,a)}$$

La **separación de información** es sensible a que tan amplia y uniformemente el atributo distribuye sus datos, logrando así penalizar a los atributos que tomen un espectro muy amplio de valores. Una colección de ejemplos $D : |D| = n$ que estén completamente separados por un atributo $a_1$ (como una fecha) tendrá $SeparacionDeInformacion(D,a_1) = log_2(n)$. En cambio un atributo $a_2$ (booleano, por ejemplo) que divida los mismos $n$ ejemplos a la mitad tendrá $SeparacionDeInformacion(D,a_2) = 1$. Si ambos atributos producen la misma ganancia de información, entonces $a_2$ tendrá un **ratio de ganancia** más alto.

Se observa que la **separación de información** es la entropía de $D$ respecto a los valores del atributo $a$ (a diferencia de tomarla con respecto a la clasificación).

Una desventaja de usar el **ratio de ganancia** en lugar de sólo **ganancia** es que la **separación de información** puede ser 0, lo que hace el **ratio de ganancia** sea indefinido o muy grande para atributos que pueden tener el mismo valor para casi todos los miembros de $D$.

##### 2.3.3.3. Reducción de "impureza"
***
Se define la **reducción de impureza** de un atributo $a$ sobre una muestra $D$, utilizando la **impureza Gini** (nombrada en honor a Conrado Gini) de una muestra $D$. Dichas definiciones son las siguientes:

$$Gini(D) = 1 - \sum p_{i}^2$$

$$ReductionImpureza(D,a) = Gini(D) - \sum_{v \in Val(a)}\frac{|D_v|}{|D|} \cdotp Gini(D_v)$$

La **impureza Gini**, nombrada por el matemático Corrado Gini, mide la homogeneidad de un conjunto de elementos, tomando un valor mínimo de 0.0 y un valor máximo acotado por 1.0.

Dicha métrica toma valor 0 cuando todos los elementos del conjunto califican al mismo valor. En este contexto se dice que la **impureza** es mínima. A su vez si todos los valores del conjunto califican la misma cantidad de resultados distintos, se dice que la **impureza** es máxima (tomando un valor menor o igual a 1.0).

A los efectos practicos de la construcción de **árboles de decisión**, durante la misma se desea bifurcar con atributos que reduzcan la **impureza** lo mayor posible posible (optando por atributos que califiquen la mayor cantidad de instancias en la misma clase).

Una muy importante observación es que si bien la **impureza Gini** minimiza errores de clasificación y la **entropía** se usa para análisis exploratorio, ambas cumplen un rol casi idéntico. Usualmente, la **impureza Gini** da mejores resultados para atributos continuos mientras que la **entropía** funciona mejor con atributos discretos, sin embargo algunos estudios encontraron que sólo un 2% de las veces los resultados son distintos.

Debido a que su efectividad es dependiente del problema, se decidió incluir reducción de impureza como parte de la configuración paramétrica. 

#### 2.3.4. Interpretación de valores continuos
***
Una característica clave para el escenario propuesto y que **ID3** no contempla es **el tratamiento de atributos continuos**. Se emplearon tres estrategias distintas para interpretar los valores de tales atributos, teniendo como fin las mismas, discretizar el espectro continuo en una pequeña cantidad de clases.

Como noción general independiente a la estrategia implementada, cada clase discreta generada a partir de la estrategia en cuestión representa un **intervalo**. Los intervalos se definen por su **tope superior (máximo)**, excepto el último, que se define por su **tope inferior (mínimo)**

Sea por ejemplo, la lista de intervalos $[v_0, ..., v_n, v_{n+1}]$, para cada valor $v_i : i \in [0..n+1]$ se cumple lo siguiente:
- El intervalo de $v_0$ representa "todos los valores $k : k \leq v_0$".
- El intervalo de $v_i : i \in [1..n]$ representa "todos los valores $k : v_{i-1} \lt k \leq v_i$".
- El intervalo de $v_{n+1}$ representa "todos los valores $k : k \gt v_{n+1}$".

Es importante mencionar que los últimos dos **valores** cumplen ser iguales ($v_n = v_{n+1}$), lo que cambia es lo que el intervalo representa.

Habiendo visto esto, se resumen las estrategias implementadas:

##### 2.3.4.1. Partir en intervalos fijos
***
Como primera estrategia, se determina la siguiente:
- Sea $A_D =$ Conjunto de atributos en conjunto de datos $D$
- Sea $a \in A_D : Val(a) \subseteq N, Z, R$ un atributo continuo
- Sea $a^{*} \in A_D : |Val(a^{*})| \lt \infty$ la discretización de un atributo continuo
- Sea $\mu_{a}$ la mediana de $Val(a)$ para los ejemplos en $D$
- Entonces $Val(a^{*}) = \{\leq \mu_{a}, \gt \mu_{a}\}$

En lenguaje natural, se generan dos intervalos: los valores menores o iguales a la mediana de los valores actuales, y los valores mayores a dicha mediana. Todo nuevo valor entra siempre en alguno de los dos intervalos.

La fundamentación de tomar dos intervalos partidos por la mediana es que es una manera intuitiva de distribuir el atributo de forma "pareja" en el árbol. Por otra parte, la desventaja de esta estrategia está en que, además de no ser necesariamente el punto ideal de corte para la clasificación, el partir en solamente dos intervalos para atributos con múltiples valores puede terminar agrupando ejemplos e introduciendo ruido al conjunto de datos.

##### 2.3.4.2. Partir en intervalos variables
***
Con el fin de mejorar el defecto del enfoque anterior se implementa la siguiente estrategia:
- Sea $D_a =$ Conjunto de datos ordenado ascendentemente en base a atributo $a$
- Sea $A_{D_a} =$ Conjunto de atributos en conjunto de datos $D_a$
- Sea $a \in A_{D_a} : Val(a) \subseteq N, Z, R$ un atributo continuo
- Sea $a^{*} \in A_{D_a} : |Val(a^{*})| \lt \infty$ la discretización de un atributo continuo
- Sea $v_i : v_i \in Val(a)$ el valor de $a$ en el k-ésimo ejemplo $d_k \in D_a$ tal que cambia su clasificación respecto a $d_{k-1}$
- Entonces $Val(a^{*}) = \{\leq v_0, ..., \leq v_n, \gt v_n\}$

En lenguaje natural, se genera un número variable de intervalos. El procedimiento para generarlos es:
1. Ordenar $D$ en base a $a$ (generando $D_a$).
2. Iterar sobre $D_a$
3. Almacenar en $Val(a^{*})$, el valor $v_i$ de $a$ en $d_k$, en el momento en que la clasificación cambia del ejemplo $d_{k-1}$ al ejemplo $d_k$.

De esta forma, se tiene una cantidad de intervalos que relaciona el cambio en la clasificación del ejemplo con el cambio en el atributo $a$. Esta técnica impacta menos negativamente que la anterior en relación al ruido que introduce al recortar valores.

No obstante, en conjuntos de datos muy grandes con valores de $a$ muy dispersos o con clasificaciones muy cambiantes, puede suceder que se genere una cantidad de intervalos cercana a la cantidad de valores originales. Este hecho atenta en contra de la idea de interpretar valores continuos y de construir árboles simples con pocas ramas. No solamente eso, si no que también impacta en el tiempo de entrenamiento.

Teniendo esto en cuenta, se limitó la cantidad de posibles intervalos a 10, eligiendo 10 valores que se separan uniformemente en el conjunto total de intervalos.

##### 2.3.4.3. Partir por el valor que maximice la ganancia
***
Basado en el algortimo C4.5, el algortimo sucesor de ID3, se implementa la siguiente estrategia:
- Sea $D_a =$ Conjunto de datos ordenado ascendentemente en base a atributo $a$
- Sea $A_{D_a} =$ Conjunto de atributos en conjunto de datos $D_a$
- Sea $a \in A_{D_a} : Val(a) \subseteq N, Z, R$ un atributo continuo
- Sea $a^{*} \in A_{D_a} : |Val(a^{*})| \lt \infty$ la discretización de un atributo continuo
- Sea $v_i : v_i \in Val(a)$ el valor de $a$ en el k-ésimo ejemplo $d_k \in D_a$ tal que cambia su clasificación respecto a $d_{k-1}$
- Sea $Val(a') = \{\leq v_0, ..., \leq v_n, \gt v_n\}$ los posibles valores determinados en la sección anterior
- Entonces $Val(a^{*}) = \{\leq v_j, \gt v_j\} : v_j \in Val(a')$ y se maximiza la ganancia de partir el conjunto de datos en $v_j$

En lenguaje natural, se generan dos intervalos como en la sección 2.3.4.1 pero se parte de los valores tomados en la sección 2.3.4.2 y se determina cual de estos otorga una mayor ganancia.

Una desventaja de esto es que es de un mayor orden computacional, requiriendo una recorrida del dataset para calcular la ganancia de cada punto de corte a probar.


### 2.4. Evaluación
***
En la siguiente sección se centralizan todas las especificaciones relativas a la evaluación de los clasificadores entrenados.


#### 2.4.1. Conjuntos de evaluación
***
Los dos conjuntos de datos a partir de los cuales se entrenó y evaluó los modelos son:
- [**Conjunto *Iris*:**](https://archive.ics.uci.edu/ml/datasets/iris) El cual clasifica plantas del genero Iris (de la tribu Irideae, perteneciente a la familia Iridaceae) según especie. Cuenta con 150 ejemplos, 4 atributos de carácter continuo y 3 posibles clasificaciones.
- [**Conjunto *Covertype*:**](https://archive.ics.uci.edu/ml/datasets/Covertype) El cual clasifica terrenos de bosques según atributos cartográficos. Cuenta con 581012 ejemplos,54 atributos, siendo 10 de carácter continuo y 44 de carácter binario (son el one hot encoding de 2 atributos generando 4 y 40 atributos respectivamente) y 7 posibles clasificaciones.

Cabe destacar que el conjunto *Iris* cuenta con una cantidad ínfima de ejemplos, mientras que el conjunto *CoverType* va hacia el otro extremo. Las implicancias de estos hechos se tratan en la sección 3.

#### 2.4.2. Métodos de evaluación
***
Se experimentó utilizando dos estrategias de evaluación, siendo las mismas:
- Validación 80/20 (denominada "normal" a partir de ahora)
- Validación cruzada con 10 particiones (denominada "cruzada" a partir de ahora)

Ambas estrategias subdividen el conjunto de datos $D$ en dos subconjuntos, $T, E \subset D$. El subconjunto $T$ se utiliza para entrenar al clasificador en cuestión, mientras que el subconjunto $E$ se utiliza para evaluar la eficacia del mismo. Esto se logra haciendo que el modelo entrenado clasifique los ejemplos del conjunto de evaluación $E$, comparando luego la clasificación original con la realizada. Dicha comparación se basa en distintas métricas, las cuales se tratan en la subsección siguiente.

Es importante destacar que, independiente al método de evaluación, el conjunto de datos $D$ original se mezcla de forma aleatoria antes de subdividirlo en $T$ y $E$. Esto es vital para evitar el mismo resultado en distintas evaluaciones.

Si, por ejemplo, $D$ estuviera ordenado de forma tal que los últimos ejemplos en él (los que corresponderían a $E$) no agregan información nueva a $T$, entonces el desempeño del clasificador sería excelente. Por otra parte, si sucede lo contrario, el desempeño sería mucho peor. La mezcla al azar de $D$ se utiliza con el objetivo de reducir este fenómeno.

A continuación se adjunta una breve descripción de los parámetros utilizados en cada método de evaluación.

##### 2.4.2.1. Validación normal
***
Se denomina como **validación normal** a la partición única del conjunto $D$ en $T$ y $E$ utilizando una proporción donde $|T| \lt |E|$.

En general, dependiendo de la cantidad de ejemplos en $D$ y del objetivo que se quiera alcanzar, dicha partición sigue una relación 80/20, 85/15, 90/10, etc. Para el escenario actual, se determinó utilizar una partición 80/20, es decir, $T$ cuenta con el 80% de ejemplos en $D$, mientras que $E$ cuenta con el 20% restante.

Es importante recordar el fenómeno mencionado en la subsección anterior. La validación normal, si bien parte al conjunto luego de haber sido reordenado aleatoriamente, puede verse afectada, por casualidad, por el fenómeno en cuestión. Con el objetivo de reducir esta posibilidad, se agrega el siguiente método

##### 2.4.2.2. Validación cruzada
***

Se denomina como **validación cruzada** a la partición del conjunto $D$ en $k$ particiones $T_i$ y $E_i : i \in [1..k]$,  utilizando una proporción $\frac{k-1}{k}$ y $\frac{1}{k}$ para $T_i$ y $E_i$ respectivamente.

En lenguaje natural, la validación cruzada utiliza un parámetro $k$, generando $k$ particiones de $D$ siguiendo el método normal mencionado en la anterior subsección. Esto se hace con el objetivo de evitar el sobreajuste en subconjuntos $T \subset D$ específicos. Una vez se hacen las $k$ evaluaciones, se promedian las métricas obtenidas para obtener una mejor noción del desempeño del modelo.

Esta estrategia es más robusta que la **validación normal** anteriormente mencionada, sin embargo tiene el problema de tener un mayor orden computacional, dado que tiene que correr $k$ entrenamientos en lugar de uno.

En la experimentación se decidió fijar $k=10$.

#### 2.4.3. Métricas de evaluación
***
Se utilizaron múltiples métricas para determinar la "calidad" o "eficacia" de los clasificadores entrenados. A continuación, una breve descripción de las mismas:

##### 2.4.3.1 Accuracy
***
La **accuracy** o **exactitud** hace referencia a la cantidad de aciertos que el clasificador tuvo en relación al total de clasificaciones que realizó durante la evaluación. Para definir **accuracy**, se utilizan las siguientes nociones:
- Sea $D$ el conjunto de datos, $C_D$ el conjunto de posibles clasificaciones en $D$ y $|C_D| = n$
- Sea $t_i : i \in [1..n]$ la cantidad de clasificaciones para la clase $i$ que fueron correctas
- Sea $f_i : i \in [1..n]$ la cantidad de clasificaciones para la clase $i$ que fueron incorrectas

$$ accuracy = \frac{\sum_{i=1}^{n} t_i}{\sum_{i=1}^{n} t_i + f_i}$$

Se observa que **accuracy** no es una muy buena medida de performance, ya que depende mucho del conjunto de datos que se evalúe, pudiendo dar buenos resultados a un clasificador malo. Teniendo esto en cuenta, se utilizó esta métrica solo para tener una noción general del desempeño de un clasificador, dandole más peso a las métricas definidas a continuación.

##### 2.4.3.2 Matriz de Confusión
***
La **matriz de confusión** es una matriz que permite almacenar todas las clasificaciones realizadas en una evaluación, basándose en cada resultado y su respectivo valor original. La estructura de la matriz es la siguiente:

- Sea $D =$ Conjunto de datos
- Sea $C_D =$ Conjunto de clasificaciones para $d \in D$ 
- Sea $|C_D| = n$ cantidad de posibles clasificaciones en $C_D$
- Sea $M$ la matriz de confusión para una evaluación definida como:

$$M = \begin{bmatrix}
    x_{11} & x_{12} & \dots  & x_{1n} \\
    x_{21} & x_{22} & \dots  & x_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    x_{n1} & x_{n2} & \dots  & x_{nn}
\end{bmatrix}$$

- Entonces $x_{ij} \in M : i,j \in [1..n]$ representa la cantidad de clasificaciones que originalmente eran **clase $i$** y que fueron clasificadas en la evaluación como **clase $j$**.

De esta forma, en una matriz cuadrada de dimensión $n$, se pueden centralizar todas las clasificaciones realizadas y su relación con respecto a cada clase.

En sí misma, la matriz de confusión no representa una métrica sino una herramienta para calcular otras métricas, las cuales serán detalladas a continuación. De todas formas, una matriz de confusión de tamaño razonable puede aportar información general sobre el desempeño del clasificador, sólo con mirarla por arriba (en la siguiente subsección se detalla como).

##### 2.4.3.3 Precision, Recall, Fall-off, F-measure
***
Existen cuatro medidas que, si bien siguen una fórmula similar a la de **accuracy**, son mucho menos sensibles al ruido en el conjunto de datos $D$, ya que operan **por clase**. Antes de detallar cada una, se repasan ciertas nociones básicas utilizadas en la definición de cada métrica.

Retomando el punto anterior, la matriz de confusión permite calcular para cada clase $c_i$, cuatro valores indispensables:
- Los **verdaderos positivos** en la clase $c_i$ (denotados como $t_i$), son aquellos ejemplos que originalmente son clase $c_i$ y fueron clasificados correctamente en la evaluación como clase $c_i$. Para calcularlos utilizando la matriz de confusión, simplemente hay que tomar la celda $M(i,i)$ para la clase $c_i$.

$$ t_i = M(i,i) $$

- Los **falsos positivos** en la clase $c_i$ (denotados como $f_i$), son aquellos ejemplos que originalmente son clase $c_j : j \neq i$ y fueron clasificados incorrectamente en la evaluación como clase $c_i$. Para calcularlos utilizando la matriz de confusión, simplemente hay que tomar la fila $M_{(i,)}$ para la clase $c_i$, y sumar todos sus valores (excepto la celda $M(i,i)$, que corresponde a los verdaderos positivos).

$$ f_i = \sum_{j=1, j \neq i}^{n} M(i,j) $$

- Los **verdaderos negativos** en la clase $c_i$ (denotados como $\bar{t_i}$), son aquellos ejemplos que originalmente no son clase $c_i$ y fueron clasificados en la evaluación como clase $c_j : j \neq i$. Cabe destacar que la clasificación como $c_j$ puede ser correcta o no, lo importante es que sea consistente en relación a $c_i$. Para calcularlos utilizando la matriz de confusión, simplemente hay que tomar la matriz adjunta a los verdaderos positivos de $c_i$ y sumar todas sus entradas. Dicha matriz se define como $M_{ii}$ y contiene todas las entradas de $M$ excepto la fila $i$ y la columna $i$.

$$ \bar{t_i} = \sum_{j=1}^{n-1} \sum_{k=1}^{n-1} M_{ii}(j,k) $$

- Los **falsos negativos** en la clase $c_i$ (denotados como $\bar{f_i}$), son aquellos ejemplos que originalmente son clase $c_i$ y fueron clasificados incorrectamente en la evaluación como clase $c_j : j \neq i$. Para calcularlos utilizando la matriz de confusión, simplemente hay que tomar la columna $M_{(,i)}$ para la clase $c_i$, y sumar todos sus valores (excepto la celda $M(i,i)$, que corresponde a los verdaderos positivos).

$$ \bar{f_i} = \sum_{j=1, j \neq i}^{n} M(j,i) $$

Teniendo en cuenta dichas definiciones, se pasa a definir las métricas utilizadas:
- **Precision**
> - La **precision** o precisión de una **clase $c_i$** hace referencia a la cantidad de clasificaciones correctas para dicha clase, en relación a la cantidad de clasificaciones totales (correctas e incorrectas) para dicha clase.
> - La precision permite determinar "que tan bien se clasifica una clase". En otras palabras, que tan poco se equivoca el clasificador en marcar un ejemplo como cierta clase.
> - Oscila entre 0 y 1, siendo mejor cuanto **mayor** es.
> - Se calcula como:
> $$ precision(c_i) = \frac{t_i}{t_i + f_i}$$

- **Recall**
> - La **recall** o recuperación de una **clase $c_i$** hace referencia a la cantidad de clasificaciones correctas para dicha clase, en relación a la cantidad de clasificaciones originales para dicha clase.
> - La recall permite determinar "que tan bien se clasifican elementos de otras clases respecto a una clase". En otras palabras, que tan poco se equivoca el clasificador en marcar un ejemplo de otras clases como cierta clase.
> - Oscila entre 0 y 1, siendo mejor cuanto **mayor** es.
> - Se calcula como:
> $$ recall(c_i) = \frac{t_i}{t_i + \bar{f_i}}$$

- **Fall-off**
> - La **fall-off** de una **clase $c_i$** hace referencia a la cantidad de clasificaciones incorrectas para dicha clase, en relación a la cantidad de clasificaciones complemento (correctas e incorrectas) de dicha clase.
> - La fall-off permite determinar "que tan mal se clasifica una clase". En otras palabras, es la noción inversa de la recall: cuantos más ejemplos de otra clase sean clasificados como clase $c_i$, más aumenta fall-off.
> - Oscila entre 0 y 1, siendo mejor cuanto **menor** es.
> - Se calcula como:
> $$ falloff(c_i) = \frac{f_i}{f_i + \bar{t_i}}$$

- **F-measure**
> - La **F-measure** o medida-F de una **clase $c_i$** es una medida que relaciona **precision** y **recall**, oficiando de alguna forma como un representante de cierta clase.
> - La F-measure permite determinar "que tan bien se clasifica una clase y que tan poco se falla a la vez". En otras palabras, es una relación proporcional entre la precision y la recall y por tanto es una buena métrica para determinar el desempeño del clasificador respecto a una clase.
> - Oscila entre 0 y 1, siendo mejor cuanto **mayor** es.
> - Se calcula como:
> $$ Fmeasure(c_i) = \frac{2 precision(c_i) recall(c_i)}{precision(c_i) + recall(c_i)}$$

Si bien estas medidas ofrecen información más enriquecedora en comparación a las anteriormente mencionadas, cuentan con el "defecto" de aplicar por clase y no dar una medida general del clasificador. Para conjuntos $D$ con pocas clasificaciones en $C_D$ esto no es un gran problema, pero complica la comparación al aumentar la cantidad de clases. En la siguiente subsección se tratan métricas que tienen como objetivo mejorar este hecho.

##### 2.4.3.4 Medidas macro y micro
***
Existen dos formas genéricas de establecer medidas representativas para un modelo sin importar la clase. En este escenario se implementaron ambas formas, siendo las siguientes:

- **Promedios genéricos** 
> - El promedio genérico de una métrica dada consiste en la suma de las métricas para cada clase dividida por la cantidad de clases.
> - Otorga una noción del desempeño general del clasificador en relación a la métrica dada. 
> - Sea $D$ el conjunto de datos
> - Sea $C_D$ el conjuntos de posibles clases
> - Sea $|C_D| = n$
> - El promedio genérico se calcula como:
> $$ metrica_{general} = \frac{\sum_{i=1}^{n} metrica(c_i)}{n}$$

- **Promedios ponderados:**
> - El promedio ponderado de una métrica dada consiste en la suma de las métricas para cada clase ponderada por la proporción de ejemplos en el conjunto de datos para dicha clase.
> - Otorga una noción del desempeño del clasificador en relación a la métrica dada, ignorando el ruido generado por mal desempeño en clases con menor cantidad de ejemplos (en otras palabras, es particularmente útil ante conjuntos de datos con una distribución nada uniforme en las clasificaciones de sus ejemplos).
> - Sea $D$ el conjunto de datos
> - Sea $C_D$ el conjuntos de posibles clases
> - Sea $|C_D| = n$
> - Sea $c_i \in C_D$ la i-ésima clase en $C_D$
> - Sea $D_i \subseteq D$ el conjunto de ejemplos clasificados con clase $c_i$
> - El promedio ponderado se calcula como:
> $$ metrica_{ponderada} = \sum_{i=1}^{n} metrica(c_i) * \frac{|D_i|}{|D|}$$


## 3. Experimentación
***
En esta sección se detalla el conjunto de pruebas realizadas, agregandose observaciones pertinentes y comparaciones entre modelos.

### 3.1. Metodología
***

Con el objetivo de evaluar las estrategias planteadas anteriormente y su efectividad, se probaron combinaciones de las mismas frente a los dos modelos desarrollados. La exprimentación se encaró diviendola en las siguientes etapas:

1. **Configuraciones paramétricas:** Luego de llegar a un modelo relativamente libre de errores (al menos de errores identificados), se realizaron pruebas para múltiples configuraciones paramétricas, con el fin de comparar cuales de ellas resultaron en mejores clasificadores. En esta etapa se detallan los datos obtenidos. 
<br><br>
2. **Elección y comparación de representantes:** A falta de suficientes corridas para generar agrupamientos de configuraciones, se compararon manualmente los resultados obtenidos en las pruebas de cada configuración paramétrica de la etapa anterior. En base a distintas métricas, se eligió a aquellos clasificadores con mejores y peores resultados, interpretando la razón de su eficacia.

### 3.2. Configuraciones paramétricas
***
A continuación se adjuntan las distintas configuraciones paramétricas utilizadas al evaluar, sus motivaciones y sus resultados. Se realizan pequeñas observaciones sobre los mismos, quedando el análisis exhaustivo pendiente para la siguiente sección.

Es importante destacar que a causa de el tamaño del conjunto *Covertype*, no fue posible probar todas las configuraciones paramétricas para el mismo. De hecho, todas las configuraciones que tratan atributos continuos como **intervalos variables** fueron omitidas, ya que el árbol crecía exponencialmente, creciendo también el tiempo de entrenamiento, imposibilitando la extracción de datos.

#### 3.2.1. Evaluaciones
***
Se realizaron un total de **30 evaluaciones**. Las mismas se distribuyen según los siguientes parámetros:
- Conjunto de datos utilizado (2 opciones: *Iris*, *CoverType*)
- Tipo de modelo entrenado (2 opciones: **Árbol**, **Bosque**)
- Estrategia de atributos continuos utilizada (3 opciones: **Intervalos fijos**, **Intervalos variables**, **Intervalos maximizando la ganancia**)
- Medida de ganancia utilizada (3 opciones: **Ganancia**, **Ratio de ganancia**, **Reducción de impureza**)

Si se multiplican todas las posibles opciones, deberían realizarse **36 evaluaciones**. No obstante, como se menciona anteriormente, se eliminaron todas aquellas evaluaciones en *CoverType* que trataran atributos continuos como **intervalos variables**.

El método de evaluación empleado dependió del conjunto de datos. Dado que *Iris* cuenta con pocos ejemplos, se utilizó **validación cruzada** con $k=10$ particiones, con el objetivo de generar datos menos sensibles al ruido generado por una única partición. Por otra parte, por motivos de tamaño del conjunto y tiempo de entrenamiento, para *CoverType* se utilizó **validación normal**.

**Notas:**
- Cabe mencionar que los tiempos de entrenamiento fueron optimizados sobre el final del período de entrega, por lo que para una próxima edición podría ser viable utilizar **validación cruzada**.

#### 3.2.2. Resultados
***
A continuación se adjuntan los resultados de dichos entrenamientos y sus respectivas evaluaciones.

##### 3.2.2.1. Resultados por clasificador
***
Con el objetivo de facilitar la lectura, se desarrolló un *script* que permite seleccionar cualquiera de los **30 entrenamientos** realizados y obtener todas las métricas calculadas.

**Notas:**
- Para las validaciones cruzadas no se adjunta matriz de confusión, ya que se muestran las métricas promediadas en base a la cantidad de particiones y no las métricas de cada partición.

In [1]:
import getConfusionMatrix.py



Botón,Descripción
1,"Árbol del conjunto Iris, Ganancia como medida, atributos continuos partiendo en intervalos fijos. Validación cruzada ."
2,"Árbol del conjunto Iris, GainRatio como medida, trata atributos continuos partiendo en intervalos fijos. Validación cruzada"
3,"Árbol del conjunto Iris, Impurity Reduction como medida, atributos continuos partiendo en intervalos fijos. Validación cruzada"
4,"Árbol del conjunto Iris, Ganancia como medida, atributos continuos partiendo en intervalos variables. Validación cruzada"
5,"Árbol del conjunto Iris, GainRatio como medida, atributos continuos partiendo en intervalos variables. Validación cruzada"
6,"Árbol del conjunto Iris, Impurity Reduction como medida, atributos continuos partiendo en intervalos variables. Validación cruzada"
7,"Árbol del conjunto Iris, Ganancia como medida, atributos continuos maximizando ganancia local (C4.5). Validación cruzada"
8,"Árbol del conjunto Iris, GainRatio como medida, atributos continuos maximizando ganancia local (C4.5). Validación cruzada"
9,"Árbol del conjunto Iris, Impurity Reduction como medida, atributos continuos maximizando ganancia local (C4.5). Validación cruzada"
10,"Bosque del conjunto Iris, Ganancia como medida, atributos continuos partiendo en intervalos fijos. Validación cruzada"


ModuleNotFoundError: No module named 'getConfusionMatrix.py'; 'getConfusionMatrix' is not a package

##### 3.2.2.2. Resultados generales
***

A continuación se adjunta una comparación general del total de resultados obtenidos, separando por conjunto de datos.

**Notas:**
- Se marca en **celeste** aquellos clasificadores con un mejor desempeño que la mayoría.
- Se marca en **verde** aquellos clasificadores elegidos como los mejores dentro de su grupo.

<table>
    <tr>
        <th>Modelo</th>
        <th>Continuos</th>
        <th>Medida</th>
        <th>|</th>
        <th>Accuracy</th>
        <th>Precision promediada</th>
        <th>Precision ponderada</th>
        <th>Recall promediada</th>
        <th>Recall ponderada</th>
        <th>Fall-off promediada</th>
        <th>Fall-off ponderada</th>
        <th>F-measure promediada</th>
        <th>F-measure ponderada</th>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Fijo</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.873</td>
        <td>0.884</td>
        <td>0.898</td>
        <td>0.889</td>
        <td>0.873</td>
        <td>0.059</td>
        <td>0.060</td>
        <td>0.873</td>
        <td>0.875</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Fijo</td>
        <td>Ratio de Ganancia</td>
        <td>|</td>
        <td>0.893</td>
        <td>0.897</td>
        <td>0.923</td>
        <td>0.906</td>
        <td>0.893</td>
        <td>0.051</td>
        <td>0.048</td>
        <td>0,879</td>
        <td>0,893</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Fijo</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.886</td>
        <td>0.880</td>
        <td>0.920</td>
        <td>0.905</td>
        <td>0.886</td>
        <td>0.050</td>
        <td>0.039</td>
        <td>0,872</td>
        <td>0,888</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Variable</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.906</td>
        <td>0.918</td>
        <td>0.926</td>
        <td>0.912</td>
        <td>0.906</td>
        <td>0.046</td>
        <td>0.047</td>
        <td>0,903</td>
        <td>0,906</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Variable</td>
        <td>Ratio de Ganancia</td>
        <td>|</td>
        <td>0.933</td>
        <td>0.939</td>
        <td>0.944</td>
        <td>0.938</td>
        <td>0.933</td>
        <td>0.033</td>
        <td>0.037</td>
        <td>0,932</td>
        <td>0,933</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Variable</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.920</td>
        <td>0.931</td>
        <td>0.947</td>
        <td>0.932</td>
        <td>0.920</td>
        <td>0.037</td>
        <td>0.030</td>
        <td>0,917</td>
        <td>0,919</td>
    </tr>
    <tr style="background-color: #95dcd4;">
        <td>Árbol</td>
        <td>Maximizando ganancia</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.953</td>
        <td>0.958</td>
        <td>0.964</td>
        <td>0.950</td>
        <td>0.953</td>
        <td>0.022</td>
        <td>0.019</td>
        <td>0,948</td>
        <td>0,953</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Maximizando ganancia</td>
        <td>Ratio de ganancia</td>
        <td>|</td>
        <td>0.946</td>
        <td>0.953</td>
        <td>0.955</td>
        <td>0.950</td>
        <td>0.946</td>
        <td>0.026</td>
        <td>0.025</td>
        <td>0,946</td>
        <td>0,946</td>
    </tr>
    <tr style="background-color: #95dcd4;">
        <td>Árbol</td>
        <td>Maximizando ganancia</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.953</td>
        <td>0.954</td>
        <td>0.957</td>
        <td>0.952</td>
        <td>0.953</td>
        <td>0.023</td>
        <td>0.025</td>
        <td>0,951</td>
        <td>0,953</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Fijo</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.913</td>
        <td>0.930</td>
        <td>0.932</td>
        <td>0.905</td>
        <td>0.913</td>
        <td>0.044</td>
        <td>0.046</td>
        <td>0,906</td>
        <td>0,912</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Fijo</td>
        <td>Ratio de Ganancia</td>
        <td>|</td>
        <td>0.906</td>
        <td>0.909</td>
        <td>0.925</td>
        <td>0.903</td>
        <td>0.906</td>
        <td>0.045</td>
        <td>0.044</td>
        <td>0,892</td>
        <td>0,905</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Fijo</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.906</td>
        <td>0.913</td>
        <td>0.934</td>
        <td>0.918</td>
        <td>0.906</td>
        <td>0.042</td>
        <td>0.034</td>
        <td>0,900</td>
        <td>0,908</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Variable</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.913</td>
        <td>0.904</td>
        <td>0.932</td>
        <td>0.915</td>
        <td>0.913</td>
        <td>0.040</td>
        <td>0.035</td>
        <td>0,900</td>
        <td>0,915</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Variable</td>
        <td>Ratio de Ganancia</td>
        <td>|</td>
        <td>0.900</td>
        <td>0.908</td>
        <td>0.914</td>
        <td>0.903</td>
        <td>0.900</td>
        <td>0.047</td>
        <td>0.046</td>
        <td>0,898</td>
        <td>0,899</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Variable</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.880</td>
        <td>0.869</td>
        <td>0.897</td>
        <td>0.882</td>
        <td>0.880</td>
        <td>0.056</td>
        <td>0.056</td>
        <td>0,866</td>
        <td>0,881</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Maximizando ganancia</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.946</td>
        <td>0.945</td>
        <td>0.953</td>
        <td>0.950</td>
        <td>0.946</td>
        <td>0.025</td>
        <td>0.024</td>
        <td>0,944</td>
        <td>0,946</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Maximizando ganancia</td>
        <td>Ratio de ganancia</td>
        <td>|</td>
        <td>0.927</td>
        <td>0.919</td>
        <td>0.941</td>
        <td>0.915</td>
        <td>0.926</td>
        <td>0.038</td>
        <td>0.042</td>
        <td>0,906</td>
        <td>0,926</td>
    </tr>
    <tr style="background-color: #afdb99;">
        <td>Bosque</td>
        <td>Maximizando ganancia</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.960</td>
        <td>0.965</td>
        <td>0.964</td>
        <td>0.953</td>
        <td>0.960</td>
        <td>0.021</td>
        <td>0.024</td>
        <td>0,955</td>
        <td>0,959</td>
    </tr>
    <caption>Tabla 1 - Resultados de entrenamiento de conjunto <b>Iris</b> para cada configuración paramétrica</caption>
</table>

<table>
    <tr>
        <th>Modelo</th>
        <th>Continuos</th>
        <th>Medida</th>
        <th>|</th>
        <th>Accuracy</th>
        <th>Precision promediada</th>
        <th>Precision ponderada</th>
        <th>Recall promediada</th>
        <th>Recall ponderada</th>
        <th>Fall-off promediada</th>
        <th>Fall-off ponderada</th>
        <th>F-measure promediada</th>
        <th>F-measure ponderada</th>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Fijo</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.635</td>
        <td>0.658</td>
        <td>0.638</td>
        <td>0.385</td>
        <td>0.635</td>
        <td>0.074</td>
        <td>0.222</td>
        <td>0,434</td>
        <td>0,620</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Fijo</td>
        <td>Ratio de Ganancia</td>
        <td>|</td>
        <td>0.685</td>
        <td>0.682</td>
        <td>0.684</td>
        <td>0.430</td>
        <td>0.685</td>
        <td>0.066</td>
        <td>0.195</td>
        <td>0,481</td>
        <td>0,670</td>
    </tr>
    <tr>
        <td>Árbol</td>
        <td>Fijo</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.633</td>
        <td>0.619</td>
        <td>0.633</td>
        <td>0.390</td>
        <td>0.633</td>
        <td>0.075</td>
        <td>0.225</td>
        <td>0,436</td>
        <td>0,618</td>
    </tr>
    <tr style="background-color: #95dcd4;">
        <td>Árbol</td>
        <td>Maximizando ganancia</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.654</td>
        <td>0.651</td>
        <td>0.653</td>
        <td>0.527</td>
        <td>0.654</td>
        <td>0.069</td>
        <td>0.198</td>
        <td>0,555</td>
        <td>0,648</td>
    </tr>
    <tr style="background-color: #95dcd4;">
        <td>Árbol</td>
        <td>Maximizando ganancia</td>
        <td>Ratio de ganancia</td>
        <td>|</td>
        <td>0.693</td>
        <td>0.654</td>
        <td>0.692</td>
        <td>0.491</td>
        <td>0.693</td>
        <td>0.062</td>
        <td>0.171</td>
        <td>0,518</td>
        <td>0,683</td>
    </tr>
    <tr style="background-color: #afdb99;">
        <td>Árbol</td>
        <td>Maximizando ganancia</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.655</td>
        <td>0.652</td>
        <td>0.653</td>
        <td>0.531</td>
        <td>0.655</td>
        <td>0.069</td>
        <td>0.197</td>
        <td>0,556</td>
        <td>0,648</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Fijo</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.609</td>
        <td>0.339</td>
        <td>0.651</td>
        <td>0.390</td>
        <td>0.609</td>
        <td>0.071</td>
        <td>0.154</td>
        <td>0,344</td>
        <td>0,621</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Fijo</td>
        <td>Ratio de Ganancia</td>
        <td>|</td>
        <td>0.600</td>
        <td>0.332</td>
        <td>0.640</td>
        <td>0.389</td>
        <td>0.600</td>
        <td>0.073</td>
        <td>0.162</td>
        <td>0,334</td>
        <td>0,610</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Fijo</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.607</td>
        <td>0.347</td>
        <td>0.648</td>
        <td>0.414</td>
        <td>0.607</td>
        <td>0.072</td>
        <td>0.156</td>
        <td>0,353</td>
        <td>0,618</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Maximizando ganancia</td>
        <td>Ganancia</td>
        <td>|</td>
        <td>0.681</td>
        <td>0.416</td>
        <td>0.705</td>
        <td>0.459</td>
        <td>0.681</td>
        <td>0.060</td>
        <td>0.136</td>
        <td>0,429</td>
        <td>0,689</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Maximizando ganancia</td>
        <td>Ratio de ganancia</td>
        <td>|</td>
        <td>0.680</td>
        <td>0.411</td>
        <td>0.692</td>
        <td>0.433</td>
        <td>0.680</td>
        <td>0.062</td>
        <td>0.152</td>
        <td>0,416</td>
        <td>0,681</td>
    </tr>
    <tr>
        <td>Bosque</td>
        <td>Maximizando ganancia</td>
        <td>Reducción de Impureza</td>
        <td>|</td>
        <td>0.689</td>
        <td>0.438</td>
        <td>0.711</td>
        <td>0.483</td>
        <td>0.689</td>
        <td>0.059</td>
        <td>0.137</td>
        <td>0,454</td>
        <td>0,696</td>
    </tr>
    <caption>Tabla 2 - Resultados de entrenamiento de conjunto <b>CoverType</b> para cada configuración paramétrica</caption>
</table>


### 3.3. Elección y comparación de representantes
***
A continuación se presenta un análisis de los resultados obtenidos, separandose en dos procesos: elección y comparación.

#### 3.3.1. Elección
***
Para determinar cuales fuern los clasificadores con mejor desempeño (denominados "representantes") frente a los posibles candidatos se siguió el siguiente proceso:
1. Se agruparon elementos dada su similitud en base a **accuracy** y *promedios generales* de **precision**, **recall**, **fall-off** y **F-measure**.
2. Una vez obtenidos dichos grupos, se generaron subgrupos acorde a comparaciones entre otros subgrupos y los *promedios ponderados*.
3. Por último, se buscaron desviaciones en los mismos (como malos promedios generales y buenos promedios ponderados, precision y recall bajos para alguna clase, fall-off alto para alguna otra clase, etc.) determinando que *aquellos clasificadores con menos desviaciones serían elegidos como representantes.*

A continuación se adjuntan gráficas que muestran las métricas para cada generadas con el fin de facilitar la lectura, en las mismas se puede apreciar más visualmente una comparación de las métricas obtenidas en cada representante. Se decidió mostrar para cada conjunto al representante elegido y compararlo con los mejores resultados obtenidos para cada modelo (Árbol, Bosque) y para cada estrategia al tratar con atributos continuos (Fijo, Maximizando ganancia).

<div style="margin-top: 16px; margin-bottom: 16px;">
    <div style="display: inline-block; width: 99%; text-align: center;">
        <img src="img/iris.png" />
        <label style="margin-top: 16px; font-size: 16px; font-family: monospace;"> Figura 3.3.1.1. - Comparaciones con el dataset Iris</label>
    </div>
    <div style="display: inline-block; width: 99%; text-align: center;">
        <img src="img/covertype.png" />
        <label style="margin-top: 16px; font-size: 16px; font-family: monospace;"> Figura 3.3.1.2. - Comparaciones con el dataset Covertype</label>
    </div>
</div>


#### 3.3.2. Comparación
***

**Observaciones generales:**

- Sobre los parámetros:
> 1. La *estrategia para interpretar valores continuos* con mejores resultados fue **maximizar la ganancia**, independiente al resto de configuraciones paramétricas.
> 2. Las distintas *medidas de ganancia* no parecen haber incidido de forma notable en los resultados.

- Sobre los resultados:
> 1. Los resultados en *Iris* fueron similares en general.
> 2. Los resultados en *Covertype* también fueron similares, no obstante los árboles ofrecieron un mejor rendimiento de forma consistente.
> 3. Algunos resultados tuvieron una gran diferencia entre sus promedios generales y promedios ponderados (siendo los últimos bastante más altos).
> 4. En *CoverType* los bosques clasifican los elementos de clase 1, 2 y 3 mejor que los árboles. Sin embargo, tienen una muy baja **precision** y muy alto **fall-off** para los elementos de clase 4, 5, 6 y 7. 

Tomando en cuenta la información anterior, se determinó que los mejores clasificadores, a nivel general, fueron **árboles** que partieron atributos continuos en **2 intervalos maximizando la ganancia** y utilizaron **ganancia** o **reducción de impureza** como medida.

Es importante aclarar que dichas elecciones son arbitrarias, aunque se intentó minimizar esta posibilidad. Dadas las características de los conjuntos de entrenamiento y los clasificadores, parece ser coherente que muchos hayan tenido resultados similares aunque trabajaran de forma distinta.

También es importante observar que las evaluaciones utilizadas, especialmente en *CoverType*, pueden estar sujetas a ruido y por tanto ofrecer información "tramposa". El implementar técnicas de análisis estadístico como **Tests de Friedman** entre múltiples evaluaciones para una misma configuración, podría ayudar a reducir esto. También el correr **validaciones cruzadas** en *CoverType* podría dar mejores nociones sobre cada clasificador.

En cualquier caso, a continuación se adjunta una serie de interpretaciones, producto de las observaciones hechas a los resultados. Dichas interpretaciones se basan en fundamentos teóricos y sensaciones empíricas, por lo que no escalan a algo más que eso, interpretaciones.

**Interpretaciones:**

- Sobre los parámetros:
> 1. No se puede decir mucho respecto a la estrategia de **intervalos variables**, ya que sólo fue implementada en *Iris*, el cual cuenta con pocos ejemplos. No obstante, es lógico que la **maximización de ganancia** sea mejor que **intervalos fijos**, ya que ambas estrategias generan solamente 2 intervalos pero la primera siempre genera intervalos con mayor ganancia que la segunda, por lo que el clasificador resultante es mejor.

- Sobre los resultados:
> 1. Muchos de los resultados en *CoverType* no necesariamente reflejan la realidad, esto es debido a la aleatoriedad de la validación (80/20). Una validación cruzada en 10 intervalos (Como la realizada en *Iris*) podría dar un intervalo de certeza  mayor sobre las conjeturas basadas en las interpretaciones de los candidatos.
> 2. La diferencia entre promedios generales y ponderados se da debido a que las clases 4, 5, 6 y 7 cuentan con una mucho menor cantidad de elementos en comparación a las clases 1, 2 y 3. Al tener peor desempeño en las clases de menor proporción, los promedios ponderados dan mejor resultado por darle menos importancia a dichas clases.
> 3. En general las métricas descienden para las clases 4, 5, 6 y 7. Esto podría interpretarse como una dificultad para clasificadores basados en árboles de decisión, ya que parecen tener tendencia por clasificar en clases 1, 2 y 3, las cuales presentan una proporción mucho mayor a las otras clases anteriormente mencionadas.
> 4. Existen otras interpretaciones para justificar las fallas en las clasificaciones de *CoverType*. Por ejemplo, el haber revertido el one-hot encoding, especialmente en el atributo *soil_type*, y haber interpretado dichos atributos como continuos, puede haber impactado notablemente en los resultados, especificamente sobre los de clasificaciones en clases 4, 5, 6 y 7. La cantidad de elementos pertenecientes a las mismas es muy baja y la capacidad de diferenciar con mejor granularidad y menor sesgo inducido sobre el atributo *soil_type* podría haber ayudado a encontrar relaciones entre el mismo y la clasificación del terreno.
> 5. Tomando en cuenta el hecho de que los bosques clasificaron peor los elementos de clase 4, 5, 6 y 7 pero mejor los de clase 1, 2 y 3, puede interpretarse que el clasificar elementos binariamente para cada clase en este tipo de escenarios, es algo contraproducente. Podría ser que la mayoría de clasificaciones acaben en votaciones (a causa de que no ocurre la situación ideal en la cual un árbol clasifique con *True* y los demás con *False*) y en cualquier árbol un resultado *False* da muy poca información (básicamente "no tiene características de elementos de esta clase, pero puede tener características de cualquier otro"). Esto para un conjunto de atributos y clasificaciones con alta complejidad podría acabar disminuyendo enormemente la calidad del clasificador cuando no es fácil detectar atributos con muy baja impureza que determinen fuertemente la pertenencia a una clase.

## 4. Conclusiones
***

#### 4.1. Respecto a los Modelos
***
A priori los **bosques de decisión** no parecen haber representado algún tipo de mejora frente a los **árboles de decisión** (en todo caso, cuando no ofrecieron un resultado similar, fue uno peor). Esto se fundamenta en la dificultad de elegir un buen algoritmo de votación, sumado a la necesidad de haber implementado una elección aleatoria entre clasificaciones de igual probabilidad.

Se concluye que los **bosques de decisión** que utilizan árboles binarios para una clasificación multiclase no representan una buen modelo si no se cuenta con un algoritmo de votación robusto.

#### 4.2. Respecto a los Atributos
***
Se pudo comprobar empíricamente que los **árboles de decisión** no trabajan bien con una gran cantidad de atributos. De hecho, en coherencia con el sesgo de las hipótesis elegidas, los árboles simples suelen preferirse.

Teniendo esto en cuenta, se deshizo el **one hot encoding** de dos atributos, reduciendo la cantidad total de atributos y mejorando exponencialmente el tiempo de entrenamiento. No obstante, el hacer esto puede haber impactado en el desempeño de los clasificadores, ya que un atributo con 40 posibles valores pasó a tener 2.

Se concluye que en escenarios donde el **one hot encoding** sea viable o necesario para algunos atributos, la utilización de **árboles de decisión** no tendrá el mejor rendimiento posible, ya que es de alguna forma "incompatible" con esta noción.

#### 4.3. Respecto a los Parámetros
***
El tratamiento de atributos continuos representó un reto, especialmente al tener un conjunto de entrenamiento tan voluminoso como **CoverType**. Para atributos con gran densidad de valores, el partir en 2 intervalos implicó una gran pérdida de información. Por otra parte, la estrategia de partir en intervalos variables podría haber hecho frente a esta pérdida, pero al tener tantos posibles valores el tamaño del árbol escaló exponencialmente, descartándose la posibilidad de implementarlo.

Se concluye que en escenarios donde se tenga gran cantidad de ejemplos y muchos cantidad de atributos continuos con gran densidad, la utilización de **árboles de decisión** puede no tener el mejor desempeño.

#### 4.4. Respecto a los Resultados
***
Como observación primordial, se notó que los resultados en *CoverType* fueron peores con respecto a *Iris*. A priori es un hecho razonable, ya que los árboles de decisión intuitivamente se ajustan mejor a pocos atributos y pocos ejemplos. No obstante, esto es solo una posible interpretación. En la sección anterior se generaron otras interpretaciones y, con la información actual, no es posible determinar si alguna es correcta.

Se concluye que para poder establecer más información, es necesario comparar el desempeño de otros modelos de aprendizaje sobre un conjunto de datos similar, con el fin de entender si la baja eficiencia de los árboles fue producto de la mala compatibilidad del conjunto de datos con clasificadores de árbol o si tuvo que ver con decisiones de diseño, entre otras posibilidades. 

#### 4.5. Posibles mejoras
***
Para cerrar, se adjunta una lista de mejoras consideradas a la implementación actual:
- No restringir el uso a 10 valores para *intervalos variables* y *c4.5*. Contemplar todo el conjunto de valores conlleva un mayor orden computacional pero garantiza resultados de igual o mayor calidad.
- Agregar otro parámetro que altere la estrategia "Maximizando ganancia* (C4.5), a maximizar por las otras medidas (*Ratio de Ganancia* y *Reducción de Impureza*)
- No deshacer el one-hot encoding para los datos en *Covertype*. Esto incrementaría enormemente el orden computacional y la complejidad de los árboles generados pero daría resultados de mayor calidad. Como mínimo sería deseable modificar el algoritmo para que trate esos atributos como discretos (y no continuos).
