# Entrega 2 - Árboles de Decisión

### Grupo 7:
     - S. Volti  C.I. 5.175.914-7
     - A. Sierra C.I. 4.647.235-6
     - A. Clara C.I. 4.772.294-4

# 1. Objetivo

Los objetivos de esta tarea son:
- Construir clasificadores desde cero utilizando como algoritmos a ID3 y Random Forest.
- Construir dichos clasificadores utilizando los mismos algoritmos, pero ahora haciendo uso de las implementaciones de Scikit-Learn.
- Evaluar y realizar una comparación entre lo implementando desde cero y lo obtenido con Scikit-Learn.

El éxito del aprendizaje se mide a través de la evaluación de los clasificadores sobre un conjunto de evaluación, el cual se obtiene a partir de la partición previa del dataset.


# 2. Diseño

## 2.1. Preprocesamiento de datos

Al observar el dataset, se puede ver que hay una distribución desbalanceada en los ejemplos. Hay muchos más ejemplos con clasificación negativa que positiva (más precisamente, el conjunto de datos QSAR posee 8992 ejemplos, de los cuales 8251 clasifican de forma negativa, y sólo 741 de manera positiva).

Una forma de contrarrestar esto es realizando una partición equitativa en cuanto a la proporción negativos/positivos en los conjuntos de entrenamiento y evaluación.

Sin embargo, luego de realizar un análisis de las proporciones utilizando simplemente un random.shuffle sobre los datos (y realizando varias ejecuciones con varias semillas), se ve que la proporción se mantiene en términos generales. Por lo que no resulta necesario hacer explícita la estratificación.

De cualquier manera cabe destacar que se tuvo el cuidado de que las proporciones fueran adecuadas en todas las evaluaciones presentadas en este informe (todos las particiones realizadas, tanto de entrenamiento como de evaluación, contienen un poco más de 90% de ejemplos que clasifican negativo, y un poco menos de 10% que clasifican positivo).


## 2.2. Algoritmo

### 2.2.1. Implementación desde cero

Para la construcción del **árbol de decisión** con ID3 se hace uso de su versión más básica. Para la elección del siguiente atributo, se utiliza la métrica InformationGain, vista en el teórico.

A grandes rasgos, a nivel de implementación y para representar a los árboles generados se usan las estructuras dict, de Python, donde cada atributo (valores de ‘0’ a ‘1023’) es representado con una clave, los valores (las ramas) también son claves (“hijas” de cada clave-atributo), y las hojas son representadas mediante valores ‘negative’ y ‘positive’.

<img src="imagenes/arbol.png" style="width: 320px; display: inline-block;">

Revisando las ganancias calculadas en cada iteración por el algoritmo ID3, se puede notar que a medida que se va bajando hacia las hojas en la construcción de una rama, en determinado momento el cálculo de la ganancia de todos los atributos comienza a tomar el valor 0; hasta que el algoritmo comienza a construir una nueva rama y vuelve a dar valores positivos.
Esto sucede en reiteradas ocasiones, y algunas veces con ramas no tan profundas.

Cuando la ganancia calculada de todos los atributos vale 0, es indistinto cuál atributo elegir, no hay mejor elección, por lo que el conjunto de atributos deja de tener relevancia para esa iteración en particular.

Se realizan algunas pruebas, como detener la construcción de una rama cuando nos el algoritmo está en esta situación, y asignar una hoja con el valor más común del dataset en ese momento. Para probar esto se tiene el parámetro _g_ en la ejecución del programa.

Para la construcción del **Random Forest** se usa la idea de implementación vista en el teórico, donde se hace uso de dos hiper-parámetros:

- La cantidad de árboles $m$: Dado que la librería skit utiliza por defecto un valor de 100, decidimos generar 100 árboles para iniciar con la experimentación.
- La cantidad de atributos $k$: Los valores habituales para k son $\sqrt{ k }$ y $k/3$ .
Para generar cada árbol del Random Forest, se utiliza la implementación ID3 vista más arriba.


### 2.2.2. Implementación de Scikit-Learn

Para la construcción del **árbol de decisión** con Scikit también se utiliza como métrica para seleccionar al siguiente atributo a entropy (la otra opción que ofrece la librería es gini). Los otros parámetros son los determinados por defecto.

Para la construcción del **Random Forest** se toman como valores para iniciar las pruebas los mismos que en la parte del ID3 nuestro. Los otros parámetros modificados son los que corresponden a los hiper-parámetros propios de Random Forest ($k$, $m$, $p$).

## 2.3. Evaluación

### 2.3.1. Conjunto de evaluación

Para medir la performance los clasificadores se particiona el conjunto original de datos en dos subconjuntos: de entrenamiento y evaluación. 

Antes de construir los subconjuntos se realiza un shuffle sobre el conjunto de datos, y luego sí se particiona dicho conjunto en dos.


### 2.3.2. Métricas utilizadas

Originalmente se toma solamente la accuracy como métrica. Sin embargo, como se menciona en la sección de experimentación luego se comienzan a tomar también otras métricas más representativas: precisión, recall, F1 (todas definidas sobre la clase de los positivos). Esto se explica mejor en dicha sección, pero se debe al desbalance del conjunto de datos con respecto a la proporción de positivos/negativos.

## 2.4. Ejecución del programa

La ejecución mínima del programa se debe hacer de la siguiente forma:

_python3 main.py -s 7 -t 0.8 -p c_

donde:

<table>
  <tr>
    <th style="text-align: left"><b>Parámetro</b></th>
    <th style="text-align: left"><b>Descripción</b></th>
    <th style="text-align: left; width: 80px"><b>Por defecto</b></th>
  </tr>
  <tr>
    <td><b>s</b></td>
    <td style="text-align: left">Semilla utilizada por los paquetes random y numpy (para Scikit).</td>
    <td>-</td>
  </tr>
  <tr>
    <td><b>t</b></td>
    <td style="text-align: left">Fracción de los ejemplos usados para el entrenamiento (0.8 = 80% de entrenamiento, 20% de evaluacion).</td>
    <td>-</td>
  </tr>
  <tr>
    <td><b>p</b></td>
    <td style="text-align: left">Parte de la letra a ejecutar (a ejecuta la parte a, etc).</td>
    <td>-</td>
  </tr>
  <tr>
    <td>d</td>
    <td style="text-align: left">Nivel de debug para los prints (0 no imprime nada, 1 solo información, 2 datos para debugging).</td>
    <td>2</td>
  </tr>
  <tr>
    <td>m</td>
    <td style="text-align: left">Valor de m (cantidad de árboles) para construir el random forest.</td>
    <td>100</td>
  </tr>
  <tr>
    <td>q</td>
    <td style="text-align: left">En el contexto de random forest, indica con un 1 si se usa la raíz cuadrada de k para la cantidad de atributos, o si se usa k/3 (con un 0).</td>
    <td>0</td>
  </tr>
  <tr>
    <td>k</td>
    <td style="text-align: left">Parámetro k utilizado para cross validation.</td>
    <td>5</td>
  </tr>
  <tr>
    <td>r</td>
    <td style="text-align: left">Indica si se deben imprimir los análisis intermedios sobre las estructuras generadas por las implementaciones.</td>
    <td>0</td>
  </tr>
  <tr>
    <td>b</td>
    <td style="text-align: left">Indica si se trabajará con el dataset original (8992 ejemplos) o se utilizará un dataset de prueba balanceado (compuesto de los 741 ejemplos que califican positivo, y 741 ejemplos que clasifican negativo tomados al azar).</td>
    <td>0</td>
  </tr>
  <tr>
    <td>g</td>
    <td style="text-align: left">Indica si se detendrá la recursión de ID3 cuando la ganancia máxima de los atributos es cero.</td>
    <td>0</td>
  </tr>
  <tr>
    <td>c</td>
    <td style="text-align: left">Indica con c > 0 la cantidad de iteraciones con la que se realizará validación cruzada.</td>
    <td>0</td>
  </tr>
</table>

**Observación:** Los parámetros _s_, _t_ y _p_ son obligatorios.

# 3. Experimentación

## 3.1 Implementaciones de ID3

### 3.1.1. Primera implementación

En primera instancia, resulta interesante destacar que al terminar la “primera iteración” de implementación de ID3 y con una evaluación superficial de los resultados (donde simplemente se evalúan clasificaciones correctas vs incorrectas) se obtiene un porcentaje de aciertos del 92%, muy cercano al de Scikit.

Esto claramente genera dudas, por lo que se comienza a realizar un análisis con mayor profundidad. Se empiezan a evaluar los porcentajes de acierto por clase, y se puede ver que la mayoría de las clasificaciones erróneas (sino todas) se dan en el caso de los positivos (por ejemplo, 2 clasificaciones correctas en 172). Es decir, el árbol generado con la primera implementación de ID3, clasifica como negativo a la mayoría de los que son positivos. El resto de las clasificaciones es correcta porque los ejemplos de evaluación tienen clasificación negativa.

Para confirmar lo dicho anteriormente se realiza una ejecución, y se realiza una comparación de las clasificaciones obtenidas por Scikit contra esta primera implementación, con una distribución 80/20 en los conjuntos de entrenamiento/evaluación.
Dentro de dicho conjunto, hay 1654 ejemplos negativos, y 145 positivos.


<table>
  <tr>
    <th></th>
    <th><b>Clasif. +</b></th>
    <th><b>Clasif. -</b></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>13</td>
    <td>1786</td>
    <td><b>91.43%</b></td>
    <td style="color: red;">15.38%</td>
    <td style="color: red;">1.37%</td>
    <td style="color: red;">2.53%</td>
  </tr>
  <tr>
    <td><b>Scikit</b></td>
    <td>159</td>
    <td>1640</td>
    <td>90.99%</td>
    <td><b>44.65%</b></td>
    <td><b>48.96%</b></td>
    <td><b>46.71%</b></td>
  </tr>
    <caption>Tabla 1 - Comparación entre los resultados de la implementación de Scikit y nuestra <b>primera</b> implementación de ID3</caption>
</table>

Lo interesante a destacar es cómo a pesar de tener errores de implementación, la precisión vista de forma cruda puede seguir siendo alta. Al incluir la precisión y el recall, se puede observar la baja performance que tiene esta primera implementación.

Lo analizado anteriormente claramente induce a pensar que hay un error de implementación.


### 3.1.2. Implementación final

Luego de realizar algunos ajustes en el algoritmo ID3, se comienzan a lograr mejores resultados en términos generales de las métricas.

A continuación se presenta una pieza del código que permite realizar la ejecución de la implementación final de nuestro ID3 y la de Scikit. Los parámetros a asignar se encuentran al comienzo del código, luego de los imports. Si se quieren probar los otros parámetros, se debe hacer una ejecución desde el main del proyecto como se indica en la sección de ejecución del programa.

Se imprimen los resultados de ambas implementaciones.


In [13]:
import id3
import logging
import numpy as np
import random
import scikit
import sys
import utils

########## Parámetros ##########

PROPORTION = 0.8 # Indica la proporción a usar en la partición del dataset para entrenamiento/evaluación
SEED = 3 # Indica la semilla a utilizar para los paquetes random

################################

logging.basicConfig(level=logging.DEBUG, format='%(message)s')
sys.setrecursionlimit(3000)

# Definir las semillas a utilizar por los paquetes con operaciones aleatorias
random.seed(SEED)
np.random.seed(SEED)

print("Leyendo el csv...")
data = utils.load_data('qsar_oral_toxicity.csv')

# Definir los atributos iniciales para el algoritmo ID3
initial_attributes = [str(i) for i in range(1024)]

# Separar los conjuntos en entrenamiento | validación
training_set, test_set = utils.partition_sets(data, PROPORTION)

# Separar los conjuntos en atributos | clase
training_examples, training_classes = utils.get_classes(training_set)
test_examples, test_classes = utils.get_classes(test_set)

# Construir los árboles con ID3
print("Construyendo el árbol con nuestro ID3...")
classifier_id3 = id3.id3(training_set, initial_attributes, 0)
print("Construyendo el árbol con Scikit...")
classifier_id3_sk = scikit.scikit_id3(training_examples, training_classes)

# Evaluar el clasificador con el conjunto de evaluación
print("Clasificando ejemplos de evaluación con nuestro ID3...")
classification_id3 = id3.classify_examples(classifier_id3, test_examples, test_classes)
print("Clasificando ejemplos de evaluación con Scikit...")
classification_id3_sk = scikit.classify_examples(classifier_id3_sk, test_examples, test_classes)

print("")
print("Resultados con nuestro ID3:")
print("Accuracy: {:.2f}%".format(classification_id3['accuracy'] * 100))
print("Precisión: {:.2f}%".format(classification_id3['precision'] * 100))
print("Recall: {:.2f}%".format(classification_id3['recall'] * 100))
print("")
print("Resultados con Scikit:")
print("Accuracy: {:.2f}%".format(classification_id3_sk['accuracy'] * 100))
print("Precisión: {:.2f}%".format(classification_id3_sk['precision'] * 100))
print("Recall: {:.2f}%".format(classification_id3_sk['recall'] * 100))

Leyendo el csv...
Construyendo el árbol con nuestro ID3...
Construyendo el árbol con Scikit...
Clasificando ejemplos de evaluación con nuestro ID3...
Clasificando ejemplos de evaluación con Scikit...

Resultados con nuestro ID3:
Accuracy: 91.50%
Precisión: 47.50%
Recall: 52.41%

Resultados con Scikit:
Accuracy: 90.99%
Precisión: 44.65%
Recall: 48.97%


Resulta interesante destacar que detener la construcción de una rama cuando la ganancia máxima de los atributos toma valor cero (parámetro _g_), no alteró los resultados finales obtenidos (accuracy, precisión, recall, F1); pero sí disminuyó notoriamente la cantidad de ramificaciones y hojas del árbol clasificador resultante, lo que brinda una mejor performance para la construcción del mismo.

#### 3.1.2.1. Evaluación simple

En primera instancia se realiza una evaluación simple con las siguientes métricas: accuracy, precision, recall, y F1. Luego se realiza una evaluación con validación cruzada.

**Distribución 80/20**

Ejecución 1:
- semilla = 5
- 137 ejemplos positivos
- 1662 ejemplos negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>91.33%</td>
    <td>43.45%</td>
    <td><b>45.99%</b></td>
    <td>44.68%</td>
  </tr>
  <tr>
    <td><b>Scikit</b></td>
    <td><b>91.61%</b></td>
    <td><b>44.93%</b></td>
    <td>45.26%</td>
    <td><b>45.09%</b></td>
  </tr>
    <caption>Tabla 2 - ID3 - Nuestra vs Scikit. s = 5, d = 80/20</caption>
</table>


Ejecución 2:
- semilla = 10
- 147 ejemplos positivos
- 1652 ejemplos negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td><b>92.05%</b></td>
    <td><b>51.37%</b></td>
    <td><b>51.02%</b></td>
    <td><b>51.19%</b></td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td>91.11%</td>
    <td>45.64%</td>
    <td>46.26%</td>
    <td>45.95%</td>
  </tr>
    <caption>Tabla 3 - ID3 - Nuestra vs Scikit. s = 10, d = 80/20</caption>
</table>


Ejecución 3:
- semilla = 324
- 145 ejemplos positivos
- 1654 ejemplos negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>91.27%</td>
    <td>45.52%</td>
    <td>42.07%</td>
    <td>43.73%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>91.88%</b></td>
    <td><b>49.64%</b></td>
    <td><b>46.90%</b></td>
    <td><b>48.23%</b></td>
  </tr>
    <caption>Tabla 4 - ID3 - Nuestra vs Scikit. s = 324, d = 80/20</caption>
</table>

**Distribución 90/10**

Ejecución 1:
- semilla = 5
- 74 ejemplos de validación positivos
- 826 ejemplos de validación negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td><b>91.22%</b></td>
    <td><b>46.15%</b></td>
    <td><b>40.54%</b></td>
    <td><b>43.17%</b></td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td>91.00%</td>
    <td>44.78%</td>
    <td><b>40.54%</b></td>
    <td>42.55%</td>
  </tr>
    <caption>Tabla 5 - ID3 - Nuestra vs Scikit. s = 5, d = 90/10</caption>
</table>

Ejecución 2:
- semilla = 10
- 78 ejemplos de validación positivos
- 822 ejemplos de validación negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td><b>91.33%</b></td>
    <td><b>50.00%</b></td>
    <td><b>56.41%</b></td>
    <td><b>53.01%</b></td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td>91.00%</td>
    <td>48.28%</td>
    <td>53.85%</td>
    <td>50.91%</td>
  </tr>
    <caption>Tabla 6 - ID3 - Nuestra vs Scikit. s = 10, d = 90/10</caption>
</table>

Ejecución 3:
- semilla = 324
- 69 ejemplos de validación positivos
- 831 ejemplos de validación negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>91.33%</td>
    <td>43.48%</td>
    <td>43.48%</td>
    <td>43.48%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>92.22%</b></td>
    <td><b>49.28%</b></td>
    <td><b>49.28%</b></td>
    <td><b>49.28%</b></td>
  </tr>
    <caption>Tabla 7 - ID3 - Nuestra vs Scikit. s = 324, d = 90/10</caption>
</table>

Como conclusiones de los resultados obtenidos en esta sección:
- En comparación con la primera implementación, se logra un acercamiento importante a lo obtenido por Scikit, y con algunas semillas incluso se logra superarlo en todas las métricas.
- En ambas distribuciones (80/20, 90/10), se logran resultados similares en ambos algoritmos para todas las semillas.


#### 3.1.2.2. Evaluación con conjunto de datos equilibrado


Una de las pruebas que realizamos para analizar cómo funcionaba nuestro algoritmo, fue la de trabajar sobre un conjunto de datos balanceado.
Como mencionamos anteriormente, el conjunto de datos original consta de solamente 741 ejemplos que califican de manera positiva, habiendo un total de 8992 ejemplos).

Para trabajar con un conjunto de datos equilibrado (parámetro -b) depuramos el mismo, trabajando solamente con los 741 ejemplos que califican de forma positiva, y con 741 ejemplos que califican de manera negativa, estos últimos escogidos al azar del conjunto de datos).
Por lo tanto nuestro Conjunto de Datos Equilibrado consta de 1482 ejemplos, 50% negativos y 50% positivos.
Utilizando las mismas métricas que en la sección anterior, y estudiando por ejemplo la distribución 80/20, se obtienen los siguientes resultados:

**Distribución 80/20**

Ejecución 1:
- semilla = 5
- 134 ejemplos positivos
- 163 ejemplos negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>74.41%</td>
    <td>69.59%</td>
    <td>76.87%</td>
    <td>73.05%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>75.42%</b></td>
    <td><b>70.75%</b></td>
    <td><b>77.61%</b></td>
    <td><b>74.02%</b></td>
  </tr>
    <caption>Tabla 8 - ID3 - Nuestra vs Scikit. s = 5, d = 80/20</caption>
</table>

Ejecución 2:
- semilla = 10
- 159 ejemplos positivos
- 138 ejemplos negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>77.44%</td>
    <td><b>81.51%</b></td>
    <td>74.84%</td>
    <td>78.03%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>78.54%</b></td>
    <td>79.50%</td>
    <td><b>80.50%</b></td>
    <td><b>80.00%</b></td>
  </tr>
    <caption>Tabla 9 - ID3 - Nuestra vs Scikit. s = 10, d = 80/20</caption>
</table>

Ejecución 3
- semilla = 324
- 147 ejemplos positivos
- 150 ejemplos negativos

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td><b>78.11%</b></td>
    <td>76.62%</td>
    <td><b>80.27%</b></td>
    <td><b>78.41%</b></td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>78.11%</b></td>
    <td><b>77.33%</b></td>
    <td>78.91%</td>
    <td>78.11%</td>
  </tr>
    <caption>Tabla 10 - ID3 - Nuestra vs Scikit. s = 324, d = 80/20</caption>
</table>

Como conclusiones de los resultados obtenidos en esta sección:
- En estas ejecuciones sobre un conjunto de datos equilibrado, se puede notar que se pierde más de un 10% de accuracy, pero se gana bastante en el resto de las métricas.
- De cualquier manera, comparando nuestro algoritmo contra el de Scikit, se siguen obteniendo evaluaciones similares.


#### 3.1.2.3. Evaluación utilizando “k” Folds Cross Validation 


Otras de las pruebas que realizamos para analizar cómo funcionaba nuestro algoritmo, fue la de realizar validación cruzada de “k” iteraciones sobre nuestro conjunto de datos.

La validación cruzada supone una mejora del método de evaluación simple detallado en las secciones anteriores.
La misma consiste en dividir los datos en “k” subconjuntos. Uno de los subconjuntos se utiliza como datos de prueba y el resto (k-1) se utilizan como datos de entrenamiento.

El proceso de validación cruzada es repetido durante “k” iteraciones, con cada uno de los posibles subconjuntos de datos de prueba.
Entonces, para cada iteración, obtenemos un conjunto de entrenamiento compuesto de (k-1) subconjuntos, y un conjunto de prueba compuesto solamente de un subconjunto de datos.
Por último, se calcula el promedio de los resultados de cada iteración para obtener un único resultado, lo que supone un resultado más representativo y preciso.

En particular optamos por realizar estas pruebas siempre con una distribución de datos (entrenamiento/prueba) de 90/10 %, por lo tanto implementamos validación cruzada con 10 iteraciones. (Igualmente la cantidad de iteraciones depende del parámetro “c” que recibe nuestro algoritmo).
Por tanto, en cada iteración, tendremos un conjunto de entrenamiento compuesto de 9 subconjuntos de datos, y un conjunto de prueba compuesto del subconjunto restante.

A continuación, detallamos los resultados y comparaciones obtenidas. Para realizar las comparaciones detalladas, se utilizó validación cruzada de 10 iteraciones tanto para nuestra implementación de ID3 como para la implementación de scikit-learn:

**Distribución 90/10, promedios de resultados obtenidos:**

Ejecución 1:
- semilla = 5

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>91.30%</td>
    <td>46.93%</td>
    <td>48.00%</td>
    <td>47.22%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>91.59%</b></td>
    <td><b>48.83%</b></td>
    <td><b>49.62%</b></td>
    <td><b>49.01%</b></td>
  </tr>
    <caption>Tabla 11 - ID3 - Nuestra vs Scikit. s = 5, d = 90/10</caption>
</table>

Ejecución 2:
- semilla = 10

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td><b>91.29%</b></td>
    <td>47.09%</td>
    <td>50.24%</td>
    <td>48.32%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td>91.13%</td>
    <td><b>47.65%</b></td>
    <td><b>50.67%</b></td>
    <td><b>49.00%</b></td>
  </tr>
    <caption>Tabla 12 - ID3 - Nuestra vs Scikit. s = 10, d = 90/10</caption>
</table>

Ejecución 3
- semilla = 324

<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td><b>91.23%</b></td>
    <td><b>47.36%</b></td>
    <td><b>49.97%</b></td>
    <td><b>48.41%</b></td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td>90.79%</td>
    <td>44.76%</td>
    <td>48.70%</td>
    <td>46.46%</td>
  </tr>
    <caption>Tabla 13 - ID3 - Nuestra vs Scikit. s = 324, d = 90/10</caption>
</table>

Como conclusiones de estas pruebas podemos aportar que si bien se mantuvieron los resultados obtenidos para Accuracy y Precisión, logramos obtener resultados más representativos para Recall y F1 (en comparación con las previas implementaciones sin utilizar validación cruzada); y equilibramos todos los porcentajes, sin importar la semilla con la que trabajamos.

## 3.2 Implementaciones de Random Forest

Para la construcción de los Random Forests nuestros, se hace uso de la implementación previa con ID3.

A continuación se presenta una pieza del código que permite realizar la ejecución de la implementación final de nuestro Random Forest y la de Scikit. Se imprimen los resultados de ambas implementaciones.

Los parámetros de Random Forest tienen la siguiente notación:
- cant_atributos: Cantidad de atributos del dataset original.
- m: Cantidad de árboles que componen al Random Forest.
- k: Cantidad de elementos del dataset para entrenar cada árbol.
- p: Cantidad de atributos tomados en cuenta para cada árbol.

**Observación:** Se puede utilizar un valor pequeño para m para realizar las pruebas de forma rápida.

In [2]:
import logging
import numpy as np
import random
import random_forest
import scikit
import sys
import utils

########## Parámetros ##########

PROPORTION = 0.8 # Indica la proporción a usar en la partición del dataset para entrenamiento/evaluación
SEED = 3 # Indica la semilla a utilizar para los paquetes random
m = 2 # Valor de m (cantidad de árboles) para realizar el random forest. Por defecto es 100
use_sqrt = 0 # Indica con un 1 si se usa la raíz cuadrada de k para la cantidad de atributos, o si se usa k/3 (con un 0)

################################

logging.basicConfig(level=logging.WARNING, format='%(message)s')
sys.setrecursionlimit(3000)

# Definir las semillas a utilizar por los paquetes con operaciones aleatorias
random.seed(SEED)
np.random.seed(SEED)

print("Leyendo el csv...")
data = utils.load_data('qsar_oral_toxicity.csv')

# Separar los conjuntos en entrenamiento | validación
training_set, test_set = utils.partition_sets(data, PROPORTION)

# Separar los conjuntos en atributos | clase
training_examples, training_classes = utils.get_classes(training_set)
test_examples, test_classes = utils.get_classes(test_set)

# Construir los árboles con ID3
k_rf = len(training_set) # k = |D|

print("Construyendo Random Forest nuestro...")
classifier_rf = random_forest.RandomForest(k_rf, m, 1024, training_set, 0, use_sqrt)
print("Construyendo Random Forest con Scikit...")
classifier_rf_sk = scikit.scikit_rf(training_examples, training_classes, m, use_sqrt)

# Evaluar el clasificador con el conjunto de evaluación
print("Clasificando ejemplos de evaluación con Random Forest Nuestro...")
classification_rf = classifier_rf.Evaluation_testset(test_examples,test_classes)
print("Clasificando ejemplos de evaluación con Random Forest de Scikit...")
classification_rf_sk = scikit.classify_examples(classifier_rf_sk, test_examples, test_classes)

print("")
print("Resultados Random Forest nuestro:")
print("Accuracy: {:.2f}%".format(classification_rf['accuracy'] * 100))
print("Precisión: {:.2f}%".format(classification_rf['precision'] * 100))
print("Recall: {:.2f}%".format(classification_rf['recall'] * 100))
print("")
print("Resultados Random Forest de Scikit:")
print("Accuracy: {:.2f}%".format(classification_rf_sk['accuracy'] * 100))
print("Precisión: {:.2f}%".format(classification_rf_sk['precision'] * 100))
print("Recall: {:.2f}%".format(classification_rf_sk['recall'] * 100))

Leyendo el csv...
Construyendo Random Forest nuestro...
Construyendo Random Forest con Scikit...
Clasificando ejemplos de evaluación con Random Forest Nuestro...
Clasificando ejemplos de evaluación con Random Forest de Scikit...

Resultados Random Forest nuestro:
Accuracy: 92.66%
Precisión: 60.32%
Recall: 26.21%

Resultados Random Forest de Scikit:
Accuracy: 93.39%
Precisión: 69.12%
Recall: 32.41%


### 3.2.1. Implementación final

#### 3.2.1.1. Evaluación simple

En primera instancia se realiza una evaluación simple con las siguientes métricas: accuracy, precision, recall, y F1.

En todas las pruebas presentadas a continuación se toma un $k = |Dataset| = 1024$.

Para comenzar las pruebas se toma un p = sqrt(cant_atributos). En nuestro caso particular, $cant\_atributos = 1024$, por lo que $p = 32$.

**Distribución 80/20**

Ejecución 1:
- semilla = 5
- m = 100
- p = 32
- 137 ejemplos de validación positivos
- 1662 ejemplos de validación negativos


<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>92.83%</td>
    <td><b>75.00%</b></td>
    <td style="color: red;">8.76%</td>
    <td style="color: red;">15.69%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>94.16%</b></td>
    <td>69.05%</td>
    <td><b>42.34%</b></td>
    <td><b>52.49%</b></td>
  </tr>
    <caption>Tabla 14 - RF - Nuestra vs Scikit. s = 5, d = 80/20, m = 100, p = 32</caption>
</table>

Ejecución 2:
- semilla = 10
- m = 100
- p = 32
- 147 ejemplos de validación positivos
- 1652 ejemplos de validación negativos


<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>92.44%</td>
    <td><b>92.31%</b></td>
    <td style="color: red;">8.16%</td>
    <td style="color: red;">15.00%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>94.2%</b></td>
    <td>78.67%</td>
    <td><b>40.14%</b></td>
    <td><b>53.15%</b></td>
  </tr>
    <caption>Tabla 15 - RF - Nuestra vs Scikit. s = 10, d = 80/20, m = 100, p = 32</caption>
</table>


**Distribución 90/10**

Ejecución 1:
- semilla = 5
- m = 100
- p = 341
- 74 ejemplos de validación positivos
- 826 ejemplos de validación negativos


<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td><b>94.61%</b></td>
    <td><b>72.22%</b></td>
    <td>47.45%</td>
    <td><b>57.27%</b></td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td>94.39%</td>
    <td>68.75%</td>
    <td><b>48.18%</b></td>
    <td>56.65%</td>
  </tr>
    <caption>Tabla 16 - RF - Nuestra vs Scikit. s = 5, d = 90/10, m = 100, p = 341</caption>
</table>

Ejecución 2:
- semilla = 10
- m = 100
- p = 341
- 74 ejemplos de validación positivos
- 826 ejemplos de validación negativos


<table style="display: inline-block; margin-left: 48px;">
  <tr>
    <th></th>
    <th><b>Accuracy</b></th>
    <th><b>Precisión</b></th>
    <th><b>Recall</b></th>
    <th><b>F1</b></th>
  </tr>
  <tr>
    <td><b>Nuestra</b></td>
    <td>93.56%</td>
    <td>71.74%</td>
    <td>42.31%</td>
    <td>53.23%</td>
  </tr>    
  <tr>
    <td><b>Scikit</b></td>
    <td><b>94.33%</b></td>
    <td><b>75.47%</b></td>
    <td><b>51.28%</b></td>
    <td><b>61.07%</b></td>
  </tr>
    <caption>Tabla 17 - RF - Nuestra vs Scikit. s = 10, d = 90/10, m = 100, p = 341</caption>
</table>

Como conclusiones de los resultados obtenidos en esta sección:
- Se obtienen malos resultados en términos de recall cuadno p es chico (p = 32). Se obtiene una gran mejora al aumentarlo y usar p = 341.

#### 3.2.1.2. Pruebas variando $m$

En esta sección se realiza una comparación entre las métricas ambas implementaciones de Random Forest a medida que se varía $m$.

Algunas observaciones a tener en cuenta:
- Se prueban los siguientes valores de $m$: [1, 2, 4, 8, 16, 32, 64, 128, 256, 512].
- La distribución de los conjuntos es 80% entrenamiento, 20% validación.
- La escala sobre el eje de las x se presenta de forma logarítmica.
- Para las pruebas se usa el valor de $p$ que dio mejores resultados en la sección anterior, es decir, $p = cant\_atributos\space/\space3 = 341$.
- Para cada valor de $m$ se entrena sobre el mismo conjunto de entrenamiento y se evalúa sobre el mismo conjunto de validación.

**Observación:** Todos los gráficos corresponden a comparaciones sin utilizar validación cruzada.

<div style="width: 45%; display: inline-block;">
  <img src="imagenes/graficas/s7_t08_mvar_10_accuracy.png">
</div>

<div style="width: 45%; display: inline-block;">
  <img src="imagenes/graficas/s7_t08_mvar_10_precision.png">
</div>

<div style="width: 45%; display: inline-block;">
  <img src="imagenes/graficas/s7_t08_mvar_10_recall.png">
</div>

<div style="width: 45%; display: inline-block;">
  <img src="imagenes/graficas/s7_t08_mvar_10_f1.png">
</div>

Como conclusiones de los resultados obtenidos en esta sección:
- La accuracy se mantiene cercana al 90% para ambas implementaciones a partir de m=2.
- En términos generales se puede decir que la implementación con scikit tiene una mejor performance (sobre todo si se observa la variación de f1).
- La performance en términos de las métricas evaluadas en m=32 mejora para nuestra implementación, pero empeora notoriamente para m=128.
- La tendencia en términos generales de la implementación de scikit es de mejorar a medida que aumenta m hasta m=128, luego comienza a bajar. Para nuestra implementación hay una mayor variabilidad, alcanzando los mejores valores de f1 para m=256.


# 4. Conclusión

Algunas conclusiones generales y posibles mejoras en las evaluaciones:
- En las experimentaciones con el algoritmo ID3 se obtienen valores de accuracy altos. Esto nos llevó a introducir las métricas de recall y precisión, pues en el dataset hay una gran cantidad de ejemplos negativos y si obtenemos por ejemplo un clasificador que a cualquier instancia la clasifica como negativa esto daría un valor alto de accuracy, lo cual no es garantía de que sea un buen clasificador. Las métricas de recall y precisión nos dieron una idea más real pues nos dicen qué tan bueno es nuestro clasificador al decir que un ejemplo es positivo y cuántos de los verdaderos ejemplos positivos clasificamos como positivos. Luego utilizamos la métrica F1 dando igual peso a las métricas de recall y precisión pues es igual de importante ser preciso a la hora de clasificar una instancia como positiva así como clasificar bien la mayor cantidad de ejemplos positivos.
- Como conclusión sobre las pruebas realizadas con el algoritmo de validación cruzada podemos decir que si bien se mantuvieron los resultados obtenidos para Accuracy y Precisión, logramos obtener resultados más representativos para Recall y F1 (en comparación con las previas implementaciones). Validación cruzada genera resultados más reales en el sentido que disminuye la varianza de los resultados gracias al cálculo del promedio.
- Con respecto a los hiperparametros en el algoritmo Random Forest, cuando la cantidad de árboles construidos es aproximadamente mayor a 128 no se ve una gran mejora en las métricas elegidas, pero la cantidad de atributos sí genera mejores resultados cuanto más grande es. Creemos que esto se debe a que el algoritmo de ID3 tiene más posibilidades en cada paso para elegir el atributo que genera mejor ganancia, pudiendo así separar el conjunto de ejemplos de entrenamiento de una mejor manera. Dado que Random Forest genera un gran costo en términos de tiempo no probamos con cantidades de atributos mayores, pero creemos que ocurriría algo similar a lo que ocurre con la cantidad de árboles construidos. Luego de cierto número (no mayor a la cantidad total de atributos posibles) no se generarían aumentos significativos en las métricas.
- Como mejora creemos que no es del todo correcto buscar los mejores hiperparametros en base al conjunto de evaluación, como se vio en el teórico esto puede dar lugar a sobre ajustes. Esto se puede paliar con dos estrategias. Una es separando un tercer conjunto (de validación) del dataset. La otra es usar validación cruzada. Inicialmente quisimos utilizar el algoritmo implementado de validación cruzada para esto pero fue muy costoso en términos de tiempo.
- En particular, en las pruebas variando m se utilizó solamente una separación hold-out. Es decir, a partir de estas evaluaciones se puede tener una idea de cuáles son los valores de m óptimos para cada implementación, pero si se usara validación cruzada dichos valores serían más confiables. Además, no se dividió el dataset en tres. Por lo que no se tiene un conjunto de evaluación, y por lo tanto no es del todo correcto realizar un análisis comparativo en cuanto a la performance de nuestra implementación y la de scikit. Para realizar tales conclusiones sería necesario justamente, una comparación de las performances sobre un tercer conjunto.

