# Laboratorio 1 - Informe

### Grupo 4:
     - S. Calvo C.I 5.711.417-7     
     - X. Iribarnegaray C.I 5.253.705-9
     - J. Simonelli C.I 5.405.358-4

## 1. Objetivo

El objetivo de este laboratorio es:
- Implementar el algoritmo ID3, añadiendo el hiperparámetro *max_range_split*, que determina la cantidad máxima de rangos en los que se puede partir un atributo númerico.
- Utilizar scikit-learn para el preprocesamiento de datos y la creación de modelos basados en árboles de decisión.
- Evaluar y comparar los modelos generados.

## 2. Diseño
### 2.1 Algoritmo

In [2]:
def id3(dataset, target, features, continuous_features, max_range_splits, intact_dataset):
    if len(features) == 0 or len(dataset[target].value_counts().index) == 1:
        # value_counts[0] is either the only or the most common target value left in the current dataset.
        return dataset[target].value_counts().index[0] 
 
    best, best_splits = best_feature(dataset, target, features, continuous_features, max_range_splits)
    decision_tree = {best: {}}
    
    new_features = features.copy()
    new_features.remove(best)
    
    original_dataset = intact_dataset
    
    if best_splits:
        original_dataset = split_dataset(intact_dataset, best, best_splits)
        dataset = split_dataset(dataset, best, best_splits)
        
    for value in original_dataset[best].value_counts().index:
        examples = dataset.loc[dataset[best] == value]
        if (len(examples) == 0):
            decision_tree[best][value] = original_dataset.loc[original_dataset[best] == value][target].value_counts().index[0]
        else:
            decision_tree[best][value] = id3(examples, target, new_features, continuous_features, max_range_splits, intact_dataset)
    
    return decision_tree

El algoritmo ID3 es un algoritmo recursivo que, dado un dataset, construye un árbol de decisión de forma recursiva. A continunación describiremos nuestra implementación del algoritmo.

#### Casos base:
- Si no quedan features (atributos) a analizar, etiquetar la hoja con el valor más común en el dataset restante.
- Si todos los ejemplos restantes en el dataset tienen el mismo valor target, etiquetar la hoja con ese valor. 

En este caso, para ambas condiciones clasificamos la hoja con el valor `dataset[target].value_counts().index[0]`. La función `value_counts()` retorna los valores de la columna target en el dataset, ordenados de más a menos común. Al tomar el primero de estos valores, nos aseguramos de etiquetar la hoja con el más común, para el primer caso, y de etiquetar la hoja con el único valor restante en el dataset para el segundo.

#### Recursión:
Si no se cumplen las condiciones de los casos base, entonces, el siguiente paso es elegir el mejor atributo: en el caso de nuestra implementación, el atributo que maximiza la ganancia (def. en Teorico). Este se obtiene mediante `best_feature`, que retorna tanto el mejor atributo como, en el caso de que este sea continuo, el mejor o mejores puntos de corte (`best_splits`). Si el atributo es contniuo, es decir, `best_splits` está definido, discretizamos utilizando estos puntos de corte los valores del mejor atributo, tanto en el conjunto de ejemplos restantes como en una copia del dataset_original.

Luego, por cada valor posible que puede tomar el mejor atributo (en nuestro caso, los valores que toma este atributo en el dataset original o en la copia discretizada que obtuvimos en el paso anterior), construimos una rama del árbol. En estas ramas, si no hay ejemplos con el mismo valor para el atributo en cuestión, se asigna el valor objetivo más común de los ejemplos del conjunto de datos original, cuyo valor de atributo sea el mismo que el que está siendo evaluado en el momento. De lo contrario, se llama de forma recursiva a la función id3, quitando este atributo del conjunto de atributos a evaluar y usando como nuevo dataset los ejemplos del mismo valor de atributo.

In [None]:
def best_feature(dataset, target, features, continuous_features, max_range_splits):
    conditional_entropies = []
    continuous = {}
    for feature in features:
        # Continuous-Valued feature 
        if feature in continuous_features:
            aux_conditional_entropy, best_split = get_splits(dataset, feature, target, max_range_splits)
            conditional_entropies.append(aux_conditional_entropy)
            continuous[feature] = best_split
        else :
            res = 0
            for value, count in dataset[feature].value_counts().items():
                res += count*entropy(dataset.loc[dataset[feature] == value], target)
            conditional_entropies.append(res / dataset.shape[0])
    best_feature = features[conditional_entropies.index(min(conditional_entropies))]
    
    if not (best_feature in continuous):
        return best_feature, None
    return best_feature, continuous[best_feature]

La función best attribute, calcula, dado un conjunto de ejemplos, el atributo que maximiza la ganancia, como definimos en el teórico o, lo que es equivalente, el que minimiza el sustraendo en la fórmula de esta ganancia.\
\
Si el atributo a evaluar es continuo, obtenemos los posibles puntos de corte para categorizar en rangos los valores de este atributo en el conjunto de ejemplos junto con el valor del sustraendo de la ganancia correspondiente, a través de la función `get_splits(dataset, feature, target, max_range_splits)`. Esta función ordena los valores del atributo en el dataset de menor a mayor, y recorre, en ese orden, la columna target. Cuando el valor de la columna target cambia, por ejemplo de la columna i a la columna i+1, se registra el promedio entre el valor del atributo a evaluar en la columna i y el mismo valor en la columna i+1 como un posible punto de corte. Luego, para reducir el tiempo de ejecución del algoritmo, si la cantidad de posibles puntos de corte es mayor a 50, tomamos 50 al azar, y realizamos todas las combinaciones posibles ordenadas de tamaño hasta max_range_split - 1. 

En caso contrario, (`else` del `if`), se calcula directamente el valor del sustraendo previamente mencionado.\


mediante la división de los valores continuos con valores calculados mediante el promedio de valor de atributo de dos ejemplos con valores objetivo distintos. Luego, dependiendo del valor del hiperparámetro *max_range_splits* (de valor 2 o 3 ), utilizamos combinaciones de estos puntos para particionar los valores continuos en rangos. De esta manera, obtenemos finalmente un atributo de valores discretos.\
\
Sin embargo se debe tener en cuenta que, en datasets de gran tamaño, es probable que exista una gran cantidad de posibles puntos de corte, por lo cual es necesario identificar el mejor o mejor par de puntos. De manera similar al cálculo del "mejor atributo", se realiza un cálculo de la ganancia para cada split, y se elige el que minimice el segundo factor de la fórmula. Para esto, se utiliza la función 


In [None]:
def get_splits(dataset, feature, target, max_range_splits):
    min_conditional_entropy = 2
    dataset = dataset.sort_values(by=feature)
    current_target = dataset[target].iloc[0]
    dataset_size = dataset.shape[0]
    candidate_splits = []
    best_splits = []
    
    # Finding splits
    for i in range(1, dataset_size):
        if current_target != dataset[target].iloc[i]:
            candidate_splits.append((dataset[feature].iloc[i-1] + dataset[feature].iloc[i])/2)
            current_target = dataset[target].iloc[i]
    
    sample = candidate_splits
    if len(candidate_splits) > 50:
        sample = random.sample(candidate_splits, 50)
    
    splits = generate_combinations(sample, max_range_splits)
 
    for split in splits:
        splitted_dataset = split_dataset(dataset, feature, split)
        aux_conditional_entropy = 0
        for value, count in splitted_dataset[feature].value_counts().items():
            aux_conditional_entropy += count*entropy(splitted_dataset.loc[splitted_dataset[feature] == value], target)
        aux_conditional_entropy = aux_conditional_entropy / splitted_dataset.shape[0]
            
        if (aux_conditional_entropy < min_conditional_entropy):
            min_conditional_entropy = aux_conditional_entropy
            best_splits = split
            
    return (min_conditional_entropy, best_splits)

Por su parte, la función `generate_combinations` genera todas las posibles combinaciones de los pares de splits pasados como parametro `sample` en el caso de que `max_range_splits = 3`. Luego, se ha optado por tomar una muestra aleatoria de 50 elementos (splits singulares o pares) de la lista de splits candidato en el caso de contar con más de 50 de estos, con el fin de reducir el tiempo de ejecución. \
Además, para modificar el dataset en tiempo de ejecución, se utiliza la función `split_dataset`, que se encarga de discretizar los valores de un atributo continuo en base a el o los puntos de corte pasados.\
A través de `get_splits`, obtenemos ya sea el mejor valor o mejor par de valores por los cuales dividir el atributo continuo, junto con el componente de entropía que se utilizará en `best_feature` para determinar el mejor atributo a elegir.

In [None]:
import numpy as np

def entropy(dataset, target):
    # value_counts() returns a Series containing the counts of unique values
    values = dataset[target].value_counts()
    # shape returns the size of dataset, shape[0] being the number of rows
    total = dataset.shape[0]
    p0 = values.iloc[0]/total
    if (len(values) > 1):
        p1 = values.iloc[1]/total
        return -(p0)*np.log2(p0) - (p1) * np.log2(p1)
    else: 
        return -(p0)*np.log2(p0)

## Comparativa entre preprocesamiento y max_range_splits = 2 con diferentes ratios train/test

En el siguiente código, ejecutaremos nuestra implementación de ID3 con el hiperparámetro `max_range_splits = 2` para distintas proporciones de división del dataset entre conjunto de entrenamiento y de prueba. Esto último con el objetivo de evaluar cómo varía la precisión del modelo a medida que cambiamos la proporción de datos destinados al entrenamiento y a la prueba, lo que nos permitirá identificar posibles casos de sobreajuste cuando el modelo se ajusta demasiado a los datos de entrenamiento y no generaliza correctamente a datos nuevos.\
\
Además, para cada división conjuntos entrenamiento-prueba, se ejecutará ID3 tanto para el dataset original como para uno preprocesado, y desplegará el tiempo de ejecución para ambos casos.\
\
Con respecto al preprocesamiento mencionado, lo que realizamos para efectivamente preprocesar el dataset es discretizar todos los atributos continuos previo a la ejecución del algoritmo, para así evitar la discretización en tiempo de ejecución.

In [3]:
from id3 import get_splits, split_dataset, id3, split_into_train_test, test_instances, init, calculate_precision, calculate_f1_score, calculate_recall
from datetime import datetime
import random

dataset, features, continuous_features, target = init()

for i in range(50,100,10):
       print('\n',i,'% entrenamiento, ',100-i, '% test' )
       train_ds, test_ds = split_into_train_test(dataset,i/100)
       
       # Preprocessed
       preprocessed_dataset = train_ds.copy()
       for cont_feature in continuous_features:
              entropy, splits = get_splits(preprocessed_dataset,cont_feature,target,2)
              preprocessed_dataset = split_dataset(preprocessed_dataset,cont_feature,splits)
       startTime = datetime.now()
       preprocessed_decision_tree = id3(preprocessed_dataset, target, features, [], 2, preprocessed_dataset)
       preprocessed_time = datetime.now() - startTime
       acierto_pre = test_instances(preprocessed_decision_tree,test_ds)
       print('Preprocessed: ', end='')
       print('Accuracy: ',acierto_pre,'%', ' Time: ', preprocessed_time)
       
       
       # Max_Range_Splits_2
       startTime = datetime.now()
       max_range_split_2_decision_tree = id3(train_ds,target,features, continuous_features, 2, train_ds)
       max_range_split_2_time = datetime.now() - startTime
       acierto_run = test_instances(max_range_split_2_decision_tree,test_ds)
       precision = calculate_precision(max_range_split_2_decision_tree,test_ds,target)
       recall = calculate_recall(max_range_split_2_decision_tree,test_ds,target)
       f1_score = calculate_f1_score(max_range_split_2_decision_tree,test_ds,target)
       print('Max Range Split 2: ', end='')
       print('Accuracy: ',acierto_run,'%', ' Time: ', max_range_split_2_time)
       print('Precision: ', precision)
       print('Recall: ', recall)
       print('F1 score: ', f1_score)



 50 % entrenamiento,  50 % test
Preprocessed: Accuracy:  82.33644859813084 %  Time:  0:00:02.892931
Max Range Split 2: Accuracy:  83.0841121495327 %  Time:  0:00:11.697056
Precision:  65.2014652014652
Recall:  67.42424242424242
F1 score:  66.29422718808193

 60 % entrenamiento,  40 % test
Preprocessed: Accuracy:  83.76168224299066 %  Time:  0:00:03.804028
Max Range Split 2: Accuracy:  81.07476635514018 %  Time:  0:00:13.082313
Precision:  60.48780487804878
Recall:  60.48780487804878
F1 score:  60.48780487804877

 70 % entrenamiento,  30 % test
Preprocessed: Accuracy:  79.2834890965732 %  Time:  0:00:04.467416
Max Range Split 2: Accuracy:  81.30841121495327 %  Time:  0:00:14.425438
Precision:  59.756097560975604
Recall:  64.47368421052632
F1 score:  62.0253164556962

 80 % entrenamiento,  20 % test
Preprocessed: Accuracy:  79.67289719626169 %  Time:  0:00:05.823763
Max Range Split 2: Accuracy:  78.97196261682244 %  Time:  0:00:17.116764
Precision:  56.19047619047619
Recall:  57.2815533

## Comparativa entre preprocesamiento y max_range_splits = 3 con diferentes ratios train/test

El objetivo de esta comparativa es análoga a la anterior, solo que cambiando el valor de `max_range_splits` a 3. Por esto último, el tiempo de ejecución de todo el código aumenta drásticamente.

In [1]:
from id3 import get_splits, split_dataset, id3, split_into_train_test, test_instances, init
from datetime import datetime
import random

dataset, features, continuous_features, target = init()

random.seed(1)

for i in range(50,100,10):
       print('\n',i,'% entrenamiento, ',100-i, '% test' )
       train_ds, test_ds = split_into_train_test(dataset,i/100)
       
       # Preprocessed
       preprocessed_dataset = train_ds.copy()
       for cont_feature in continuous_features:
              entropy, splits = get_splits(preprocessed_dataset,cont_feature,target,2)
              preprocessed_dataset = split_dataset(preprocessed_dataset,cont_feature,splits)
       startTime = datetime.now()
       preprocessed_decision_tree = id3(preprocessed_dataset, target, features, [], 2, preprocessed_dataset)
       preprocessed_time = datetime.now() - startTime
       acierto_pre = test_instances(preprocessed_decision_tree,test_ds)
       print('Preprocessed: ', end='')
       print('Accuracy: ',acierto_pre,'%', ' Time: ', preprocessed_time)
       
       # Max_Range_Splits_3
       startTime = datetime.now()
       max_range_split_3_decision_tree = id3(train_ds,target,features, continuous_features, 3, train_ds)
       max_range_split_3_time = datetime.now() - startTime
       acierto_run = test_instances(max_range_split_3_decision_tree,test_ds)
       print('Max Range Split 3: ', end='')
       print('Accuracy: ',acierto_run,'%', ' Time: ', max_range_split_3_time)


 50 % entrenamiento,  50 % test
Preprocessed: Accuracy:  81.49532710280374 %  Time:  0:00:06.951673
Max Range Split 3: Accuracy:  83.83177570093457 %  Time:  0:04:42.106825

 60 % entrenamiento,  40 % test
Preprocessed: Accuracy:  81.42523364485982 %  Time:  0:00:06.229751


KeyboardInterrupt: 

## Random Forest vs Decision Tree Classifier vs Max_range_splits = 2 vs Max_range_splits = 3

In [4]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
from id3 import init, split_into_train_test, id3, test_instances

dataset, features, continuous_features, target = init()

X = dataset.drop(target, axis=1)
y = dataset[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

ohe = OneHotEncoder(sparse_output=False)

discrete_features = list(set(features) - set(continuous_features))

for feat in discrete_features:
    ohe.fit(dataset[feat].to_numpy().reshape(-1, 1))
    
    # Transform the training and test data using the fitted OneHotEncoder
    # Converts the categorical feature in X_train and X_test to one-hot encoded format
    new_train = ohe.transform(X_train[feat].to_numpy().reshape(-1,1))
    new_test = ohe.transform(X_test[feat].to_numpy().reshape(-1,1))
    
    # Create column names for the new one-hot encoded features
    column_names = [f"{feat}_{cat}" for cat in ohe.categories_[0]]
    
    for i, col_name in enumerate(column_names):
        # Add the new one-hot encoded columns to the X_train and X_test DataFrame
        X_train[col_name] = new_train[:, i]
        X_test[col_name] = new_test[:, i]
    
    X_train.drop(feat, axis=1)
    X_test.drop(feat, axis=1)

    

random_forest = RandomForestClassifier(random_state=0)
random_forest.fit(X_train, y_train)

decision_tree_classifier = DecisionTreeClassifier(random_state=0)
decision_tree_classifier.fit(X_train, y_train)

y_pred_random_forest = random_forest.predict(X_test)
accuracy_random_forest = accuracy_score(y_test, y_pred_random_forest)
print('Random forest accuracy: ', accuracy_random_forest*100, '%')

y_pred_decission_tree = decision_tree_classifier.predict(X_test)
accuracy_decision_tree_classifier = accuracy_score(y_test, y_pred_decission_tree)
print('Decission Tree Classifier accuracy: ', accuracy_decision_tree_classifier*100, '%')

train_ds, test_ds = split_into_train_test(dataset,0.8)

max_range_split_2_decision_tree = id3(train_ds,target,features, continuous_features, 2, train_ds)
acierto_split_2 = test_instances(max_range_split_2_decision_tree,test_ds)
print('Max Range Split 2 accuracy: ',acierto_split_2,'%')#, ' Time: ', preprocessed_time)

max_range_split_3_decision_tree = id3(train_ds,target,features, continuous_features, 3, train_ds)
acierto_split_3 = test_instances(max_range_split_3_decision_tree,test_ds)
print('Max Range Split 3 accuracy: ',acierto_split_3,'%')#, ' Time: ', preprocessed_time)




Random forest accuracy:  88.08411214953271 %
Decission Tree Classifier accuracy:  84.34579439252336 %
Max Range Split 2 accuracy:  83.64485981308411 %
Max Range Split 3 accuracy:  80.8411214953271 %


### Decision Tree Classifier

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import OneHotEncoder

dataset, features, continuous_features, target = init()

X = dataset.drop(target, axis=1)
y = dataset[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

ohe = OneHotEncoder(sparse_output=False)

discrete_features = list(set(features) - set(continuous_features))

for feat in discrete_features:
    ohe.fit(dataset[feat].to_numpy().reshape(-1, 1))
    
    # Transform the training and test data using the fitted OneHotEncoder
    # Converts the categorical feature in X_train and X_test to one-hot encoded format
    new_train = ohe.transform(X_train[feat].to_numpy().reshape(-1,1))
    new_test = ohe.transform(X_test[feat].to_numpy().reshape(-1,1))
    
    # Create column names for the new one-hot encoded features
    column_names = [f"{feat}_{cat}" for cat in ohe.categories_[0]]
    
    for i, col_name in enumerate(column_names):
        # Add the new one-hot encoded columns to the X_train and X_test DataFrame
        X_train[col_name] = new_train[:, i]
        X_test[col_name] = new_test[:, i]

decision_tree_classifier = DecisionTreeClassifier(random_state=0)

decision_tree_classifier.fit(X_train, y_train)

y_pred = decision_tree_classifier.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print('Decision Tree Classifier accuracy: ', accuracy*100, '%')



### 2.3 Evaluación
Discutir:
    - Calculo de porcentaje
    - Division en subconjunto de entrenamiento y evaluacion- Qué conjunto de métricas se utilizan para la evaluación de la solución y su definición
- Sobre qué conjunto(s) se realiza el entrenamiento, ajuste de la solución, evaluación, etc. Explicar cómo se construyen estos conjuntos.


## 2.3 Evaluación
Discutir:
    - Calculo de porcentaje
    - Division en subconjunto de entrenamiento y evaluacion- Qué conjunto de métricas se utilizan para la evaluación de la solución y su definición
- Sobre qué conjunto(s) se realiza el entrenamiento, ajuste de la solución, evaluación, etc. Explicar cómo se construyen estos conjuntos.