In [None]:
# instalar paquetes
!pip install --upgrade pip && pip install numpy pandas plotly

Requirement already up-to-date: pip in /Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages (19.3.1)


In [None]:
# importar librerías
from randomforest import RandomForestModel
from randomforest.preprocess import load_dfs

## Modelo y datos|

In [None]:
# crear el modelo
model = RandomForestModel()

# definir las funciones pedidas
fit = model.fit
predict = model.predict
assert_predictions = model.assert_predictions

In [None]:
# cargar y limpiar (preprocesar) los datasets
data_train, data_test = load_dfs('data.csv')

## Entrenamiento

In [None]:
# entrenar el modelo
fit(data=data_train, target='Class')

## Visualización

In [None]:
tree = model.forest[0]

In [None]:
# como visualización interactiva
fig = tree.generate_treemap()
fig.show()

In [None]:
# en texto plano
print(tree)

## Evaluación y testeo

In [None]:
# revisar qué tan bien nos fue
print(assert_predictions(data_test))

In [None]:
# predecir algo
data = next(data_test.iterrows())[1]
print(f'DATA:\n{data};\n\nPREDICTION: {predict(data=data)}')

## Explicación y análisis

### Datos

Los _sets_ de entremiento (`data_train`) y de _test_ (`data_test`) son obtenidos como resultado una división aleatoria disjunta de los datos ejecutada por la función `load_dfs`, correspondientes a un 80 y un 20%, respectivamente. Todos los registros con datos nulos son descartados.

### Modelos

`RandomForestModel` es un modelo de _random forest_. Este almacena los árboles en la variable de instancia `forest`. Cada árbol es modelado a través de `DecisionTreeModel`, que trabaja de manera recursiva. Todos los métodos de estas clases relacionados con la implementación del algoritmo se encuentran documentados en el código fuente contenido en el directorio `randomforest/`.

### Entrenamiento

El modelo de _random forest_ instanciado en este archivo fue entrenado a través de la función `fit` con 5 árboles de decisión (`n_estimators`). La profundidad máxima de cada árbol es de 4 niveles (`max_depth`) y estos poseen una cantidad mínima de 1000 muestras por nodo para realizar el _split_ (`min_samples_split`).

Cada árbol fue entrenado con una muestra aleatoria distinta no disjunta del _set_ de entrenamiento que contiene, aproximadamente, un 20% de sus registros/filas y un 30% de sus atributos/columnas, excluyento el _target_ (`frac_shape`).

### Predicciones

El modelo realiza predicciones de manera recursiva en cada uno de sus árboles a través de la función `predict`. Luego, retorna la respuesta "más votada" (i.e. la moda).

La métrica de evaluación calculada por la función `assert_predictions` corresponde al porcentaje de predicciones correcamente realizadas. Esta función recibe un `DataFrame` con el _set_ de _test_ y realiza una predicción por cada entrada, luego compara dicha predicción con la clase del _target_ real y entrega el porcentaje de correctitud.

El resultado obtenido para estos parámetros varía entre un 80 y un 90%. Uno esperaría que al aumentar `n_estimators` este número mejore. Por otro lado, aumentar `max_depth` sería positivo hasta cierto punto, pues una gran profundidad puede también llevar al _overfitting_ (sobreajuste).
