<a href="https://colab.research.google.com/github/luismiguelcasadodiaz/IBM_SkillsBuild_IA_325/blob/main/IA_325_py_ex_14.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificación con Random Forest

Vamos a clasificar los vinos según sus características usando el algoritmo de Rando Random Forest

In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

## Datos para clasificar

In [20]:
from sklearn.datasets import load_wine
wine = load_wine()

In [21]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:                   0.34  5.08    2.03  1.00

#### Visualización del dataframe

In [22]:
vinos = pd.DataFrame(wine.data, columns=wine.feature_names)
vinos['target'] = wine.target
vinos.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


## Separamos los datos en la matriz de las variables dependientes (X) y en el vector de la variable dependiente (y)

In [23]:
y = vinos['target']
X = vinos.drop('target', axis=1)

## Dividimos los datos en dos subconjuntos: train y test

In [24]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

## Entrenamos el modelo árbol de decisión

Cuando instancias un RandomForestClassifier() de sklearn.ensemble, el parámetro clave para el número de estimadores (árboles en el bosque) es n_estimators. No hay un criterio único y definitivo para elegir su valor, pero aquí te presento algunas consideraciones:

+ **Rendimiento**: Generalmente, un número **mayor** de estimadores conduce a un **mejor** rendimiento del modelo (mayor precisión, menor error) hasta cierto punto. Añadir **más** árboles **reduce** la **varianza** del modelo y mejora la generalización.

+ **Costo Computacional**: Aumentar n_estimators también aumenta el tiempo de entrenamiento y la memoria requerida. Debes encontrar un equilibrio entre el rendimiento y el costo computacional, especialmente con conjuntos de datos grandes.

+ **Curva de Aprendizaje**: Puedes visualizar la curva de aprendizaje del modelo a medida que aumentas n_estimators. Generalmente, el rendimiento se estabiliza después de un cierto número de árboles, y añadir más no proporciona mejoras significativas.

+ **Validación Cruzada**: Una forma común de determinar un buen valor para n_estimators es usar validación cruzada y probar diferentes valores para este parámetro. Puedes usar técnicas como GridSearchCV o RandomizedSearchCV de scikit-learn para automatizar este proceso.



In [25]:
bosque = RandomForestClassifier(n_estimators = 80)
bosque.fit(X_train, y_train)

In [26]:
bosque.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'monotonic_cst': None,
 'n_estimators': 80,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

+ **bootstrap**: True (predeterminado) o False. Indica si se utilizan muestras de arranque (bootstrap) al construir los árboles. Si es True, se extraen max_samples muestras con reemplazo del conjunto de entrenamiento. Si es False, se utiliza todo el conjunto de datos para cada árbol.
+ **ccp_alpha**: 0.0 (predeterminado). Parámetro para la poda de complejidad de costo (cost-complexity pruning). Es un umbral para la reducción de la impureza requerida para dividir un nodo. Aumentar este valor puede podar el árbol y reducir el sobreajuste.
+ **class_weight**: None (predeterminado), "balanced" o "balanced_subsample". Ajusta los pesos de las clases inversamente proporcionales a sus frecuencias en los datos de entrenamiento. Útil para manejar conjuntos de datos desbalanceados.
+ **criterion**: 'gini' (predeterminado) o 'entropy'. La función para medir la calidad de una división. 'gini' utiliza la impureza de Gini, y 'entropy' utiliza la ganancia de información.
+ **max_depth**: None (predeterminado). La profundidad máxima del árbol. Si es None, los nodos se expanden hasta que todas las hojas son puras o hasta que todas las hojas contienen menos de min_samples_split muestras. Limitar la profundidad puede ayudar a prevenir el sobreajuste.
+ **max_features**: 'sqrt' (predeterminado), 'log2' o None. El número de características a considerar al buscar la mejor división. 'sqrt' considera sqrt(n_features) características, 'log2' considera log2(n_features), y None considera todas las características.
+ **max_leaf_nodes**: None (predeterminado). El número máximo de nodos hoja. Si es None, no hay límite. Limitar los nodos hoja puede ayudar a prevenir el sobreajuste.
+ **max_samples**: None (predeterminado). Si bootstrap es True, el número de muestras a extraer del conjunto de entrenamiento para entrenar cada árbol base. Si es None, se extraen X.shape[0] muestras.
+ **min_impurity_decrease**: 0.0 (predeterminado). Un nodo se dividirá si esta división induce una disminución de la impureza mayor o igual a este valor.
+ **min_samples_leaf**: 1 (predeterminado). El número mínimo de muestras requeridas para estar en un nodo hoja. Un punto de división solo se considerará si deja al menos min_samples_leaf muestras de entrenamiento en cada una de las ramas izquierda y derecha.
+ **min_samples_split**: 2 (predeterminado). El número mínimo de muestras requeridas para dividir un nodo interno.
+ **min_weight_fraction_leaf**: 0.0 (predeterminado). La fracción mínima ponderada del total de muestras requeridas para estar en un nodo hoja.
+ **monotonic_cst**: None (predeterminado). Permite imponer restricciones de monotonicidad. Es un parámetro más avanzado y se utiliza para asegurar que la salida del modelo sea monotonicamente creciente o decreciente con respecto a una o más características.
+ **n_estimators**: 80. El número de árboles en el bosque. Un valor más alto generalmente mejora el rendimiento hasta cierto punto, pero aumenta el costo computacional.
+ **n_jobs**: None (predeterminado). El número de trabajos a ejecutar en paralelo para el ajuste y la predicción. None significa 1. -1 significa usar todos los **procesadores**.
+ **oob_score**: False (predeterminado) o True. Indica si se utiliza muestras "out-of-bag" para estimar la puntuación de generalización. Si es True, se calcula la puntuación OOB.
+ **random_state**: None (predeterminado). Controla la aleatoriedad del bootstrapping de las muestras y las características en cada división. Fija la semilla para la **reproducibilidad**.
+ **verbose**: 0 (predeterminado). Controla el nivel de verbosidad durante el ajuste.
+ **warm_star**t: False (predeterminado) o True. Si es True, reutiliza la solución del ajuste anterior para añadir más estimadores al conjunto.

## Hacemos las predicciones

In [28]:
y_pred =bosque.predict(X_test)

## Evaluamos el modelo

In [29]:
print(confusion_matrix(y_test, y_pred))

[[18  0  0]
 [ 0 19  1]
 [ 0  0 16]]


In [30]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        18
           1       1.00      0.95      0.97        20
           2       0.94      1.00      0.97        16

    accuracy                           0.98        54
   macro avg       0.98      0.98      0.98        54
weighted avg       0.98      0.98      0.98        54



## COnclusiones:

Vemos que este modelo es mejor que usar un solo arbol.
EN la matriz de confusión se aprecia la ausencia de falso positivos/negativos