El bosque aleatorio es un tipo de algoritmo de Machine Learning supervisado basado en aprendizaje conjunto. El aprendizaje conjunto es un tipo de aprendizaje en el que se combinan diferentes tipos de algoritmos o el mismo algoritmo varias veces para formar un modelo de predicción más potente. los Random Forest El algoritmo combina varios algoritmos del mismo tipo, es decir, varios árboles de decisión, lo que da como resultado un bosque de árboles, de ahí el nombre «Bosque aleatorio». El algoritmo de bosque aleatorio se puede utilizar para tareas de regresión y clasificación.

Los siguientes son los pasos básicos involucrados en la realización del algoritmo de bosque aleatorio:

* Elija N registros aleatorios del conjunto de datos.
* Cree un árbol de decisiones basado en estos N registros.
* Elija la cantidad de árboles que desee en su algoritmo y repita los pasos 1 y 2.
* En caso de un problema de regresión, para un nuevo registro, cada árbol del bosque predice un valor para Y (salida).
El valor final se puede calcular tomando el promedio de todos los valores predichos por todos los árboles del bosque. 
O, en caso de un problema de clasificación, cada árbol del bosque predice la categoría a la que pertenece el nuevo registro. 
Finalmente, el nuevo récord se asigna a la categoría que obtiene la mayoría de votos.

### La regresion es un proceso estadistico para estimar las relaciones entre variables.

En esta sección, estudiaremos cómo se pueden usar los bosques aleatorios para resolver problemas de regresión usando Scikit-Learn. En la siguiente sección resolveremos el problema de clasificación a través de bosques aleatorios.

El problema aquí es predecir el consumo de gas (en millones de galones) en 48 de los estados de EE. UU. Con base en el impuesto a la gasolina (en centavos), el ingreso per cápita (dólares), las carreteras pavimentadas (en millas) y la proporción de la población con el licencia de conducir.

Para resolver este problema de regresión usaremos el algoritmo de bosque aleatorio a través de la biblioteca de Python de Scikit-Learn. Seguiremos el proceso tradicional de Machine Learning para resolver este problema.

In [2]:
# Se importan las librerias
import pandas as pd
import numpy as np

In [3]:
# Cargar dataset
dataset = pd.read_csv('petrol_consumption.csv')

In [27]:
# Visualizar los primeros 5 registros
dataset.head()

Unnamed: 0,Petrol_tax,Average_income,Paved_Highways,Population_Driver_licence(%),Petrol_Consumption
0,9.0,3571,1976,0.525,541
1,9.0,4092,1250,0.572,524
2,9.0,3865,1586,0.58,561
3,7.5,4870,2351,0.529,414
4,8.0,4399,431,0.544,410


Podemos ver que los valores en nuestro conjunto de datos no están muy bien escalados. Los reduciremos antes de entrenar el algoritmo.

In [33]:
# Que columnas tienen los datos?
dataset.columns

Index(['Petrol_tax', 'Average_income', 'Paved_Highways',
       'Population_Driver_licence(%)', 'Petrol_Consumption'],
      dtype='object')

In [34]:
# Que tamaño tienen los datos? aparece numero de filas x columnas
dataset.shape

(48, 5)

In [9]:
# hay valores nulos en los datos?
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Petrol_tax                    48 non-null     float64
 1   Average_income                48 non-null     int64  
 2   Paved_Highways                48 non-null     int64  
 3   Population_Driver_licence(%)  48 non-null     float64
 4   Petrol_Consumption            48 non-null     int64  
dtypes: float64(2), int64(3)
memory usage: 2.0 KB


In [36]:
# Como se distribuyen las variables numericas
# count: conteo, mean: media, std: desviacion estandar, min: minimos, max: maximos, cuantiles: 25% - 50% - 75%
dataset.describe()

Unnamed: 0,Petrol_tax,Average_income,Paved_Highways,Population_Driver_licence(%),Petrol_Consumption
count,48.0,48.0,48.0,48.0,48.0
mean,7.668333,4241.833333,5565.416667,0.570333,576.770833
std,0.95077,573.623768,3491.507166,0.05547,111.885816
min,5.0,3063.0,431.0,0.451,344.0
25%,7.0,3739.0,3110.25,0.52975,509.5
50%,7.5,4298.0,4735.5,0.5645,568.5
75%,8.125,4578.75,7156.0,0.59525,632.75
max,10.0,5342.0,17782.0,0.724,968.0


En esta sección se realizarán dos tareas. La primera tarea es dividir los datos en conjuntos de «atributos» y «etiquetas». Los datos resultantes luego se dividen en conjuntos de entrenamiento y prueba.

La siguiente secuencia de comandos divide los datos en atributos y etiquetas:

In [14]:
X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values

Finalmente, dividamos los datos en conjuntos de entrenamiento y prueba:

In [15]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

Sabemos que nuestro conjunto de datos aún no es un valor escalado, por ejemplo, el campo Average_Income tiene valores en el rango de miles, mientras que Petrol_tax tiene valores en el rango de decenas. Por lo tanto, sería beneficioso escalar nuestros datos (aunque, como se mencionó anteriormente, este paso no es tan importante para el algoritmo de bosques aleatorios). Para hacerlo, usaremos Scikit-Learn’s StandardScaler clase.

In [16]:
# Feature Scaling
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

Ahora que hemos escalado nuestro conjunto de datos, es hora de entrenar nuestro algoritmo de bosque aleatorio para resolver este problema de regresión.

In [22]:
from sklearn.ensemble import RandomForestRegressor

regressor = RandomForestRegressor(n_estimators=20, random_state=0) #n_estimators contiene el numero de arboles a utilizar
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

Los objetos RandomForestRegressor de la libreria sklearn.ensemble, se utiliza para resolver problemas de regresión mediante un bosque aleatorio. El parámetro más importante de la RandomForestRegressor la clase es la n_estimators parámetro. Este parámetro define la cantidad de árboles en el bosque aleatorio. Empezaremos con n_estimator=20 para ver cómo funciona nuestro algoritmo.

El último y último paso para resolver un problema de Machine Learning es evaluar el rendimiento del algoritmo. Para problemas de regresión, las métricas que se utilizan para evaluar un algoritmo son el error absoluto medio, el error cuadrático medio y el error cuadrático medio.

In [23]:
from sklearn import metrics

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error: 51.76500000000001
Mean Squared Error: 4216.166749999999
Root Mean Squared Error: 64.93201637097064


Con 20 árboles, el error cuadrático medio es 64,93, que es superior al 10 por ciento del consumo medio de gasolina, es decir, 576,77. Esto puede indicar, entre otras cosas, que no hemos utilizado suficientes estimadores (árboles).

Si el número de estimadores se cambia a 200, los resultados son los siguientes:

![200Arboles.JPG](attachment:9c311711-3de7-4b71-a6e7-0ba0acd37c9c.JPG)

# Parte 2: Uso del bosque aleatorio para la clasificación

## Definición del problema

La tarea aquí es predecir si un billete de moneda bancaria es auténtico o no basándose en cuatro atributos, es decir, la varianza de la imagen transformada en ondas, la asimetría, la entropía y la curtosis de la imagen.

## Solución

Este es un problema de clasificación binaria y usaremos un clasificador de bosque aleatorio para resolver este problema. Los pasos seguidos para resolver este problema serán similares a los pasos realizados para la regresión.

In [1]:
# importar librerias
import pandas as pd
import numpy as np

In [2]:
# Cragar dataset
dataset = pd.read_csv('bill_authentication.csv')

In [3]:
# Visualizar los primeros 5 registros
dataset.head()

Unnamed: 0,Variance,Skewness,Curtosis,Entropy,Class
0,3.6216,8.6661,-2.8073,-0.44699,0
1,4.5459,8.1674,-2.4586,-1.4621,0
2,3.866,-2.6383,1.9242,0.10645,0
3,3.4566,9.5228,-4.0112,-3.5944,0
4,0.32924,-4.4552,4.5718,-0.9888,0


Como fue el caso con el conjunto de datos de regresión, los valores en este conjunto de datos no están muy bien escalados. El conjunto de datos se escalará antes de entrenar el algoritmo.

## Exploracion de datos

In [4]:
# Que columnas tienen los datos?
dataset.columns

Index(['Variance', 'Skewness', 'Curtosis', 'Entropy', 'Class'], dtype='object')

In [5]:
# Que tamaño tienen los datos? aparece numero de filas x columnas
dataset.shape

(1372, 5)

In [6]:
# Hay valores nulos en los datos?
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1372 entries, 0 to 1371
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Variance  1372 non-null   float64
 1   Skewness  1372 non-null   float64
 2   Curtosis  1372 non-null   float64
 3   Entropy   1372 non-null   float64
 4   Class     1372 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 53.7 KB


In [7]:
# Como se distribuyen las variables numericas
# count: conteo, mean: media, std: desviacion estandar, min: minimos, max: maximos, cuantiles: 25% - 50% - 75%
dataset.describe()

Unnamed: 0,Variance,Skewness,Curtosis,Entropy,Class
count,1372.0,1372.0,1372.0,1372.0,1372.0
mean,0.433735,1.922353,1.397627,-1.191657,0.444606
std,2.842763,5.869047,4.31003,2.101013,0.497103
min,-7.0421,-13.7731,-5.2861,-8.5482,0.0
25%,-1.773,-1.7082,-1.574975,-2.41345,0.0
50%,0.49618,2.31965,0.61663,-0.58665,0.0
75%,2.821475,6.814625,3.17925,0.39481,1.0
max,6.8248,12.9516,17.9274,2.4495,1.0


## Preparación de datos para la formación

El siguiente código divide los datos en atributos y etiquetas:

In [17]:
X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values

El siguiente código divide los datos en conjuntos de entrenamiento y prueba:

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

## Escala de funciones

Como antes, el escalado de características funciona de la misma manera:

In [10]:
# Feature Scaling
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

## Entrenamiento del algoritmo

Y nuevamente, ahora que hemos escalado nuestro conjunto de datos, podemos entrenar nuestros bosques aleatorios para resolver este problema de clasificación.

In [25]:
from sklearn.ensemble import RandomForestRegressor

regressor = RandomForestRegressor(n_estimators=20, random_state=0)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

En caso de regresión usamos el RandomForestRegressor clase de la biblioteca sklearn.ensemble. Para la clasificación, haremos RandomForestClassifier clase de la biblioteca sklearn.ensemble. RandomForestClassifier la clase también toma n_estimators como parámetro. Como antes, este parámetro define la cantidad de árboles en nuestro bosque aleatorio. Empezaremos con 20 árboles nuevamente. 

## Evaluación del algoritmo

Para los problemas de clasificación, las métricas que se utilizan para evaluar un algoritmo son la precisión, la matriz de confusión, la recuperación de precisión y los valores F1.

In [27]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

print(confusion_matrix(y_test,y_pred.round()))
print(classification_report(y_test,y_pred.round()))
print(accuracy_score(y_test, y_pred.round()))

[[155   2]
 [  0 118]]
              precision    recall  f1-score   support

           0       1.00      0.99      0.99       157
           1       0.98      1.00      0.99       118

    accuracy                           0.99       275
   macro avg       0.99      0.99      0.99       275
weighted avg       0.99      0.99      0.99       275

0.9927272727272727


## Conclución

La precisión alcanzada por nuestro clasificador de bosques aleatorio con 20 árboles es del 99,27%. A diferencia de antes, cambiar el número de estimadores para este problema no mejoría significativamente los resultados, como se muestra en el siguiente cuadro. Aquí, el eje X contiene el número de estimadores, mientras que el eje Y muestra la precisión.

El 99,27% es una precisión bastante buena, por lo que no tiene mucho sentido aumentar nuestro número de estimadores y arriesgar
a que el procesamiento de la maquina sea más lento.