<a href="https://colab.research.google.com/github/niest-pc/Ejercicios-Ciencia_de_Datos/blob/main/04_clasificacionMulticlase_BosqueAleatorio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificación Multiclase con RandomForest
Capítulo 4 del libro *The Data Science Workshop.* Second Edition. Packt Publishing, 2020.

La clasificación multiclase es una extensión de la clasificación binaria: en lugar de predecir solo dos clases, las variables objetivo pueden tener muchos más valores.
- Se entrena un modelo de Bosque Aleatorio y se evalúa su rendimiento calculando la precisión de los conjuntos de entrenamiento y prueba.
- Se ajustan algunos de sus hiperparámetros más importantes: n_estimators, max_depth, min_samples_leaf y max_features.
- Se aprende la importancia de los hiperparámetros, ya que estos pueden tener un impacto significativo en la capacidad predictiva de un modelo, así como en su capacidad de generalización a datos no vistos.

## Entrenamiento de un clasificador de Bosque Aleatorio

### Ejercicio 4.01: Construcción de un modelo para clasificar el tipo de animal y evaluación de su desempeño

En este ejercicio se entrena un clasificador de Bosque Aleatorio para predecir el tipo de animal en función de sus atributos y se comprueba su precisión.

El conjunto de datos utilizado en los ejercicios de este capítulo es *Zoo Data Set* compartido por Richard S. Forsyth.

In [None]:
# Importando pandas
import pandas as pd

In [None]:
# Creando una variable con la url del archivo que contiene los datos
file_url = 'https://raw.githubusercontent.com/PacktWorkshops/'\
'The-Data-Science-Workshop/master/Chapter04/Dataset/openml_phpZNNasq.csv'

# Cargando los datos
df = pd.read_csv(file_url)

# Inspeccionando los datos
df.head()

Unnamed: 0,animal,hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize,type
0,aardvark,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True,mammal
1,antelope,True,False,False,True,False,False,False,True,True,True,False,False,4,True,False,True,mammal
2,bass,False,False,True,False,False,True,True,True,True,False,False,True,0,True,False,False,fish
3,bear,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True,mammal
4,boar,True,False,False,True,False,False,True,True,True,True,False,False,4,True,False,True,mammal


In [None]:
# Removiendo la columna 'animal' del dataframe
df.drop(columns = 'animal', inplace = True) # 'inplace = True': actualiza
                                            # directamente el DataFrame original

# Extrayendo la columna 'type', ya que será la variable objetivo
y = df.pop('type')

# Revisando el dataframe actualizado
df.head()

Unnamed: 0,hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize
0,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True
1,True,False,False,True,False,False,False,True,True,True,False,False,4,True,False,True
2,False,False,True,False,False,True,True,True,True,False,False,True,0,True,False,False
3,True,False,False,True,False,False,True,True,True,True,False,False,4,False,False,True
4,True,False,False,True,False,False,True,True,True,True,False,False,4,True,False,True


In [None]:
# Importando la función para separar los datos de prueba y entrenamiento
from sklearn.model_selection import train_test_split

# Separando los datos de prueba y entrenamiento
entrenamientoX, pruebaX, entrenamientoY, pruebaY = train_test_split(df, y, test_size = 0.4,
                                                                    random_state = 188)

In [None]:
# Importando la función del clasificador de Bosque Aleatorio
from sklearn.ensemble import RandomForestClassifier

# Instanciando el clasificador
modelo_rf = RandomForestClassifier(random_state = 42, n_estimators = 10)

# Entrenando el modelo
modelo_rf.fit(entrenamientoX, entrenamientoY)

In [None]:
# Predeciendo el resultado del conjunto de entrenamiento
predicciones_ent = modelo_rf.predict(entrenamientoX)
predicciones_ent

array(['mammal', 'mammal', 'mammal', 'fish', 'mammal', 'insect', 'fish',
       'bird', 'mammal', 'mammal', 'fish', 'bird', 'reptile', 'bird',
       'fish', 'mammal', 'mammal', 'bird', 'bird', 'mammal', 'bird',
       'bird', 'mammal', 'invertebrate', 'reptile', 'invertebrate',
       'fish', 'bird', 'mammal', 'mammal', 'amphibian', 'mammal',
       'invertebrate', 'mammal', 'mammal', 'insect', 'mammal', 'fish',
       'invertebrate', 'mammal', 'invertebrate', 'invertebrate', 'insect',
       'amphibian', 'mammal', 'reptile', 'amphibian', 'invertebrate',
       'mammal', 'fish', 'bird', 'mammal', 'mammal', 'bird', 'mammal',
       'mammal', 'fish', 'mammal', 'bird', 'fish'], dtype=object)

In [None]:
# Importando la función para medir el valor de precisión
from sklearn.metrics import accuracy_score

# Mediendo el valor de precisión
accuracy_score(entrenamientoY, predicciones_ent)

1.0

In [None]:
# Predeciendo el resultado del conjunto de prueba
predicciones_pr = modelo_rf.predict(pruebaX)
predicciones_pr

array(['insect', 'fish', 'bird', 'invertebrate', 'mammal', 'fish',
       'mammal', 'reptile', 'bird', 'mammal', 'invertebrate', 'mammal',
       'mammal', 'amphibian', 'mammal', 'mammal', 'invertebrate',
       'invertebrate', 'bird', 'mammal', 'mammal', 'mammal', 'mammal',
       'invertebrate', 'fish', 'bird', 'mammal', 'fish', 'mammal',
       'mammal', 'bird', 'bird', 'mammal', 'mammal', 'invertebrate',
       'mammal', 'bird', 'bird', 'invertebrate', 'bird', 'mammal'],
      dtype=object)

In [None]:
# Mediendo el valor de precisión
accuracy_score(pruebaY, predicciones_pr)

0.8780487804878049

## Estimador del número de árboles

### Ejercicio 4.02: Ajuste de *n_estimators* para reducir el sobreajuste
En este ejercicio se entrena un clasificador de Bosque Aleatorio para predecir el tipo de animal en función de sus atributos y se prueban 2 valores diferentes para el hiperparámetro *n_estimators*.

In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 1'
modelo_rf1 = RandomForestClassifier(random_state = 42, n_estimators = 1)

# Entrenando el modelo
modelo_rf1.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent1 = modelo_rf1.predict(entrenamientoX)
predicciones_pr1 = modelo_rf1.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent1))
print(accuracy_score(pruebaY, predicciones_pr1))

0.9166666666666666
0.8048780487804879


In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 30'
modelo_rf30 = RandomForestClassifier(random_state = 42, n_estimators = 30)

# Entrenando el modelo
modelo_rf30.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent30 = modelo_rf30.predict(entrenamientoX)
predicciones_pr30 = modelo_rf30.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent30))
print(accuracy_score(pruebaY, predicciones_pr30))

1.0
0.9024390243902439


## Profundidad máxima

### Ejercicio 4.03: Ajuste de *max_depth* para reducir el sobreajuste
En este ejercicio se ajusta el clasificador de Bosque Aleatorio que predice el tipo de animal probando dos valores diferentes para el hiperparámetro _max_depth_.

In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 30' y
# 'max_depth = 5'
modelo_rf30_5 = RandomForestClassifier(random_state = 42, n_estimators = 30,
                                       max_depth = 5)

# Entrenando el modelo
modelo_rf30_5.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent30_5 = modelo_rf30_5.predict(entrenamientoX)
predicciones_pr30_5 = modelo_rf30_5.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent30_5))
print(accuracy_score(pruebaY, predicciones_pr30_5))

1.0
0.9024390243902439


In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 30' y
# 'max_depth = 2'
modelo_rf30_2 = RandomForestClassifier(random_state = 42, n_estimators = 30,
                                       max_depth = 2)

# Entrenando el modelo
modelo_rf30_2.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent30_2 = modelo_rf30_2.predict(entrenamientoX)
predicciones_pr30_2 = modelo_rf30_2.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent30_2))
print(accuracy_score(pruebaY, predicciones_pr30_2))

0.9
0.8292682926829268


### Ejercicio 4.04: Ajuste de _min_samples_leaf_
En este ejercicio se ajusta el clasificador de Bosque Aleatorio que predice el tipo de animal probando dos valores diferentes para el hiperparámetro _min_samples_leaf_.


In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 30',
# 'max_depth = 2' y 'min_samples_leaf = 3'
modelo_rf30_2_3 = RandomForestClassifier(random_state = 42, n_estimators = 30,
                                         max_depth = 2, min_samples_leaf = 3)

# Entrenando el modelo
modelo_rf30_2_3.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent30_2_3 = modelo_rf30_2_3.predict(entrenamientoX)
predicciones_pr30_2_3 = modelo_rf30_2_3.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent30_2_3))
print(accuracy_score(pruebaY, predicciones_pr30_2_3))

0.8333333333333334
0.8048780487804879


In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 30',
# 'max_depth = 2' y 'min_samples_leaf = 7'
modelo_rf30_2_7 = RandomForestClassifier(random_state = 42, n_estimators = 30,
                                         max_depth = 2, min_samples_leaf = 7)

# Entrenando el modelo
modelo_rf30_2_7.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent30_2_7 = modelo_rf30_2_7.predict(entrenamientoX)
predicciones_pr30_2_7 = modelo_rf30_2_7.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent30_2_7))
print(accuracy_score(pruebaY, predicciones_pr30_2_7))

0.8
0.8048780487804879


### Ejercicio 4.05: Ajuste de _max_features_
En este ejercicio se ajusta el clasificador de Bosque Aleatorio que predice el tipo de animal probando dos valores diferentes para el hiperparámetro _max_features_.

In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 30',
# 'max_depth = 2', 'min_samples_leaf = 7' y 'max_features = 10'
modelo_rf30_2_7_10 = RandomForestClassifier(random_state = 42, n_estimators = 30,
                                            max_depth = 2, min_samples_leaf = 7,
                                            max_features = 10)

# Entrenando el modelo
modelo_rf30_2_7_10.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent30_2_7_10 = modelo_rf30_2_7_10.predict(entrenamientoX)
predicciones_pr30_2_7_10 = modelo_rf30_2_7_10.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent30_2_7_10))
print(accuracy_score(pruebaY, predicciones_pr30_2_7_10))

0.85
0.8048780487804879


In [None]:
# Instanciando el clasificado de Bosque Aleatorio con 'n_estimators = 30',
# 'max_depth = 2', 'min_samples_leaf = 7' y 'max_features = 0.2'
modelo_rf30_2_7_02 = RandomForestClassifier(random_state = 42, n_estimators = 30,
                                            max_depth = 2, min_samples_leaf = 7,
                                            max_features = 0.2)

# Entrenando el modelo
modelo_rf30_2_7_02.fit(entrenamientoX, entrenamientoY)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent30_2_7_02 = modelo_rf30_2_7_02.predict(entrenamientoX)
predicciones_pr30_2_7_02 = modelo_rf30_2_7_02.predict(pruebaX)

# Obteniendo los valores de precisión
print(accuracy_score(entrenamientoY, predicciones_ent30_2_7_02))
print(accuracy_score(pruebaY, predicciones_pr30_2_7_02))

0.8333333333333334
0.8048780487804879


### Actividad 4.01: Entrenar un clasificador de Bosque Aleatorio con el conjunto de datos ISOLET
En esta actividad se construye un modelo de clasificación capaz de reconocer las letras deletreadas por el usuario de un asistente de voz según las frecuencias de señal capturadas. Cada sonido puede capturarse y representarse como una señal compuesta por múltiples frecuencias.

Se utiliza el conjunto de datos ISOLET, extraído del UCI Machine Learning Repository.

In [None]:
# Guardando la url del archivo con los datos en una variable
urla = 'https://www.openml.org/data/get_csv/52405/phpB0xrN'

# Cargando los datos
dfa = pd.read_csv(urla)

# Inspeccionando los datos
dfa.head()

Unnamed: 0,f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,...,f609,f610,f611,f612,f613,f614,f615,f616,f617,class
0,-0.4394,-0.093,0.1718,0.462,0.6226,0.4704,0.3578,0.0478,-0.1184,-0.231,...,0.4102,0.2052,0.3846,0.359,0.5898,0.3334,0.641,0.5898,-0.4872,'1'
1,-0.4348,-0.1198,0.2474,0.4036,0.5026,0.6328,0.4948,0.0338,-0.052,-0.1302,...,0.0,0.2954,0.2046,0.4772,0.0454,0.2046,0.4318,0.4546,-0.091,'1'
2,-0.233,0.2124,0.5014,0.5222,-0.3422,-0.584,-0.7168,-0.6342,-0.8614,-0.8318,...,-0.1112,-0.0476,-0.1746,0.0318,-0.0476,0.1112,0.254,0.1588,-0.4762,'2'
3,-0.3808,-0.0096,0.2602,0.2554,-0.429,-0.6746,-0.6868,-0.665,-0.841,-0.9614,...,-0.0504,-0.036,-0.1224,0.1366,0.295,0.0792,-0.0072,0.0936,-0.151,'2'
4,-0.3412,0.0946,0.6082,0.6216,-0.1622,-0.3784,-0.4324,-0.4358,-0.4966,-0.5406,...,0.1562,0.3124,0.25,-0.0938,0.1562,0.3124,0.3124,0.2188,-0.25,'3'


In [None]:
# Extrayendo la variable objetivo
y = dfa.pop('class')

# Inspeccionando el dataframe resultante
dfa.head()

Unnamed: 0,f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,...,f608,f609,f610,f611,f612,f613,f614,f615,f616,f617
0,-0.4394,-0.093,0.1718,0.462,0.6226,0.4704,0.3578,0.0478,-0.1184,-0.231,...,0.3334,0.4102,0.2052,0.3846,0.359,0.5898,0.3334,0.641,0.5898,-0.4872
1,-0.4348,-0.1198,0.2474,0.4036,0.5026,0.6328,0.4948,0.0338,-0.052,-0.1302,...,0.2272,0.0,0.2954,0.2046,0.4772,0.0454,0.2046,0.4318,0.4546,-0.091
2,-0.233,0.2124,0.5014,0.5222,-0.3422,-0.584,-0.7168,-0.6342,-0.8614,-0.8318,...,0.0952,-0.1112,-0.0476,-0.1746,0.0318,-0.0476,0.1112,0.254,0.1588,-0.4762
3,-0.3808,-0.0096,0.2602,0.2554,-0.429,-0.6746,-0.6868,-0.665,-0.841,-0.9614,...,0.0648,-0.0504,-0.036,-0.1224,0.1366,0.295,0.0792,-0.0072,0.0936,-0.151
4,-0.3412,0.0946,0.6082,0.6216,-0.1622,-0.3784,-0.4324,-0.4358,-0.4966,-0.5406,...,0.2812,0.1562,0.3124,0.25,-0.0938,0.1562,0.3124,0.3124,0.2188,-0.25


In [None]:
# Separando los datos de prueba y entrenamiento
entrenamientoXa, pruebaXa, entrenamientoYa, pruebaYa = train_test_split(dfa, y, test_size = 0.3,
                                                                        random_state = 188)

# Instanciando el clasificador de Bosque Aleatorio
modelo_rf_a = RandomForestClassifier(random_state = 42)

# Entrenando el modelo
modelo_rf_a.fit(entrenamientoXa, entrenamientoYa)

# Predeciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent_a = modelo_rf_a.predict(entrenamientoXa)
predicciones_pr_a = modelo_rf_a.predict(pruebaXa)

# Obteniendo los puntajes de precisión
print(accuracy_score(entrenamientoYa, predicciones_ent_a))
print(accuracy_score(pruebaYa, predicciones_pr_a))

1.0
0.9320512820512821


Como primer resultado se muestra los valores de precisión obtenidos con los parámetros por defecto, como hay overfiting se probó con diferentes valores para los parámetros, el mejor resultado es el que se muestra en el bloque siguiente.

In [None]:
# Instanciando el clasificador de Bosque Aleatorio usando 'n_estimators = 50',
# 'max_depth = 5' y 'min_samples_leaf = 10'
modelo_rf_a50_10_10 = RandomForestClassifier(random_state = 42, n_estimators = 150,
                                             max_depth = 7, min_samples_leaf = 30)

# Entrenando el modelo
modelo_rf_a50_10_10.fit(entrenamientoXa, entrenamientoYa)

# Prediciendo el resultado de los conjuntos de prueba y entrenamiento
predicciones_ent_a50_10_10 = modelo_rf_a50_10_10.predict(entrenamientoXa)
predicciones_pr_a50_10_10 = modelo_rf_a50_10_10.predict(pruebaXa)

# Obteniendo los puntajes de precisión
print(accuracy_score(entrenamientoYa, predicciones_ent_a50_10_10))
print(accuracy_score(pruebaYa, predicciones_pr_a50_10_10))

0.9133223382811069
0.8837606837606837
