# Árboles para clasificación

Es una estructura de árbol en la que cada nodo interno representa una decisión basada en el valor de una característica, cada rama representa el resultado de una prueba y cada hoja representa una clase.

Lo árboles de decisión son útiles en:

- **Conjuntos de datos complejos**.
- **No hay suposiciones sobre distribución de datos**.

![Árboles de clasificación](https://upload.wikimedia.org/wikipedia/commons/f/f3/CART_tree_titanic_survivors.png)

#### Ventajas y desventajas

**Ventajas**

1. **Interpretabilidad**: Fácil de entender y visualizar, permitiendo la interpretación de resultados.
2. **Manejo de datos mixtos**: Puede manejar datos categóricos y numéricos.
3. **No requiere normalización de los datos**.

**Desventajas**

1. **Sobreajuste**: Puede ser propenso al sobreajuste.
2. **Inestabilidad**: Pequeñas variaciones en los datos pueden resultar en árboles diferentes, lo que los hace inestables.
3. **Sensible a datos ruidosos**.

In [None]:
import pandas as pd
data = pd.read_csv('/content/sample_data/Social_Network_Ads.csv')
X = data.iloc[:, [2, 3]]
y = data.iloc[:, -1].values
gender = data[['Gender']]

from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
data_cat_1hot = cat_encoder.fit_transform(gender)
encoded_df = pd.DataFrame(data_cat_1hot.toarray(), columns = cat_encoder.get_feature_names_out())
data1 = pd.concat([X, encoded_df], axis = 1)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

from sklearn.tree import DecisionTreeClassifier
cls = DecisionTreeClassifier()
cls.fit(X_train, y_train)

y_pred = cls.predict(X_test)

from sklearn.metrics import confusion_matrix
print(confusion_matrix(y_test, y_pred))

from sklearn.metrics import precision_score, recall_score
print('Precision:',precision_score(y_test, y_pred))
print('Recall:',recall_score(y_test, y_pred))

from sklearn.metrics import f1_score
print('F1:',f1_score(y_test, y_pred))

[[62  6]
 [ 4 28]]
Precision: 0.8235294117647058
Recall: 0.875
F1: 0.8484848484848485


# Bosques aleatorios para clasificación

Un bosque aleatorio es un conjunto de árboles de decisión individuales entrenados en diferentes subconjuntos de datos y características. En el contexto de clasificación, cada árbol en el bosque realiza una predicción y la clase que recibe más votos se selecciona como la predicción final del bosque.

Los bosques aleatorios son útiles en situaciones donde:

- **Se necesita alta precisión y generalización**.
- **conjuntos de datos complejos**.
- **Interpretación intermedia**.

![Bosque aleatorio para clasificación](https://www.ibm.com/content/dam/connectedassets-adobe-cms/worldwide-content/cdp/cf/ul/g/50/f9/ICLH_Diagram_Batch_03_27-RandomForest.component.xl.ts=1682648022276.png/content/adobe-cms/mx/es/topics/random-forest/jcr:content/root/table_of_contents/body/content_section_styled/content-section-body/simple_narrative0/image)

#### Ventajas y desventajas

**Ventajas**
1. **Alta precisión**
2. **Robustez**: Es robusto ante sobreajuste debido al muestro aleatorio y la combinación de múltiples árboles
3. **Manejo de datos desbalanceados**: Puede manejar problemas de clasificación desbalanceada de manera efectiva

**Desventajas**
1. **Menos interpretable que un solo árbol**.
2. **Menos eficiente en conjuntos de datos pequeños**.
3. **Tiempo de entrenamiento**: Puede llevar más tiempo que el entrenamiento de un solo árbol, especialmente en conjuntos de datos grandes.

In [None]:
import pandas as pd
data = pd.read_csv('/content/sample_data/Social_Network_Ads.csv')
X = data.iloc[:, [2, 3]]
y = data.iloc[:, -1].values
gender = data[['Gender']]

from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
data_cat_1hot = cat_encoder.fit_transform(gender)
encoded_df = pd.DataFrame(data_cat_1hot.toarray(), columns = cat_encoder.get_feature_names_out())
data1 = pd.concat([X, encoded_df], axis = 1)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

from sklearn.ensemble import RandomForestClassifier
cls = RandomForestClassifier(n_estimators=40)
cls.fit(X_train, y_train)

y_pred = cls.predict(X_test)

from sklearn.metrics import confusion_matrix
print(confusion_matrix(y_test, y_pred))

from sklearn.metrics import precision_score, recall_score
print('Precision:',precision_score(y_test, y_pred))
print('Recall:',recall_score(y_test, y_pred))

from sklearn.metrics import f1_score
print('F1:',f1_score(y_test, y_pred))

[[64  4]
 [ 4 28]]
Precision: 0.875
Recall: 0.875
F1: 0.875
