<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/algoritmos/bds_random_forest_001_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Random Forest, Clasificación</font>**

<p align="justify">
👀 Recordando, un bosque aleatorio es un algoritmo de aprendizaje automático que se utiliza para la clasificación y la regresión. Es un conjunto de árboles de decisión que se entrenan de forma independiente y luego se combinan para hacer una predicción.


 # **<font color="DeepPink">Datos</font>**

In [1]:
import pandas as pd
import numpy as np

In [2]:
datos = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/income.csv"

In [3]:
income = pd.read_csv(datos)

In [4]:
income

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income >50K
0,39,State-gov,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,0
1,50,Self-emp-not-inc,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,0
2,38,Private,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,0
3,53,Private,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,0
4,28,Private,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,0
32557,40,Private,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,1
32558,58,Private,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,0
32559,22,Private,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,0


In [5]:
income.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   education       32561 non-null  object
 3   education-num   32561 non-null  int64 
 4   marital-status  32561 non-null  object
 5   occupation      30718 non-null  object
 6   relationship    32561 non-null  object
 7   race            32561 non-null  object
 8   sex             32561 non-null  object
 9   capital-gain    32561 non-null  int64 
 10  capital-loss    32561 non-null  int64 
 11  hours-per-week  32561 non-null  int64 
 12  native-country  31978 non-null  object
 13  income >50K     32561 non-null  int64 
dtypes: int64(6), object(8)
memory usage: 3.5+ MB


In [6]:
target_name = "income >50K"
target = income[target_name]
data = income.drop(columns=[target_name])

 # **<font color="DeepPink">Ajuste del modelo</font>**

 # **<font color="DeepPink">Preprocesamiento de los datos</font>**


In [7]:
from sklearn.compose import make_column_selector as selector

In [8]:
numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)

In [9]:
numerical_columns = numerical_columns_selector(data)
categorical_columns = categorical_columns_selector(data)

In [10]:
numerical_columns

['age', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']

In [11]:
categorical_columns

['workclass',
 'education',
 'marital-status',
 'occupation',
 'relationship',
 'race',
 'sex',
 'native-country']

In [12]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [13]:
categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
numerical_preprocessor = StandardScaler()

In [14]:
from sklearn.compose import ColumnTransformer

In [15]:
preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns),
    ('standard_scaler', numerical_preprocessor, numerical_columns)])

In [16]:
preprocessor

 # **<font color="DeepPink">Creación del modelo</font>**


In [17]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline

In [18]:
model = make_pipeline(preprocessor, RandomForestClassifier(random_state = 123))
model

 # **<font color="DeepPink">Train-test, división del conjunto de datos</font>**

In [19]:
from sklearn.model_selection import train_test_split

In [20]:
data_train, data_test, target_train, target_test = train_test_split(data,
                                                                    target,
                                                                    random_state=123)

 # **<font color="DeepPink">Ajuste y prediccion</font>**

In [21]:
model.fit(data_train, target_train)

In [22]:
model.score(data_test, target_test)

0.8507554354501904

 # **<font color="DeepPink">Matriz de confusión</font>**

<p align="justify">
La matriz de confusión es una herramienta comúnmente utilizada para evaluar el rendimiento de un modelo de clasificación, especialmente cuando se trata de problemas de dos clases, como la clasificación binaria, donde solo hay dos clases posibles: la clase 0 y la clase 1.
<br>
<br>
En un modelo de clasificación binaria, los resultados de las predicciones se pueden resumir en cuatro términos:

<ol align="justify">
<li><b>Verdaderos positivos (TP)</b>: Representa el número de muestras que pertenecen a la clase 1 (positiva) y fueron clasificadas correctamente como clase 1.</li><br>
<li><b>Verdaderos negativos (TN)</b>: Representa el número de muestras que pertenecen a la clase 0 (negativa) y fueron clasificadas correctamente como clase 0.</li><br>
<li><b>Falsos positivos (FP)</b>: Representa el número de muestras que pertenecen a la clase 0 (negativa) pero fueron incorrectamente clasificadas como clase 1.</li><br>
<li><b>Falsos negativos (FN)</b>: Representa el número de muestras que pertenecen a la clase 1 (positiva) pero fueron incorrectamente clasificadas como clase 0.</li>

In [23]:
from sklearn.metrics import confusion_matrix

In [24]:
mat_confusion = confusion_matrix(y_true = target_test,
                                 y_pred = model.predict(data_test))

In [25]:
mat_confusion

array([[5677,  488],
       [ 727, 1249]])

In [29]:
import plotly.express as px

In [56]:
fig = px.imshow(mat_confusion,
                text_auto=True,
                labels=dict(x="Predict", y="True", color="Muestras"),
                x=['0', '1'],
                y=['0 ', '1 '])

fig.update_coloraxes(showscale=False)

fig.show()

 # **<font color="DeepPink">Reporte</font>**

In [26]:
from sklearn.metrics import classification_report

In [27]:
report = classification_report(y_true    = target_test,
                               y_pred    = model.predict(data_test)
                               )

In [28]:
print(report)

              precision    recall  f1-score   support

           0       0.89      0.92      0.90      6165
           1       0.72      0.63      0.67      1976

    accuracy                           0.85      8141
   macro avg       0.80      0.78      0.79      8141
weighted avg       0.85      0.85      0.85      8141



 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:
<br><br>
✅ Cargamos los datos y le dimos estructura de <code>DataFrame</code> usando <code>Pandas</code>.<br>
✅ Generamos un modelo base de <code>Random Forest</code> para clasificación.
<br>
✅ Generamos la matriz de confusión.
<br>
✅ Generamos el reporte de metricas para clasificación.
<br>


<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
