<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Los modelos de scikit-learn</font>**

<p align="justify">
👀 Scikit-learn es la biblioteca de aprendizaje automático que proporciona una amplia gama de algoritmos para tareas de clasificación, regresión, clustering, reducción de dimensionalidad, selección de características y más.
<br><br>
A continuación, una descripción general de algunos de los modelos más comunes:
<br><br>
<ol align="justify">
<li>
<b>Regresión lineal y regresión logística:</b><ul>
<li>
La regresión lineal se utiliza para modelar la relación entre una variable dependiente y una o más variables independientes mediante una línea recta.
</li>
<li>
La regresión logística se utiliza para problemas de clasificación binaria, donde el objetivo es predecir la probabilidad de que una observación pertenezca a una clase específica.
</li></ul>
</li>
<li>
<b>Support Vector Machines (SVM):</b><ul><li>
   SVM es un algoritmo de aprendizaje supervisado que se utiliza tanto para clasificación como para regresión. Su objetivo es encontrar el hiperplano que mejor separa las clases en el espacio de características.
   </li></ul>
</li>
<li>
<b>Árboles de decisión y Bosques Aleatorios:</b><ul>
<li>
Los árboles de decisión son modelos de aprendizaje supervisado que representan decisiones en forma de árbol. Cada nodo interno representa una característica, cada borde representa una regla de decisión y cada hoja representa el resultado.
</li><li>
Los Bosques Aleatorios son un conjunto de árboles de decisión entrenados en subconjuntos aleatorios de datos y características. Combina múltiples árboles para mejorar la precisión y reducir el sobreajuste.</li></ul>
</li>
<li>
<b>K vecinos más cercanos (KNN):</b><ul><li>
   KNN es un algoritmo de clasificación y regresión que utiliza las observaciones más cercanas en el espacio de características para hacer predicciones. Se basa en la suposición de que puntos similares en el espacio de características tienden a tener etiquetas similares.</li></ul>
</li>
<li>
<b>Clustering (K-Means, DBSCAN):</b><ul>
<li>
   K-Means es un algoritmo de clustering que agrupa datos en k grupos basados en la similitud de sus características.
   </li>
   <li>
   DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo de clustering basado en la densidad que puede identificar grupos de cualquier forma en un conjunto de datos.</li></ul>
</li>
<li>
<b>Redes Neuronales Artificiales (Perceptrón multicapa):</b><ul><li>
   El perceptrón multicapa es una arquitectura de red neuronal artificial que consta de múltiples capas de nodos, incluyendo una capa de entrada, una o más capas ocultas y una capa de salida. Se utiliza para problemas de clasificación y regresión más complejos.</li></ul>
</li>
</ol>
<br>
<p align="justify">
✅ Estos son algunos de los modelos de scikit-learn. Cada modelo tiene sus propias fortalezas y debilidades, y la elección del modelo adecuado depende del problema específico que se esté abordando y de las características de los datos.

 # **<font color="DeepPink">Primer modelo con scikit-learn</font>**

❤ https://scikit-learn.org/stable/

<p align="justify">
👀 En este Colab, vamos a construir un modelo predictivo de datos tabulares y solo con las variables numéricas. <br><br>En particular, se destacan las siguientes funciones y métodos:
</p>

- <code>.fit(X, y)</code> para entrenar.
- <code>.predict(X)</code> para predecir.
- <code>.score(X, y)</code> para evaluar la predicción.
- Evaluación del rendimiento del modelo con:
     - un conjunto de datos de entrenamiento.
     - un conjunto de datos de prueba.

<p align="justify"> 👀 Los <mark>datos numéricos</mark> son el tipo de datos que <mark>se utilizan naturalmente en los modelos de aprendizaje automático</mark> y pueden incorporarse directamente a los modelos predictivos, bueno, casi directamente (conviene normalizarlos).<br><br> Ahora a continuación, vamos a cargar un conjunto de  datos, pero solo vamos a trabajar con las columnas numéricas. Por eso, habilitamos <code>Pandas</code>, <code>Numpy</code> y leemos los datos de <code>Github</code>.</p>

In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

<p align="justify">
👀 Vamos a trabajar con los datos del censo.
</p>

Las columnas son:

- Edad - Age
- Clase de Trabajo - Workclass
- Educacion - Education
- Educacion numerica - Education num
- Estado civil - Marital status
- Ocupacion - Occupation
- Relacion - Relationship
- Raza - Race
- Sexo - Sex
- Ganancia de capital - Capital gain
- Perdida de capital - Capital loss
- Horas por semana - Hours per week
- Pais nativo - Native country
- Clase - Class

In [None]:
adult_census.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   education-num   48842 non-null  int64 
 4   marital-status  48842 non-null  object
 5   occupation      48842 non-null  object
 6   relationship    48842 non-null  object
 7   race            48842 non-null  object
 8   sex             48842 non-null  object
 9   capital-gain    48842 non-null  int64 
 10  capital-loss    48842 non-null  int64 
 11  hours-per-week  48842 non-null  int64 
 12  native-country  48842 non-null  object
 13  class           48842 non-null  object
dtypes: int64(5), object(9)
memory usage: 5.2+ MB


<p align="justify">
👀 Asignamos a un objeto la variable objetivo:
</p>


In [None]:
target_column = "class"

<p align="justify">
👀 Generamos la lista de las variables (columnas) numericas.
</p>


In [None]:
numerical_columns = ["age",
                     "education-num",
                     "capital-gain",
                     "capital-loss",
                     "hours-per-week"]

<p align="justify">
👀 Las columnas numéricas y la variable objetivo.
</p>

In [None]:
all_columns = numerical_columns + [target_column]

In [None]:
df = adult_census[all_columns]

👀 Ahora si, nuestro <code>DataFrame</code> de columnas numéricas..., excepto la variable objetivo que no es numérica...

In [None]:
df

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week,class
0,25,7,0,0,40,<=50K
1,38,9,0,0,50,<=50K
2,28,12,0,0,40,>50K
3,44,10,7688,0,40,>50K
4,18,10,0,0,30,<=50K
...,...,...,...,...,...,...
48837,27,12,0,0,38,<=50K
48838,40,9,0,0,40,>50K
48839,58,9,0,0,40,<=50K
48840,22,9,0,0,20,<=50K


In [None]:
df.dtypes

age                int64
education-num      int64
capital-gain       int64
capital-loss       int64
hours-per-week     int64
class             object
dtype: object

<p align="justify">
✅ El objetivo con estos datos es predecir si una persona gana más de 50K al año a partir de las variables que se encuentran a disposición.
</p>



 # **<font color="DeepPink">Algunos conceptos de Aprendizaje Automático</font>**

<p align="justify">
✅ En general, un problema de <b>Aprendizaje Automático</b> considera un conjunto de $n$ muestras de datos y luego trata de predecir las propiedades de los datos desconocidos. Si cada muestra es más que un solo número, por ejemplo los datos multivariados, se dice que la muestra tiene varios atributos o características.
<br><br> Vamos a dividir los problemas de Aprendizaje Automático en dos categorías:
<br><br>
</p>
<ul align="justify">
<li>
<b>Aprendizaje Supervisado</b>, en el que los datos vienen con atributos adicionales que queremos predecir. El Aprendizaje Supervisado puede ser de:
<ul><li>
<b>Clasificación</b>: las muestras pertenecen a dos (clasificacion binaria) o más clases (clasificacion multiclase) y queremos aprender de los datos ya etiquetados (variable objetivo) para predecir la clase de aquellos datos que no estan etiquetados (datos nuevos). Un ejemplo de un problema de clasificación binaria sería la predicción de la contratación de un seguro ofrecido por un banco, en virtud de las caracteristicas de los clientes del banco.
</li>
<li>
<b>Regresión</b>: si la salida deseada consiste en una o más variables continuas, entonces este modelo se llama regresión. Un ejemplo de un problema de regresión sería la predicción del precio de una propiedad en virtud de las caracteristicas de la propiedad.
</li></ul><br>
<li>
<b>Aprendizaje no Supervisado</b>, en el que los datos de entrenamiento consisten en un conjunto de vectores de entrada $x$ sin ninguna variable objetivo correspondiente, ya que el objetivo de tales problemas de Aprendizaje no Supervisado puede ser descubrir grupos de ejemplos similares dentro de los datos, lo que se denomina agrupamiento, o determinar la distribución de los datos, conocido como estimación de densidad, o proyectar los datos desde un punto de vista de dimensión, como por ejemplo, reducir el espacio a dos o tres dimensiones con el propósito de visualización.


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/ML-001.png?raw=true" width="500">
</p>


 # **<font color="DeepPink">Separar la variable objetivo y las variables explicativas</font>**

👀 Ahora vamos a dividir del conjunto de datos, la variable objetivo y las variables explicativas, es decir, vamos a obtener una <code>Serie</code> para la variable objetivo y un <code>DataFrame</code> con las variables explicativas...

 ## **<font color="DeepPink">Variable objetivo</font>**

In [None]:
y = df[target_column]
y

0         <=50K
1         <=50K
2          >50K
3          >50K
4         <=50K
          ...  
48837     <=50K
48838      >50K
48839     <=50K
48840     <=50K
48841      >50K
Name: class, Length: 48842, dtype: object

👀 Verificamos que el objeto es una <code>Serie</code>...

In [None]:
type(y)

 ## **<font color="DeepPink">Variables explicativas</font>**

In [None]:
X = df.drop(columns=["class"])
X

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week
0,25,7,0,0,40
1,38,9,0,0,50
2,28,12,0,0,40
3,44,10,7688,0,40
4,18,10,0,0,30
...,...,...,...,...,...
48837,27,12,0,0,38
48838,40,9,0,0,40
48839,58,9,0,0,40
48840,22,9,0,0,20


👀 Verificamos que el objeto es un <code>DataFrame</code>...

In [None]:
type(X)

👀 Todas las columnas del <code>DataFrame</code> son numéricas...

In [None]:
X.dtypes

age               int64
education-num     int64
capital-gain      int64
capital-loss      int64
hours-per-week    int64
dtype: object

In [None]:
X.shape

(48842, 5)

In [None]:
print("")
print(f"El conjunto de datos contiene {X.shape[0]} registros y "
      f"{X.shape[1]} variables explicativas")


El conjunto de datos contiene 48842 registros y 5 variables explicativas


 # **<font color="DeepPink">Ajustar un modelo y hacer predicciones</font>**

<p align="justify">
👀 Construiremos un modelo de clasificación binaria usando el algoritmo <code>K-vecinos más cercanos</code>. Para predecir la variable objetivo de una  muestra nueva, un modelo <code>k-vecinos más cercanos</code> toma en cuenta sus $k$ más cercanas en el conjunto de datos de entrenamiento y predice el objetivo mayoritario de estas muestras analizadas.
</p>


https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [None]:
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
_ = model.fit(X, y)

<p align="justify">
👀 El método <code>fit</code> que vamos a utilizar, se compone de dos elementos:
</p>

- Un algoritmo de aprendizaje, y
- Algunos estados de los modelos.

<p align="justify">
El algoritmo de aprendizaje toma el conjunto de datos de entrenamiento y la variable objetivo de entrenamiento como entrada, es decir como <code>input</code> y establece los estados del modelo. Estos estados de los modelos se usarán más tarde para predecir (para clasificadores y regresores)
o para transformar datos (para transformadores). <br><br>Tanto el algoritmo de aprendizaje como el tipo de estado del modelo son específicos de cada modelo.
</p>

<p align="justify">
👀 Ahora bien, para predecir un modelo se utiliza una función de predicción. El método que se utiliza es <code>predict()</code>.
</p>


In [None]:
target_predicted = model.predict(X)

<p align="justify">
👀 Ahora observamos las predicciones generadas. Solo veremos las primeras 10  predicciones...
</p>


In [None]:
target_predicted[:10]

array([' <=50K', ' <=50K', ' <=50K', ' >50K', ' <=50K', ' <=50K',
       ' <=50K', ' >50K', ' <=50K', ' <=50K'], dtype=object)

👀 Y vemos los datos reales...

In [None]:
y[:10]

0     <=50K
1     <=50K
2      >50K
3      >50K
4     <=50K
5     <=50K
6     <=50K
7      >50K
8     <=50K
9     <=50K
Name: class, dtype: object

👀 Y comparamos los datos reales, con las predicciones, solo para las primeras 10 muestras...

In [None]:
y[:10] == target_predicted[:10]

0     True
1     True
2    False
3     True
4     True
5     True
6     True
7     True
8     True
9     True
Name: class, dtype: bool

👀 Y podemos ver cuantas predicciones son correctas para estas 10 muestras...

In [None]:
print("")
print(f"Número de predicciones correctas: "
      f"{(y[:10] == target_predicted[:10]).sum()} / 10")


Número de predicciones correctas: 9 / 10


👀 Y podemos calcular la media de las predicciones correctas...

In [None]:
(y == target_predicted).mean().round(2)

0.85

<p align="justify">
👀 Este resultado significa que el modelo hace una predicción correcta para aproximadamente $85$ muestras de $100$ muestras. Hay que tener en cuenta que usamos los mismos datos para entrenar y para evaluar el modelo. ¿Se puede confiar en esta evaluación, o esta evaluación es demasiado buena para ser verdad?.
<br><br>Para poder responder esa interrogante, en vez de trabajar con todas las muestras, vamos a dividir nuestros datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba...
</p>


 # **<font color="DeepPink">División de datos de entrenamiento y prueba</font>**

<p align="justify">
👀 Al construir un modelo de aprendizaje automático, es importante evaluar el modelo entrenado en datos que no se usaron para ajustarlo <code>fit</code>, ya que la generalización de un modelo es más que la memorización.
<br><br>
Esto significa que queremos un modelo de aprendizaje que generalice a nuevos datos, y no un modelo que compara con los datos que memorizamos.
<br><br>
Es más difícil concluir sobre casos nunca vistos, que concluir sobre los casos que ya hemos vistos. Por este motivo, es que se plantea una división de los datos disponibles.
<br><br>
Por ese motivo, los datos utilizados para ajustar un modelo se denominan datos de entrenamiento, mientras que los datos utilizados para evaluar un modelo se denominan datos de prueba, es decir, dividimos el conjunto de datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.
</p>


👀 Nuestro <code>DataFrame</code> tiene las siguientes dimensiones...

In [None]:
df.shape

(48842, 6)

<p align="justify">
👀 Vamos a tomar una muestra de 9768 muestras (indices) y luego vamos a resetear el indice de nuestro <code>DataFrame</code> con el método <code>reset_index()</code>. A destacar, usamos el parámetro <code>random_state</code> para ajustar la pseudoalietoriedad de la selección de las muestras... Este valor es aproximadamente el $20$% de las muestras del <code>DataFrame</code>...

In [None]:
df_test = df.sample(9768, random_state=123)
df_test.reset_index(drop=True, inplace=True)

In [None]:
round((df_test.shape[0]/df.shape[0]),2)


0.2

👀 Ahora tenemos un <code>DataFrame</code> de testeo...

In [None]:
df_test

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week,class
0,52,9,0,0,40,<=50K
1,19,6,0,0,30,<=50K
2,31,9,0,0,40,<=50K
3,25,13,0,0,40,<=50K
4,36,4,0,0,35,<=50K
...,...,...,...,...,...,...
9763,46,9,0,0,40,<=50K
9764,33,9,0,0,40,>50K
9765,60,9,0,0,50,<=50K
9766,38,10,0,0,40,>50K


In [None]:
df_test.shape

(9768, 6)

👀 De este <code>DataFrame</code> de testeo, separamos en variable objetivo y vector de caracteristicas, la variable objetivo es nuestra $y$, el vector de caracteristicas es nuestro $X$...

In [None]:
y_test = df_test["class"]
X_test = df_test.drop(columns=["class"])

In [None]:
y_test.shape

(9768,)

In [None]:
X_test.shape

(9768, 5)

In [None]:
print("")
print(f"El conjunto de prueba contiene {X_test.shape[0]} registros y "
      f"{X.shape[1]} variables explicativas.")


El conjunto de prueba contiene 9768 registros y 5 variables explicativas.


<p align="justify">
👀 En lugar de calcular la predicción y calcular manualmente la tasa de éxito promedio de esa predicción, podemos usar la puntuación del método. Cuando se trata de clasificadores, este método devuelve su métrica de rendimiento.
</p>


In [None]:
model

In [None]:
accuracy = model.score(X_test, y_test).round(5)
accuracy.round(2)

0.85

👀 El nombre del modelo es...

In [None]:
model_name = model.__class__.__name__
model_name

'KNeighborsClassifier'

In [None]:
print("")
print(f"El accuracy del modelo {model_name} es "
      f"{accuracy:.2f}")


El accuracy del modelo KNeighborsClassifier es 0.85


<p align="justify">
👀 Para calcular la puntuación de la métrica, el predictor primero calcula las predicciones (usando el método de predicción) y luego usa una función de puntuación para comparar la variable objetivo real y las predicciones realizadas. Finalmente, se devuelve la puntuación obtenida en virtud de los aciertos en las predicciones.<br><br>Por lo tanto, es importante probar siempre el rendimiento de generalización de los modelos predictivos en un conjunto diferente al utilizado para entrenar los modelos, en este caso en el conjunto de prueba.
</p>


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:
<br><br>
✅ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>
✅ Examinamos las variables numéricas.
<br>  
✅ Hicimos un modelo con todo el conjunto de datos.
<br>
✅ Tambien generamos un conjunto de datos de prueba, para evaluar.</p>


<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
