 # **<font color="DarkOrange">Introducción a Scikit-learn</font>**

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DarkOrange">Historia de scikit-learn</font>**

<p align="justify">  
La historia de <b>scikit-learn</b> es fascinante, ya que refleja cómo un proyecto de código abierto puede transformarse en una herramienta indispensable en el ecosistema de Python para aprendizaje automático. Su desarrollo y crecimiento no solo han sido un logro técnico, sino también un ejemplo de colaboración comunitaria exitosa.  
<br><br>  
👀 <b>Resumen de su historia:</b>
<br><br>  
<ol align="justify">  
<li>  
<b>Orígenes y lanzamiento inicial:</b>  
Scikit-learn fue creado en 2007 por **David Cournapeau** como parte de su tesis doctoral en la Universidad Tecnológica de Nueva Gales del Sur, en Australia. En sus inicios, se llamó "scikits.learn" y se diseñó como un proyecto de código abierto para proporcionar herramientas simples y eficientes para aprendizaje automático en Python. La biblioteca estaba destinada a complementar la funcionalidad de SciPy. La primera versión pública fue lanzada en 2010, marcando el inicio de una revolución en la accesibilidad al aprendizaje automático para programadores e investigadores.  
</li>  
<br>  
<li>  
<b>Crecimiento y adopción:</b>  
Desde su primera versión, scikit-learn ha experimentado un crecimiento exponencial. A lo largo de los años, se han añadido una amplia gama de algoritmos de aprendizaje automático (supervisado y no supervisado), herramientas de preprocesamiento de datos, técnicas de selección de características, métodos de evaluación de modelos y utilidades para crear flujos de trabajo eficientes. Este continuo desarrollo ha sido crucial para su adopción masiva en diversas industrias y campos académicos.  
</li>  
<br>  
<li>  
<b>Contribuciones y comunidad:</b>  
El éxito de scikit-learn se debe en gran medida a su comunidad activa de desarrolladores y colaboradores. Desde 2010, cientos de contribuyentes han participado en el proyecto, añadiendo nuevas funcionalidades, corrigiendo errores y mejorando la documentación. Además, el liderazgo de organizaciones como Inria (Instituto Nacional de Investigación en Informática y Automática, de Francia) y la Fundación NumFOCUS ha garantizado la sostenibilidad del proyecto.  
</li>  
<br>  
<li>  
<b>Reconocimiento y uso generalizado:</b>  
Hoy en día, scikit-learn es una biblioteca estándar para estudiantes, investigadores, académicos y profesionales de la industria. Su enfoque en la simplicidad, documentación clara y amplia gama de algoritmos lo han convertido en una herramienta esencial. Es comúnmente utilizado en áreas como la predicción de tendencias, el análisis financiero, la biología computacional y la minería de datos, entre muchas otras.  
</li>  
<br>  
<li>  
<b>Integración con el ecosistema de Python:</b>  
Scikit-learn es altamente compatible con otras bibliotecas de Python, como NumPy, SciPy, Pandas, Matplotlib, Seaborn y Plotly. Esta integración permite a los usuarios construir flujos de trabajo completos para el análisis de datos, desde la limpieza inicial hasta la visualización de resultados y el despliegue de modelos predictivos. Su sinergia con estas herramientas ha sido un factor clave en su éxito.  
</li>  
<br>  
<li>  
<b>Impacto en la educación:</b>  
Además de su uso en la industria, scikit-learn ha transformado la enseñanza del aprendizaje automático. Su facilidad de uso y enfoque pedagógico lo convierten en la biblioteca ideal para introducir conceptos complejos de manera accesible. Muchos cursos y programas de análisis de datos y ciencia de datos en todo el mundo lo utilizan como herramienta principal.  
</li>  
</ol>  
<br>  
<p align="justify">  
✅ La historia de scikit-learn es la de un proyecto que, desde sus humildes comienzos, se ha convertido en una de las bibliotecas más populares, versátiles y respetadas del aprendizaje automático en Python. Su simplicidad, funcionalidad robusta y comunidad activa han sido pilares de su éxito, consolidándolo como una herramienta imprescindible para el análisis de datos y el desarrollo de modelos predictivos.  
</p>  

 # **<font color="DarkOrange">Primer modelo con scikit-learn</font>**

❤ https://scikit-learn.org/stable/

<p align="justify">
👀 En este Colab, vamos a construir un modelo predictivo de datos tabulares y solo con las variables numéricas. <br><br>En particular, se destacan las siguientes funciones y métodos:
</p>

- <code>.fit(X, y)</code> para entrenar.
- <code>.predict(X)</code> para predecir.
- <code>.score(X, y)</code> para evaluar la predicción.
- Evaluación del rendimiento del modelo con:
     - un conjunto de datos de entrenamiento.
     - un conjunto de datos de prueba.

<p align="justify"> 👀 Los <mark>datos numéricos</mark> son el tipo de datos que <mark>se utilizan naturalmente en los modelos de aprendizaje automático</mark> y pueden incorporarse directamente a los modelos predictivos, bueno, casi directamente (conviene normalizarlos).<br><br> Ahora a continuación, vamos a cargar un conjunto de  datos, pero solo vamos a trabajar con las columnas numéricas. Por eso, habilitamos <code>Pandas</code>, <code>Numpy</code> y leemos los datos de <code>Github</code>.</p>

In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

In [None]:
adult_census

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,Private,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
48838,40,Private,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
48839,58,Private,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
48840,22,Private,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


<p align="justify">
👀 Asignamos a un objeto la variable objetivo:
</p>


In [None]:
target_column = "class" # este es el nombre de la variable

<p align="justify">
👀 Generamos la lista de las variables (columnas) numericas.
</p>


In [None]:
numerical_columns = ["age",
                     "education-num",
                     "capital-gain",
                     "capital-loss",
                     "hours-per-week"]

<p align="justify">
👀 Las columnas numéricas y la variable objetivo.
</p>

In [None]:
all_columns = numerical_columns + [target_column]

In [None]:
all_columns

['age',
 'education-num',
 'capital-gain',
 'capital-loss',
 'hours-per-week',
 'class']

In [None]:
df = adult_census[all_columns]

👀 Ahora si, nuestro <code>DataFrame</code> de columnas numéricas..., excepto la variable objetivo que no es numérica...

In [None]:
df.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,48842.0,38.64,13.71,17.0,28.0,37.0,48.0,90.0
education-num,48842.0,10.08,2.57,1.0,9.0,10.0,12.0,16.0
capital-gain,48842.0,1079.07,7452.02,0.0,0.0,0.0,0.0,99999.0
capital-loss,48842.0,87.5,403.0,0.0,0.0,0.0,0.0,4356.0
hours-per-week,48842.0,40.42,12.39,1.0,40.0,40.0,45.0,99.0


In [None]:
df

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week,class
0,25,7,0,0,40,<=50K
1,38,9,0,0,50,<=50K
2,28,12,0,0,40,>50K
3,44,10,7688,0,40,>50K
4,18,10,0,0,30,<=50K
...,...,...,...,...,...,...
48837,27,12,0,0,38,<=50K
48838,40,9,0,0,40,>50K
48839,58,9,0,0,40,<=50K
48840,22,9,0,0,20,<=50K


In [None]:
df.dtypes

Unnamed: 0,0
age,int64
education-num,int64
capital-gain,int64
capital-loss,int64
hours-per-week,int64
class,object


<p align="justify">
✅ El objetivo con estos datos es predecir si una persona gana más de 50K al año a partir de las variables que se encuentran a disposición.
</p>



 # **<font color="DarkOrange">Algunos conceptos de Aprendizaje Automático</font>**

<p align="justify">
✅ En general, un problema de <b>Aprendizaje Automático</b> considera un conjunto de $n$ muestras de datos y luego trata de predecir las propiedades de los datos desconocidos. Si cada muestra es más que un solo número, por ejemplo los datos multivariados, se dice que la muestra tiene varios atributos o características.
<br><br> Vamos a dividir los problemas de Aprendizaje Automático en dos categorías:
<br><br>
</p>
<ul align="justify">
<li>
<b>Aprendizaje Supervisado</b>, en el que los datos vienen con atributos adicionales que queremos predecir. El Aprendizaje Supervisado puede ser de:
<ul><li>
<b>Clasificación</b>: las muestras pertenecen a dos (clasificacion binaria) o más clases (clasificacion multiclase) y queremos aprender de los datos ya etiquetados (variable objetivo) para predecir la clase de aquellos datos que no estan etiquetados (datos nuevos). Un ejemplo de un problema de clasificación binaria sería la predicción de la contratación de un seguro ofrecido por un banco, en virtud de las caracteristicas de los clientes del banco.
</li>
<li>
<b>Regresión</b>: si la salida deseada consiste en una o más variables continuas, entonces este modelo se llama regresión. Un ejemplo de un problema de regresión sería la predicción del precio de una propiedad en virtud de las caracteristicas de la propiedad.
</li></ul><br>
<li>
<b>Aprendizaje no Supervisado</b>, en el que los datos de entrenamiento consisten en un conjunto de vectores de entrada $x$ sin ninguna variable objetivo correspondiente, ya que el objetivo de tales problemas de Aprendizaje no Supervisado puede ser descubrir grupos de ejemplos similares dentro de los datos, lo que se denomina agrupamiento, o determinar la distribución de los datos, conocido como estimación de densidad, o proyectar los datos desde un punto de vista de dimensión, como por ejemplo, reducir el espacio a dos o tres dimensiones con el propósito de visualización.


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/ML-001.png?raw=true" width="500">
</p>


 # **<font color="DarkOrange">Separar la variable objetivo y las variables explicativas</font>**

👀 Ahora vamos a dividir del conjunto de datos, la variable objetivo y las variables explicativas, es decir, vamos a obtener una <code>Serie</code> para la variable objetivo y un <code>DataFrame</code> con las variables explicativas...

 ## **<font color="DarkOrange">Variable objetivo</font>**

In [None]:
y = df[target_column]
y

Unnamed: 0,class
0,<=50K
1,<=50K
2,>50K
3,>50K
4,<=50K
...,...
48837,<=50K
48838,>50K
48839,<=50K
48840,<=50K


👀 Verificamos que el objeto es una <code>Serie</code>...

In [None]:
y.shape

(48842,)

In [None]:
type(y)

 ## **<font color="DarkOrange">Variables explicativas</font>**

In [None]:
X = df.drop(columns=["class"])
X

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week
0,25,7,0,0,40
1,38,9,0,0,50
2,28,12,0,0,40
3,44,10,7688,0,40
4,18,10,0,0,30
...,...,...,...,...,...
48837,27,12,0,0,38
48838,40,9,0,0,40
48839,58,9,0,0,40
48840,22,9,0,0,20


👀 Verificamos que el objeto es un <code>DataFrame</code>...

In [None]:
type(X)

👀 Todas las columnas del <code>DataFrame</code> son numéricas...

In [None]:
X.dtypes

Unnamed: 0,0
age,int64
education-num,int64
capital-gain,int64
capital-loss,int64
hours-per-week,int64


In [None]:
X.shape

(48842, 5)

In [None]:
print("")
print(f"El conjunto de datos contiene {X.shape[0]} registros y "
      f"{X.shape[1]} variables explicativas")


El conjunto de datos contiene 48842 registros y 5 variables explicativas


 # **<font color="DarkOrange">Ajustar un modelo y hacer predicciones</font>**

❤ https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

<p align="justify">
👀 Construiremos un modelo de clasificación binaria usando el algoritmo de <code>regresión logística</code>.
</p>


In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression()
_ = model.fit(X, y)

<p align="justify">
La línea de código se divide en dos partes:
<br><br>

1. `model = LogisticRegression()`

<p align="justify">
👀 Esta primera parte crea una instancia de la clase <code>LogisticRegression</code> de scikit-learn. <mark>Esto significa que se está creando un modelo de regresión logística</mark> que puede ser utilizado para predecir valores futuros.
</p>

2. `_ = model.fit(X, y)`

<p align="justify">
La segunda parte del código entrena el modelo de regresión logística utilizando los datos de entrenamiento <code>X</code> y <code>y</code>. La variable <code>_</code> se utiliza para indicar que no se necesita el valor de retorno de la función <code>fit</code>. La función <code>fit</code> actualiza los parámetros del modelo de regresión logística para que se ajusten mejor a los datos de entrenamiento.
<br><br>
En resumen, el script crea un modelo de regresión logística y lo entrena utilizando los datos de entrenamiento <code>X</code> y <code>y</code>. La variable <code>_</code> se utiliza para indicar que no se necesita el valor de retorno de la función <code>fit</code>.
<br><br>
💖 Aquí hay algunos detalles adicionales sobre el script:
<br><br>

* El modelo de regresión logística es un modelo de aprendizaje automático que se utiliza para predecir valores binarios (es decir, 0 o 1).
* La función `fit` actualiza los parámetros del modelo de regresión logística utilizando el algoritmo de optimización de máxima verosimilitud.



<p align="justify">
👀 El método <code>fit</code> que vamos a utilizar, se compone de dos elementos:
</p>

- Un algoritmo de aprendizaje, y
- Algunos estados de los modelos.

<br>
<p align="justify">
El algoritmo de aprendizaje toma el conjunto de datos de entrenamiento y la variable objetivo de entrenamiento como entrada, es decir como <code>input</code> y establece los estados del modelo. Estos estados de los modelos se usarán más tarde para predecir (para clasificadores y regresores)
o para transformar datos (para transformadores). <br><br>Tanto el algoritmo de aprendizaje como el tipo de estado del modelo son específicos de cada modelo.
</p>

<p align="justify">
👀 Ahora bien, para predecir un modelo se utiliza una función de predicción. El método que se utiliza es <code>predict()</code>.
</p>


In [None]:
target_predicted = model.predict(X)

In [None]:
type(target_predicted)

numpy.ndarray

<p align="justify">
👀 Ahora observamos las predicciones generadas. Solo veremos las primeras 10  predicciones...
</p>


In [None]:
target_predicted[:10]

array([' <=50K', ' <=50K', ' <=50K', ' >50K', ' <=50K', ' <=50K',
       ' <=50K', ' >50K', ' <=50K', ' <=50K'], dtype=object)

👀 Y vemos los datos reales...

In [None]:
y[:10]

Unnamed: 0,class
0,<=50K
1,<=50K
2,>50K
3,>50K
4,<=50K
5,<=50K
6,<=50K
7,>50K
8,<=50K
9,<=50K


👀 Y comparamos los datos reales, con las predicciones, solo para las primeras 10 muestras...

In [None]:
y[:10] == target_predicted[:10]

Unnamed: 0,class
0,True
1,True
2,False
3,True
4,True
5,True
6,True
7,True
8,True
9,True


👀 Y podemos ver cuantas predicciones son correctas para estas 10 muestras...

In [None]:
print("")
print(f"Número de predicciones correctas: "
      f"{(y[:10] == target_predicted[:10]).sum()} / 10")


Número de predicciones correctas: 9 / 10


👀 Y podemos calcular la media de las predicciones correctas...

In [None]:
y.shape

(48842,)

In [None]:
(y == target_predicted).mean().round(4)

0.8143

In [None]:
round(model.score(X, y),4)

0.8143

<p align="justify">
👀 Este resultado significa que el modelo hace una predicción correcta para aproximadamente $81$ muestras de $100$ muestras. Hay que tener en cuenta que usamos los mismos datos para entrenar y para evaluar el modelo. ¿Se puede confiar en esta evaluación, o esta evaluación es demasiado buena para ser verdad?.
<br><br>Para poder responder esa interrogante, en vez de trabajar con todas las muestras, vamos a dividir nuestros datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba...
</p>


 # **<font color="DarkOrange">División de datos de entrenamiento y prueba</font>**

<p align="justify">
👀 Al construir un modelo de aprendizaje automático, es importante evaluar el modelo entrenado en datos que no se usaron para ajustarlo <code>fit</code>, ya que la generalización de un modelo es más que la memorización.
<br><br>
Esto significa que queremos un modelo de aprendizaje que generalice a nuevos datos, y no un modelo que compara con los datos que memorizamos.
<br><br>
Es más difícil concluir sobre casos nunca vistos, que concluir sobre los casos que ya hemos vistos. Por este motivo, es que se plantea una división de los datos disponibles.
<br><br>
Por ese motivo, los datos utilizados para ajustar un modelo se denominan datos de entrenamiento, mientras que los datos utilizados para evaluar un modelo se denominan datos de prueba, es decir, dividimos el conjunto de datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.
</p>


👀 Nuestro <code>DataFrame</code> tiene las siguientes dimensiones...

In [None]:
df.shape

(48842, 6)

In [None]:
int(48842*0.2)

9768

👀 Vamos a tomar una muestra de 9768 muestras (indices) y luego vamos a resetear el indice de nuestro <code>DataFrame</code> con el método <code>reset_index()</code>. A destacar, usamos el parámetro <code>random_state</code> para ajustar la pseudoalietoriedad de la selección de las muestras...
<br><br>
Este valor es aproximadamente el $20$% de las muestras del <code>DataFrame</code>...

In [None]:
df_test = df.sample(9768, random_state=123)

In [None]:
df_test.shape

(9768, 6)

In [None]:
round((df_test.shape[0]/df.shape[0]),3)

0.2

👀 Ahora vamos a sacar del <code>DataFrame</code> el conjunto de datos de prueba...

In [None]:
df_test.head()

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week,class
20668,52,9,0,0,40,<=50K
1722,19,6,0,0,30,<=50K
39609,31,9,0,0,40,<=50K
15858,25,13,0,0,40,<=50K
41078,36,4,0,0,35,<=50K


In [None]:
df_train = df.drop(index=df_test.index)

In [None]:
round((df_train.shape[0]/df.shape[0]),3)

0.8

👀 y reseteamos los indices de los dos conjuntos de datos...

In [None]:
df_test.reset_index(drop=True, inplace=True)
df_train.reset_index(drop=True, inplace=True)

👀 Ahora tenemos un <code>DataFrame</code> de testeo...

In [None]:
df_test

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week,class
0,52,9,0,0,40,<=50K
1,19,6,0,0,30,<=50K
2,31,9,0,0,40,<=50K
3,25,13,0,0,40,<=50K
4,36,4,0,0,35,<=50K
...,...,...,...,...,...,...
9763,46,9,0,0,40,<=50K
9764,33,9,0,0,40,>50K
9765,60,9,0,0,50,<=50K
9766,38,10,0,0,40,>50K


In [None]:
df_test.shape

(9768, 6)

👀 Y tenemos un <code>DataFrame</code> sin los datos de la muestra...

In [None]:
df_train

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week,class
0,25,7,0,0,40,<=50K
1,28,12,0,0,40,>50K
2,44,10,7688,0,40,>50K
3,18,10,0,0,30,<=50K
4,34,6,0,0,30,<=50K
...,...,...,...,...,...,...
39069,53,14,0,0,40,>50K
39070,22,10,0,0,40,<=50K
39071,40,9,0,0,40,>50K
39072,58,9,0,0,40,<=50K


In [None]:
df_train.shape

(39074, 6)

👀 De este <code>DataFrame</code> de testeo, separamos en variable objetivo y vector de caracteristicas, la variable objetivo es nuestra $y$, el vector de caracteristicas es nuestro $X$...

In [None]:
y_test = df_test["class"]
X_test = df_test.drop(columns=["class"])

In [None]:
y_test.shape

(9768,)

In [None]:
X_test.shape

(9768, 5)

In [None]:
print("")
print(f"El conjunto de prueba contiene {X_test.shape[0]} registros y "
      f"{X.shape[1]} variables explicativas.")


El conjunto de prueba contiene 9768 registros y 5 variables explicativas.


👀 Hacemos lo mismo con el conjunto de datos...

In [None]:
y_train = df_train["class"]
X_train = df_train.drop(columns=["class"])

In [None]:
print("")
print(f"El conjunto de prueba contiene {X_train.shape[0]} registros y "
      f"{X.shape[1]} variables explicativas.")


El conjunto de prueba contiene 39074 registros y 5 variables explicativas.


<p align="justify">
👀 En lugar de calcular la predicción y calcular manualmente la tasa de éxito promedio de esa predicción, podemos usar la puntuación del método. Cuando se trata de clasificadores, este método devuelve su métrica de rendimiento.
</p>


In [None]:
model = LogisticRegression()
_ = model.fit(X_train, y_train)

In [None]:
model

In [None]:
accuracy = model.score(X_test, y_test)
round(accuracy,4)

0.8121

👀 El nombre del modelo es...

In [None]:
model_name = model.__class__.__name__
model_name

'LogisticRegression'

In [None]:
print("")
print(f"El accuracy del modelo {model_name} es "
      f"{accuracy:.4f}")


El accuracy del modelo LogisticRegression es 0.8121


<p align="justify">
👀 Para calcular la puntuación de la métrica, el predictor primero calcula las predicciones (usando el método de predicción) y luego usa una función de puntuación para comparar la variable objetivo real y las predicciones realizadas. Finalmente, se devuelve la puntuación obtenida en virtud de los aciertos en las predicciones.<br><br>Por lo tanto, es importante probar siempre el rendimiento de generalización de los modelos predictivos en un conjunto diferente al utilizado para entrenar los modelos, en este caso en el conjunto de prueba.
</p>


In [None]:
round(model.score(X, y),4)

0.8143

In [None]:
round(model.score(X_test, y_test),4)

0.8121

<br>
<br>
<p align="center"><b>
💗
<font color="DarkOrange">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
