<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Trabajando con datos numéricos</font>**

<p align="justify">
En scikit-learn, los datos numéricos se refieren a los datos que se representan mediante valores numéricos. Estos datos suelen ser matrices o arrays NumPy que contienen números, ya sea enteros o decimales, y se utilizan para entrenar modelos de aprendizaje automático y realizar predicciones.
<br><br>
Los datos numéricos son fundamentales en scikit-learn, ya que la mayoría de los algoritmos de aprendizaje automático requieren datos en forma numérica para realizar cálculos y estimaciones. Estos algoritmos pueden ser de clasificación, regresión, agrupamiento u otros tipos de modelos, y todos operan con datos numéricos de alguna forma.
<br><br>
👀 Algunos ejemplos de datos numéricos en scikit-learn incluyen:
<br><br>
<ol align="justify">
<li>
<b>Características de entrada:</b> Cuando se trabaja con conjuntos de datos para entrenar modelos de aprendizaje automático, las características o variables de entrada suelen ser datos numéricos. Por ejemplo, en un problema de clasificación de imágenes, las características podrían ser los píxeles de una imagen representados como valores numéricos.
</li>
<li>
<b>Etiquetas de salida:</b> En problemas supervisados, como la clasificación o la regresión, las etiquetas de salida también suelen ser datos numéricos. Por ejemplo, en un problema de predicción de precios de viviendas, las etiquetas podrían ser los precios de las viviendas representados como valores numéricos.
</li>
<li>
<b>Resultados de predicción:</b> Una vez que se ha entrenado un modelo de aprendizaje automático, se pueden utilizar datos numéricos como entrada para hacer predicciones sobre nuevos datos. Las predicciones generadas por el modelo también suelen ser datos numéricos.
</li>


❤ https://scikit-learn.org/stable/

<p align="justify">
👀 En el Colab anterior, se entrenó un modelo de <code>regresión logística</code>. Sin embargo, se simplificó demasiado el procedimiento al cargar un conjunto de datos que contenía exclusivamente los datos de tipo numéricos. Además, se usó un conjunto de datos de prueba arbitrariamente, es decir, una muestra aleatoria del $20$% de todos los datos.
<br><br>
En este Colab, nuestro objetivo es:</p>
<br>

- Identificar los datos numéricos de todo el conjunto de datos.
- Seleccionar el subconjunto de columnas correspondientes a los datos numéricos.
- Usar de <code>scikit-learn</code> un método para separar los datos en un conjunto de prueba y un conjunto de entrenamiento.
- Entrenar y evaluar un modelo <code>scikit-learn</code> más complejo.

<br>
<p align="justify">
👀 Seguimos usando el mismo conjunto de datos, por ahora, para poder comparar los progresos entre los Colabs.</p>

In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

In [None]:
adult_census.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


<p align="justify">
✅ El objetivo con estos datos es predecir si una persona gana más de 50K al año a partir de las variables que se encuentran a disposición.
</p>



<p align="justify">
👀 Se elimina la columna <code>education-num</code>.
</p>


In [None]:
adult_census.drop(columns=["education-num"], inplace=True)
adult_census.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


<p align="justify">
👀 Separamos la variable objetivo, de las variables explicativas.
</p>


In [None]:
X, y = adult_census.drop(columns="class"), adult_census["class"]

<p align="justify">
👀 Nuestra variable objetivo:
</p>


In [None]:
y.shape

(48842,)

<p align="justify">
👀 Nuestras variables explicativas:
</p>


In [None]:
X.shape

(48842, 12)

 # **<font color="DeepPink">Identificando los datos numéricos</font>**

<p align="justify">
👀 Los datos numéricos se representan con números y están vinculados a datos que son medibles (cuantitativos), como por ejemplo, la edad de las personas o el número de horas que una persona trabaja a la semana.
<br><br>
Los modelos predictivos están diseñados de forma nativa para trabajar con datos numéricos. Además, los datos numéricos generalmente requieren muy poco trabajo de preprocesamiento, antes de comenzar con el entrenamiento y el ajuste de un modelo determinado.
<br><br>
La primera tarea que tenemos aquí será justamente identificar aquellos datos numéricos en todo nuestro conjunto de datos.
<br><br>
🛑 <b>¡Precaución!</b>
<br><br>
Los datos numéricos se representan con números, pero los números no siempre representan datos numéricos. Las categorías que puedan existir en los datos, ya podrían estar codificadas con números, y se deberá identificar estas características. Por lo tanto, debemos verificar el tipo de datos para cada una de las columnas en el conjunto de datos, pero entender tambien que representan esos datos en cada una de las columnas.
</p>


<p align="justify">
👀 Vemos las variables explicativas:
</p>


In [None]:
X.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States


<p align="justify">
👀 Vemos el tipo de datos de las variables explicativas:
</p>


In [None]:
X.dtypes

age                int64
workclass         object
education         object
marital-status    object
occupation        object
relationship      object
race              object
sex               object
capital-gain       int64
capital-loss       int64
hours-per-week     int64
native-country    object
dtype: object

<p align="justify">
👀 Obtenemos un resumen de las variables explicativas, con mas información de las mismas:
</p>


In [None]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   marital-status  48842 non-null  object
 4   occupation      48842 non-null  object
 5   relationship    48842 non-null  object
 6   race            48842 non-null  object
 7   sex             48842 non-null  object
 8   capital-gain    48842 non-null  int64 
 9   capital-loss    48842 non-null  int64 
 10  hours-per-week  48842 non-null  int64 
 11  native-country  48842 non-null  object
dtypes: int64(4), object(8)
memory usage: 4.5+ MB


<p align="justify">
👀 Analizado el tipo de datos de las variables explicativas, podemos seleccionar las columnas que contienen números generando una lista con el nombre de esas columnas, y comprobar su contenido visualizando el <code>DataFrame</code>...
</p>


In [None]:
numerical_columns = ["age", "capital-gain", "capital-loss", "hours-per-week"]

In [None]:
type(numerical_columns)

list

In [None]:
X[numerical_columns].head()

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,25,0,0,40
1,38,0,0,50
2,28,0,0,40
3,44,7688,0,40
4,18,0,0,30


In [None]:
X[numerical_columns].shape

(48842, 4)

<p align="justify">
👀 Ahora que limitamos el conjunto de datos solo a columnas numéricas, podemos analizar estos números para averiguar qué representan. Podemos identificar dos tipos de uso.
<br><br>
La primera columna <code>edad</code> se explica por sí misma. Podemos notar que los valores son continuos, lo que significa que pueden tomar cualquier número en un rango dado. <br><br>Averigüemos entonces cuál es ese rango, para ello usamos el método <code>describe()</code>:
</p>


In [None]:
X.age.describe().round(2)

count    48842.00
mean        38.64
std         13.71
min         17.00
25%         28.00
50%         37.00
75%         48.00
max         90.00
Name: age, dtype: float64

In [None]:
X.age.min()

17

In [None]:
X.age.max()

90

<p align="justify">
👀 Podemos ver que la edad de las personas varía entre los 17 años y los 90 años.
<br><br>
Podríamos ampliar nuestro análisis y encontraremos que <code>ganancia de capital</code>, <code>pérdida de capital</code> y <code>horas por semana</code> también representan datos cuantitativos tambien. Ahora, almacenamos el subconjunto de columnas numéricas en un nuevo <code>DataFrame</code>.

In [None]:
data_numeric = X[numerical_columns]
data_numeric

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,25,0,0,40
1,38,0,0,50
2,28,0,0,40
3,44,7688,0,40
4,18,0,0,30
...,...,...,...,...
48837,27,0,0,38
48838,40,0,0,40
48839,58,0,0,40
48840,22,0,0,20


 # **<font color="DeepPink">Train-test, división del conjunto de datos</font>**

<p align="justify">
👀 En el Colab anterior, se cargo un conjunto de datos y se generó el conjunto de datos de prueba. Ahora vamos a crear los siguientes conjuntos de datos:</p>
<br>

- El conjunto de datos de entrenamiento.
- El conjunto de datos de prueba.

<br>
<p align="justify">
👀 Scikit-learn proporciona la función <code>sklearn.model_selection.train_test_split()</code> que se usa para dividir automáticamente el conjunto de datos en dos subconjuntos, el conjunto de datos de entrenamiento y el conjunto de datos de prueba.</p>

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data_numeric,
                                                    y,
                                                    random_state=42,
                                                    test_size=0.25)

<p align="justify">
👀 En la configuración de <code>scikit-learn</code>, el parámetro <code>random_state</code> permite obtener resultados deterministas cuando usamos un generador de números aleatorios de toda la muestra. En el caso de <code>train_test_split()</code>, la aleatoriedad proviene de mezclar todos los datos, para dividir el conjunto de datos, en un conjunto de datos de entrenamiento y el conjunto de datos de prueba.
<br><br>
Y el parámetro <code>test_size</code> determina el tamaño del conjunto de datos de prueba, en este caso representa el $25$%. Por lo tanto, el conjunto de datos de entrenamiento sera el $75$% restante.

In [None]:
X_train.shape

(36631, 4)

In [None]:
X_test.shape

(12211, 4)

In [None]:
print("")
print(f"Número de observaciones en el conjunto de datos de prueba: {X_test.shape[0]} => "
      f"{X_test.shape[0] / data_numeric.shape[0] * 100:.1f}% del conjunto"
      f" original de datos")


Número de observaciones en el conjunto de datos de prueba: 12211 => 25.0% del conjunto original de datos


In [None]:
print("")
print(f"Número de observaciones en el conjunto de datos de entrenamiento: {X_train.shape[0]} => "
      f"{X_train.shape[0] / data_numeric.shape[0] * 100:.1f}% del conjunto"
      f" original de datos")


Número de observaciones en el conjunto de datos de entrenamiento: 36631 => 75.0% del conjunto original de datos


<p align="justify">
👀 En el Colab anterior, usamos un modelo de <code>k-vecinos más cercanos</code>. Si bien este modelo es intuitivo de entender, no se usa mucho en la práctica. Ahora, usaremos un modelo más útil, la regresión logística, que pertenece a la familia de los modelos lineales.

 # **<font color="DeepPink">Modelo de regresión logística en scikit-learn</font>**

❤ https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression()

<p align="justify">
👀 Ahora que se ha creado el modelo, se puede usar exactamente de la misma manera que usamos el modelo de <code>k-vecinos más cercanos</code> en el Colab anterior. En particular, podemos usar el ajuste para entrenar el modelo usando las variable objetivo de entrenamiento y los datos del conjunto de entrenamiento:
</p>


In [None]:
model.fit(X_train, y_train)

<p align="justify">
👀 También podemos usar el método <code>score()</code> para comprobar el rendimiento de la generalización del modelo en el conjunto de datos de prueba.
</p>


In [None]:
accuracy = model.score(X_test, y_test)
print("")
print(f"Accuracy of logistic regression: {accuracy:.3f}")


Accuracy of logistic regression: 0.807


<p align="justify">
👀 En <code>scikit-learn</code>, el método <code>score()</code> de un modelo de clasificación devuelve la precisión, es decir, la fracción de muestras clasificadas correctamente. En este caso, alrededor de 8/10 de las veces la regresión logística predice el ingreso correcto de una persona. Ahora la verdadera pregunta que nos formulamos es:<br><br> ¿Es relevante este rendimiento de generalización de un buen modelo predictivo?.
</p>


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:
<br><br>
✅ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>
✅ Examinamos las variables numéricas.
<br>
✅ Tambien hicimos un modelo dividiendo el conjunto de datos con <code>train_test_split()</code>
<br>
✅ Entrenamos y evaluamos un modelo de regresión logística, teniendo en cuenta esa división previa de los datos.
</p>

<p align="justify">



<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
