<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Trabajando con datos num√©ricos</font>**

<p align="justify">
En scikit-learn, los datos num√©ricos se refieren a los datos que se representan mediante valores num√©ricos. Estos datos suelen ser matrices o arrays NumPy que contienen n√∫meros, ya sea enteros o decimales, y se utilizan para entrenar modelos de aprendizaje autom√°tico y realizar predicciones.
<br><br>
Los datos num√©ricos son fundamentales en scikit-learn, ya que la mayor√≠a de los algoritmos de aprendizaje autom√°tico requieren datos en forma num√©rica para realizar c√°lculos y estimaciones. Estos algoritmos pueden ser de clasificaci√≥n, regresi√≥n, agrupamiento u otros tipos de modelos, y todos operan con datos num√©ricos de alguna forma.
<br><br>
üëÄ Algunos ejemplos de datos num√©ricos en scikit-learn incluyen:
<br><br>
<ol align="justify">
<li>
<b>Caracter√≠sticas de entrada:</b> Cuando se trabaja con conjuntos de datos para entrenar modelos de aprendizaje autom√°tico, las caracter√≠sticas o variables de entrada suelen ser datos num√©ricos. Por ejemplo, en un problema de clasificaci√≥n de im√°genes, las caracter√≠sticas podr√≠an ser los p√≠xeles de una imagen representados como valores num√©ricos.
</li>
<li>
<b>Etiquetas de salida:</b> En problemas supervisados, como la clasificaci√≥n o la regresi√≥n, las etiquetas de salida tambi√©n suelen ser datos num√©ricos. Por ejemplo, en un problema de predicci√≥n de precios de viviendas, las etiquetas podr√≠an ser los precios de las viviendas representados como valores num√©ricos.
</li>
<li>
<b>Resultados de predicci√≥n:</b> Una vez que se ha entrenado un modelo de aprendizaje autom√°tico, se pueden utilizar datos num√©ricos como entrada para hacer predicciones sobre nuevos datos. Las predicciones generadas por el modelo tambi√©n suelen ser datos num√©ricos.
</li>


‚ù§ https://scikit-learn.org/stable/

<p align="justify">
üëÄ En el Colab anterior, se entren√≥ un modelo de <code>regresi√≥n log√≠stica</code>. Sin embargo, se simplific√≥ demasiado el procedimiento al cargar un conjunto de datos que conten√≠a exclusivamente los datos de tipo num√©ricos. Adem√°s, se us√≥ un conjunto de datos de prueba arbitrariamente, es decir, una muestra aleatoria del $20$% de todos los datos.
<br><br>
En este Colab, nuestro objetivo es:</p>
<br>

- Identificar los datos num√©ricos de todo el conjunto de datos.
- Seleccionar el subconjunto de columnas correspondientes a los datos num√©ricos.
- Usar de <code>scikit-learn</code> un m√©todo para separar los datos en un conjunto de prueba y un conjunto de entrenamiento.
- Entrenar y evaluar un modelo <code>scikit-learn</code> m√°s complejo.

<br>
<p align="justify">
üëÄ Seguimos usando el mismo conjunto de datos, por ahora, para poder comparar los progresos entre los Colabs.</p>

In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

In [None]:
adult_census.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


<p align="justify">
‚úÖ El objetivo con estos datos es predecir si una persona gana m√°s de 50K al a√±o a partir de las variables que se encuentran a disposici√≥n.
</p>



<p align="justify">
üëÄ Se elimina la columna <code>education-num</code>.
</p>


In [None]:
adult_census.drop(columns=["education-num"], inplace=True)
adult_census.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


<p align="justify">
üëÄ Separamos la variable objetivo, de las variables explicativas.
</p>


In [None]:
X, y = adult_census.drop(columns="class"), adult_census["class"]

<p align="justify">
üëÄ Nuestra variable objetivo:
</p>


In [None]:
y.shape

(48842,)

<p align="justify">
üëÄ Nuestras variables explicativas:
</p>


In [None]:
X.shape

(48842, 12)

 # **<font color="DeepPink">Identificando los datos num√©ricos</font>**

<p align="justify">
üëÄ Los datos num√©ricos se representan con n√∫meros y est√°n vinculados a datos que son medibles (cuantitativos), como por ejemplo, la edad de las personas o el n√∫mero de horas que una persona trabaja a la semana.
<br><br>
Los modelos predictivos est√°n dise√±ados de forma nativa para trabajar con datos num√©ricos. Adem√°s, los datos num√©ricos generalmente requieren muy poco trabajo de preprocesamiento, antes de comenzar con el entrenamiento y el ajuste de un modelo determinado.
<br><br>
La primera tarea que tenemos aqu√≠ ser√° justamente identificar aquellos datos num√©ricos en todo nuestro conjunto de datos.
<br><br>
üõë <b>¬°Precauci√≥n!</b>
<br><br>
Los datos num√©ricos se representan con n√∫meros, pero los n√∫meros no siempre representan datos num√©ricos. Las categor√≠as que puedan existir en los datos, ya podr√≠an estar codificadas con n√∫meros, y se deber√° identificar estas caracter√≠sticas. Por lo tanto, debemos verificar el tipo de datos para cada una de las columnas en el conjunto de datos, pero entender tambien que representan esos datos en cada una de las columnas.
</p>


<p align="justify">
üëÄ Vemos las variables explicativas:
</p>


In [None]:
X.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States


<p align="justify">
üëÄ Vemos el tipo de datos de las variables explicativas:
</p>


In [None]:
X.dtypes

age                int64
workclass         object
education         object
marital-status    object
occupation        object
relationship      object
race              object
sex               object
capital-gain       int64
capital-loss       int64
hours-per-week     int64
native-country    object
dtype: object

<p align="justify">
üëÄ Obtenemos un resumen de las variables explicativas, con mas informaci√≥n de las mismas:
</p>


In [None]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   marital-status  48842 non-null  object
 4   occupation      48842 non-null  object
 5   relationship    48842 non-null  object
 6   race            48842 non-null  object
 7   sex             48842 non-null  object
 8   capital-gain    48842 non-null  int64 
 9   capital-loss    48842 non-null  int64 
 10  hours-per-week  48842 non-null  int64 
 11  native-country  48842 non-null  object
dtypes: int64(4), object(8)
memory usage: 4.5+ MB


<p align="justify">
üëÄ Analizado el tipo de datos de las variables explicativas, podemos seleccionar las columnas que contienen n√∫meros generando una lista con el nombre de esas columnas, y comprobar su contenido visualizando el <code>DataFrame</code>...
</p>


In [None]:
numerical_columns = ["age", "capital-gain", "capital-loss", "hours-per-week"]

In [None]:
type(numerical_columns)

list

In [None]:
X[numerical_columns].head()

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,25,0,0,40
1,38,0,0,50
2,28,0,0,40
3,44,7688,0,40
4,18,0,0,30


In [None]:
X[numerical_columns].shape

(48842, 4)

<p align="justify">
üëÄ Ahora que limitamos el conjunto de datos solo a columnas num√©ricas, podemos analizar estos n√∫meros para averiguar qu√© representan. Podemos identificar dos tipos de uso.
<br><br>
La primera columna <code>edad</code> se explica por s√≠ misma. Podemos notar que los valores son continuos, lo que significa que pueden tomar cualquier n√∫mero en un rango dado. <br><br>Averig√ºemos entonces cu√°l es ese rango, para ello usamos el m√©todo <code>describe()</code>:
</p>


In [None]:
X.age.describe().round(2)

count    48842.00
mean        38.64
std         13.71
min         17.00
25%         28.00
50%         37.00
75%         48.00
max         90.00
Name: age, dtype: float64

In [None]:
X.age.min()

17

In [None]:
X.age.max()

90

<p align="justify">
üëÄ Podemos ver que la edad de las personas var√≠a entre los 17 a√±os y los 90 a√±os.
<br><br>
Podr√≠amos ampliar nuestro an√°lisis y encontraremos que <code>ganancia de capital</code>, <code>p√©rdida de capital</code> y <code>horas por semana</code> tambi√©n representan datos cuantitativos tambien. Ahora, almacenamos el subconjunto de columnas num√©ricas en un nuevo <code>DataFrame</code>.

In [None]:
data_numeric = X[numerical_columns]
data_numeric

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,25,0,0,40
1,38,0,0,50
2,28,0,0,40
3,44,7688,0,40
4,18,0,0,30
...,...,...,...,...
48837,27,0,0,38
48838,40,0,0,40
48839,58,0,0,40
48840,22,0,0,20


 # **<font color="DeepPink">Train-test, divisi√≥n del conjunto de datos</font>**

<p align="justify">
üëÄ En el Colab anterior, se cargo un conjunto de datos y se gener√≥ el conjunto de datos de prueba. Ahora vamos a crear los siguientes conjuntos de datos:</p>
<br>

- El conjunto de datos de entrenamiento.
- El conjunto de datos de prueba.

<br>
<p align="justify">
üëÄ Scikit-learn proporciona la funci√≥n <code>sklearn.model_selection.train_test_split()</code> que se usa para dividir autom√°ticamente el conjunto de datos en dos subconjuntos, el conjunto de datos de entrenamiento y el conjunto de datos de prueba.</p>

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data_numeric,
                                                    y,
                                                    random_state=42,
                                                    test_size=0.25)

<p align="justify">
üëÄ En la configuraci√≥n de <code>scikit-learn</code>, el par√°metro <code>random_state</code> permite obtener resultados deterministas cuando usamos un generador de n√∫meros aleatorios de toda la muestra. En el caso de <code>train_test_split()</code>, la aleatoriedad proviene de mezclar todos los datos, para dividir el conjunto de datos, en un conjunto de datos de entrenamiento y el conjunto de datos de prueba.
<br><br>
Y el par√°metro <code>test_size</code> determina el tama√±o del conjunto de datos de prueba, en este caso representa el $25$%. Por lo tanto, el conjunto de datos de entrenamiento sera el $75$% restante.

In [None]:
X_train.shape

(36631, 4)

In [None]:
X_test.shape

(12211, 4)

In [None]:
print("")
print(f"N√∫mero de observaciones en el conjunto de datos de prueba: {X_test.shape[0]} => "
      f"{X_test.shape[0] / data_numeric.shape[0] * 100:.1f}% del conjunto"
      f" original de datos")


N√∫mero de observaciones en el conjunto de datos de prueba: 12211 => 25.0% del conjunto original de datos


In [None]:
print("")
print(f"N√∫mero de observaciones en el conjunto de datos de entrenamiento: {X_train.shape[0]} => "
      f"{X_train.shape[0] / data_numeric.shape[0] * 100:.1f}% del conjunto"
      f" original de datos")


N√∫mero de observaciones en el conjunto de datos de entrenamiento: 36631 => 75.0% del conjunto original de datos


<p align="justify">
üëÄ En el Colab anterior, usamos un modelo de <code>k-vecinos m√°s cercanos</code>. Si bien este modelo es intuitivo de entender, no se usa mucho en la pr√°ctica. Ahora, usaremos un modelo m√°s √∫til, la regresi√≥n log√≠stica, que pertenece a la familia de los modelos lineales.

 # **<font color="DeepPink">Modelo de regresi√≥n log√≠stica en scikit-learn</font>**

‚ù§ https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression()

<p align="justify">
üëÄ Ahora que se ha creado el modelo, se puede usar exactamente de la misma manera que usamos el modelo de <code>k-vecinos m√°s cercanos</code> en el Colab anterior. En particular, podemos usar el ajuste para entrenar el modelo usando las variable objetivo de entrenamiento y los datos del conjunto de entrenamiento:
</p>


In [None]:
model.fit(X_train, y_train)

<p align="justify">
üëÄ Tambi√©n podemos usar el m√©todo <code>score()</code> para comprobar el rendimiento de la generalizaci√≥n del modelo en el conjunto de datos de prueba.
</p>


In [None]:
accuracy = model.score(X_test, y_test)
print("")
print(f"Accuracy of logistic regression: {accuracy:.3f}")


Accuracy of logistic regression: 0.807


<p align="justify">
üëÄ En <code>scikit-learn</code>, el m√©todo <code>score()</code> de un modelo de clasificaci√≥n devuelve la precisi√≥n, es decir, la fracci√≥n de muestras clasificadas correctamente. En este caso, alrededor de 8/10 de las veces la regresi√≥n log√≠stica predice el ingreso correcto de una persona. Ahora la verdadera pregunta que nos formulamos es:<br><br> ¬øEs relevante este rendimiento de generalizaci√≥n de un buen modelo predictivo?.
</p>


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:
<br><br>
‚úÖ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>
‚úÖ Examinamos las variables num√©ricas.
<br>
‚úÖ Tambien hicimos un modelo dividiendo el conjunto de datos con <code>train_test_split()</code>
<br>
‚úÖ Entrenamos y evaluamos un modelo de regresi√≥n log√≠stica, teniendo en cuenta esa divisi√≥n previa de los datos.
</p>

<p align="justify">



<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
