 # **<font color="DarkBlue">Preparación de Datos 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

In [1]:
# Importamos Pandas
import pandas as pd

 ## **<font color="DarkBlue">Carga y visualización del conjunto de datos</font>**

In [2]:
# Realizamos la carga del conjunto de datos
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

In [3]:
# Visualizamos el conjunto de datos
adult_census.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


 ## **<font color="DarkBlue">Identificación de las variables categóricas</font>**

<p align="justify">
👀 ¿Cómo podemos reconocer fácilmente las columnas categóricas entre el conjunto de datos?... parte de la respuesta radica en el tipo de datos que tienen las columnas...
</p>


In [4]:
# Visualizamos el tipo de datos de las variables
adult_census.dtypes

Unnamed: 0,0
age,int64
workclass,object
education,object
education-num,int64
marital-status,object
occupation,object
relationship,object
race,object
sex,object
capital-gain,int64


<p align="justify">
👀 Tambien lo podemos ver con el método <code>info()</code>...</p>

In [5]:
adult_census.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   education-num   48842 non-null  int64 
 4   marital-status  48842 non-null  object
 5   occupation      48842 non-null  object
 6   relationship    48842 non-null  object
 7   race            48842 non-null  object
 8   sex             48842 non-null  object
 9   capital-gain    48842 non-null  int64 
 10  capital-loss    48842 non-null  int64 
 11  hours-per-week  48842 non-null  int64 
 12  native-country  48842 non-null  object
 13  class           48842 non-null  object
dtypes: int64(5), object(9)
memory usage: 5.2+ MB


Separamos las variables explicativas de la objetivo

El método `drop()` de Pandas se utiliza para eliminar filas o columnas de un DataFrame.

In [6]:
# Separamos nuestro conjunto de datos en variables explicativas y variable objetivo
data = adult_census.drop(columns="class")
target = adult_census["class"]

In [7]:
data.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States


In [8]:
target.head()

Unnamed: 0,class
0,<=50K
1,<=50K
2,>50K
3,>50K
4,<=50K


 ## **<font color="DarkBlue">Selección de variables según el tipo de dato</font>**

<p align="justify">
👀 Es posible definir manualmente las columnas categóricas creando una lista con los nombres de las columnas que son categóricas.
<br><br>
Sin embargo, esto no es eficiente cuando tenemos una cantidad considerable de variables y queremos automatizar el proceso, por lo que es aconsejable usar el método <code>select_dtypes()</code> de Pandas, este método nos permite seleccionar columnas según el tipo de datos que posea en forma automatizada, sin tener que hacerlo manualmente.
<br><br>
👀 Veamos como usarlo:
</p>


In [9]:
# Separamos las variables categóricas y numéricas dentro de las variables explicativas
data_categorical = data.select_dtypes(include="object")
data_numerical = data.select_dtypes(exclude="object")

In [10]:
data_categorical.head()

Unnamed: 0,workclass,education,marital-status,occupation,relationship,race,sex,native-country
0,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,United-States
1,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,United-States
2,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,United-States
3,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,United-States
4,?,Some-college,Never-married,?,Own-child,White,Female,United-States


In [11]:
data_categorical.shape

(48842, 8)

In [12]:
data_numerical.head()

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week
0,25,7,0,0,40
1,38,9,0,0,50
2,28,12,0,0,40
3,44,10,7688,0,40
4,18,10,0,0,30


In [13]:
data_numerical.shape

(48842, 5)

 ## **<font color="DarkBlue">Codificación de categorías nominales (sin asumir orden)</font>**

<p align="justify">
👀 La codificación one hot es utilizado cuando las categorías de una variable no asumen un orden. Para una variable determinada, creará tantas columnas nuevas como clases o valores contenga esa columna. Para una muestra dada, el valor de la columna correspondiente a la categoría se establecerá en $1$ mientras que todas las columnas de las demás categorías se establecerán en $0$.


![](https://miro.medium.com/v2/resize:fit:720/format:webp/1*ggtP4a5YaRx6l09KQaYOnw.png?raw=true)


https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

<p align="justify">
👀 El método <code>get_dummies</code> en Pandas se utiliza para convertir variables categóricas en variables dummy (ficticia o binaria), que son columnas binarias que indican la presencia o ausencia de una categoría particular en un conjunto de datos.

In [14]:
# Codificación de variables categóricas con pandas
data_categorical_encoded = pd.get_dummies(data_categorical, dtype=int)
data_categorical_encoded.head()

Unnamed: 0,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,workclass_ Self-emp-inc,workclass_ Self-emp-not-inc,workclass_ State-gov,workclass_ Without-pay,education_ 10th,...,native-country_ Portugal,native-country_ Puerto-Rico,native-country_ Scotland,native-country_ South,native-country_ Taiwan,native-country_ Thailand,native-country_ Trinadad&Tobago,native-country_ United-States,native-country_ Vietnam,native-country_ Yugoslavia
0,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


<p align="justify">
👀 El número de características después de la codificación es $10$ veces mayor que los datos originales porque algunas variables, como la ocupación y el país de origen, tienen muchos valores únicos.
</p>

 ## **<font color="DarkBlue">Normalización de variables numéricas</font>**

<p align="justify">
La normalización de variables numéricas es fundamental en el preprocesamiento de datos, especialmente para algoritmos de aprendizaje automático. Se puede realizar con Scikit-Learn, Pandas y Numpy. Los datos se ajustan entre un rango específico (por ejemplo entre 0 y 1) utilizando la siguiente fórmula:
$$
X_{\text{normalizado}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
$$

In [15]:
# Normalización de data_numerical
# Normalizar entre 0 y 1
data_numerical_normalizado = (data_numerical - data_numerical.min()) / (data_numerical.max() - data_numerical.min())
data_numerical_normalizado.head()

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week
0,0.109589,0.4,0.0,0.0,0.397959
1,0.287671,0.533333,0.0,0.0,0.5
2,0.150685,0.733333,0.0,0.0,0.397959
3,0.369863,0.6,0.076881,0.0,0.397959
4,0.013699,0.6,0.0,0.0,0.295918


 ## **<font color="DarkBlue">Concatenación de DataFrames</font>**

<p align="justify">
Para concatenar DataFrames de forma horizontal (añadiendo columnas), se puede utilizar el método <code>concat</code> de Pandas, con el parámetro <code>axis=1</code>.

https://pandas.pydata.org/docs/reference/api/pandas.concat.html


In [16]:
# Concatenamos los DataFrames
data_encoded = pd.concat([data_categorical_encoded, data_numerical_normalizado], axis=1)
data_encoded.head()

Unnamed: 0,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,workclass_ Self-emp-inc,workclass_ Self-emp-not-inc,workclass_ State-gov,workclass_ Without-pay,education_ 10th,...,native-country_ Thailand,native-country_ Trinadad&Tobago,native-country_ United-States,native-country_ Vietnam,native-country_ Yugoslavia,age,education-num,capital-gain,capital-loss,hours-per-week
0,0,0,0,0,1,0,0,0,0,0,...,0,0,1,0,0,0.109589,0.4,0.0,0.0,0.397959
1,0,0,0,0,1,0,0,0,0,0,...,0,0,1,0,0,0.287671,0.533333,0.0,0.0,0.5
2,0,0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0.150685,0.733333,0.0,0.0,0.397959
3,0,0,0,0,1,0,0,0,0,0,...,0,0,1,0,0,0.369863,0.6,0.076881,0.0,0.397959
4,1,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0.013699,0.6,0.0,0.0,0.295918


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
