## Preprocesamiento

Ejemplo tomado de: https://www.jacobsoft.com.mx/es_mx/pre-procesamiento-de-datos-con-python/



### Paso 1: Importar las librerias

In [1]:
# Libreria para operaciones matemáticas o estadísticas
import numpy as np
# Libreria para manejo de datos
import pandas as pd
# Libreria para graficas
import matplotlib.pyplot as plt
# Libreria para tareas de procesamiento
from sklearn.preprocessing import LabelEncoder
# Libreria para transformación de escalas
from sklearn.preprocessing import StandardScaler

### Paso 2: Cargar los datos a un DataFrame

In [2]:
data = pd.read_csv('data/1.5-clientes.csv', sep=";")

data

Unnamed: 0,No,País,Edad,Salario,Compra
0,1,Francia,44.0,72000.0,No
1,2,España,27.0,48000.0,Si
2,3,Alemania,30.0,54000.0,No
3,4,España,38.0,61000.0,No
4,5,Alemania,40.0,,Si
5,6,Francia,35.0,58000.0,Si
6,7,España,,52000.0,No
7,8,Francia,48.0,79000.0,Si
8,9,Alemania,50.0,83000.0,No
9,10,Francia,37.0,67000.0,Si


### Paso 3: Separar las variables en dependientes e independientes

In [3]:
# Variables dependientes
x = data.iloc[:, :-1]
print(x)

   No      País  Edad  Salario
0   1   Francia  44.0  72000.0
1   2    España  27.0  48000.0
2   3  Alemania  30.0  54000.0
3   4    España  38.0  61000.0
4   5  Alemania  40.0      NaN
5   6   Francia  35.0  58000.0
6   7    España   NaN  52000.0
7   8   Francia  48.0  79000.0
8   9  Alemania  50.0  83000.0
9  10   Francia  37.0  67000.0


In [4]:
# Variables independientes
y = data.iloc[:, 4]
print(y)

0    No
1    Si
2    No
3    No
4    Si
5    Si
6    No
7    Si
8    No
9    Si
Name: Compra, dtype: object


### Paso 4: Proprocesamiento de datos

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   No       10 non-null     int64  
 1   País     10 non-null     object 
 2   Edad     9 non-null      float64
 3   Salario  9 non-null      float64
 4   Compra   10 non-null     object 
dtypes: float64(2), int64(1), object(2)
memory usage: 528.0+ bytes


##### Nota: se observan datos faltantes, vamos a imputarlos con la media

In [6]:
# Se imputan los datos faltantes con el valor de la media de la columna correspondiente
data['Edad'] = data['Edad'].fillna(data['Edad'].mean())
data['Salario'] = data['Salario'].fillna(data['Salario'].mean())

data

Unnamed: 0,No,País,Edad,Salario,Compra
0,1,Francia,44.0,72000.0,No
1,2,España,27.0,48000.0,Si
2,3,Alemania,30.0,54000.0,No
3,4,España,38.0,61000.0,No
4,5,Alemania,40.0,63777.777778,Si
5,6,Francia,35.0,58000.0,Si
6,7,España,38.777778,52000.0,No
7,8,Francia,48.0,79000.0,Si
8,9,Alemania,50.0,83000.0,No
9,10,Francia,37.0,67000.0,Si


In [7]:
# Codificacion de variables categoricas

# Se codifica la columna de compras
label_encoder_y = LabelEncoder()
y = label_encoder_y.fit_transform(y)
print(y)
print("-------------")

# Luego se codifica paises
label_encoder_x = LabelEncoder()
x.iloc[:, 1] = label_encoder_x.fit_transform(x.values[:, 1])
print(x)



[0 1 0 0 1 1 0 1 0 1]
-------------
   No  País  Edad  Salario
0   1     2  44.0  72000.0
1   2     1  27.0  48000.0
2   3     0  30.0  54000.0
3   4     1  38.0  61000.0
4   5     0  40.0      NaN
5   6     2  35.0  58000.0
6   7     1   NaN  52000.0
7   8     2  48.0  79000.0
8   9     0  50.0  83000.0
9  10     2  37.0  67000.0


In [8]:
# Transformación de escalas
sc_x = StandardScaler()
sc_y = StandardScaler()
x = sc_x.fit_transform(x)
y = sc_y.fit_transform(y.reshape(-1, 1))

print(x)
print("---------")
print(y)

[[-1.5666989   1.08347268  0.71993143  0.71101276]
 [-1.21854359 -0.12038585 -1.62367514 -1.36437583]
 [-0.87038828 -1.32424438 -1.21009751 -0.84552869]
 [-0.52223297 -0.12038585 -0.10722383 -0.24020701]
 [-0.17407766 -1.32424438  0.16849459         nan]
 [ 0.17407766  1.08347268 -0.52080146 -0.49963059]
 [ 0.52223297 -0.12038585         nan -1.01847774]
 [ 0.87038828  1.08347268  1.27136827  1.31633443]
 [ 1.21854359 -1.32424438  1.54708669  1.66223253]
 [ 1.5666989   1.08347268 -0.24508304  0.27864014]]
---------
[[-1.]
 [ 1.]
 [-1.]
 [-1.]
 [ 1.]
 [ 1.]
 [-1.]
 [ 1.]
 [-1.]
 [ 1.]]


##### Nota: Ahora, con los datos preprocesados podemos aplicar algún método predictivo como la Regresión Logística para predecir las compras de algún cliente nuevo, es decir con sus datos en país, edad y salario, estimar si comprará o no.