
### Importamos los módulos necesarios

In [None]:
import numpy as np 
import pandas as pd 
from sklearn.impute import SimpleImputer # vamos a usarlo para missing values
from sklearn.preprocessing import LabelEncoder, OneHotEncoder # lo usaremos para datos categóricos
from sklearn.preprocessing import StandardScaler # lo usaremos para escalar datos

In [None]:
dataset = pd.read_csv('sample_data.csv') 
dataset.head()

In [None]:
dataset.shape

### Quitamos los valores duplicados 

In [None]:
dataset = dataset.drop_duplicates()
dataset.shape

### Vemos cómo se distribuyen las variables categóricas y si tienen NA

In [None]:
dataset.describe()

In [None]:
# De la siguiente forma, reemplazamos los nan de las variables que lo tienen, por la media de la variable.

imputer = SimpleImputer(missing_values=np.nan, strategy='mean') 
imputer = imputer.fit(dataset[['Age', 'Salary']])
dataset[['Age', 'Salary']] = imputer.transform(dataset[['Age', 'Salary']])

In [None]:
dataset.describe()

### ¿Hay NA en el resto de variables?

In [None]:
dataset.isna().sum()

In [None]:
dataset[dataset.Country.isna()]

In [None]:
dataset[dataset.Purchased.isna()]

#### En este caso, puede ser una buena opción eliminar los registros con NA, ya que no tenemos demasiada información para imputarlos. Pero siempre debemos tener en cuenta para qué queremos los datos...
Por ejemplo, si la variable _Purchased_ no la vamos a usar en nuestro análisis/modelo, no eliminaríamos el registro de Francia. 

In [None]:
dataset.dropna(how='any', subset=['Country', 'Purchased'], inplace=True)


In [None]:
dataset.isna().sum()

### Codificar las variables categóricas

En ocasiones, los modelos de Machine Learning no pueden trabajar con datos categóricos, si no que necesitan datos numéricos. Para ello, es necesario llevar a cabo una codificación de las variables categóricas. Esto dará lugar a la creación de nuevas columnas en nuestro set de datos.

Vamos a aplicar _One Hot Encoding_ , que convierte la variable categórica en variables nuevas:

In [None]:
dataset.Country.unique()

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('enconder', OneHotEncoder(), [0])], remainder='passthrough')
X = np.array(ct.fit_transform(dataset))
print(X)

In [None]:

ct = ColumnTransformer(transformers=[('enconder', OneHotEncoder(), [6])], remainder='passthrough')
X = np.array(ct.fit_transform(X))
print(X)

### Para terminar con el preprocesado, vamos a proceder al escalado de los datos, para que estén en el mismo rango

Vamos a aplicar la estandarización, pero sólo sobre las variables numéricas

In [None]:

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

X[:, -2:] = sc.fit_transform(X[:, -2:])

In [None]:
df = pd.DataFrame(X)
df.head(10)