# Preprocessing notes

## Basic info
Version: 0.1 (2021-04-24)  
Â© Tiago Tamagusko (tamagusko@uc.pt)<br>
License: [LICENSE](/LICENSE)

In [4]:
import pandas as pd
import numpy as np

# Create a dataframe from dict
data = {
    'cliente': ['Ines','Pedro', 'Joao','Maria'],
    'idade': ['23', '15', '45', np.nan],
    'salario': ['1200', '150', '800', '3000'],
    'totalCompras': ['100', '200', np.nan,  '300'],
    'compraRealizada': ['sim', 'nao', 'talvez',  'sim']
}

df = pd.DataFrame(data, columns = data.keys())
df

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada
0,Ines,23.0,1200,100.0,sim
1,Pedro,15.0,150,200.0,nao
2,Joao,45.0,800,,talvez
3,Maria,,3000,300.0,sim


## Encoding values

In [9]:
# One Hot Encoding
df = pd.get_dummies(df, prefix=['compra'], columns=['compraRealizada'])
df

Unnamed: 0,cliente,idade,salario,totalCompras,compra,compra_nao,compra_sim,compra_talvez
0,Ines,23.0,1200,100.0,1,0,1,0
1,Pedro,15.0,150,200.0,2,1,0,0
2,Joao,45.0,800,,3,0,0,1
3,Maria,,3000,300.0,1,0,1,0


In [10]:
# Label Encoding
df = pd.DataFrame(data, columns = data.keys())

from sklearn.preprocessing import LabelEncoder
df['compra'] = LabelEncoder().fit_transform(df.compraRealizada)
df

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada,compra
0,Ines,23.0,1200,100.0,sim,1
1,Pedro,15.0,150,200.0,nao,0
2,Joao,45.0,800,,talvez,2
3,Maria,,3000,300.0,sim,1


In [11]:
# Ordinal Encoding
compra_dict = {
    'sim': 1,
    'nao': 2,
    'talvez': 3,
}
df['compra'] = df.compraRealizada.map(compra_dict)
df

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada,compra
0,Ines,23.0,1200,100.0,sim,1
1,Pedro,15.0,150,200.0,nao,2
2,Joao,45.0,800,,talvez,3
3,Maria,,3000,300.0,sim,1


In [12]:
# Encoding w/ replace
df

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada,compra
0,Ines,23.0,1200,100.0,sim,1
1,Pedro,15.0,150,200.0,nao,2
2,Joao,45.0,800,,talvez,3
3,Maria,,3000,300.0,sim,1


In [14]:
df['compraRealizada'] = df['compraRealizada'].replace({'sim': 1, 'nao': 2, 'talvez': 3})
df

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada,compra
0,Ines,23.0,1200,100.0,1,1
1,Pedro,15.0,150,200.0,2,2
2,Joao,45.0,800,,3,3
3,Maria,,3000,300.0,1,1


## Missing values

In [15]:
# Verify na values
df.isna().any()

cliente            False
idade               True
salario            False
totalCompras        True
compraRealizada    False
compra             False
dtype: bool

In [16]:
df['idade'].isnull()

0    False
1    False
2    False
3     True
Name: idade, dtype: bool

In [17]:
df.isnull().sum()

cliente            0
idade              1
salario            0
totalCompras       1
compraRealizada    0
compra             0
dtype: int64

In [19]:
# Drop na rows
df.dropna()

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada,compra
0,Ines,23,1200,100,1,1
1,Pedro,15,150,200,2,2


In [20]:
# Fill NA
df = pd.DataFrame(data, columns = data.keys())
df.fillna(0)

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada
0,Ines,23,1200,100,sim
1,Pedro,15,150,200,nao
2,Joao,45,800,0,talvez
3,Maria,0,3000,300,sim


In [38]:
df

Unnamed: 0,cliente,idade,salario,totalCompras,compraRealizada
0,Ines,23.0,1200,100.0,sim
1,Pedro,15.0,150,200.0,nao
2,Joao,45.0,800,,talvez
3,Maria,,3000,300.0,sim


In [None]:
# https://towardsdatascience.com/how-to-use-python-and-missforest-algorithm-to-impute-missing-data-ed45eb47cb9a