# Data Processing Tools

In [2]:
# CORE PKG'S

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [3]:
dt = pd.read_csv('data/Data.csv')
dt

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [4]:
# Separando o dataset em variáveis dependentes e independetes!
# X = Variáveis Independentes
# Y = Variáveis Dependentes (pensar no modelo de regressão linear)

x = dt.iloc[:, :-1].values
y = dt.iloc[:, -1].values

x,y

(array([['France', 44.0, 72000.0],
        ['Spain', 27.0, 48000.0],
        ['Germany', 30.0, 54000.0],
        ['Spain', 38.0, 61000.0],
        ['Germany', 40.0, nan],
        ['France', 35.0, 58000.0],
        ['Spain', nan, 52000.0],
        ['France', 48.0, 79000.0],
        ['Germany', 50.0, 83000.0],
        ['France', 37.0, 67000.0]], dtype=object),
 array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
       dtype=object))

#### Treating missing data

In this particular case, I will be using the scikit-learn library to populate the missing data with the overall mean of the data.

In cases of very large databases where the loss will be irrelevant, we can remove this data.

In [5]:
from sklearn.impute import SimpleImputer

imp = SimpleImputer(missing_values=np.nan, strategy='mean') # SipleImputer é como uma classe (OOP)
imp.fit(x[:, 1:3]) # Ajustando a média dos valores faltantes OBVIAMENTE SÓ VAI NUMÉRICO
x[:, 1:3] = imp.transform(x[:, 1:3]) # Transformando os valores faltantes

x 

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, 63777.77777777778],
       ['France', 35.0, 58000.0],
       ['Spain', 38.77777777777778, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

#### 'Encoding Categorical Data'
We will perform 'hot encoding' to separate the 'Country' column into three different columns (since there are 3 different groups/categories).


In [7]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
x = np.array(ct.fit_transform(x)) # NÃO ESQUECER DO NP! POIS SE NÃO, NÃO RETORNA UMA ARRAY NUMPY ESTRAGANDO TUDO PARA USO


x

array([[1.0, 0.0, 0.0, 44.0, 72000.0],
       [0.0, 0.0, 1.0, 27.0, 48000.0],
       [0.0, 1.0, 0.0, 30.0, 54000.0],
       [0.0, 0.0, 1.0, 38.0, 61000.0],
       [0.0, 1.0, 0.0, 40.0, 63777.77777777778],
       [1.0, 0.0, 0.0, 35.0, 58000.0],
       [0.0, 0.0, 1.0, 38.77777777777778, 52000.0],
       [1.0, 0.0, 0.0, 48.0, 79000.0],
       [0.0, 1.0, 0.0, 50.0, 83000.0],
       [1.0, 0.0, 0.0, 37.0, 67000.0]], dtype=object)

#### Encoding the Dependent Variable

In [10]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

#### Splitting the dataset into the Training set and Test set

In [16]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state=1)

x_train, x_test, y_train, y_test

(array([[0.0, 0.0, 1.0, 38.77777777777778, 52000.0],
        [0.0, 1.0, 0.0, 40.0, 63777.77777777778],
        [1.0, 0.0, 0.0, 44.0, 72000.0],
        [0.0, 0.0, 1.0, 38.0, 61000.0],
        [0.0, 0.0, 1.0, 27.0, 48000.0],
        [1.0, 0.0, 0.0, 48.0, 79000.0],
        [0.0, 1.0, 0.0, 50.0, 83000.0],
        [1.0, 0.0, 0.0, 35.0, 58000.0]], dtype=object),
 array([[0.0, 1.0, 0.0, 30.0, 54000.0],
        [1.0, 0.0, 0.0, 37.0, 67000.0]], dtype=object),
 array([0, 1, 0, 0, 1, 1, 0, 1]),
 array([0, 1]))

#### Feature Scaling (Escalonamento de características/ Normalização de Features)

In [17]:
# - Não é necessário fazer o Feature Scaling para a Regressão Linear Múltipla, pois a biblioteca faz isso automaticamente!
# - Ou seja não é todo modelo que usa feature scaling, mas é bom fazer para garantir que o modelo não seja prejudicado por isso!

# Lembrando
# normalização : recomendado quando tenho uma distribuição normal em maior parte das minhas caracterustucas
# padronização : recomendado todo tempo, é uam boa prática, pois não sabemos a distribuição dos dados

# padronização é sempre o mais recomendado
# Só aplicar feature scalling nas características necessárias! Deixar as dummy variáveis intactas para matner interpretabilidade


In [18]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
x_train[:, 3:] = sc.fit_transform(x_train[:, 3:])
x_test[:, 3:] = sc.transform(x_test[:, 3:]) # Não é necessário dar fit no x_test, pois já foi feito no x_train

x_train, x_test

(array([[0.0, 0.0, 1.0, -0.19159184384578545, -1.0781259408412425],
        [0.0, 1.0, 0.0, -0.014117293757057777, -0.07013167641635372],
        [1.0, 0.0, 0.0, 0.566708506533324, 0.633562432710455],
        [0.0, 0.0, 1.0, -0.30453019390224867, -0.30786617274297867],
        [0.0, 0.0, 1.0, -1.9018011447007988, -1.420463615551582],
        [1.0, 0.0, 0.0, 1.1475343068237058, 1.232653363453549],
        [0.0, 1.0, 0.0, 1.4379472069688968, 1.5749910381638885],
        [1.0, 0.0, 0.0, -0.7401495441200351, -0.5646194287757332]],
       dtype=object),
 array([[0.0, 1.0, 0.0, -1.4661817944830124, -0.9069571034860727],
        [1.0, 0.0, 0.0, -0.44973664397484414, 0.2056403393225306]],
       dtype=object))