In [0]:
from google.colab import drive
drive.mount('/content/drive')


In [0]:
# Data Preprocessing

# Importing the libraries
# Library is a tool that you can do a specific job
# Inputs -> Library -> Outputs

# 3 Essentials libraries, every time.

# Numpy: contém ferramentas matemáticas.
import numpy as np 

# To plot nice charts
import matplotlib.pyplot as plt 

# To import datasets and manage datasets
import pandas as pd

dataset = pd.read_csv('/content/drive/My Drive/Datasets/Data.csv')
# Vamos dividir as variaveis dependentes das independentes

# [: = All the lines. :-1] = All the columns except the last one 
X = dataset.iloc[:,:-1].values

y = dataset.iloc[:,-1].values

# y = dataset.iloc[:,3].values

In [0]:
# Missing the data 
# We can remove that lines, but it can be dangerous becuse these lines can have crucial information

# To take the mean of columns.

# SK Learn - Imputer : lead with the missing data
# Imputer = class

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

X[:, 1:3] = imputer.fit_transform(X[:, 1:3])

In [0]:
# Encoding categorical data

# Machine learning é completamente matemática, então como ficará os atrbutos de texto ? 
# need to encode, text into numbers

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Dummy Encoding

# Invés de usar uma coluna, usaremos 3 colunas(Espanha, França e Alemanha) 
# com valores binários

# Número de colunas que vão ser criadas = Número de categorias

labelencoder_X = LabelEncoder() 
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

ct = ColumnTransformer(
    [('one_hot_encoder', OneHotEncoder(categories='auto'), [0])],   
    remainder='passthrough'
)

X = ct.fit_transform(X)

# Precisamos fazer o mesmo com a variavel dependente,
# o modelo sabe que ela é categórica então basta usar 
# o LabelEncoder: precisamos criar um outro objeto pois
# labelencoder_X ja foi preenchido(fit) com X

labelencoder_y = LabelEncoder() 
y = labelencoder_y.fit_transform(y)



In [0]:
# Splitting the dataset into the Training set and Test set

# Machine learning se trata se uma máquina que vai aprender alguma coisa
# o algritmo aprende através dos dados pra fazer previsões

# Vamos criar o modelo e treiná-lo com um conjunto de dados, 
# então precisamos testar em um novo set (que é diferente do primeiro).

# O modelo estabelecerá corelações entre as váriaveis independentes e dependentes
# E uma vez que ela entender a corelação nós testaremos com o set de treino

# Quanto "melhor" ele entender as corelações no set de treino maior  
# a taxa de acerto no set de teste

# Mas se ele aprender muito "de cor" as relações no set de treino, 
# ou seja, não enteder, ele terá dificuldades para prever o set de 
# teste. Aperendendo de cor as relações ele não entenderá muito bem
# a lógica. 
# Isso se chama Overfitting (regularisations techniques)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


In [0]:
# Feature Scaling

# A coluna age (27 - 50) e salary (48 k - 90 k ) estão em escalas diferentes,
# E isso causará problemas no nosso modelo

# Existem vários de modelos de ML que são baseados na distância de Euclidean
# E = sqrt((x2 - x1)^2 + (y2 - y1)^2)
# Como o salário tem valor muito superior dos de idade, a distância euclidiana 
# será dominada pela coluna salário 

# Por isso precisamos colocar as todas as váriaveis na mesma escala 
# -1 a 1

# Há muitas formas de colocar na mesma escala
# Basicamente as equações abaixo farão que nenhuma variável domine a outra

# Standardisation
# x = ( x - mean(x) )/( SD( x ) )

# Normalization
# x = ( x - min(x) )/( max(x) - min(x) )


from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

# Mesmo se usarmos modelos que não utilizam distância Euclidiana precisaremos 
# colocar os dados na mesma escala, pois se não demorará,em alguns casos
# muito tempo para executar.

# Uma vez criado um objeto StandScaler e preenchido com o X_teste primeiro 
# precisaremos usar o mesmo para o X_train dessa forma os dois estarão com 
# escalas de mesma base

# Não precisamos fazer com y neste caso, só precisaremos aplicar no y quando a 
# variável dependente possuir um grande intervalo nos seus valores, em outras
# palavras: neste caso a variável dependente é apenas composta por valores 
# categóricos. 






In [10]:
X_test

array([[-1.        ,  2.64575131, -0.77459667, -1.45882927, -0.90166297],
       [-1.        ,  2.64575131, -0.77459667,  1.98496442,  2.13981082]])