In [24]:
# importação das bibliotecas necessárias

import numpy as np                                              # biblioteca para cálculo matemático
import pandas as pd                                             # biblioteca para manipulação de dados
import matplotlib.pyplot as plt                                 # biblioteca para plotagem de gráficos
from sklearn.impute import SimpleImputer                        # biblioteca para preenchimento de valores faltantes
from sklearn.preprocessing import LabelEncoder, OneHotEncoder   # bibliotecas para codificação de variáveis categóricas
from sklearn.compose import ColumnTransformer                   # biblioteca para transformação de variáveis categóricas
from sklearn.model_selection import train_test_split            # biblioteca para divisão de dados em conjuntos de treinamento e teste
from sklearn.preprocessing import StandardScaler                # biblioteca para escalonamento dos dados

In [2]:
# importação do arquivo CSV

dataset = pd.read_csv('./data/Data.csv')       

In [3]:
# visualização dos dados

dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [4]:
# variaveis independentes

X = dataset.iloc[ : ,: -1].values                     # .values para transformar em array

In [5]:
# visualização após transformação

X

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

In [6]:
# variavel dependente (y)

y = dataset.iloc[ :, -1].values

In [7]:
# visualização após transformação

y

array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
      dtype=object)

In [11]:
# tratamento de dados
# preenchimento de valores faltantes com o metodo do SimpleImputer
# substituição dos valores faltantes pela média, valores em X das colunas 1 e 2

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer = imputer.fit(X[ :, 1:3])  
X[ :, 1:3] = imputer.transform(X[ :, 1:3])

In [12]:
# visualização após tratamento

X        

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, 63777.77777777778],
       ['France', 35.0, 58000.0],
       ['Spain', 38.77777777777778, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

In [14]:
# enconding de variaveis categoricas

labelEncoder_X = LabelEncoder()
X[ :, 0] = labelEncoder_X.fit_transform(X[ :, 0])

In [15]:
# visualização após tratamento

X

array([[0, 44.0, 72000.0],
       [2, 27.0, 48000.0],
       [1, 30.0, 54000.0],
       [2, 38.0, 61000.0],
       [1, 40.0, 63777.77777777778],
       [0, 35.0, 58000.0],
       [2, 38.77777777777778, 52000.0],
       [0, 48.0, 79000.0],
       [1, 50.0, 83000.0],
       [0, 37.0, 67000.0]], dtype=object)

In [16]:
# codificação de variaveis categoricas (dummy variables) - OneHotEncoder
# transformação para que valor das variaveis sejam equivalentes

ct = ColumnTransformer([('Country', OneHotEncoder(),[0])], remainder='passthrough')
X = ct.fit_transform(X)

In [17]:
# visualização após tratamento

X

array([[1.0, 0.0, 0.0, 44.0, 72000.0],
       [0.0, 0.0, 1.0, 27.0, 48000.0],
       [0.0, 1.0, 0.0, 30.0, 54000.0],
       [0.0, 0.0, 1.0, 38.0, 61000.0],
       [0.0, 1.0, 0.0, 40.0, 63777.77777777778],
       [1.0, 0.0, 0.0, 35.0, 58000.0],
       [0.0, 0.0, 1.0, 38.77777777777778, 52000.0],
       [1.0, 0.0, 0.0, 48.0, 79000.0],
       [0.0, 1.0, 0.0, 50.0, 83000.0],
       [1.0, 0.0, 0.0, 37.0, 67000.0]], dtype=object)

In [18]:
# transformação de variaveis dependentes (y), para numéricas

labelEncoder_y = LabelEncoder()
y = labelEncoder_y.fit_transform(y)

In [19]:
# visualização após tratamento

y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

In [21]:
# divisão de conjuntos de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [22]:
# tamanho dos conjuntos de treinamento e teste

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((8, 5), (2, 5), (8,), (2,))

In [25]:
# feature scaling
# normalização dos dados para que possam ser comparados com outros dados
# feature scaling é feita para que os dados estejam na mesma escala

sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)