# Ferramentas de Pré Processamento de Dados
O pré-processamento de dados é uma etapa crucial no ciclo de vida da análise de dados, envolvendo a preparação e limpeza dos dados brutos para facilitar análises mais eficazes e precisas

# Importando o Dataset e Separando as Variaveis Independentes da Variaveis Dependentes

# Bibliotecas a Serem Utilizadas

In [7]:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

#Scikit-learn (sklearn) é uma biblioteca em Python que oferece ferramentas eficientes para pré-processamento, modelagem e avaliação de modelos.
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [8]:

dataset = pd.read_csv('Data.csv')
x = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

* Iloc => Seleciona as tabelas do dataset

* [: => Seleciona todas as linhas

* :-1] => Seleciona todas as colunas, exceto a ultima
* .values => seleciona os valores do resultado, transformando em uma matriz

In [11]:
print(x, end='\n\n')
print(y)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


# Tratamento de Dados Faltantes

In [12]:

imputer = SimpleImputer(missing_values=np.nan, strategy='mean') #cria um objeto que transforma os valores nulos na média dos dados
imputer.fit(x[:, 1:3]) #Ensina o imputer sobre os valores nulos das colunas 2 e 3
x[:, 1:3] = imputer.transform(x[:, 1:3]) # Substitui os valores ausentes nas colunas 2 e 3 de x pelos valores médios calculados anteriormente.

In [13]:
print(x)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


# Codificando as Variaveis Independentes

In [14]:
ct = ColumnTransformer(transformers =[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
x = np.array(ct.fit_transform(x))

* ColumnTransformer => Cria um transformador de colunas que permite aplicar diferentes transformações em diferentes conjuntos de colunas.
* OneHotEncoder() => técnica de pré-processamento que converte variáveis categóricas em uma representação binária, criando colunas distintas para cada categoria
* ('encoder', OneHotEncoder(), [0]) => Indica que a transformação é nomeada como 'encoder', usando o OneHotEncoder, e será aplicada à coluna de índice 0.
* remainder='passthrough' => Indica que as colunas não especificadas na transformação devem ser mantidas no conjunto de dados resultante sem alteração.
---
* ct.fit_transform(x): Ajusta o ColumnTransformer aos dados x (aprendendo as transformações necessárias) e, em seguida, aplica essas transformações.

* x = np.array(...): Converte o resultado da transformação para um array NumPy e substitui a variável original x pelos dados transformados.


In [15]:
print(x)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


# Codificando as Variavel Dependente

In [16]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder() #Transforma valores categóricos em rótulos numéricos.
y = le.fit_transform(y) #transforma valores de Y em numericos

In [17]:
print(y)

[0 1 0 0 1 1 0 1 0 1]


# Separando Dados de Treino e Teste

In [19]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 1)

As variáveis x_train e y_train representam os conjuntos de treinamento para as características (x) e os rótulos (y), enquanto x_test e y_test representam os conjuntos de teste. O parâmetro test_size define a proporção do conjunto de teste (neste caso, 20% do conjunto total), e random_state garante a reprodutibilidade dos resultados ao fixar a semente para a geração de números aleatórios.

In [20]:
print(x_train, end = '\n\n')
print(x_test, end = '\n\n')
print(y_train, end = '\n\n')
print(y_test)


[[0.0 0.0 1.0 38.77777777777778 52000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 35.0 58000.0]]

[[0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 37.0 67000.0]]

[0 1 0 0 1 1 0 1]

[0 1]


# Escala de características - Padronização
Processo de normalizar as diferentes características (variáveis) de um conjunto de dados para uma escala específica. O objetivo é garantir que todas as características tenham uma influência equitativa nos algoritmos de machine learning, especialmente aqueles sensíveis às diferenças de escala entre as variáveis.


---


Padronização (Standardization):
Subtrai a média de cada característica e divide pelo desvio padrão.
Resulta em uma distribuição com média zero e desvio padrão igual a um.
É útil quando as características têm distribuições diferentes.

In [21]:
sc = StandardScaler()
x_train = sc.fit_transform(x_train)
x_test = sc.transform(x_test)

In [23]:
print(x_train, end = '\n\n')
print(x_test)

[[-0.77459667 -0.57735027  1.29099445 -0.19159184 -1.07812594]
 [-0.77459667  1.73205081 -0.77459667 -0.01411729 -0.07013168]
 [ 1.29099445 -0.57735027 -0.77459667  0.56670851  0.63356243]
 [-0.77459667 -0.57735027  1.29099445 -0.30453019 -0.30786617]
 [-0.77459667 -0.57735027  1.29099445 -1.90180114 -1.42046362]
 [ 1.29099445 -0.57735027 -0.77459667  1.14753431  1.23265336]
 [-0.77459667  1.73205081 -0.77459667  1.43794721  1.57499104]
 [ 1.29099445 -0.57735027 -0.77459667 -0.74014954 -0.56461943]]

[[-0.77459667  1.73205081 -0.77459667 -1.46618179 -0.9069571 ]
 [ 1.29099445 -0.57735027 -0.77459667 -0.44973664  0.20564034]]
