<a href="https://colab.research.google.com/github/dipucriodigital/ciencia-de-dados-e-analytics/blob/main/analise-exploratoria-pre-processamento-de-dados/AEPD_Aula3b.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Aula 03: Pré-Processamento de Dados - Prof. Tatiana Escovedo

In [None]:
# Configuração para não exibir os warnings
import warnings
warnings.filterwarnings("ignore")

# Importação de pacotes
import pandas as pd
import numpy as np
import missingno as ms # para tratamento de missings
## Transformações Numéricas
from sklearn.preprocessing import MinMaxScaler # para normalização
from sklearn.preprocessing import StandardScaler # para padronização
## Transformações Categóricas
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder

## Prática 1: Transformações Numéricas com dataset Diabetes

### Carga do Dataset

In [None]:
# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/tatianaesc/datascience/main/diabetes.csv"

# Lê o arquivo 
dataset = pd.read_csv(url, delimiter=',')

# Exibindo as primeiras linhas
dataset.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Tratamento de Missings

In [None]:
# verificando nulls no dataset
dataset.isnull().sum()

In [None]:
# salvando um novo dataset para tratamento de missings

# recuperando os nomes das colunas
col = list(dataset.columns)

# o novo dataset irá conter todas as colunas do dataset original
datasetSemMissings = dataset[col[:]]

# substituindo os zeros por NaN
datasetSemMissings.replace(0, np.nan, inplace=True)

# exibindo visualização matricial da nulidade do dataset
ms.matrix(datasetSemMissings)

In [None]:
# verificando novamente nulls no dataset
datasetSemMissings.isnull().sum()

In [None]:
# removendo as colunas 'SkinThickness' e 'Insulin'
datasetSemMissings.drop(['SkinThickness', 'Insulin'], axis=1, inplace= True)

# exibindo visualização matricial da nulidade do dataset
ms.matrix(datasetSemMissings)

In [None]:
# substituindo os NaN de 'Pregnancies' e 'Outcome' por 0 - voltando aos valores originais destas colunas
datasetSemMissings['Pregnancies'].fillna(0, inplace=True)
datasetSemMissings['Outcome'].fillna(0, inplace=True)

# substituindo os NaN de 'Glucose', 'BloodPressure' e 'BMI' pela mediana da coluna
datasetSemMissings['Glucose'].fillna(datasetSemMissings['Glucose'].median(), inplace=True)
datasetSemMissings['BloodPressure'].fillna(datasetSemMissings['BloodPressure'].median(), inplace=True)
datasetSemMissings['BMI'].fillna(datasetSemMissings['BMI'].median(), inplace=True)

# exibindo visualização matricial da nulidade do dataset
ms.matrix(datasetSemMissings)

In [None]:
# exibindo as primeiras linhas
datasetSemMissings.head()

In [None]:
# verificando nulls no dataset tratado
datasetSemMissings.isnull().sum()

### Normalização e Padronização

In [None]:
# Separando os valores do dataset em componentes de input (X) e output (Y)
X = dataset.values[:,0:8]
Y = dataset.values[:,8]

In [None]:
# Normalizando os dados
rescaledX = MinMaxScaler().fit_transform(X)

# Exibindo os dados transformados
print("Dados Originais: \n\n", dataset.values)
print("\nDados Normalizados (não inclui a coluna class): \n\n", rescaledX)

In [None]:
# Padronizando os dados
rescaledX = StandardScaler().fit_transform(X)

# Exibindo os dados transformados
print("Dados Originais: \n\n", dataset.values)
print("\nDados Padronizados (não inclui a coluna class): \n\n", rescaledX)

## Prática 2: Transformações Categóricas com dataset Breast Cancer

### Carga do Dataset

In [None]:
# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/tatianaesc/datascience/main/breast-cancer.csv"

# Lê o arquivo 
dataset = pd.read_csv(url, delimiter=',')

# Exibindo as primeiras linhas
dataset.head()

### Tratamento de Missings

In [None]:
# verificando nulls no dataset
dataset.isnull().sum()

In [None]:
# exibindo as dimensões do dataset
print(dataset.shape)

# eliminando linhas que tenham ALGUM valor missing
dataset.dropna(how='any', inplace=True) # CUIDADO! Não fizemos uma cópia do dataset original!

# exibindo as dimensões do dataset
print(dataset.shape)

In [None]:
# separando o array em componentes de input e output
X = dataset.values[:,0:9]
y = dataset.values[:,9]

### Codificação Ordinal

In [None]:
# ordinal encoding para os atributos X
encoded_X = OrdinalEncoder().fit_transform(X)

# exibindo os dados transformados
print("Atributos transformados:")
print(encoded_X[:5, :]) # 5 primeiras linhas, todas as colunas

### One-hot encoding

In [None]:
# one hot encode para os atributos X
encoded_X = OneHotEncoder(sparse=False).fit_transform(X)

# exibindo os dados transformados
print("Atributos transformados:")
print(encoded_X[:5, :]) # 5 primeiras linhas, todas as colunas