***
# `Project:` Prevendo a Ocorrências de Crises Epiléticas

## `Date:` dezembro, 2021

## `Data Scientist:` Walter Trevisan
***

# `Preparação dos Dados`

Nesta etapa, vamos realizar a **`Preparação dos Dados`**, utilizando o *dataset* de treinamento que foi salvo no arquivo **`strat_train_set.pck`**.

Então, vamos realizar as seguintes atividades:

1. Carregar o *data frame* de treinamento, salvo no arquivo **`strat_train_set.pck`**;

2. Realizar **`Feature Engineering`** para:

>* remover a variável **`Unnamed: 0`** que é irrelevante para o projeto;

>* criar uma nova variável (**`target`**) que terá apenas 2 categorias (**0 e 1**).

3. Salvar um **novo** *data frame* com os dados de treinamento, devido as alterações realizadas nesta etapa.

## Setup:

Primeiro, vamos carregar os **pacotes e funções** que serão utilizadas neste **notebook**.

In [1]:
# As novas versões do Pandas e Matplotlib trazem diversas mensagens de aviso ao desenvolvedor.
# Então, vamos desativar essas mensagens.
import sys # O pacote "sys" permite manipulações com o sistema operacional:
import os  # Operation System (Packages and Functions)
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

# Importa função para verificarmos a versão da linguagem python:
from platform import python_version

# Importando os pacote Pandas:
import pandas as pd

# Definindo o diretório raiz (Root) onde serão armazenados todas as informações
# (Imagens, Gráficos, Objetos, Dados, Modelos de ML, etc...) do projeto.
# Diretório Raiz (Root) do Projeto:
ROOT_DIR = "."

# Path: onde ficarão armazenados os "datasets" (arquivos "csv") e os "objetos" (Data Frames) do Projeto:
DATA_PATH = os.path.join(ROOT_DIR, "data")
# Criando o diretório, se ele não existir:
os.makedirs(DATA_PATH, exist_ok=True)

# Path: onde estão armazenadas as classes e funções que serão utilizadas neste notebook:
LIB_PATH = os.path.join(ROOT_DIR, "library")

# Adicionando o diretório "./library" ao 'path' do Sistema, para podermos importar classes e funções que serão
# utilizadas neste notebook:
sys.path.append(LIB_PATH)

# Importando para este notebook, as classes e funções definidas no módulo "data_science_library.py":
import data_science_library as dslib

print("Setup Complete!")

Setup Complete!


In [2]:
# Versões dos pacotes usados neste jupyter notebook:
print("Versões dos pacotes usados neste jupyter notebook:")
print("Python    : {}".format(python_version()))
print("Pandas    : {}".format(pd.__version__))

Versões dos pacotes usados neste jupyter notebook:
Python    : 3.7.11
Pandas    : 1.3.4


## 1- Carregar o *data frame* de treinamento: `strat_train_set.pck`

In [3]:
# Carregando o objeto (data frame) "strat_train_set":
train_df = dslib.pickle_object_load(
    path=DATA_PATH, file="strat_train_set.pck",
    msg="O arquivo 'strat_train_set.pck' (data frame) foi carregado com sucesso!"
)

O arquivo 'strat_train_set.pck' (data frame) foi carregado com sucesso!


## 2- Realizar *`Feature Engineering`*

Vamos realizar as seguintes atividades no *dataset* de treino (`train_df`):

* remover a variável **`Unnamed: 0`** que é irrelevante para o projeto;

* criar uma nova variável (**`target`**) que terá apenas 2 categorias (**0 e 1**). A categoria **1** (**ocorrência da convulsão**) será a representação da categoria **1** da variável **`y`**, e a categoria **0** (**não ocorrência da convulsão**) será a representação das categorias **2, 3, 4 e 5** da variável **`y`**.

In [4]:
# Realizando "feature engineering" nos dados de treino:
train_df = dslib.feature_engineering(df=train_df)

In [5]:
# Visualizando os primeiros 10 registros dos dados de treino transformados;
train_df.head(10)

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X171,X172,X173,X174,X175,X176,X177,X178,y,target
0,57,-36,-111,-185,-257,-324,-369,-394,-387,-362,...,703,669,565,461,345,207,64,-88,1,1
1,-69,-67,-60,-62,-66,-66,-59,-56,-51,-60,...,-68,-63,-53,-42,-32,-24,-13,-4,2,0
2,-78,-75,-68,-57,-26,-19,11,13,25,10,...,30,23,29,40,52,44,39,21,5,0
3,1,2,11,21,25,35,43,50,54,60,...,19,15,14,14,15,15,9,3,2,0
4,-111,-105,-100,-91,-84,-76,-74,-68,-54,-47,...,3,5,8,10,6,1,-3,-13,2,0
5,-11,-16,-22,-6,9,33,48,46,25,-8,...,-93,-106,-114,-119,-123,-134,-134,-137,3,0
6,-114,-121,-133,-139,-130,-111,-115,-141,-156,-183,...,35,-9,-34,-48,-51,-69,-61,-55,3,0
7,35,39,36,39,27,28,39,60,74,95,...,75,74,62,66,62,73,78,67,5,0
8,-37,-14,3,17,29,44,55,62,60,57,...,-156,-162,-160,-160,-161,-163,-163,-157,1,1
9,21,30,29,31,33,32,30,33,35,25,...,50,53,52,51,52,50,47,41,2,0


## 3- Salvando a versão `v2` do *data frame* de treino

Vamos salvar no arquivo **`strat_train_set_v2.pck`** os dados de treinamento transformados.

In [6]:
# Salvando o data frame "train_df":
dslib.pickle_object_save (
    path=DATA_PATH, file="strat_train_set_v2.pck", object_name=train_df,
    msg="O arquivo 'strat_train_set_v2' (data frame) foi salvo com sucesso!")

O arquivo 'strat_train_set_v2' (data frame) foi salvo com sucesso!


## <font color='black'>FIM</font>