***
# `Project:` Prevendo a Ocorrências de Crises Epiléticas

## `Date:` dezembro, 2021

## `Data Scientist:` Walter Trevisan
***

# `Compreensão dos Dados`

Nesta etapa, vamos realizar as seguintes atividades:

1. **Compreender** o conjunto de dados que utilizaremos no projeto;

1. **Carregar** o conjunto de dados (*dataset*);

2. **Analisar** se existem **informações duplicadas** no *dataset*;

3. **Analisar** se existem ***missing values*** (valores ausentes) no *dataset*;

4. **Criar** dois conjuntos de dados: um para **treinamento** do modelo e outro para **teste** do modelo;

5. **Salvar** os conjuntos de dados de **Treino** e **Teste**.

## 1- Compreensão do conjunto de dados (*dataset*)

### Para que serve o Eletroencefalograma (`EEG`) e Como se preparar:

O eletroencefalograma (**EEG**) é um exame de diagnóstico que registra a atividade elétrica do cérebro, sendo utilizado para identificar alterações neurológicas, como em caso de convulsões ou episódios de alteração da consciência, por exemplo.

Normalmente, ele é feito através da fixação de pequenas placas de metal no couro cabeludo, chamadas de eletrodos, que estão ligadas a um computador que registra as ondas elétricas, sendo um exame muito utilizado por não causar dor e por poder ser realizado por pessoas de qualquer idade.

O eletroencefalograma pode ser feito tanto em vigília, ou seja, com a pessoa acordada, ou durante o sono, dependendo de quando surgem as convulsões ou do problema que está sendo estudado, podendo, também ser necessária a prática de manobras para ativar a atividade cerebral, como exercícios respiratórios ou colocar de uma luz pulsante na frente do paciente.

![](./images/EEG_1.png)

### Para que serve:

O **eletroencefalograma** (**`EEG`**) costuma ser solicitado por um neurologista e, geralmente, serve para identificar ou diagnosticar alterações neurológicas, como:

* **Epilepsia**;
* Suspeita de alterações da atividade cerebral;
* Casos de alteração da consciência, como desmaios ou coma, por exemplo;
* Detecção de inflamações ou intoxicações cerebrais;
* Complemento da avaliação de pacientes com doenças cerebrais, como demência, ou doenças psiquiátricas;
* Observar e acompanhar o **tratamento da epilepsia**;
* Avaliação da morte encefálica. Entenda **[quando acontece e como detectar a morte cerebral](https://www.tuasaude.com/morte-cerebral/)**. 

Qualquer pessoa pode realizar um eletroencefalograma, não havendo contra-indicações absolutas, entretanto, é recomendado que seja evitado em pessoas com lesões de pele no couro cabeludo ou pediculose (piolho).

![](./images/EEG_2.png)

### Principais tipos e como é feito:

O eletroencefalograma comum é feito com o implante a fixação de eletrodos, com um gel condutor, em áreas do couro cabeludo, de forma que as atividades cerebrais são captadas e registradas através um computador. Durante o exame, o médico poderá indicar a realização de manobras para ativar a atividade cerebral e aumentar a sensibilidade do exame, como hiperventilar, com respirações rápidas, ou com a colocação de uma luz pulsante na frente do paciente. 

Além disso, o exame pode ser feito de formas diferentes, como:

* **Eletroencefalograma em vigília**: é o tipo mais comum do exame, feito com o paciente acordado, muito útil para identificar a maioria das alterações;
* **Eletroencefalograma em sono**: é realizado durante o sono da pessoa, que passa a noite no hospital, facilitando a detecção de alterações cerebrais que podem surgir durante o sono, em casos de apnéia do sono, por exemplo;
* **Eletroencefalograma com mapeamento cerebral**: é um melhoramento do exame, em que a atividade cerebral captada pelos eletrodos é transmitida para um computador, que cria um mapa capaz de tornar possível identificar as regiões do cérebro que estão em atividade no momento.

Para identificar e diagnosticar doenças, o médico poderá utilizar exames de imagem, como a ressonância magnética ou a tomografia, mais sensíveis para detectar alterações como nódulos, tumores ou sangramentos, por exemplo. Entenda melhor quais as indicações e como são feitas a **[tomografia computadorizada](https://www.tuasaude.com/tomografia-computadorizada/)** e a **[ressonância magnética](https://www.tuasaude.com/ressonancia-magnetica/)**.

### Como se preparar para o encefalograma:

Para se preparar para o encefalograma e melhorar a sua eficácia na detecção de alterações, é necessário evitar medicamentos que alteram o funcionamento do cérebro, como sedativos, antiepilépticos ou antidepressivos, 1 a 2 dias antes do exame ou de acordo com indicação do médico, não consumir bebidas com cafeína, como café, chá ou chocolate, 12 horas antes do exame, além de evitar utilizar óleos, cremes ou sprays no cabelo no dia do exame.

Além disso, caso o eletroencefalograma seja feito durante o sono, o médico pode pedir que o paciente durma menos 4 a 5 horas na noite anterior para facilitar um sono profundo durante o exame.

### Descrição do conjunto de dados (*dataset*):

O nosso conjunto de dados possui **178 colunas (atributos)**. Cada atributo representa exatamente 1 segundo da leitura do **EEG**.

O conjunto de dados original da referência consiste em 5 pastas diferentes, cada uma com 100 arquivos, sendo que cada arquivo representa um único assunto/pessoa. Cada arquivo é um registro da atividade cerebral por 23,6 segundos. A série temporal correspondente é amostrada em 4097 pontos de dados. Cada ponto de dados é o valor da gravação do EEG em um ponto diferente no tempo. Portanto, temos um total de **500 indivíduos** com 4097 pontos de dados para 23,6 segundos cada um.

Cada 4097 pontos de dados foram divididos e embaralhados em 23 pedaços; cada pedaço contém 178 pontos de dados por 1 segundo, e cada ponto de dados é o valor da gravação de EEG em um ponto diferente no tempo. Portanto, agora temos 23 x 500 = 11500 informações (linha), cada informação contém 178 pontos de dados para 1 segundo (coluna). Ou seja, o nosso conjunto de dados possui **178 colunas (atributos)**, sendo que cada atributo representa exatamente **1 segundo da leitura do EEG**. A última coluna do dataset representa o rótulo (*lable*) **`y`** **{1, 2, 3, 4, 5}**.

Então, a variável de resposta é **`y`** na coluna 179; as variáveis explicativas são: **`X1, X2, ..., X178`**. A variável **`y`** contém a categoria do vetor de entrada 178-dimensional.

A variável **`y`** possui **5 categorias**, a saber:

* **5**: olhos abertos; significa que quando eles estavam registrando o sinal EEG do cérebro, o paciente tinha os olhos abertos;
* **4**: olhos fechados; significa que quando eles estavam registrando o sinal EEG do cérebro, o paciente tinha seus olhos fechados;
* **3**: sim, eles identificam onde a região do tumor estava no cérebro e registram a atividade do EEG a partir da área saudável do cérebro;
* **2**: Eles registram o EEG a partir da área onde o tumor estava localizado;
* **1**: Gravação da atividade de convulsão.

Todos os indivíduoas das classes **2, 3, 4, e 5** são sujeitos que **não tiveram convulsões epilépticas**. Somente os sujeitos da classe **1* tiveram convulsões epilépticas**. Nossa motivação para criar esta versão dos dados foi simplificar o acesso aos dados através da criação de uma versão .csv dos mesmos. Embora existam 5 classes, a maioria dos autores fez a classificação binária, ou seja, a classe 1 (convulsão epilética) contra as demais.

O conjunto de dados inclui 4097 leituras de eletroencefalograma (EEG) por paciente durante 23,5 segundos, com 500 pacientes no total. Os 4097 pontos de dados foram então divididos igualmente em 23 partes por paciente, cada parte é convertida em uma linha no conjunto de dados. Cada linha contém 178 leituras, que são transformadas em colunas; em outras palavras, existem 178 colunas que compõem um segundo das leituras de EEG. No total, existem 11.500 linhas e 179 colunas com a última coluna contendo o status do paciente, esteja ele tendo uma convulsão ou não.

### Referência:

As informações foram obtidas **[neste site](https://www.tuasaude.com/eletroencefalograma/)**.

## Setup:

Primeiro, vamos carregar os **pacotes e funções** que serão utilizadas neste **notebook**.

In [1]:
# As novas versões do Pandas e Matplotlib trazem diversas mensagens de aviso ao desenvolvedor.
# Então, vamos desativar essas mensagens.
import sys # O pacote "sys" permite manipulações com o sistema operacional:
import os  # Operation System (Packages and Functions)
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

# Importa função para verificarmos a versão da linguagem python:
from platform import python_version

# Importando os pacote Pandas:
import pandas as pd

# Importando o pacote do Scikit-Learn:
import sklearn as skl 

# Função para criar amostras de dados de forma estratificada:
from sklearn.model_selection import StratifiedShuffleSplit

# Definindo o diretório raiz (Root) onde serão armazenados todas as informações
# (Imagens, Objetos, Dados, Modelos de ML, etc...) do projeto.
# Diretório Raiz (Root) do Projeto:
ROOT_DIR = "."

# Path: onde ficarão armazenados os "Objetos" (Estrututras de Dados) relacionados ao Projeto:
OBJ_PATH = os.path.join(ROOT_DIR, "objects")
# Criando o diretório, se ele não existir:
os.makedirs(OBJ_PATH, exist_ok=True)

# Path: onde ficarão armazenados os "datasets" (arquivos "csv") e os "objetos" (Data Frames) do Projeto:
DATA_PATH = os.path.join(ROOT_DIR, "data")
# Path do arquivo "csv" que contém o conjunto de dados do Projeto:
DATA_FILE_PATH = os.path.join(DATA_PATH, "dados_originais.csv")
# Criando o diretório, se ele não existir:
os.makedirs(DATA_PATH, exist_ok=True)

# Path: onde estão armazenadas as classes e funções que serão utilizadas neste notebook:
LIB_PATH = os.path.join(ROOT_DIR, "library")

# Adicionando o diretório "./library" ao 'path' do Sistema, para podermos importar classes e funções que serão
# utilizadas neste notebook:
sys.path.append(LIB_PATH)

# Importando para este notebook, as classes e funções definidas no módulo "data_science_library.py":
import data_science_library as dslib

# Definindo uma "semente" para reproduzir os mesmos dados nas tarefas de amostragem:
SEED = 42

print("Setup Complete!")

Setup Complete!


In [2]:
# Versões dos pacotes usados neste jupyter notebook:
print("Versões dos pacotes usados neste jupyter notebook:")
print("Python      : {}".format(python_version()))
print("Pandas      : {}".format(pd.__version__))
print("Scikit-Learn: {}".format(skl.__version__))

Versões dos pacotes usados neste jupyter notebook:
Python      : 3.7.11
Pandas      : 1.3.4
Scikit-Learn: 1.0.1


## 2- Carregar o conjunto de dados (*dataset*)

In [3]:
# Carregando o arquivo "dados_originais.csv":
df_data = pd.read_csv(filepath_or_buffer=DATA_FILE_PATH)
# Visualizando os primeiros registros:
df_data.head()

Unnamed: 0.1,Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,y
0,X21.V1.791,135,190,229,223,192,125,55,-9,-33,...,-17,-15,-31,-77,-103,-127,-116,-83,-51,4
1,X15.V1.924,386,382,356,331,320,315,307,272,244,...,164,150,146,152,157,156,154,143,129,1
2,X8.V1.1,-32,-39,-47,-37,-32,-36,-57,-73,-85,...,57,64,48,19,-12,-30,-35,-35,-36,5
3,X16.V1.60,-105,-101,-96,-92,-89,-95,-102,-100,-87,...,-82,-81,-80,-77,-85,-77,-72,-69,-65,5
4,X20.V1.54,-9,-65,-98,-102,-78,-48,-16,0,-21,...,4,2,-12,-32,-41,-65,-83,-89,-73,5


In [4]:
# Shape dos dados:
print("O dataset possui {} linhas e {} colunas.".format(df_data.shape[0], df_data.shape[1]))

O dataset possui 11500 linhas e 180 colunas.


**Análise:**

1. a primeira coluna (`Unnamed: 0`) do conjuto de dados não possui qualquer informação relevante para o projeto e, portanto, deverá ser eliminada na etapa de **preparação dos dados**;

2. embora existam 5 classes, neste projeto vamos realizar a **classificação binária**, ou seja, a classe **1** (**convulsão epilética**) contra as demais classes que neste caso serão representadas pela classe **0**. Portanto, a variável target **`y`** deverá ser transformada em **duas classes** na etapa de **preparação dos dados**.

## 3- Analisar informações duplicadas no *dataset*

In [5]:
# Verificando se existem registros/linhas duplicadas no Data Frame "df_data":
# Checando se temos linhas duplicadas:
index = df_data.duplicated()
print("Número de linhas duplicadas no dataset: {}".format(df_data[index].shape[0]))

Número de linhas duplicadas no dataset: 0


In [6]:
# Verificando se existem colunas duplicadas no Data Frame "df_data":
cols = list(df_data.columns)
dup_cols = [x for x in cols if cols.count(x) > 1]
print("Número de colunas duplicadas no dataset: {}".format(len(dup_cols)))

Número de colunas duplicadas no dataset: 0


**Análise:** o conjuto de dados **não possui informações duplicadas**.

## 4- Analisar se existem *missing values* (*`NaN`*) no *dataset*

In [7]:
# Verificando se existem valores ausentes no Data Frame "df_data":
print("Número de valores ausentes (NaN) no dataset: {}".format(df_data.isnull().sum().sum()))

Número de valores ausentes (NaN) no dataset: 0


**Análise:** o conjuto de dados **não possui valores ausentes (`NaN`)**.

## 5- Criando os *datasets*: treino (`df_train`) e teste (`df_test`)

Embora o nosso dataset não seja pequeno (especialmente em relação ao número de atributos), se utilizarmos um método de amostragem puramente aleatório correremos o risco do resultado apresentar um viés significativo de amostragem. Portanto, utilizaremos o método de *amostragem estratificada*, utilizando a nossa variável target (**`y`**), para termos as mesmas proporções de classes (**1, 2, 3, 4 e 5**) nos dois conjuntos de dados (treino e teste) gerados.

***amostragem estratificada***: a população é dividida em subgrupos homogêneos, chamados de *estratos*, e o número certo de instâncias de cada estrato é amostrado para garantir que o conjunto de testes seja representativo da população em geral.

Vamos comparar os dois métodos de amostragem: ***aleatório x estratificado***

Primeiro, vamos criar um conjunto de dados de teste utilizando o método `sample`, ou seja, utilizando o método de ***amostragem puramente aleatória***:

In [8]:
# Criando os datasets de treino e teste através de amostragem puramente aleatória:
# Embaralhando os dados (11500 linhas) de forma aleatória:
df_data_temp = df_data.sample(n = len(df_data), random_state=SEED, ignore_index=True)

# Selecionando 20% para os dados de teste:
random_test_set = df_data_temp.sample(frac = 0.2, random_state=SEED)
# Selecionando 80% para os dados de treino:
random_train_set = df_data_temp.drop(random_test_set.index)

Agora, vamos análisar as proporções da categoria **`y`** nos conjuntos de dados completo (*df_data*), de treino (*random_train_set*) e de teste (*random_train_set*):

In [9]:
# Calculando as proporções de cada categoria nos 3 conjuntos de dados:
proportions_cat = pd.DataFrame(
    {'Original Set': df_data["y"].value_counts() / len(df_data),
     'Random Train Set': random_train_set["y"].value_counts() / len(random_train_set),
     'Random Test Set': random_test_set["y"].value_counts() / len(random_test_set)
    }
)

proportions_cat       

Unnamed: 0,Original Set,Random Train Set,Random Test Set
1,0.2,0.201413,0.194348
2,0.2,0.200326,0.198696
3,0.2,0.198043,0.207826
4,0.2,0.20087,0.196522
5,0.2,0.199348,0.202609


**Análise:** observe que as proporções de cada *classe* (**1, 2, 3, 4 e 5**) não são iguais nos três *datasets*!

Agora, vamos criar o nosso conjunto de dados de teste utilizando o método de ***amostragem estratificada*** com base na categoria da nossa variável target (**`y`**):

In [10]:
# Criando a instância:
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=SEED)

# Criando os datasets de treino e teste utilizando amostragem estratificada:
for train_index, test_index in split.split(df_data, df_data["y"]):
    strat_train_set = df_data.loc[train_index]
    strat_test_set = df_data.loc[test_index]

Agora, vamos análisar as proporções da categoria **`y`** nos conjuntos de dados completo (*df_data*), de treino (*strat_train_set*) e de teste (*strat_train_set*):

In [11]:
# Calculando as proporções de cada categoria nos 3 conjuntos de dados:
proportions_cat = pd.DataFrame(
    {'Original Set': df_data["y"].value_counts() / len(df_data),
     'Strat Train Set': strat_train_set["y"].value_counts() / len(strat_train_set),
     'Strat Test Set': strat_test_set["y"].value_counts() / len(strat_test_set)
    }
)

proportions_cat                            

Unnamed: 0,Original Set,Strat Train Set,Strat Test Set
1,0.2,0.2,0.2
2,0.2,0.2,0.2
3,0.2,0.2,0.2
4,0.2,0.2,0.2
5,0.2,0.2,0.2


**Análise:** observe que as proporções de cada *classe* (**1, 2, 3, 4 e 5**) são iguais nos três *datasets*!

Vamos comparar as proporções da categoria de **`y`** no conjunto de dados completo (**df_data**), no conjunto de teste gerado com a amostragem estratificada (**strat_test_set**), e em um conjunto de teste gerado a partir da amostragem puramente aleatória (**test_set**):

In [12]:
# Definindo uma função para calcular as proporções de cada categoria da variável target "y":
def data_cat_proportions(data):
    return data["y"].value_counts() / len(data)

# Criando um Data Frame para comparação de viés de amostragem estratificada versus amostragem aleatória: 
compare_props = pd.DataFrame({
    "Overall": data_cat_proportions(df_data),
    "Stratified": data_cat_proportions(strat_test_set),
    "Random": data_cat_proportions(random_test_set),
}).sort_index()

# Calculando a taxa de erro da amostragem aleatória:
compare_props["Rand. %error"] = 100 * compare_props["Random"] / compare_props["Overall"] - 100

# Calculando a taxa de erro da amostragem estratificada:
compare_props["Strat. %error"] = 100 * compare_props["Stratified"] / compare_props["Overall"] - 100

In [13]:
# Visualizando os resultados:
compare_props

Unnamed: 0,Overall,Stratified,Random,Rand. %error,Strat. %error
1,0.2,0.2,0.194348,-2.826087,0.0
2,0.2,0.2,0.198696,-0.652174,0.0
3,0.2,0.2,0.207826,3.913043,0.0
4,0.2,0.2,0.196522,-1.73913,0.0
5,0.2,0.2,0.202609,1.304348,0.0


Como podemos observar nos resultados acima, o conjunto de teste gerado com a utilização da amostragem estratificada (**Stratified**) têm proporções de cada categoria (variável **`y`**) idênticas às do conjunto completo de dados (**Overall**), enquanto que no conjunto de testes gerado com amostragem puramente aleatória (**Random**) as proporções são bastantes distorcidas, ou seja, as taxas de erro são bem maiores.

In [14]:
# Reset no índice do data frame de treinamento:
strat_train_set.reset_index(drop=True, inplace=True)

# Visualizando as primeiras instâncias do dataset de treino (strat_train_set):
strat_train_set.head()

Unnamed: 0.1,Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,y
0,X5.V1.617,57,-36,-111,-185,-257,-324,-369,-394,-387,...,503,703,669,565,461,345,207,64,-88,1
1,X21.V1.893,-69,-67,-60,-62,-66,-66,-59,-56,-51,...,-67,-68,-63,-53,-42,-32,-24,-13,-4,2
2,X5.V1.90,-78,-75,-68,-57,-26,-19,11,13,25,...,46,30,23,29,40,52,44,39,21,5
3,X17.V1.583,1,2,11,21,25,35,43,50,54,...,22,19,15,14,14,15,15,9,3,2
4,X8.V1.103,-111,-105,-100,-91,-84,-76,-74,-68,-54,...,2,3,5,8,10,6,1,-3,-13,2


In [15]:
# Reset no índice do data frame de teste:
strat_test_set.reset_index(drop=True, inplace=True)

# Visualizando as primeiras instâncias do dataset de teste (strat_test_set):
strat_test_set.head()

Unnamed: 0.1,Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,...,X170,X171,X172,X173,X174,X175,X176,X177,X178,y
0,X21.V1.794,403,501,631,710,679,526,297,25,-274,...,655,669,592,422,160,-160,-471,-754,-924,1
1,X20.V1.321,17,25,40,46,31,1,-19,-30,-28,...,-1,-33,-54,-52,-26,-1,19,19,-3,4
2,X15.V1.274,-643,-726,-725,-628,-472,-239,33,363,679,...,-373,-400,-450,-523,-556,-556,-454,-276,-30,1
3,X19.V1.354,-47,-11,28,77,141,211,246,240,193,...,-65,-33,-7,14,27,48,77,117,170,1
4,X12.V1.132,-35,-40,-41,-52,-64,-83,-100,-101,-91,...,-72,-64,-64,-67,-66,-64,-70,-81,-99,3


In [16]:
# Verificando a quantidade de registros em cada dataset (treino e teste):
print("O conjunto de dados de treino possui {} linhas ({}%).".format(len(strat_train_set),
      int(len(strat_train_set)/len(df_data)*100)))
print("O conjunto de dados de teste possui {} linhas ({}%).".format(len(strat_test_set),
      int(len(strat_test_set)/len(df_data)*100)))

O conjunto de dados de treino possui 9200 linhas (80%).
O conjunto de dados de teste possui 2300 linhas (20%).


## 6- Salvando os *data frames*: treino (`strat_train_set`) e teste (`strat_test_set`)

Agora, vamos salvar os *data frames* de treino (`start_train_set`) e teste `strat_test_set`), que serão utilizados nas próximas etapas, a saber:

1. **`strat_train_set.pck`:** é o *data frame* de treino criado por **amostragem estratificada** a partir do data frame `df_data`;

2. **`strat_test_set.pck`:** é o *data frame* de teste criado por **amostragem estratificada** a partir do data frame `df_data`.

In [17]:
# Salvando o data frame "strat_train_set":
dslib.pickle_object_save (
    path=DATA_PATH, file="strat_train_set.pck", object_name=strat_train_set,
    msg="O arquivo 'strat_train_set.pck' (data frame) foi salvo com sucesso!")

# Salvando o data frame "strat_train_set":
dslib.pickle_object_save (
    path=DATA_PATH, file="strat_test_set.pck", object_name=strat_test_set,
    msg="O arquivo 'strat_test_set.pck' (data frame) foi salvo com sucesso!")

O arquivo 'strat_train_set.pck' (data frame) foi salvo com sucesso!
O arquivo 'strat_test_set.pck' (data frame) foi salvo com sucesso!


**Comentários:** concluímos a etapa de **compreensão dos dados**, onde criamos os nosso conjuntos de dados de treino (**strat_train_set.pck**) e de teste (**strat_test_set.pck**) que serão utilizados nas próximas etapas do projeto.

## <font color='black'>FIM</font>