# **Resumo**

Este notbook tem como objetivo realizar a análise exploratório do dataset disponilizado pelo Hospital Sírio-Libanês no Kaggle. 

A análise irá permitir entender o conjunto de dados a ser trabalhado e pré-processar estes dados para uma forma que seja ideal para trabalharmos durante a construção do modelo preditivo e análise estatística.

Uma parte do processamento dos dados já foi feita pelo próprio Hospital Sírio-Libanês, anonimizando os dados coletados, normalizando os dados dentro de um intervalo de -1 a 1 e limpando os dados com problemas.


# **Estruturação dos dados**

**Chave identificadora (Unique ID)**

O identificador único do paciente é a coluna "PATIENT_VISIT_IDENTIFIER".

**Variável a ser prevista pelo modelo**

A variável a ser prevista é a coluna "ICU", que identifica se em algum momento o paciente foi ou não para a UTI.

**Janela de tempo**

A coluna "WINDOW" identifica as janelas de tempo do paciente desde a admissão, sendo composta pelos seguintes intervalos:

| Janela | Descrição |
|--------|-----------|
| 0-2 | Entre 0 até 2 horas a partir da admissão do paciente |
| 2-4 | Entre 2 até 4 horas a partir da admissão do paciente |
| 4-6 | Entre 4 até 6 horas a partir da admissão do paciente |
| 6-12 | Entre 6 até 12 horas a partir da admissão do paciente |
| Above-12 | Mais de 12 horas horas a partir da admissão do paciente |

**Demais variáveis**

Temos as seguintes informações sobre o paciente:

| Janela |
|--------|
|Informações demográficas do paciente|
|Grupos de doenças previamente identificadas nos pacientes|
|Resultados de exames de sangue|
|Sinais vitais|

Temos um total de 54 colunas correspondente a 54 variáveis, sendo estas médias, mínimos, máximos, medianas e diferenças.

**Dados faltantes**

Devido às janelas de intervalo entre a coleta de dados de um paciente, não temos informações de alguns dos exames feitos nestas janelas. Uma solução proposta pelo Hospital é a de utilizar os ressultados de exames de outras janelas do mesmo paciente, visto que o paciente está clinicamente estável em um intervalo de tempo tão curto.

**Problema a ser solucionado**

A identificação precoce dos pacientes que desenvolverão um curso adverso da doença (e precisam de cuidados intensivos) é a chave para um tratamento adequado (salvar vidas) e para gerenciar leitos e recursos. Um bom modelo usando apenas a primeira janela (0-2) provavelmente será mais clinicamente relevante, por esta razão os dados serão reorganizados a fim de agrupar os dados médicos por paciente e apenas as informações da primeira janela serão utilizadas para identificar se um paciente precisou de internação em qualquer uma das janelas.

|Escopo do notebook|
|--------|
|Importação dos pacotes|
|Importação das funções locais|
|Leitura dos dados brutos|
|Pré-processamento|
|Análise da variável alvo|
|Análise das informações demográficas|
|Análise das demais variáveis categóricas|
|Análise das variáveis numéricas|
|Salvamento dos dados pré-processados|



## **Importação das bibliotecas gerais**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

## **Configuração dos estilos dos elementos visuais, remoção e seed**

In [2]:
sns.set_style('darkgrid')

seed = 324551

## **Importação das funções de pré-processamento**

In [3]:
import os
os.chdir("../funcoes")
from feature import compute_chi2, compute_high_corr, binary_features
from my_plot import labs, annot_bar
from preprocessing import fill_table, select_window
os.chdir("../notebooks")

ModuleNotFoundError: No module named 'feature'

## **Importação do dataset**

In [4]:
df = pd.read_excel('../Dados/Dados_brutos/Kaggle_Sirio_Libanes_ICU_Prediction.xlsx')

## **Pré-processamento**