# Introdução

Neste projeto será utilizada a base de dados fornecida pelo Hospital Sírio Libanês. Ela esta disponível no site do [Kaggle](https://www.kaggle.com/) na pagina do grupo do Sírio Libanês [COVID-19 - Clinical Data to assess diagnosis](https://www.kaggle.com/S%C3%ADrio-Libanes/covid19).

Essa base de dados contém informações, não sensíveis, que diz respeito a quantidade de pacientes que foram ou não internados por covid-19 na clínica do hospital durante a pandemia de corona virus. A pandemia de COVID-19 atingiu o mundo inteiro, sobrecarregando os sistemas de saúde - despreparados para uma solicitação tão intensa e demorada de leitos de UTI, profissionais, equipamentos de proteção individual e recursos de saúde. O Brasil registrou o primeiro caso COVID-19 em 26 de fevereiro e atingiu a transmissão na comunidade em 20 de março. 

## O problema 

Apesar do virus não ter uma letalidade tão alta a disseminação dele é relativamente alta para os vírus respiratórios e ao infectar muitas pessoas, uma parcela delas precisará de assistência médica. Portanto, como a quantidade de pessoas que necessitam de assitência é extremamente alta ocorre o pressionamento do sistema de saúde.

Há urgência na obtenção de dados precisos para melhor prever e preparar os sistemas de saúde e evitar colapsos, definido pela necessidade de leitos de UTI acima da capacidade, usando dados clínicos individuais - em vez de dados epidemiológicos e populacionais.

O colapso do sistema de saúde ocorre quando toda a estrutura não comporta a quantidade de atendimentos de qualquer natureza devido a alta demanda dos serviços de saúde. Nesta situação não basta só ter equipes médicas, de enfermagem e outros técnicos, pois a estrutura não comporta.

<img src='https://img.medscape.com/thumbnail_library/cdc_200313_flatten_the_curve_800x450.jpg'>


## Objetivos 

Ilutrado os problemas acima, podemos definir como objetivos as seguintes tarefas.

1. Prever a admissão na UTI de *casos confirmados* de COVID-19. Com base nos dados disponíveis, é viável prever quais pacientes precisarão de suporte em unidade de terapia intensiva?

O objetivo é fornecer aos hospitais terciários e trimestrais a resposta mais precisa, de modo que os recursos da UTI possam ser arranjados ou a transferência do paciente agendada.

2. Prever NÃO admissão à UTI de *casos COVID-19 confirmados*. Com base na subamostra de dados amplamente disponíveis, é viável prever quais pacientes precisarão de suporte de unidade de terapia intensiva?

O objetivo é fornecer aos hospitais locais e temporários uma resposta boa o suficiente, para que os médicos de linha de frente possam dar alta com segurança e acompanhar remotamente esses pacientes. 

## O Conceito de Janela 

Na pagina do Kaggle é ilustrado o conceito de janela. Em uma janela existe dados agrupados de um paciente, que consiste em: 

**Paciente**: 
 - Visita do Paciente
 - Agregada por janelas em ordem cronológica


|Janela|Descrição|
---|---
0-2|de 0 a 2 horas da admissão no hospital
2-4|de 2 a 4 horas da admissão no hospital
4-6|de 4 a 6 horas da admissão no hospital
6-12|de 6 a 12 horas da admissão no hospital
Acima-12|Acima de 12 horas da admissão no hospital

**OBS:** *Cuidado para NÃO usar os dados quando o paciente já estiver na UTI, pois a ordem do evento é desconhecida (talvez o evento "coleta de informação" tenha acontecido antes ou depois do paciente se encontrar na unidade). Eles foram mantidos para que no futuro possam aumentar este conjunto de dados em outros resultados posteriormente.*

**Ilustração de como funciona uma janela de informações**:
<img src='https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F1591620%2Fb1bc424df771a4d2d3b3088606d083e6%2FTimeline%20Example%20Best.png?generation=1594740856017996&alt=media'>

> Acima temos um paciente que deu entrada no sistema e só foi para a UTI na janela acima de 12h.

<img src='https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F1591620%2F77ca2b4635bc4dd7800e1c777fed9de1%2FTimeline%20Example%20No.png?generation=1594740873237462&alt=media'>

> Acima temos um paciente que foi para a UTI na janela de 2h. 

Note que até o paciente ir para a UTI podemos utilizar os registros informados na base de dados, entrentanto se o paciente foi para UTI, as informações não podem ser usadas, pois não sabemos se ela foi feita antes do paciente ir para unidade ou depois. Então nesta situação as informações não tem poder preditivo.

## Os dados 

Este conjunto de dados contém dados anônimos do Hospital Sírio-Libanês, de São Paulo e de Brasília. Todos os dados foram tornados anônimos seguindo as melhores práticas e recomendações internacionais.

Os dados foram limpos e escalados por coluna de acordo com Min Max Scaler para caber entre -1 e 1. 

### A respeito da importância da anonimização dos dados

A Lei Geral de Proteção de Dados Pessoais (LGPD), Lei nº 13.709, de 14 de agosto de 2018, dispõe sobre o tratamento de dados pessoais, inclusive nos meios digitais, por pessoa natural ou por pessoa jurídica de direito público ou privado, com o objetivo de proteger os direitos fundamentais de liberdade e de privacidade e o livre desenvolvimento da personalidade da pessoa natural. 

Tendo em vista a vigência dessa Lei, de suma importancia pra sociedade, é importante que os dados sejam anonimizados para respeitar os direitos dos cidadãos brasileiros. É importante citar isso pois anonimização de um dado deve ser muito bem feita afim de não violar o direito dos individuos.

Note que só o fato de sabermos que a mostra foi retirada dentre os pacientes do Hospital Sírio Libanês em um intervalo X de tempo já reduz muito o fator de anonimidade do dado e se uma variável fosse explicitamente a comorbidade "diabetes", "pressão alta" ou "HIV", caso as variáveis não fossem *clusterizadas*, sabendo a prevalência de uma doença numa população é possível encontrar as características de cada amostra e é importante dificultar este tipo de análise para estar de acordo com a lei de proteção de dados.

Uma forma de anonimizar esses dados é criar grupos de características entre as amostras evitando assim de informar exatamente quais são as características de um elemento da base de dados. 

fonte: [Lei Geral de Proteção de Dados - LGPD](https://www.planalto.gov.br/ccivil_03/_Ato2015-2018/2018/Lei/L13709.htm#ementa)


### Dados Disponíveis

|Grupo de dados| quantidade de informações|
|---|---|
|Informação demográfica| 3 |
|Doenças pré-existentes| 9 |
|Resultados do exame de sangue| 36 |
|Sinais vitais | 6 |

No total, temos 54 variáveis, expandidas quando *pertinente* para a **média, mediana, máximo, mínimo, diff (Máximo - Mínimo)** e **diff relativa (diff/mediana)**

**Dicas**

* **Dados Faltantes:**

    **Problema:** um dos maiores desafios de trabalhar com dados de saúde é que a taxa de amostragem varia nas suas diferentes medidas. Por exemplo, sinais vitais são medidos com mais frequencia (normalmente de hora em hora) do que os exames de sangue (diários).

    **Sugestão:** é razoável presumir que um paciente que não tem uma medida registrada em uma janela de tempo está clinicamente estável, apresentando  sinais vitais e exames de sangue similares aos das janelas vizinhas. Portanto, se pode preencher os dados faltantes usando os dados da janela anterior ou posterior. Atenção para a multicolinearidade e casos de variância 0 nestes dados quando for escolher seu algoritmo.

* **Quanto antes, melhor!**

    **Problema:** A identificação precoce destes pacientes que vão desenvolver um caso adverso da doença (e precisarão de cuidado intensivo) é chave para um tratamento apropriado (salvando vidas) e para administrar os leitos e recursos.

    **Sugestão:** Enquanto um modelo preditivo que use todas as janelas de tempo vai provavelmente conseguir uma acurácia melhor, um bom modelo usando apenas a primeira janela (de 0 a 2 horas) é provavelmente mais clinicamente relevante. A criatividade é, no entanto, muito bem vinda, portanto sinta-se livre com a engenharia de variáveis e janelas de tempo. Atenção para medições repetidas nos indivíduos, uma vez  que estes valores estão altamente correlacionados quando explorarmos os dados.

**Reconhecimento**
A Sociedade Beneficiente de Senhoras Sírio-Libanês está comprometida com a ciência e a filantropia para que os casos tenham o melhor tratamento de saúde possível para aqueles que dele necessitam. Nós gostaríamos de agradecer especialmente nosso departamento jurídico, nosso Instituto de Pesquisa e Educação e o Squad de Arquitetura e Inteligência de dados Clínicos e Radiológicos.

## Critérios de avaliação do projeto 

Existem duas perspectivas que serão analisadas na aprovação do projeto exigidas pela Alura: 

* Técnico
* Prático


### Critério técnico

#### Escopo do Projeto

Delimitar qual será o escopo do seu projeto e colocá-lo, de fato, em prática pode ser bastante desafiador pois é um equilíbrio entre a criatividade/entusiasmo e o tempo.

Por isso, começar, desenvolver e finalizar todas as frentes abertas em um estudo é valioso.Você, cientista, precisa mais uma vez, ponderar: explorar pouco as possibilidades e ter um estudo raso ou explorar muitas possibilidades e não ser capaz de fechar dentro do elemento limitador, o tempo.

#### Estrutura do projeto

É necessário que seu estudo seja bem organizado e estruturado, apresentando uma sequência lógica da análise.

O projeto precisa expressar e justificar qual a linha de raciocínio foi criada e seguida durante o processo de elaboração.

#### Storytelling e conclusões

Parte da entrega de um estudo, é mostrar para a comunidade qual o seu valor, ou seja, contextualizar e trazer o interlocutor para o mesmo ponto de partida é vital.

É imprescindível que você pense que seu interlocutor, muitas vezes, não sabe do que aquele estudo se trata e/ou nem tem familiaridade com tecnologia e programação. Por isso, o notebook precisa ser explicativo de forma que a informação seja acessível para todos.

As conclusões parciais e a conclusão final são ótimos artifícios para que a informação você extraiu dos dados, seja mais facilmente entregue ao leitor (lembre-se: resultados podem ser inconclusivos, também).

Lembrete: este projeto será apresentado, de maneira fictícia, para o gerente responsável pela modelagem de dados do time de Data Science do Hospital Sírio Libanês. Você precisará persuadi-lo de que seu modelo tem os pontos necessários para entrar em produção e ajudará a antever e evitar qualquer ruptura.

#### Boas práticas de programação

Parte essencial de Data Science é a construção de código fundamentada nas boas práticas de programação.

Uma boa documentação do código, nomes significativos para as variáveis, a reutilização de funções, podem ser exemplos de como colocar esse conceito em prática.

Por isso, durante a correção, será dada uma atenção especial a esse cuidado que deve ser dado ao notebook.

#### Gráficos e Tabelas

A organização dos dados em gráficos e/ou tabelas é fundamental para a construção de uma boa visualização dos dados, ou seja, precisamos entender como eles estão distribuídos e se comportam ao longo do tempo.

Por isso, gráficos ou tabelas completos e viáveis são indispensáveis (ex: título explicativo, labels nomeadas. No caso específico de gráficos: escala ajustada, início em (0, 0) ou caso não aconteça, apresente justificativa, por exemplo).

#### Pesquisas externas e cruzamento de dados

Do ponto de vista do estudo, é muito enriquecedor que outras fontes de informações sejam usadas para agregar valor e corroborar na construção da argumentação do projeto. E do ponto de vista técnico, isso mostra adaptabilidade e pensamento sempre um passo à frente, isso porque o cruzamento de dados é um passo muito importante no seu amadurecimento enquanto Data Scientist.

Porém, é preciso tomar bastante cuidado ao fazer essa junção: será avaliado o valor agregado à pesquisa, não somente o cruzamento em si.

*Dica: os dados do DataSUS podem ser uma boa fonte de inspiração para os cruzamentos. Além disso, você pode expandir suas análises feitas durante os projetos do módulo 01 e módulo 04, visto que, a partir das nossas conclusões, conseguimos justificar a implantação de um modelo que visa monitorar a evolução do quadro pandêmico no Brasil que apresenta alta nos casos.*

### Critério prático

* Os critérios mínimos práticos são bastante objetivos e claros, cientista. Use como um lembrete sobre o conteúdo que deve produzir.

* Os dados estão dentro do escopo? (É obrigatório o uso da base de dados da Covid-19, disponibilizada pelo Hospital Sírio Libanês - São Paulo e Brasília, no Kaggle)

* Ao rodar o notebook, ele apresenta erros? (Warnings serão desconsiderados)

* Quando necessário, as variáveis foram tratadas?

* Se houve criação de variáveis, as mesmas foram descritas?

* Ficou claro qual foi o modelo final escolhido e o que motivou a escolha?

* Quais testes foram aplicados? Foi justificado?

* O modelo foi testado e validado adequadamente?

* O notebook tem uma narrativa convincente e coerente?

* O projeto contém meios para visualizar dados (gráficos ou tabelas) que ajudam na argumentação dos pontos principais do cientista?

* A bibliografia e fontes de dados alternativas foram citadas?

---



# Importações e definições

Aqui estão todos módulos python que vou utilizar neste trabalho, bem como as funções criadas para exibições. 

## Importações

In [None]:
# Módulos que é sempre bom ter à mão
import numpy as np  # Versão: 1.19.2
import pandas as pd  #  Versão: 1.2.2
import seaborn as sns  #  Versão: 0.11.1
from matplotlib import pyplot as plt  #  Versão: 3.3.4

# statsmodels  Versão: 0.12.2
from statsmodels import api as sm 
from statsmodels import stats as ss

# Sci-kit Learn  Versão: 0.24.1
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.svm import LinearSVC
from sklearn.dummy import DummyClassifier

### Base de dados

In [None]:
sirio_libanes = pd.read_excel('https://github.com/ConradBitt/BootCamp_DataScience/blob/master/ML%20em%20Saude/dados/Kaggle_Sirio_Libanes_ICU_Prediction.xlsx?raw=true')

## Definições 

Esta etapa pode não seguir a ordem cronológica do relatório, pos aqui ficam os códigos para evitar que tenha várias funções complexas ao longo da análise. Contruindo funções aqui facilita analisar apenas os outputs de cada função.

In [None]:
#np.random.randint(0,2**32) # semente gerada: 3340758118
seed = 3340758118

# ===================================== Análise exploratória ======================
# Estatisticas descritivas dos dados 

## Muda identificador 
def muda_identificador(dados):
    """
    Muda o index para o identificador PATIENT_VISIT_IDENTIFIER
    """
    dados_novo_id = dados.set_index('PATIENT_VISIT_IDENTIFIER')
    return dados_novo_id

## Listas de variáveis das estatsiticas fornecidas pelo Sírio Libanês
def variaveis_com_media_mediana_max_min_diff_diffRel(dados):
    """
    Retorna as colunas com as variaveis cuja as informações contém estatisticas
    descritivas. Basicamente as colunas que tem rótulos do tipo '_MEAN','_DIFF'...
    """
    media, mediana, maximo, minimo, diff, diff_rel, cat = [],[],[],[],[],[], []
    for coluna in dados.columns:
        if '_MEAN' in coluna: 
            media.append(coluna)
        elif '_MEDIAN' in coluna: 
            mediana.append(coluna)
        elif '_MAX' in coluna: 
            maximo.append(coluna)
        elif '_MIN' in coluna: 
            minimo.append(coluna)
        elif '_DIFF' in coluna and '_REL' not in coluna: 
            diff.append(coluna)
        elif '_REL' in coluna:
            diff_rel.append(coluna)
        else:
            cat.append(coluna)
                
            
    return media, mediana, maximo, minimo, diff, diff_rel, cat
        
# Describe do statsmodels 
def descricoes_pandas_statsmodels(dados):
    """
    Retorna uma tupla com estatisticas descritivas
    usando o pandas e o statsmodels.
    """
    descricoes_stats_models = ss.descriptivestats.Description(dados)
    descricoes_pandas = dados.describe()
    return descricoes_pandas, descricoes_stats_models

def exibe_mapa_correlaçao(dados, title='', metodo = 'pearson', cmap='cool', figsize=(20,12), annot=False):
    """
    Exibe um mapa de correlação.
    """
    corr = dados.corr(method=metodo)
    plt.figure(figsize=figsize)
    ax = sns.heatmap(corr, cmap=cmap, annot=annot, fmt='.2f')
    ax.set_title(title, fontsize=20, pad=20)
    return ax

# ===================================== Pré processamento ======================

def categorico_para_quantitativo(dados, variavel_categorica):
    """
    Muda os dados quantiativos para categoricos. 
    """
    le = LabelEncoder()
    le.fit(dados[variavel_categorica])
    dados[variavel_categorica] = le.fit_transform(dados[variavel_categorica]) / 10
    return dados


#def categoriza_windon_pela_freq(window):
#    """
#    Esta função categoriza a variável WINDOW pela frequencia 
#    da primeira janela. Basicamente extrai a frequência dos 
#    elementos que compõem a variável e divide cada uma delas
#    pela frequencia do primeiro elemento. Em seguida faz um 
#    replace na variável original. 
#    """
#    frequencia_janelas = window.value_counts(normalize=True)
#    frequencia_normalizada_1_janela = frequencia_janelas / frequencia_janelas[0]
#    window = window.replace(frequencia_normalizada_1_janela)
#    return window

def categoriza_window_pela_frequencia(dados, variavel_categorica):
    
    frequencia_var_categorica = dados[variavel_categorica].value_counts(normalize=True)
    frequencia_primeira_janela = frequencia_var_categorica[0]
    mapa_frequencias_janelas = frequencia_var_categorica / frequencia_primeira_janela
    dados[variavel_categorica] = dados[variavel_categorica].replace(mapa_frequencias_janelas)
    return dados


def interpolacao(grupo):
    return grupo.interpolate(method='linear', limit=1, limit_direction='both')


def preenche_nan(dados):
    """
    Esta função preenche os dados do tipo NaN.
    Primeiro ela agrupa os dados pelo identificador,
    Aplica uma interpolação linear entre os visinhos
    Aplica um preenchimento com o registro anterior
    Aplica um preenchimento com o registro posteior
    retorna o dataframe com os dados preenchidos.
    """
    
    # separação de features em categoricas continuas e os classificadores.
    features_categoricas = dados.iloc[:,:13]
    colunas_features_continuas = dados.iloc[:,13:-2].columns
    classificadores = dados.iloc[:,-2:]
    
    features_continuas = dados.groupby('PATIENT_VISIT_IDENTIFIER')[colunas_features_continuas].apply(interpolacao).fillna(method='backfill').fillna(method='ffill')
    
    dado_preenchido = pd.concat([features_categoricas, features_continuas, classificadores], axis=1, ignore_index=False)
    dado_preenchido.columns = dados.columns
    return dado_preenchido


def foi_para_UTI(dado_agrupado : pd.DataFrame):
    """
    Esta função verifica quais pacientes foram pra UTI na janela.
    Se o paciente foi pra UTI na janela 2, então adiciona o valor 1
    na coluna ICU anterior e retorna todo o grupo até ela.
    """
    if np.any(dado_agrupado['ICU']):  # se o paciente foi em algum momento pra uti
        
        momento_foi_para_uti = len(dado_agrupado['ICU']) - dado_agrupado['ICU'].sum()  # momento em que foi para UTI
        
        for linha in range(len(dado_agrupado)):  # passar por todas as linhas
            if dado_agrupado.loc[:,'ICU'].iloc[linha] == 1:
                dado_agrupado.loc[:,'ICU'].iloc[linha - 1] = 1  # adicionar 1 na coluna ICU anterior
        
        if momento_foi_para_uti != 0:  #  se não foi na primeira janela
            # retorna o grupo até a janela em que ele foi para UTI
            return dado_agrupado.iloc[:momento_foi_para_uti, :]
        #else:
            # retorna o paciente que foi pra UTI na primeira janela
            # talvez esta linha abaixo possa ser desconsiderada
         #   return dado_agrupado.iloc[momento_foi_para_uti, :].to_frame().T   
    else:
        # retorna o paciente que não foi em nenhum momento para a UTI
        return dado_agrupado
    
def filtro_janelas_uteis(dado):
    """
    Filtra os registros pelas janelas úteis dos pacientes
    que foram para a UTI e também daqueles que não foram.
    """
    dado_filtrado = dado.groupby('PATIENT_VISIT_IDENTIFIER', as_index=False).apply(foi_para_UTI)
    dado_filtrado = dado_filtrado.reset_index().set_index('PATIENT_VISIT_IDENTIFIER')
    dado_filtrado = dado_filtrado[dado.columns]
    return dado_filtrado


def remove_variaveis_altamente_correlacionadas(dados, metodo_correlacao, valor_corte):
    matriz_corr = dados.corr(method=metodo_correlacao).abs()
    matriz_triangular_superior_booleana = np.triu(np.ones(matriz_corr.shape), k=1).astype('bool')
    matriz_trig_sup_corr = matriz_corr.where(matriz_triangular_superior_booleana)
    excluir_elemento = [coluna for coluna in matriz_trig_sup_corr.columns if any(matriz_trig_sup_corr[coluna] > valor_corte)]
    
    return dados.drop(excluir_elemento, axis='columns')

# ===================================== Estimadores  ======================


dummy_classifier = DummyClassifier()
decision_tree_classifier = DecisionTreeClassifier()
logistic_regression = LogisticRegression()
sgd_classifier = SGDClassifier()
linear_svc = LinearSVC()

# Análise exploratória 


## Visualizando uma amostra

In [None]:
sirio_libanes.sample(10, random_state=seed)

## Visualização de variáveis:

In [None]:
sirio_libanes.info(verbose=True)

### Comentário sobre análise das variáveis disponíveis 

> Verifica-se que tem um total de 1925 linhas com 231 variáveis. Entretanto como a variável `PATIENT_VISIT_IDENTIFIER` é uma variável identificadora, na realidade temos um total de 385 registros. de cada paciente com 230 variáveis.

In [None]:
sirio_libanes = muda_identificador(sirio_libanes)

> Dentre as variáveis, 255 são do tipo `float64`, 4 variáveis do tipo `int64` e 2 do tipo `object` que são do tipo string. 

> Outra informação que é relevante é a quantidade de variáveis do tipo **média, mediana, máximo, mínimo, diff (Máximo - Mínimo)** e **diff relativa (diff/mediana)**. Na pagina do Kaggle dizem que estas informações são pertinentes e por isso foram extraidas estas estatisticas. Foi criada listas com cada uma dessas colunas na parte de **Definições** do notebook para facilitar o trabalho com essas colunas específicas.

In [None]:
media, mediana, maximo, minimo, diff, diff_rel, categorias = variaveis_com_media_mediana_max_min_diff_diffRel(sirio_libanes)

> Além disso, outra variável importante é a `AGE_PERCENTIL`. Esta variável é do tipo `object`, que representa os percentis das idades que o paciente pertence. Por exemplo: 

* `AGE_PERCENTIL = 10th` idade de 0 até 10.

* `AGE_PERCENTIL = 20th` idade de 10 até 20.

*  `AGE_PERCENTIL = 30th` idade de 20 ...

* $....$

* `AGE_PERCENTIL = ABOVE 90th` idade de 90 até 100

> Por mais que seja uma variável categórica, ela é ordenável. Seŕa feita uma modificação nesta variável na parte de pré processamento.

## Estatisticas Descritivas: Statsmodels


In [None]:
descricoes_pandas, descricoes_stats_models = descricoes_pandas_statsmodels(sirio_libanes)

Vou utlizar as estatisticas descritivas do [statsmodels](https://www.statsmodels.org/stable/generated/statsmodels.stats.descriptivestats.Description.html#statsmodels.stats.descriptivestats.Description), apesar de que eu não vou comentar sobre todas elas acho relevante exibi-las tendo em vista que alguém pode se interessar por alguma estatsitica descritiva em específico. 

In [None]:
descricoes_stats_models.numeric.round(13)/5

### Comentário sobre estatisticas descritivas

> Os dados foram agrupados pelos identificadores e cada identificador tem 5 registros, logo ao utilizar a função que gera as estatisticas, se os 1920 registros forem utilizados estaremos contabilizando 5 resultados do mesmo indivíduo, por isso estou divindo o resultado por 5, ou seja, essas estatisticas são um panorama dos grupos, mas não representam fielmente a característica independente de cada um. Além disso os dados foram arredondados na 13º casa decimal.

> Como foi dito, algumas colunas não são numéricas, lógo não faz sentido extrair estatisticas descritivas delas por isso das 231 variaveis que tem a base de dados, apenas 228 foram utilizdas para a exibição.

> Podemos verificar que pra cada paciente tem em média um dado faltante na linha `missing`

> Um ponto interessante são as variáveis `DISEASE_GROUPING`, elas representam grupos de doenças, não sabemos exatamente quais são mas podemos verificar que dentre as 1920 informações a distribuição das médias de cada doença é diferente. Isso pode levar a seguinte hipótese "*Podemos supor que das 385 informações 2% tem  `DISEASE_GROUPING_1`*", **lembrando que as informações dos pacientes que foram para a UTI não tem relevancia preditiva devido ao anacronismo da coleta**, entretanto podemos utiliza-las para exibir informações de estatisticas descritivas.

### Descrição do pandas

Caso esteja habituado com as estatisticas descritivas do módulo do pandas, vou deixar o output aqui para consulta:

In [None]:
descricoes_pandas.round(13)/5

## Correlação entre as variáveis 

Vimos que muitas variáveis estão expressas em termo das medidas: **média, mediana, máximo, mínimo, diff (Máximo - Mínimo)** e **diff relativa (diff/mediana)**. Tendo esta informação dada na introdução, foi foi criada uma função chamada `variaveis_com_media_mediana_max_min_diff_diffRel()` para separar estas variáveis. A motivação desta separação é porque em muitos casos se a variável `diff` foi obtida atraǘes da diferenciação da variável `mean` a correlação entre as duas será alta.

In [None]:
exibe_mapa_correlaçao(sirio_libanes,metodo='kendall',title='Mapa de Correlação entre todas as variáveis', annot=False);

### Comentário sobre o mapa de correlação

> Note que o mapa é literalmente uma matriz quadrada. Na diagonal principal temos correlação da variável com ela mesma, por isso a coloração rosa.

> Entretanto no canto inferior direito temos um grupo rosa, ou seja essas variáveis entre si estão altamente correlacionadas, a variável `BLOODPRESSURE` com sufixos `MAX`, `DIFF` e `RELL` estão altamente correlacionada, é provável uma variável foi construida dependendo da outra isso faz com que a correlação seja alta. O mesmo acontece no canto superior esquerdo, a variável `BE_ARTERIAL` com sufixos `MAX`, `DIFF` e `RELL`.

> Além dessas altas correlações esperadas das variáveis que representam diferentes estatisticas da mesma observação, temos por exemplo a coluna `INR_MEDIAN` com as linhas `TGO_MIN`, `TGP_MEAN` e `TTPA_MEDIAN` com uma correlação maior que 0.75.

> O que pode ser feito para contornar este fato de features autamente correlacionadas é filtrar a correlação entre cada uma delas a partir de um valor de corte.

# Pre processamento

Nesta etapa vou modificar algumas variáveis afim de facilitar análises futuras. 

## Tratando `AGE_PERCENTIL`

Como já foi dito anteriormente a variável `AGE_PERCENTIL` é uma variável do tipo `object`, entretanto se analisar os valores unicos dela é possível notar que são dados do tipo categóricos porem ordinais:

In [None]:
sirio_libanes.AGE_PERCENTIL.unique()

Tendo então as categorias vou utilizar uma função da biblioteca [Sci-Kit Learn] para fazer a transformação na variável, de um dado categórico para um dado quantitativo:

In [None]:
sirio_libanes = categorico_para_quantitativo(sirio_libanes, 'AGE_PERCENTIL')
sirio_libanes.AGE_PERCENTIL.unique()

Desta forma a transformação que foi feita é:

| ANTES| DEPOIS|
|---|---|
|10th | 0 |
|20th | 0.1 |
|30th | 0.2 |
|40th | 0.3 |
|50th | 0.4 |
|60th | 0.5 |
|70th | 0.6 |
|80th | 0.7 |
|90th | 0.8 |
|Above 90th | 0.9 |

### Comentário sobre transformação do `AGE_PERCENTIL`

> A escolha deste tipo de transformação é deixar os dados dentro do padrão das variáveis da base de dados. A maioria delas esta normalizada, ou seja, dentro do intervalo $[-1,1]$. Poderia deixa-la no intervalo $[0,9]$ como sugere o própio `LabelEncoder` do sci-kit learn, mas não segui este caminho por pura liberdade.

## Tratando `WINDOW`

Assim como foi transformada a variável categórica `AGE_PERCENTIL` em uma variável quantitativa, vou transformar a variável `WINDOW` em uma variável quantativa de acordo com a normaliação da primeira janela. Em outras palavras, eu vou calcular a frequência de cada janela em relação a base de dados e vou dividir cada frequencia pela frequencia da janela nº1.

|nº |`WINDOW` | Frequência da Janela| Normalização pela 1º Janela |
---|---|---|---|
1|0-2 | 0.250|1.00
2|2-4 | 0.231|0.924
3|4-6 | 0.203|0.810
4|6-12| 0.181|0.722
5|ABOVE_12| 0.135|0.538

A justificativa em fazer isso é porque estou assumindo que estar numa janela qualquer não é uma variável aleatória. A maior parte dos pacientes vai passar no minimo uma vêz pela primeira janela e como queremos classificar o quanto antes a situação do paciente, dar peso maior para as primeiras janelas é razoável e a forma que eu encontrei de fazer isso é normalizando em função da primeira janela.

Além disso, a ideia de que essa variável transformada seja decrescente pode ajudar a criar uma dependência inversa com a variável `ICU`, pois quanto menor o valor da variável `WINDOW` mais tempo a pessoa passou no hospital e se isso acontece é de se esperar que a pessoa esta lá porque realmente precisa do atendimento. 

Uma outra possível abordagem é tentar utilizar uma distribuição de probabilidades geométrica para modelar esta transformação. O problema que eu tive nesta abordagem é a perda de memória da distribuição geométrica, isto é, a janela futura não depende da anterior e pro nosso problema em específico estar em uma ou outra janela não é um evento independente. Para mais informações sobre a distribuição de probabilidades geométrica consulte as notas de aula do curso [Introduction to Probability at anadvanced level](https://www.stat.berkeley.edu/~aditya/resources/AllLectures2018Fall201A.pdf) do professor Aditya Guntuboyina.

In [None]:
sirio_libanes_teste = categoriza_window_pela_frequencia(sirio_libanes,'WINDOW')

In [None]:
sirio_libanes_teste.head(10)

## Tratando registros com `NaN`

Na etapa de estatisticas descritivas verificamos que em média, cada registro tem pelo menos 1 dado do tipo `missing`, digo isto baseado na descrição do statsmodels.

Para tratar os dados faltantes vou seguir a sugestão encontrada no site do Kaggle, que é preencher com o dado anterior ou com o anterior. Este preenchimento considera que num curto espaço de tempo a variação dos dados não é tão abrupta.

O processo de preenchimento sera o seguinte: 

1. Agrupar registros pelo index `PATIENT_VISIT_IDENTIFIER`.
2. Realizar uma interpolação linear caso falte um entre dois dados.
3. Preencher com o valor anterior.
4. Preencher com o valor posterior.
5. Petornar a base de dados com os dados preenchidos.

Ao agrupar os dados pelo index eu tenho garantia que cada alteração será feita em cada grupo, evitando que o paciente indice 5 seja afetado pelo numero 4 ou 6.

In [None]:
sirio_libanes = preenche_nan(sirio_libanes)

## Selecionando registros que podem ser usados para o modelo

Como já foi dito na introdução do problema, podemos utilizar os dados dos registros cujo *o paciente ainda não foi para UTI*. Esta condição é imposta ao descrever o conceito de janela. 

<img src='https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F1591620%2Fb1bc424df771a4d2d3b3088606d083e6%2FTimeline%20Example%20Best.png?generation=1594740856017996&alt=media' width=60%>

> Note na ilustração acima que não podemos usar a janela das 12h tendo em vista que o paciente foi para UTI neste momento. 

<img src='https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F1591620%2F77ca2b4635bc4dd7800e1c777fed9de1%2FTimeline%20Example%20No.png?generation=1594740873237462&alt=media' width=60%>

> Outro ponto citado é que não podemos usar as janelas posteriores ao evento de ir para a UTI.

A filtragem das janelas úteis que eu vou fazer consiste em **eliminar a janela cujo o paciente foi para a UTI**, além disso, acidionar $1$ na coluna `ICU` da janela anterior. Veja o exemplo na imagem abaixo:

<img src='https://raw.githubusercontent.com/ConradBitt/BootCamp_DataScience/master/projeto_final/preprocessamento_filtro_janela.png'>

> O paciente foi para a UTI na janela `ABOVE_12`, logo esta janela não pode ser utilizada, isso esta indicado no quadradinho vermelho. Portanto o que será feito é adicionar $1$ na coluna `ICU` da janela anterior (`6-12`) e utilizar todas essas janelas disponíveis como esta indicado no quadradinho verde.

> **OBS**: *Verifique abaixo do quadradinho vermelho, a janela `0-2` o `ICU` desta linha é 1, ou seja, este paciente foi para a UTI na primeira janela e segundo a condição informada no Kaggle esta janela não pode ser utilizada e nem as posteriores. O que o filtro faz nesta situação é remover este paciente da base de dados.*

In [None]:
sirio_libanes = filtro_janelas_uteis(sirio_libanes)

# Seleção de Modelos 

## O modelos escolhidos 

Para atingir o objetivo de estimar a necessidade ou não de um paciente precisar do serviço prestado pela unidade de terapia intensiva do hospital, precisamos não só de um modelo, mas de vários, a fim de comparar a qualidade de cada um deles. 

### Dummy Classifier 

A escolha de um modelo do tipo dummy se da por conta da necessidade de um *baseline*, isto é, se eu sortear uma pessoa aleatória em uma população e pedir pra ela classificar se um grupo de pessoas vai pra UTI ou não, a chance dessa pessoa classificar corretamente não será a melhor possível tendo em vista que ela foi sorteada aleatóriamente.

O exemplo do que consiste um dummy comparado a uma pessoa aleatória, só funciona se essa pessoa sorteada aleatoriamente não for um funcionária da área de saúde ou médica intensivista (hahaha!) por mais que exista a probabilidade dessa pessoa ser sorteada, em geral a quantidade das pessoas com conhecimento técnico em saúde não é tão alta, logo a probabilidade de uma dessas pessoas ser sorteada ao acaso não é tão alta. Portanto, os modelos Dummies são responsáveis por fazer esse papel de "*um chute aleatório*" e portanto qualquer modelo para ser considerado melhor deve estar no mínimo acima da capacidade preditiva do dummy.  

### Regressor Logístico 

A regressão logistica faz parte de uma categoria de modelos estatisticos chamados *Lineares generalizados*. Esta ampla classe inclui também regressão ordinária e *ANOVA*, além das regressões multivariádas, como *ANCOVA* e a regressão loglinear; uma excelente abordagem analítica dessas técnicas é feita por [Agresti(1996)](https://www.amazon.com/Categorical-Data-Analysis-Alan-Agresti/dp/0470463635) e uma abordagem mais prática é feita por [Gujarati(2011)](https://www.amazon.com.br/Econometria-B%C3%A1sica-Damodar-N-Gujarati/dp/8563308327) usado em alguns cursos de econometria. 

A regressão logistica em si é bastante utilizada em ciências médicas e sociais, pois é bem útil para a classificação de classes ou eventos mutuamente exclusivos, por exemplo: 

* Aprovação / Reprovação

* Vitória / Derrota

* Sadio / Doente

Em geral problemas com essas características em que os resultados podem ser classificados em sucesso/fracasso ou $0$ e $1$, podem ser atacados com a regressão logistica, que apesar de ser um regressor se mostra muito útil em problemas cuja a resposta deve ser binária. É importante salientar que a regressão logistica não é a *função logistica*  apesar do modelo regressivo utiliza-la. 


### Classificador baseado em Máquinas de Vetores de Suporte 

O conceito do algorítmo de maquinas de vetores de suporte também podem resolver problemas de regressão ou classificação. Este algorítmo foi desenvolvido por Vladimir Vapnik e colaboradores na AT&T Bell Laboratories em 1997. São modelos mais rudimentares servem para resolver problemas de classificação linear binária e não probabilistica, entretanto, é possível utiliza-los em problema de várias saídas.

A ideia dos algorítmos SVM (*Suport Vector Machine*) é que a cada nova entrada será classifica em relação à um hiperplano. Obviamente existem muitos hiperplanos que podem separar dois conjunto de dados e portanto o objetivo é que distância de um ponto gerado pelo dado de entrada até o hiperplano classificador seja a maior possível.

<img src='https://scikit-learn.org/stable/_images/sphx_glr_plot_iris_svc_0011.png' width=60%>

Acima temos um exemplo de vários classificadores baseados em máquinas de vetores de suporte.

### Classificação por Árvore de Decisão 

Árvores de decisão (*Decision Tree*) são métodos não paramétrico usado para classificação e regressão. O objetivo é criar um modelo que preveja o valor de uma variável de destino, aprendendo regras de decisão simples inferidas dos recursos de dados. Uma árvore pode ser vista como uma aproximação constante por partes. 

No exemplo abaixo, as árvores de decisão aprendem com os dados a aproximar uma curva senoidal com um conjunto de regras de decisão *if-then-else*. Quanto mais profunda a árvore, mais complexas são as regras de decisão e mais adequado é o modelo. 

<img src='https://scikit-learn.org/stable/_images/sphx_glr_plot_tree_regression_001.png' width=60%>

Árvores de decisão devem ser utilizadas com parcimônia, tendo em vista que, dependendo da profundidade da árvore pode ocorrer o fenômeno do *overfitting*. 

### Stochastic Gradient Descent

Se tratando de problemas de várias variáveis não basta uma derivada simples para buscar a situação de minimização dos resíduos, logo utiliza-se a função gradiente, que é uma derivada direcional que aponta sempre na direção onde ocorre a maior variação daquele conjuntos de variáveis. A sacada de analisar a direção contrária do gradiente é que ele vai apontar sempre na direção contrária à maior taxa de variação, isto é, na direção que minimiza.

Stochastic Gradient Descent (SGD) é uma abordagem simples, mas muito eficiente, para ajustar classificadores lineares e regressores sob funções de perda, como as máquinas de vetores de suporte (linear) e a regressão logística já citada.

Estritamente falando, SGD é apenas uma técnica de otimização e não corresponde a uma família específica de modelos de aprendizado de máquina. É apenas uma forma de treinar um modelo. Em geral consiste em minimizar a soma dos quadrados dos resíduos, assim como numa regressão comum. Acontece que não basta analisar apenas um gradiente de um grande conjunto de dados, a ideia então da técnica estocástica é dividir em lotes e ir computando o gradiente de pequenas amostras.

Tendo em vista que SGD não é um modelo em si, mas sim uma técnica, o que se faz é utilizar os modelos anteriores mas com um ajuste efetuado pelo SGD. Em geral o estimador é o mesmo, o que muda é a técnica de otimização. Por exemplo, quando usamos o `SGDRegressor` do [Sci-Kit Learn](https://scikit-learn.org/stable/index.html) com o hiper parâmetro (`loss = 'squared_loss'` e `penalty = 'l2'`) o resultado é basicamente uma regressão linear, ou seja, um modelo equivalente mas que é ajustado via SGD em vez de ser ajustado puramente pela minimização dos resíduos. Da mesma forma o `SGDClassifier`(`loss = 'log'`) resulta numa regressão logistica com ajuste SGD.


# Extração de Variáveis 

Difinido os modelos que serão utilizados na estimação passamos para o próximo passo, a seleção de variáveis. Como uma das tarefas exigidas é estimar a necessidade, ou não, de um paciente precisar do serviço de UTI, precisamos selecionar algumas features (variáveis) relevantes para essa estimativa.

Antes de selecionar as variáveis propriamente ditas, precisamos definir quais são nossas variáveis. Em geral um modelo pode ser expresso por uma função $f$, uma maquinha que vai receber insumos $x$ e vai retornar $y$. Matematicamente isso é expresso na forma: 

$$y = f (x),$$

a variável $y$ é chamada de target, alguns autores chamam de classificador, na matemática esta é *a variável dependente* porque depende de $x$, no nosso caso $y$ é a coluna `ICU` que classifica se o paciente foi para a UTI ou não.

A entidade $f$ é uma função, o nosso modelo propriamente dito, mas também pode ser um operador caso as variáveis sejam vetoriais ($\vec{x} e \vec{y}$), por fim, temos a variável $x$ chamada de variável independente que é basicante todas as outras colunas da base de dados (exceto `ICU`) que podemos utilizar para prever a necessidade do paciente no serviço da unidade de terapia intensiva.

Como já foi visto na etapa de análise exploratória temos 230 variáveis. Logo nossa variável independente é um vetor $\vec{x}$ onde cada componente deste vetor representa uma variável dos registros dos pacientes, isso significa que nosso problema pode ser representado matematicamente como: 

$$y = f(\vec{x}), \text{ onde }\vec{x}=(x_1,x_2,...,x_{230}).$$

Vamos definir nossas variáveis abaixo

In [None]:
#x = sirio_libanes.drop(['WINDO'])

## Selecionando variáveis com base nas estisticas descritivas 

Na etapa de análise exploratoria no topico visualização das variáveis foi descrito o rótulo e o tipo de cada variável. Muitas delas são dependentes uma da outra, por exemplo as variáveis com sufixo `_DIFF` e `_DIFF_REL`  onde `diff = (Máximo - Mínimo)` e `diff_rel = (diff/mediana)`. dito isso eu vou seprar a base de dados levando em conta esses rótulos:

In [None]:
sirio_libanes_media = sirio_libanes[media]
sirio_libanes_mediana = sirio_libanes[mediana]
sirio_libanes_max = sirio_libanes[maximo] 
sirio_libanes_min = sirio_libanes[minimo]
sirio_libanes_diff = sirio_libanes[diff]
sirio_libanes_diff_rel = sirio_libanes[diff_rel]


## Removendo variáveis altamente correlacionadas 

Na etapa de análise exploratória foi verificada a matriz de correlação. Nesta etapa vamos eliminar uma das variáveis que tem correlação acima do valor de corte `0.95` com outra. O motivo dessa remoção é tentar eliminar as variáveis que tem uma dependência intrínceca, por exemplo `_DIFF` e `DIFF_REL`. Posteriormente vamos testar se essa remoção teve algum ganho preditivo ou não. Além disso, diferente da etapa de análise exploratória, onde a correlação utilizada foi a de Pearson, aqui utilizaremos a correlação de Kendall.

In [None]:
sirio_libanes_filtrado_cc = remove_variaveis_altamente_correlacionadas(sirio_libanes, metodo_correlacao='kendall', valor_corte=0.90)

In [None]:
exibe_mapa_correlaçao(sirio_libanes_filtrado_cc, title='Mapa correlação técnica de Kendal');

## Automatização na seleção de Features

sklearn.feature_selection.RFECV(estimator, *, step=1, min_features_to_select=1, cv=None, scoring=None, verbose=0, n_jobs=None, importance_getter='auto')

sklearn.feature_selection.SelectFromModel(estimator, *, threshold=None, prefit=False, norm_order=1, max_features=None, importance_getter='auto')

sklearn.feature_selection.f_classif(X, y)

sklearn.feature_selection.f_regression(X, y, *, center=True)

sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, *, k=10)[source]

In [None]:
from sklearn import feature_selection

In [None]:
feature_selection.feature_selection()

# Usar o conceito da estatisticas:

> **Se são muitas variáveis, então todas são igualmente provaveis para um modelo, então portanto devemos fazer uma seleção aleatória (algum módulo do sklearn features selection) usando modelos com parâmetros estimados aleatóriamente RandomForest.**

# Referências 


[COVID-19 - Clinical Data to assess diagnosis](https://www.kaggle.com/S%C3%ADrio-Libanes/covid19)


https://www.stat.berkeley.edu/~aditya/resources/AllLectures2018Fall201A.pdf