# Objetivo: Previsão de pacientes na UTI (COVID-19)

Utilizarei a base de dados do Hospital Sírio Libanês. A base de dados esta disponível no site do [Kaggle](https://www.kaggle.com/) na pagina do grupo do Sírio Libanês [COVID-19 - Clinical Data to assess diagnosis](https://www.kaggle.com/S%C3%ADrio-Libanes/covid19).

Essa base de dados contém informações, não sensíveis, que diz respeito a quantidade de pacientes que foram ou não internados por covid-19 na clínica do hospital durante a pandemia de corona virus. As informações são ricas com respeito ao quadro clínico e a pergunta que vamos tentar responder é: 

> **Dado um novo paciente conseguiremos prever a chance dele ser encaminhado para a UTI?**


In [1]:
import pandas as pd

In [2]:
sirio_libanes = pd.read_excel('https://github.com/ConradBitt/BootCamp_DataScience/blob/master/ML%20em%20Saude/dados/Kaggle_Sirio_Libanes_ICU_Prediction.xlsx?raw=true')
sirio_libanes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1925 entries, 0 to 1924
Columns: 231 entries, PATIENT_VISIT_IDENTIFIER to ICU
dtypes: float64(225), int64(4), object(2)
memory usage: 3.4+ MB


In [3]:
sirio_libanes.sample(5).T

Unnamed: 0,1187,648,1381,570,1323
PATIENT_VISIT_IDENTIFIER,237,129,276,114,264
AGE_ABOVE65,0,0,0,0,1
AGE_PERCENTIL,40th,20th,50th,20th,60th
GENDER,0,0,0,1,1
DISEASE GROUPING 1,0,0,0,0,0
...,...,...,...,...,...
RESPIRATORY_RATE_DIFF_REL,-1,-1,,-1,-0.451613
TEMPERATURE_DIFF_REL,-1,-1,,-1,-0.819023
OXYGEN_SATURATION_DIFF_REL,-1,-1,,-1,-0.899078
WINDOW,4-6,6-12,2-4,0-2,6-12


## Tarefas impostas pelo Kaggle 

> **Task 1**: Preve a admissão na UTI os casos confirmados de covid-19. Com base na amostra acima, verificar a viabilidade de previsão/classificação dos pacientes que precisarão ou não do suporte de terapia intensiva do hospital. O objetivo é fornecer ao hospital uma previsão de quatro ou três semenas de antecedência da forma mais acurada possível para que os recursos utilizados na UTI possam ser arranjados ou remanejados. 

> **Task 2**: Prever a **NÃO** admissão dos casos de covid-19 na UTI. Com base na amostra dos dados, prever quais pacientes não preciarão de suporte a unidade de terapia intensiva. O objetivo é fornecer aos hospitais temporários e locais uma resposta boa o suficiente para que os médicos de linha de frente possam dar alta com segurança e acompanhar pacientes remotamente.

Note que o objetivo não se reduz a fazer uma análise de estatistica descritiva, o objetivo é classificação de pacientes que precisarão de uma UTI ou não. Ou seja, **uma classificação binária.**

---

## Vamos verificar qual a quantidade dos dados que foram ou não pra UTI:

In [4]:
sirio_libanes['ICU'].value_counts(normalize=True).round(2)*100

0    73.0
1    27.0
Name: ICU, dtype: float64

### Comentário sobre a proporção de pacientes que precisaram da UTI
> Acima podemos verificar que nesta base de dados, dentre os 1924 registros, a quantidade de pessoas que evoluem até a situação em que necessitam de uma UTI é de quase 27%, os outros 73% precisaram do serviço.

## A respeito da anonimização dos dados

A Lei Geral de Proteção de Dados Pessoais (LGPD), Lei nº 13.709, de 14 de agosto de 2018, dispõe sobre o tratamento de dados pessoais, inclusive nos meios digitais, por pessoa natural ou por pessoa jurídica de direito público ou privado, com o objetivo de proteger os direitos fundamentais de liberdade e de privacidade e o livre desenvolvimento da personalidade da pessoa natural. 

Tendo em vista a vigência dessa Lei, de suma importancia pra sociedade, é importante que os dados sejam anonimizados para respeitar os direitos dos cidadãos brasileiros. É importante citar isso pois anonimização de um dado deve ser muito bem feita afim de não violar o direito dos individuos.

Note que só o fato de sabermos que a mostra foi retirada dentre os pacientes do Hospital Sírio Libanês em um intervalo X de tempo já reduz muito o fator de anonimidade do dado e se uma variável fosse explicitamente a comorbidade "diabetes", "pressão alta" ou "HIV", caso as variáveis não fossem *clusterizadas*, sabendo a prevalência de uma doença numa população é possível encontrar as características de cada amostra e é importante dificultar este tipo de análise para estar de acordo com a lei de proteção de dados.

Uma forma de anonimizar esses dados é criar grupos de características entre as amostras evitando assim de informar exatamente quais são as características de um elemento da base de dados. 

fonte: [Lei Geral de Proteção de Dados - LGPD](https://www.planalto.gov.br/ccivil_03/_Ato2015-2018/2018/Lei/L13709.htm#ementa)

## Propondo modelo Linear

Um modelo matemático pode ser expresso em uma função, tal que: 

### $$\vec{y} = \vec{f}(\vec{x})$$

no caso $\vec{f}$  é um operador vetorial que irá realizar alguma transformação nos dados $\vec{x}$ resultando em $\vec{y}$. Note que em geral temos $\vec{x}$ e $\vec{y}$ e queremos ajustar um modelo $\vec{f}$.

> O vetor $\vec{y}$ é chamado de *variável dependente* pois ele é obtido através de uma função do vetor $\vec{x}$. O vetor $\vec{x}$ é dito variável independente, pois são dados que o estatistico/médico/pesquisador acredita que possam contribuir para entender o valor de $\vec{y}$.

### Dados de treino e dados de teste

Técnicas de regressão em geral tentam ajustar uma curva a um conjunto de dados e posteriormente após ter a curva parte da análise é entender como variam os **resíduos** que no caso é a diferença entre um dado e o resultado predito pelo modelo. Em aprendizado de máquina esta técnica também é utilizada porém com uma modificação.

Os dados que serão fornecidos pelo modelo são classificados em **dados de treino** e **dados de teste**. Aos dados de treino a técnica é exatamente a mesma usada em técnica de regressões: 

> Usa $x$ **entradas de treino** pra ajustar um modelo $f$ que vai calcular uma **saida** $y'$ prevista pelo modelo. Então compara-se $y$ real com $y'$ previsto.

A introdução do conceito dos **dados de teste** é garantir que mesmo que com $x$ dados de entrada nunca vistos o modelo $f$ consegue ainda assim abstrair novas informações nunca vistas afim de estimar $y'$ cujo o resultado é o melhor valor de $y$.

> Usa $x$ entradas de treino pra ajustar um modelo $f$ que vai calcular uma saida $y'$ prevista pelo modelo. Então compara-se $y$ real com $y'$ previsto. Agora afim de testar a abstração do modelo, fornecemos $X$ **entradas de teste** para verificar a precisão de $f$ ao gerar $Y'$ **saidas previstas** em relação aos $Y$ **saidas de teste**

Um ponto importante é que a abstração do modelo esta sempre quantificada em relação aos dados de teste, não aos dados de treino. Isso porque os dados de treino são usados para treinar e estimar um modelo, já os dados de teste são dados que o modelo não teve contato e portanto as informações do $X_{teste}$ são novas ao modelo então precisamos verificar o quão bom o modelo é pra para estimar resultados em cima de dados que ele nunca viu antes. Uma forma bem simples de entender esse algorítmo de treinamento e teste é: 

1. Separa a base de dados em dados de treino e dados de teste.
2. Usa os dados de treino ($x,y$) para ajustar $f$.
3. Usa o modelo $f$ ajustado em dados de teste.
4. Comparar sempre o resultado em relação aos dados de teste.

In [5]:
colunas_quantitativas = sirio_libanes.describe().columns

sirio_libanes_quantitativos = sirio_libanes[colunas_quantitativas].dropna()
sirio_libanes_quantitativos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 545 entries, 4 to 1924
Columns: 229 entries, PATIENT_VISIT_IDENTIFIER to ICU
dtypes: float64(225), int64(4)
memory usage: 979.3 KB


In [6]:
y = sirio_libanes_quantitativos['ICU']
x = sirio_libanes_quantitativos.drop('ICU', axis=1)

In [7]:
display(y.shape)
display(x.shape)

(545,)

(545, 228)

### Modelo de Regressão Logística

A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.

* Em medicina, permite por exemplo determinar os factores que caracterizam um grupo de indivíduos doentes em relação a indivíduos sãos.
* No domínio dos seguros, permite encontrar fracções da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular.
* Em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito.
* Em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em actos eleitorais.

#### Considerações do modelo: 
* Relação linear entre o vetor das variáveis explicativas X e o logit da variável resposta Y
* Ausência de multicolinearidade
* Valor esperado dos resíduos igual a zero
* Ausência de heterocedasticidade
* Não pressupõe normalidade dos resíduos nem homogeneidade de variâncias. 

#### SK Learn
```python
sklearn.linear_model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)
```
[[source]](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)

In [8]:
from sklearn.linear_model import LogisticRegression

In [9]:
modelo_regressao_logistica = LogisticRegression()

In [10]:
modelo_regressao_logistica.fit(x,y)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

Com o modelo treinado (*fit*) podemos usa-lo para predizer algo:

In [11]:
modelo_regressao_logistica.predict([x.iloc[5]])

array([0])

Note que para o dado `[x.iloc[5]]` o modelo sugere um resultado `array([0])` ou seja, que este paciente não vai para a UTI. Podemos verificar esta situação nos dados de saida:

In [12]:
y.iloc[5]

0

realmente o resultado condiz com a previsão do modelo. Entretanto ainda existe outros dois problemas fundamentais. Primeiro problema é: não adianta acertar **um resultado**, é preciso mensurar a taxa de acerto. O segundo é a **separação entre os dados de treino e teste**, não adianta prever dados que foram usados para ensinar o modelo. 

#### Para resolver o Primeiro problema

Em vez de prever um único elemento podemos fornecer vários dados ao mesmo tempo:

In [13]:
y_previsto = modelo_regressao_logistica.predict(x)

agora basta comparar `y_previsto` com `y`

In [14]:
y_previsto == y

4        True
6        True
8        True
9        True
14       True
        ...  
1904    False
1914     True
1919     True
1921     True
1924     True
Name: ICU, Length: 545, dtype: bool

Note que ele retorna um array booleano. Como no python `True == 1` e `False == 0 `

In [15]:
True == 1 

True

podemos somar todos os valores do array booleano e verificar quantos foram os acertos:

In [16]:
sum(y_previsto == y)

497

In [17]:
sum(y_previsto == y) / len(y) * 100

91.19266055045871

#### Conclusão a respeito do primeiro problema
> Existe uma regra de ouro **"Se você treinou um modelo e a acurrácia foi de 90% logo na primeira simulação, então provávelmente tem algum engano."** 

> O resultado foi de 497 acertos, uma porporção de 91% dos dados. Esta é uma forma de metrificar a qualidade do modelo, acontece que ainda temos o problema de tentar prever dados que o modelo já utilizou na faze de treino, não é um bom indicador de qualidade testar um modelo em cima dos dados que foram utilizados para treina-lo.


### Baseline com Dummy Classifier 

Além disso, existe a possibilidade do modelo conseguir acertar por mera chance, por exemplo, temos 545 dados, com valor $0$ ou $1$, se o modelo atribuir $1$ para todos, já irá acertar 264 pacientes... Não por previsão mas por mera chance. Existe uma forma de medir essa "mera chance" com um classificador "ingênuo" ou ["dummy classifier"](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.dummy)


```python
sklearn.dummy.DummyClassifier(*, strategy='prior', random_state=None, constant=None)[source]
```


In [18]:
from sklearn.dummy import DummyClassifier

modelo_dummy = DummyClassifier()
modelo_dummy.fit(x, y)
sum(modelo_dummy.predict(x) == y) / len(y) * 100



48.62385321100918

#### Conclusão sobre dummy classifier:
> Ou seja, com o ``DummyClassifier`` por mera chance acerta $49,35\%$ dos dados. Mas não é só ele, se você selecionar uma pessoa qualquer, aleatória, a chance dela acertar se um paciente vai ou não pra UTI é $49,35\%$.

> Note que a estrategia de decisão classifier esta na documentaçãão dizendo **“prior”: always predicts the class that maximizes the class prior (like “most_frequent”) and predict_proba returns the class prior.**  Ou seja, ele analisa a proporção, se tem $51\%$ de zeros, ele vai chutar $51\%$ zeros e vai acertar na maioria das vezes...

>  Então o objetivo do nosso modelo é informar um resultado que não seja por mera chance. 

### Metrificando os modelos com [``Accuracy Score``](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html?highlight=accuracy%20score#sklearn.metrics.accuracy_score)

O método ``accuracy_score()`` é um jeito mais automatizado de calcular acurácia de um modelo:

```python
sklearn.metrics.accuracy_score(y_true, y_pred, *, normalize=True, sample_weight=None)
```

Accuracy classification score.

In multilabel classification, this function computes subset accuracy: the set of labels predicted for a sample must exactly match the corresponding set of labels in `y_true`.



In [19]:
from sklearn.metrics import accuracy_score
accuracy_score(y, y_previsto)

0.9119266055045872

### Separando os dados de treino e teste

Existe uma função dentro do SK Learn que faz a "quebra" dos dados em conjuntos de treino e teste:

```python
sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)
```

> por definição o método separa $25\%$ dos dados para o conjunto de teste, mas isso pode ser modificado nos hiperparâmetros da função.

In [20]:
from sklearn.model_selection import train_test_split

In [21]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x,y)

print('Dados de Treino: ',len(x_treino),len(y_treino),
      '\nDados de Teste:',len(x_teste), len(y_teste))

Dados de Treino:  408 408 
Dados de Teste: 137 137


### Treinando modelo logistico com dados de treino

Agora podemos usar os dados de treino para treinar o modelo:

In [22]:
modelo_regressao_logistica.fit(x_treino,y_treino)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [23]:
y_predito = modelo_regressao_logistica.predict(x_teste)

In [24]:
accuracy_score(y_teste, y_predito)

0.8175182481751825

### Semente e o ``Random_state``

Um ponto importante é que o método ``train_test_split()`` faz uma seleção aleatória dos dados de treino e teste, portanto a cada execução a metrica de qualidade de um modelo muda, veja:

In [25]:
epocas = {}
for epoca in range(10):
  # Instanciando modelos
  modelo_dummy = DummyClassifier()
  modelo_regressao_logistica = LogisticRegression(solver='newton-cg')

  # Separação dos dados
  x_treino, x_teste, y_treino, y_teste = train_test_split(x,y)

  # Ajuste dos modelos
  modelo_dummy.fit(x_treino,y_treino)
  modelo_regressao_logistica.fit(x_treino,y_treino)

  # Predição dos modelos
  y_pred_dummy = modelo_dummy.predict(x_teste.to_numpy())
  y_pred_logis = modelo_regressao_logistica.predict(x_teste.to_numpy())

  # Métricas de qualidade
  acc_dummy = accuracy_score(y_teste, y_pred_dummy)
  acc_logis = accuracy_score(y_teste, y_pred_logis)

  # Exibindo méétricas
  epocas[epoca] = (acc_dummy, acc_logis)


for chave, valor in epocas.items():
  print(f'Epoca {chave} - '+'\033[34m'+f'Acurácia Dummy: {valor[0].round(2)*100:.2f}% | Acurácia Logistic: {valor[1].round(2)*100:.2f}% '+'\033[0;0m')



Epoca 0 - [34mAcurácia Dummy: 58.00% | Acurácia Logistic: 91.00% [0;0m
Epoca 1 - [34mAcurácia Dummy: 54.00% | Acurácia Logistic: 85.00% [0;0m
Epoca 2 - [34mAcurácia Dummy: 50.00% | Acurácia Logistic: 87.00% [0;0m
Epoca 3 - [34mAcurácia Dummy: 51.00% | Acurácia Logistic: 91.00% [0;0m
Epoca 4 - [34mAcurácia Dummy: 55.00% | Acurácia Logistic: 82.00% [0;0m
Epoca 5 - [34mAcurácia Dummy: 50.00% | Acurácia Logistic: 89.00% [0;0m
Epoca 6 - [34mAcurácia Dummy: 47.00% | Acurácia Logistic: 88.00% [0;0m
Epoca 7 - [34mAcurácia Dummy: 45.00% | Acurácia Logistic: 87.00% [0;0m
Epoca 8 - [34mAcurácia Dummy: 53.00% | Acurácia Logistic: 87.00% [0;0m
Epoca 9 - [34mAcurácia Dummy: 46.00% | Acurácia Logistic: 84.00% [0;0m




#### Comentario sobre variação da precisão 

> Vamos chamar de **Época** um ciclo de separação dos dados, treino e teste. Note na saíída em azul no terminal que para cada época a acurácia do dummy e do logistic muda. Isso acontece porque a forma em que o ``train_test_split()`` seleciona os dados é aleatória, logo cada execução é selecionado um conjunto de dados diferentes e portanto a precisão do modelo varia...

#### Núúmeros aleatóórios

Para garantir que o modelo selecione sempre o mesmo conjunto de dados podemos definir uma "Semente" ou `seed`, que é basicamente um número que origina toda uma sequência de números aleatórios. Com o `numpy` podemos definir uma semente e então fornecemos ela como hiperparâmetro do `train_test_split(random_state=seed)` 

> **Detalhe**: Em muitos códigos por ai existem pessoas que escolhem uma semente específica. Por exemplo, escolher o número $0$, o dia do aniversário ou até mesmo o número $42$, em homenagem ao [Guia do Mochileiro das Galáxias](https://www.amazon.com.br/guia-mochileiro-das-gal%C3%A1xias/dp/8599296574). **Entretanto vale ressaltar que esse número não é aleatório, pois a chance dele ser escolhido entre varias pessoas é bem maior do que o qualquer outro número devido a influencia na cultura pop...**

**Uma sugestão para escolher um número cujo valor irá servir de semente é literalmente digitar varios números com os dedos sem pensar muito (*hahaha!*)**

In [26]:
import numpy as np

seed = np.random.seed(120925)

epocas = {}
for epoca in range(1,11):
  # Instanciando modelos
  modelo_dummy = DummyClassifier()
  modelo_regressao_logistica = LogisticRegression(solver='newton-cg')

  # Separação dos dados
  x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, random_state=seed)

  # Ajuste dos modelos
  modelo_dummy.fit(x_treino,y_treino)
  modelo_regressao_logistica.fit(x_treino,y_treino)

  # Predição dos modelos
  y_pred_dummy = modelo_dummy.predict(x_teste.to_numpy())
  y_pred_logis = modelo_regressao_logistica.predict(x_teste.to_numpy())

  # Métricas de qualidade
  acc_dummy = accuracy_score(y_teste, y_pred_dummy)
  acc_logis = accuracy_score(y_teste, y_pred_logis)

  # Exibindo méétricas
  epocas[epoca] = (acc_dummy, acc_logis)


for chave, valor in epocas.items():
  print(f'Epoca {chave} - '+'\033[34m'+f'Acurácia Dummy: {valor[0].round(2)*100:.2f}% | Acurácia Logistic: {valor[1].round(2)*100:.2f}% '+'\033[0;0m')



Epoca 1 - [34mAcurácia Dummy: 55.00% | Acurácia Logistic: 85.00% [0;0m
Epoca 2 - [34mAcurácia Dummy: 53.00% | Acurácia Logistic: 88.00% [0;0m
Epoca 3 - [34mAcurácia Dummy: 47.00% | Acurácia Logistic: 87.00% [0;0m
Epoca 4 - [34mAcurácia Dummy: 49.00% | Acurácia Logistic: 82.00% [0;0m
Epoca 5 - [34mAcurácia Dummy: 47.00% | Acurácia Logistic: 90.00% [0;0m
Epoca 6 - [34mAcurácia Dummy: 51.00% | Acurácia Logistic: 84.00% [0;0m
Epoca 7 - [34mAcurácia Dummy: 50.00% | Acurácia Logistic: 87.00% [0;0m
Epoca 8 - [34mAcurácia Dummy: 44.00% | Acurácia Logistic: 86.00% [0;0m
Epoca 9 - [34mAcurácia Dummy: 55.00% | Acurácia Logistic: 88.00% [0;0m
Epoca 10 - [34mAcurácia Dummy: 49.00% | Acurácia Logistic: 84.00% [0;0m




Agora toda vez que a célula for executada, o resultado de cada época será o mesmo, mas a seleção que ``train_test_split()`` não é a mesma, mas caso seja necessário  selecionar sempre o mesmo conjunto de dados éé sóó fixar um valor em ``random_state``.

#### Importancia de uma seleção representativa para treino e teste

Como a seleção feita pelo ``train_test_split()`` é aleatória então pode acontecer alguns problemas ao selecionar um conjunto de dados representativo. Vimos que a proporção dos pacientes que foram ou não pra UTI é de $52\%$ não precisa de UTI e $48\%$ precisa.

Pode acontecer uma situação em que nos dados de treino $90\%$ dos pacientes não precisam de UTI, ou seja, este conjunto de dados não é representativo do conjunto total de dados. Como também pode acontecer em uma seleção que $90\%$ dos pacientes precisem de UTI, logo o modelo vai ser ajustado em um conjunto de dados não representativo. **Isso pode ser bom em alguns casos mas pode não ser.**

A importancia de que os dados de treino e teste sejam representativos é garantir que o modelo consiga treinar corretamente e também abstrair informações para isso podemos passar o hiperparâmetro ``stratify=y``. Assim o modelo irá garantir que todas as amostras estratificadas sejam representativas em relação aos dados de saída real.

Entretanto em outros casos pode ser interessante tentar prever corretamente resultados de amostras estratificadas não representativas. Em outras palavras, ter uma boa taxa de acerto até em dados de teste não representativos. Por exemplo:

> A evolução do COVID acontece num janela em média de 15 dias. Portanto, 15 dias após o carnaval é possíível que os dias tenham um aumento expressivo no número de casos e internações, ou seja, num periodo de tempo a quantidade de dados não será representativa em relação aos dados que foram utilizados para treinar o modelo, pois a taxa de contaminação mudou então a quantidade de pessoas que dão entrada no hospital também muda.

É importante falar disso pois se treinarmos exclusivamente em dados representativos, ao entrar em uma situação de teste cuja a realidade não é mais representativa do conjunto de treino o modelo pode acabar errando muito mais, e neste caso, erar significa **classificar um paciente para a UTI sem necessidade ou não mandar um paciente, mesmo ele precisando.** 

> Este tipo de análise condicional, por exemplo "*Quantos pacientes foram encaminhados à UTI, dado que eles não precisavam*" ou "*Quantos pacientes não foram enviados para a UTI dado que eles precisavam da assistencia*", é referente a diferença fundamental entre **Precisão e Revocação**

Uma imagem que ilustra bem a diferença entre precisão e revocação é

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/a/ab/Precis%C3%A3o_e_revoca%C3%A7%C3%A3o.png/262px-Precis%C3%A3o_e_revoca%C3%A7%C3%A3o.png' >

> No ambiente hospitalar é de suma importância não só ter uma precisão alta, mas uma também uma revocação. Pois, classificar um paciente que precisa de UTI como uma pessoa que não precisa do serviço pode custar a vida do paciente.


Por exemplo, Vamos ver o modelo:

In [27]:
display(pd.Series(y_pred_logis).value_counts())
display(pd.Series(y_teste).value_counts())


0    80
1    57
dtype: int64

0    70
1    67
Name: ICU, dtype: int64

> Note para os valores ``y_pred_logis`` temos a estimativa de 61 pacientes que precisaram da UTI, entretanto na realidade ``y_teste`` temos que 64 realmente precisaram. Isso significa que nosso modelo classificou 3 pacientes que precisavam como pessoas que não precisavam do serviço, dizemos que estes pacientes receberam um *falso negativo*. 

> **Precisão:** Indica, das classificações corretas, quantas o modelo acertou.

> **Revocação**: Indica, das amostras corretas existentes, quantas o modelo conseguiu classificar corretamente.

In [28]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, random_state=seed, stratify=y)