<a href="https://colab.research.google.com/github/eddorileo/saudeDigital_encontro1/blob/main/src/noshow.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#*No-Show Clínico*  
####Não comparecimento em consultas médicas

```
```

##Introdução ao Tema



O sistema de saúde público brasileiro, conhecido como Sistema Único de Saúde (SUS) é um dos maiores sistemas de saúde do mundo, representando investimento governamental de mais de 9% do PIB. Contudo, o seu funcionamento não é homogêneo e existem percepções de qualidade distintas por parte dos cidadãos das diferentes regiões do país.

Esta análise usará o conjunto de dados de consultas médicas de não comparecimento, que coleta informações de 100 mil consultas médicas no Brasil e se concentra na questão de saber se os pacientes comparecem ou não à consulta.

Esta análise tem como objetivo delinear alguns possíveis motivos para o não comparecimento dos pacientes às consultas agendadas, bem como obter insights sobre o sistema público de saúde brasileiro. Para isso, tentaremos primeiro compreender os dados e o contexto em que foram recolhidos. Procederemos então à disputa de dados e à análise exploratória dos dados, num processo iterativo, de forma a tirar algumas conclusões sobre o assunto.

Nesta atividade vamos explorar juntos conceitos estatísticos básicos através da interação prática com ferramentas computacionais populares para a manipulação de grandes massas de dados, organização da informação e extração de conhecimento. As práticas serão motivadas pela sensibilização a temas do cotidiano, conectados à saúde digital.

```
```


###Dicionário de Dados

**01 - PacienteId:** Identificação de um paciente

**02 - AppointmentID:** Identificação de cada consulta

**03 - Gender** Sexo: Macho ou fêmea

**04 - DataMarcacaoConsulta:** O dia da consulta propriamente dita, quando têm que ir ao médico.

**05 - DataAgendamento:** No dia em que alguém ligou ou registrou o agendamento, isso é antes do agendamento, é claro.

**06 – Age:** Idade. Quantos anos tem o paciente.

**07 - Neighbourhood:** Bairro onde ocorre a consulta.

**08 – Scholarship:** Bolsa Verdadeiro ou Falso.

**09 – Hipertensão** Verdadeiro ou falso

**10 – Diabetes:** Verdadeiro ou falso

**11 - Alcoholism:** Alcoolismo. Verdadeiro ou falso

**12 - Handcap:** Condição especial. Deficiência. Verdadeiro ou falso

**13 - SMS_received:** SMS_recebido. 1 ou mais mensagens enviadas ao paciente.

**14 - No-show:** Não comparecimento. Verdadeiro ou falso.

<br>

###Questões de Investigação
- Qual a relavância da ciência de dados para o exercício da saúde digital?
- Como o domínio da manipulação de grandes massas de dados podem me fazer um profissional diferenciado?
- Que benefícios a familiaridade com a manipulação eficiente dos dados pode prover ao paciente, à gestão na instituições e/ou à saúde pública, em geral?
- Quais os desafios ao se lidar com grandes bases de dados?
- Quais outras ferramentas estão também à disposição para a exploração rápida, facilitada e colaborativa de grandes massas de dados?
<p>


````
````

##Hands-On


###1. Obtendo os Dados

In [None]:
#Importando bibliotecas de apoio
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregue os dados diretamente do github e salve na variável data
data = pd.read_csv('https://raw.githubusercontent.com/eddorileo/saudeDigital_encontro1/main/db/no_show.csv')
#https://github.com/eddorileo/saudeDigital_encontro1/blob/main/db/no_show.csv

###2. Treinando a observação (e mineração)

In [None]:
data




E se vc quiser trabalhar com apenas uma coluna?




In [None]:
data['Age']

Faça algo útil com a sua coluna

In [None]:
data.Age.mean()

#### 2.1. Dados corrompidos (irrealísticos, irrelevantes ou nulos)
Há algum valor nulo?

In [None]:
data.isnull().sum()

Hora de decidir...
O que fazer com eles?

In [None]:
#Opção I: Preencher com um valor representativo (esperado)
#data['Age'] = data['Age'].fillna( data['Age'].median() )

#Opção II: Deletar o registro
data2 = data.dropna(subset=['Age'])

data2.isnull().sum()

##### Tem alguma coluna que não precisamos?

In [None]:
data2=data2.drop(columns=['Timestamp'])

###3. Gerando Informação (Explore e Visualize)

In [None]:
# statisticas das variáveis numéricas
data2.describe(exclude = 'object')

...Consegue descobrir o que significam essas estatísticas?

#####**Nota1**

> Para dados numéricos, o índice do resultado incluirá count, mean,[ std](https://shorturl.at/rsQX3), min, max bem como os percentis inferior, 50 e superior.

> Por padrão, o percentil inferior é 25 e o percentil superior é 75. O percentil 50 é igual à mediana.



In [None]:
# statisticas das variáveis categóricas
data2.describe(exclude = ['float', 'int64'])

#####**Nota2**

> Para dados de objeto (por exemplo, strings ou timestamps), o índice do resultado incluirá count, unique, top e freq.

> top é o valor mais comum.

> freq é a frequência do valor mais comum.

#### 3.1 Gráficos


Que história(s) os dados nos contam?

In [None]:
#LINHAS (dados numéricos?)
data2.Age.plot()
#sns.lineplot(data2)

Como ficaria o resultado de describe (percentis das idades) em uma única imagem?

In [None]:
#HISTOGRAMA (Gráfico de barras)
sns.histplot(data2['Age'],kde=True)

In [None]:
#BOXPLOT
data2.Age.plot.box()

Esquemas ilustrativos do boxplot: [Esquema I](https://www.alura.com.br/artigos/assets/boxplot/imagem-3.png) e [Esquema II](https://miro.medium.com/v2/resize:fit:8100/1*NRlqiZGQdsIyAu0KzP7LaQ.png)

In [None]:
data2.columns

Index(['Timestamp', 'Choose your gender', 'Age', 'What is your course?',
       'Your current year of Study', 'What is your CGPA?', 'Marital status',
       'Do you have Depression?', 'Do you have Anxiety?',
       'Do you have Panic attack?',
       'Did you seek any specialist for a treatment?'],
      dtype='object')

In [None]:
#plot de contagem
sns.countplot(data=data2, x="Do you have Anxiety?", hue='Age')

---> É possível dizer que existe **relação*** entre nota (idade) e percepção de depressão?



###3.3 Como ficaria a correlação entre todas as colunas?

#### Matriz de Correlação

Para gerar a matriz de correlação, vamos usar a função ['***associations***'](http://shakedzy.xyz/dython/modules/nominal/) da biblioteca [dython](http://shakedzy.xyz/dython/).

```
associations(dataset, nominal_columns='auto', numerical_columns=None, mark_columns=False, nom_nom_assoc='cramer', num_num_assoc='pearson', bias_correction=True, nan_strategy=_REPLACE, nan_replace_value=_DEFAULT_REPLACE_VALUE, ax=None, figsize=None, annot=True, fmt='.2f', cmap=None, sv_color='silver', cbar=True, vmax=1.0, vmin=None, plot=True, compute_only=False, clustering=False, title=None, filename=None)
```


Ela calcula a correlação (força de associação) entre campos da base de dados tanto para campos categóricos, como para campos contínuos, usando: Pearson's R (casos contínuos-contínuos); Razão de correlação (categórico-contínuo); e Cramer's V ou Theil's U (nos casos de correlação entre campos categórico-categórico).

In [None]:
pip install dython

In [None]:
from dython.nominal import associations
complete_correlation= associations(data2, figsize=(10,10))


####Que inferências é possível extrair dessas correlações?

###Síntese do Aprendizado



```
```

####Conceitos Chaves da Atividade de Hoje

1. Revisão requisitos estatísticos

2. Ciência de Dados
> Passo-a-passo (pipeline) <br>
> Dados x Informação x Conhecimento <br>

3. Código (Manipulação e Exploração)
> Estatísticas <br>
> Gráficos <br>
> Correlação <br>



```
```


## Material de Apoio: [github.com/eddorileo](github.com/eddorileo)
---



####Ciência de Dados  
* [Pipeline](https://shorturl.at/rwY07)
* [Esquema Geral (Árvore DS)](https://www.saedsayad.com/data_mining_map.htm)
* Tutoriais (inglês) [Must read articles](https://github.com/datasciencescoop/Data-Science-Tutorials)

####Estatística
* [Conceitos Elementares](https://github.com/eddorileo/cienciaDados_saudeDigital/blob/7200f224298049d382379c581e310fda8d479282/apoio/Conceitos%20Estati%CC%81sticos%20Elementares.pdf)
