<a href="https://colab.research.google.com/github/eddorileo/mental_health/blob/main/mental_health.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# [Ciência de Dados (CD) na Saúde Digital](https://www.canva.com/design/DAFthkkr5Gc/0RlG44WplXPJqrFiTELhzw/view?utm_content=DAFthkkr5Gc&utm_campaign=designshare&utm_medium=link&utm_source=publishsharelink)
```
```

###Apresentação da Atividade
Nesta atividade vamos explorar juntos conceitos estatísticos básicos através da interação prática com ferramentas computacionais populares para a manipulação de grandes massas de dados, orgnizaçdão da informação e extração de conhecimento. As práticas serão motivadas pela sensibilização a temas do cotidiano, conectados à saúde digital.

###Objetivo
* Entender conceitos básicos de estatística e ciência de dados na saúde
* Conhecer e explorar ambientes colaborativos de partilha de dados, análise, apresentação, extração e divulgação de resultados
* Explorar caderno (notebook Jupter) de estudo de casos em saúde
* Saber como rodar um programa simples em Python em ambiente colaborativo simulado (Google Colab)


###Questões de Base
- Qual a relavância da ciência de dados para o exercício da saúde digital?
- Como o domínio da manipulação de grandes massas de dados podem me fazer um profissional diferenciado?
- Que benefícios a familiaridade com a manipulação eficiente dos dados pode prover ao paciente, à gestão na instituições e/ou à saúde pública, em geral?
- Quais os desafios ao se lidar com grandes bases de dados?
- Quais outras ferramentas estão também à disposição para a exploração rápida, facilitada e colaborativa de grandes massas de dados? <p>


###Pactos
1. Mão-na-massa: Engajar-se proativamente na prática das atividades
2. Perdeu o fio da meada? Pergunte.
> Não fique para trás. <br>
> Não sabe o que perguntar? Avise que está perdido.

````
````

##A. Introdução


###I. Retomando [tripé](https://www.canva.com/design/DAFthkkr5Gc/0RlG44WplXPJqrFiTELhzw/view?utm_content=DAFthkkr5Gc&utm_campaign=designshare&utm_medium=link&utm_source=publishsharelink) fundamental (CD) e [estatística](https://github.com/eddorileo/cienciaDados_saudeDigital/blob/7200f224298049d382379c581e310fda8d479282/apoio/Conceitos%20Estati%CC%81sticos%20Elementares.pdf) de base (30')

###II. Organização dos Trabalhos

####Disparador: [Artigo Científico](https://www.scielo.br/j/aval/a/dfcGTywRV3srdNG7NVTvG4K/)

1. Leitura (Introdução) - 5' <br>
2. Momento de interação, partilha e apropriação do tema
> Pontuando problemas e explicações (30')<br>
> Elaborando questões e novos significados (30') <BR>
3. Ponto Prático (30')<br>
4. Revisão do Aprendizado (10')<br>
5. Avaliação (20')<br>

##B. Prática [(Pipeline)](https://shorturl.at/rwY07)


###1. Obtendo os Dados

In [None]:
#Importando bibliotecas de apoio
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregue os dados diretamente do github e salve na variável data
data = pd.read_csv('https://raw.githubusercontent.com/eddorileo/mental_health/main/StudentMentalHealth.csv')

###2. Treinando a observação (e mineração)

In [None]:
data




E se vc quiser trabalhar com apenas uma coluna?




In [None]:
data['Age']

Faça algo útil com a sua coluna

In [None]:
data.Age.mean()

#### 2.1. Dados corrompidos (irrealísticos, irrelevantes ou nulos)
Há algum valor nulo?

In [None]:
data.isnull().sum()

Hora de decidir...
O que fazer com eles?

In [None]:
#Opção I: Preencher com um valor representativo (esperado)
#data['Age'] = data['Age'].fillna( data['Age'].median() )

#Opção II: Deletar o registro
data2 = data.dropna(subset=['Age'])

data2.isnull().sum()

##### Tem alguma coluna que não precisamos?

In [None]:
data2=data2.drop(columns=['Timestamp'])

###3. Gerando Informação (Explore e Visualize)

In [None]:
# statisticas das variáveis numéricas
data2.describe(exclude = 'object')

...Consegue descobrir o que significam essas estatísticas?

#####**Nota1**

> Para dados numéricos, o índice do resultado incluirá count, mean,[ std](https://shorturl.at/rsQX3), min, max bem como os percentis inferior, 50 e superior.

> Por padrão, o percentil inferior é 25 e o percentil superior é 75. O percentil 50 é igual à mediana.



In [None]:
# statisticas das variáveis categóricas
data2.describe(exclude = ['float', 'int64'])

#####**Nota2**

> Para dados de objeto (por exemplo, strings ou timestamps), o índice do resultado incluirá count, unique, top e freq.

> top é o valor mais comum.

> freq é a frequência do valor mais comum.

#### 3.1 Gráficos


Que história(s) os dados nos contam?

In [None]:
#LINHAS (dados numéricos?)
data2.Age.plot()
#sns.lineplot(data2)

Como ficaria o resultado de describe (percentis das idades) em uma única imagem?

In [None]:
#HISTOGRAMA (Gráfico de barras)
sns.histplot(data2['Age'],kde=True)

In [None]:
#BOXPLOT
data2.Age.plot.box()

Esquemas ilustrativos do boxplot: [Esquema I](https://www.alura.com.br/artigos/assets/boxplot/imagem-3.png) e [Esquema II](https://miro.medium.com/v2/resize:fit:8100/1*NRlqiZGQdsIyAu0KzP7LaQ.png)

In [None]:
data2.columns

Index(['Timestamp', 'Choose your gender', 'Age', 'What is your course?',
       'Your current year of Study', 'What is your CGPA?', 'Marital status',
       'Do you have Depression?', 'Do you have Anxiety?',
       'Do you have Panic attack?',
       'Did you seek any specialist for a treatment?'],
      dtype='object')

In [None]:
#plot de contagem
sns.countplot(data=data2, x="Do you have Anxiety?", hue='Age')

---> É possível dizer que existe **relação*** entre nota (idade) e percepção de depressão?



###3.3 Como ficaria a correlação entre todas as colunas?

#### Matriz de Correlação

Para gerar a matriz de correlação, vamos usar a função ['***associations***'](http://shakedzy.xyz/dython/modules/nominal/) da biblioteca [dython](http://shakedzy.xyz/dython/).

```
associations(dataset, nominal_columns='auto', numerical_columns=None, mark_columns=False, nom_nom_assoc='cramer', num_num_assoc='pearson', bias_correction=True, nan_strategy=_REPLACE, nan_replace_value=_DEFAULT_REPLACE_VALUE, ax=None, figsize=None, annot=True, fmt='.2f', cmap=None, sv_color='silver', cbar=True, vmax=1.0, vmin=None, plot=True, compute_only=False, clustering=False, title=None, filename=None)
```


Ela calcula a correlação (força de associação) entre campos da base de dados tanto para campos categóricos, como para campos contínuos, usando: Pearson's R (casos contínuos-contínuos); Razão de correlação (categórico-contínuo); e Cramer's V ou Theil's U (nos casos de correlação entre campos categórico-categórico).

In [None]:
pip install dython

In [None]:
from dython.nominal import associations
complete_correlation= associations(data2, figsize=(10,10))


####Que inferências é possível extrair dessas correlações?


##C. Avaliação

###Síntese do Aprendizado



```
```

####Conceitos Chaves da Atividade de Hoje

1. Revisão requisitos estatísticos

2. Ciência de Dados
> Passo-a-passo (pipeline) <br>
> Dados x Informação x Conhecimento <br>

3. Código (Manipulação e Exploração)
> Estatísticas <br>
> Gráficos <br>
> Correlação <br>



```
```


## Material de Apoio: [github.com/eddorileo](github.com/eddorileo)
---



####Ciência de Dados  
* [Pipeline](https://shorturl.at/rwY07)
* [Esquema Geral](https://www.saedsayad.com/data_mining_map.htm)
* Tutoriais (inglês) [Must read articles](https://github.com/datasciencescoop/Data-Science-Tutorials)

####Estatística
* [Conceitos Elementares](https://github.com/eddorileo/cienciaDados_saudeDigital/blob/7200f224298049d382379c581e310fda8d479282/apoio/Conceitos%20Estati%CC%81sticos%20Elementares.pdf)

####Espiral Construtivista
[13/09/23 - 09h00](https://github.com/eddorileo/mental_health/blob/main/apoio/20230913_0900_espiral_saudeMental.pdf)
