<a href="https://colab.research.google.com/github/eddorileo/saudeDigital/blob/main/src/now-show-clinico_notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Saúde Digital & Ciência de Dados
##Estudo de Caso: No-Show Clínico - UBS (SUS)
Agradecimentos: [Kaggle](https://www.kaggle.com/datasets/joniarroba/noshowappointments)




```
```


Autor: Éderson Dorileo, MSc, PhD

linkedin: https://www.linkedin.com/in/dorileo/

Contato: dorileo@gmail.com



##Fluxo de Trabalho

1. Preparação dos Dados




###1. Preparação dos Dados
A preparação dos dados é crucial para garantir a precisão e eficácia das análises subsequentes. Utilizamos Python para limpar e preparar o dataset, realizando as seguintes etapa:

####1.1. Limpeza Inicial



In [2]:
import pandas as pd

# Carregar os dados
df = pd.read_csv('no_show.csv')

# Visualizar as colunas e primeiras linhas da base de dados
df.head()

Unnamed: 0,PatientId,AppointmentID,Gender,ScheduledDay,AppointmentDay,Age,Neighbourhood,Scholarship,Hipertension,Diabetes,Alcoholism,Handcap,SMS_received,No-show
0,29872500000000.0,5642903,F,2016-04-29T18:38:08Z,2016-04-29T00:00:00Z,62,JARDIM DA PENHA,0,1,0,0,0,0,No
1,558997800000000.0,5642503,M,2016-04-29T16:08:27Z,2016-04-29T00:00:00Z,56,JARDIM DA PENHA,0,0,0,0,0,0,No
2,4262962000000.0,5642549,F,2016-04-29T16:19:04Z,2016-04-29T00:00:00Z,62,MATA DA PRAIA,0,0,0,0,0,0,No
3,867951200000.0,5642828,F,2016-04-29T17:29:31Z,2016-04-29T00:00:00Z,8,PONTAL DE CAMBURI,0,0,0,0,0,0,No
4,8841186000000.0,5642494,F,2016-04-29T16:07:23Z,2016-04-29T00:00:00Z,56,JARDIM DA PENHA,0,1,1,0,0,0,No


In [1]:
# Verificar valores ausentes
print(df.isnull().sum())

# Deletar linhas com valores ausentes
df = df.dropna()

# Correção de erros de formato e dados incorretos
df['ScheduledDay'] = pd.to_datetime(df['ScheduledDay'])
df['AppointmentDay'] = pd.to_datetime(df['AppointmentDay'])

# Identificar e remover registros com idade negativa
df = df[df['Age'] >= 0]


PatientId         0
AppointmentID     0
Gender            0
ScheduledDay      0
AppointmentDay    0
Age               0
Neighbourhood     0
Scholarship       0
Hipertension      0
Diabetes          0
Alcoholism        0
Handcap           0
SMS_received      0
No-show           0
dtype: int64


**Descrição das Correções e Transformações:**
* **Valores Ausentes:** Verificamos e tratamos valores ausentes nas colunas, removendo qualquer linha com pelo menos um campo nulo.

* **Correção de Formatos de Data:** Convertemos as colunas ScheduledDay e AppointmentDay para o formato de data do Python, facilitando manipulações e cálculos de intervalos de tempo.

* **Correção de Idades Negativas:** Idades negativas são claramente erros de entrada de dados. Optamos por deletar esses registros, mantendo a consistência no tratamento de dados atípicos.


####1.2. Criação de Variáveis Derivadas

**Descrição das Variáveis Derivadas:**

**Dia da Semana:** Extraímos o dia da semana para ScheduledDay e AppointmentDay, o que nos permitirá analisar se há dias específicos com maior incidência de no-shows.

**Grupos Etários:** Dividimos a idade dos pacientes em categorias, permitindo análises mais detalhadas sobre diferentes comportamentos etários em relação ao no-show.



In [None]:
# Extrair o dia da semana das datas de agendamento e consulta
df['ScheduledWeekDay'] = df['ScheduledDay'].dt.day_name()
df['AppointmentWeekDay'] = df['AppointmentDay'].dt.day_name()

# Categorizar idades em grupos
bins = [0, 5, 18, 35, 55, 75, 100]
labels = ['Baby', 'Child', 'Young Adult', 'Adult', 'Senior', 'Elderly']
df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)



**Categorização de Idades:** Utilizamos a função pd.cut() para dividir a coluna Age em categorias predefinidas, facilitando a análise por grupos etários.

Este processo de limpeza e preparação dos dados não só melhora a qualidade dos dados, mas também enriquece o dataset com novas variáveis que facilitam análises mais profundas e significativas. A próxima etapa, a análise exploratória, nos ajudará a visualizar e entender melhor esses dados preparados.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Estatísticas Descritivas para a idade dos pacientes
age_stats = df['Age'].describe()
print("Estatísticas Descritivas para Idade:")
print(age_stats)

# Visualização de Dados para No-show por Dia da Semana
plt.figure(figsize=(10, 6))
sns.countplot(x='AppointmentWeekDay', hue='No-show', data=df, order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday'])
plt.title('Distribuição de No-show por Dia da Semana')
plt.xlabel('Dia da Semana')
plt.ylabel('Contagem')
plt.legend(title='No-show')
plt.xticks(rotation=45)
plt.show()

# Visualização de Dados para No-show por Faixa Etária
plt.figure(figsize=(10, 6))
sns.countplot(x='AgeGroup', hue='No-show', data=df, order=['Baby', 'Child', 'Young Adult', 'Adult', 'Senior', 'Elderly'])
plt.title('Distribuição de No-show por Faixa Etária')
plt.xlabel('Faixa Etária')
plt.ylabel('Contagem')
plt.legend(title='No-show')
plt.xticks(rotation=45)
plt.show()

# Análise de distribuição de idade
plt.figure(figsize=(10, 6))
sns.countplot(x='AgeGroup', data=df)
plt.title('Distribuição de Idade dos Pacientes')
plt.xlabel('Grupo Etário')
plt.ylabel('Número de Pacientes')
plt.xticks(rotation=45)
plt.show()

# Análise de no-show por grupo etário
plt.figure(figsize=(10, 6))
sns.countplot(x='AgeGroup', hue='No-show', data=df)
plt.title('No-show por Grupo Etário')
plt.xlabel('Grupo Etário')
plt.ylabel('Número de No-shows')
plt.xticks(rotation=45)
plt.legend(title='No-show', loc='upper right')
plt.show()
