In [1]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt

In [2]:
from datetime import datetime

In [3]:
df_consultas = pd.read_csv('consultas.csv', sep = ',')
df_avaliacoes = pd.read_csv('avaliacoes.csv', sep = ',')
df_clinicas = pd.read_csv('clinicas.csv', sep = ',')
df_medicos = pd.read_csv('medicos.csv', sep = ',')
df_pacientes = pd.read_csv('pacientes.csv', sep = ',')

In [4]:
df_consultas.head()

Unnamed: 0,id_consulta,id_paciente,id_medico,id_clinica,especialidade,data_hora_agendada,data_hora_inicio,status
0,1,82,15,4,Cardiologia,2023-09-27 23:46,2023-09-28 00:16,Realizada
1,2,18,95,14,Cardiologia,2023-09-04 09:05,2023-09-04 13:05,Realizada
2,3,55,5,4,Pediatria,2023-02-04 02:43,2023-02-04 02:58,Realizada
3,4,78,4,72,Ortopedia,2023-03-14 09:28,2023-03-14 13:28,Realizada
4,5,58,76,36,Pediatria,2023-10-22 16:54,2023-10-22 16:54,Cancelada


In [5]:
df_consultas['data_hora_agendada'] = pd.to_datetime(df_consultas['data_hora_agendada'])
df_consultas['data_hora_inicio'] = pd.to_datetime(df_consultas['data_hora_inicio'])

In [6]:
#cardiologia = df_consultas.loc(df_consultas['especialidade'] == 'Cardiologia')

In [7]:
df_consultas['tempo_espera'] = (df_consultas['data_hora_inicio'] - df_consultas['data_hora_agendada']).dt.total_seconds() / 60 


In [8]:
df_consultas.head()

Unnamed: 0,id_consulta,id_paciente,id_medico,id_clinica,especialidade,data_hora_agendada,data_hora_inicio,status,tempo_espera
0,1,82,15,4,Cardiologia,2023-09-27 23:46:00,2023-09-28 00:16:00,Realizada,30.0
1,2,18,95,14,Cardiologia,2023-09-04 09:05:00,2023-09-04 13:05:00,Realizada,240.0
2,3,55,5,4,Pediatria,2023-02-04 02:43:00,2023-02-04 02:58:00,Realizada,15.0
3,4,78,4,72,Ortopedia,2023-03-14 09:28:00,2023-03-14 13:28:00,Realizada,240.0
4,5,58,76,36,Pediatria,2023-10-22 16:54:00,2023-10-22 16:54:00,Cancelada,0.0


In [48]:
def tendencia_central (a):
        # Calculo das medidas de tendencias centrais            
    media_consulta = np.mean(a)
    mediana_consulta= np.median(a)
    distancia_consulta= ((media_consulta - mediana_consulta)/mediana_consulta)*100
    print(f"Média: {media_consulta:.2f}\nMediana: {mediana_consulta:.2f}\nDistancia: {distancia_consulta:.2f}% ")
    return

def outliers (b):
        # determinando os quartis
    q1, q2, q3= np.percentile(b , [25, 50, 75])
    iqr = q3 - q1
    limite_superior = q3 + (1.5 * iqr)
    limite_inferior = q1 - (1.5 * iqr)
    outlier_lista = [x for x in b if x < limite_inferior or x > limite_superior]           
    print(f"Quartis\nQ1: {q1:.2f}\nQ2: {q2:.2f}\nQ3: {q3:.2f}\nValores de corte:\nLimite superior: {limite_superior:.2f}\nLimite inferior: {limite_inferior:.2f}")
    return outlier_lista, limite_inferior, limite_superior, q1, q3

In [None]:
### CLINICAS ###

In [107]:
df_consultas_clinicas = pd.merge(df_consultas, df_clinicas, on='id_clinica', how='inner').reset_index()

In [108]:
df_nara = pd.merge(df_consultas_clinicas, df_medicos, on='id_medico', how='inner').reset_index()

In [113]:
df_nara_avaliacao = pd.merge(df_nara, df_avaliacoes, on='id_consulta', how='inner')

In [104]:
df_consultas_clinicas.groupby('nome')['tempo_espera'].mean().sort_values(ascending=False).reset_index()

Unnamed: 0,nome,tempo_espera
0,Clínica Horizonte,103.158585
1,Clínica Nova Vida,98.366446
2,Clínica São Lucas,97.756233
3,Clínica Vital,95.569343
4,Clínica Bem Estar,94.211409
5,Clínica Renova,94.027149
6,Bem Viver,93.152174
7,Saúde Total,92.085366
8,Clínica Esperança,91.95216
9,Vida Plena,89.847973


In [82]:
# Clínica Horizonte
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Clínica Horizonte']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 103.16
Mediana: 60.00
Distancia: 71.93% 
Quartis
Q1: 10.00
Q2: 60.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [84]:
# Clínica Nova Vida 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Clínica Nova Vida']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 98.37
Mediana: 60.00
Distancia: 63.94% 
Quartis
Q1: 10.00
Q2: 60.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [85]:
# Clínica São Lucas 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Clínica São Lucas']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 97.76
Mediana: 30.00
Distancia: 225.85% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [86]:
# Clínica Vital 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Clínica Vital']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 95.57
Mediana: 60.00
Distancia: 59.28% 
Quartis
Q1: 10.00
Q2: 60.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [87]:
# Clínica Bem Estar 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Clínica Bem Estar']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 94.21
Mediana: 30.00
Distancia: 214.04% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [88]:
# Bem Viver 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Bem Viver']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 93.15
Mediana: 60.00
Distancia: 55.25% 
Quartis
Q1: 10.00
Q2: 60.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [89]:
# Saúde Total 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Saúde Total']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 92.09
Mediana: 30.00
Distancia: 206.95% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [90]:
# Clínica Esperança 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Clínica Esperança']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 91.95
Mediana: 30.00
Distancia: 206.51% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [92]:
# Vida Plena 
clinica = df_consultas.loc[df_consultas_clinicas['nome'] == 'Vida Plena']
tendencia_central(clinica['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(clinica['tempo_espera']))

Média: 89.85
Mediana: 30.00
Distancia: 199.49% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [None]:
### ESPECIALIDADES ###

In [None]:
# todas as consultas
tendencia_central(df_consultas['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(df_consultas['tempo_espera']))

Média: 95.52
Mediana: 30.00
Distancia: 218.39% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


[]

In [81]:
df_consultas.groupby('especialidade')['tempo_espera'].mean()

especialidade
Cardiologia      96.148649
Dermatologia     97.584830
Ginecologia      95.841523
Neurologia      100.522727
Ortopedia        94.038634
Pediatria        93.013699
Name: tempo_espera, dtype: float64

In [50]:
# CARDIOLOGIA
cardiologia = df_consultas.loc[df_consultas['especialidade'] == 'Cardiologia']
tendencia_central(cardiologia['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(cardiologia['tempo_espera']))

#cardiologia_outlier = cardiologia.loc[cardiologia['tempo_espera'] <= q1]
#cardiologia_outlier.sort_values(by = ['tempo_espera'], ascending= False)


Média: 96.15
Mediana: 60.00
Distancia: 60.25% 
Quartis
Q1: 10.00
Q2: 60.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [51]:
# Dermatologia     
dermatologia = df_consultas.loc[df_consultas['especialidade'] == 'Dermatologia']
tendencia_central(dermatologia['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(dermatologia['tempo_espera']))

Média: 97.58
Mediana: 60.00
Distancia: 62.64% 
Quartis
Q1: 10.00
Q2: 60.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [52]:
# Ginecologia     
ginecologia = df_consultas.loc[df_consultas['especialidade'] == 'Ginecologia']
tendencia_central(ginecologia['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(ginecologia['tempo_espera']))

Média: 95.84
Mediana: 30.00
Distancia: 219.47% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [53]:
# neurologia     
neurologia = df_consultas.loc[df_consultas['especialidade'] == 'Neurologia']
tendencia_central(neurologia['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(neurologia['tempo_espera']))

Média: 100.52
Mediana: 60.00
Distancia: 67.54% 
Quartis
Q1: 10.00
Q2: 60.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [54]:
# ortopedia     
ortopedia = df_consultas.loc[df_consultas['especialidade'] == 'Ortopedia']
tendencia_central(ortopedia['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(ortopedia['tempo_espera']))

Média: 94.04
Mediana: 30.00
Distancia: 213.46% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [55]:
# pediatria     
pediatria = df_consultas.loc[df_consultas['especialidade'] == 'Pediatria']
tendencia_central(pediatria['tempo_espera'])
outlier_lista, limite_inferior, limite_superior, q1, q3 = outliers (np.array(pediatria['tempo_espera']))

Média: 93.01
Mediana: 30.00
Distancia: 210.05% 
Quartis
Q1: 10.00
Q2: 30.00
Q3: 180.00
Valores de corte:
Limite superior: 435.00
Limite inferior: -245.00


In [None]:
### MEDICOS ###

In [117]:
df_nara_avaliacao.groupby(['nome_x', 'nome_y'])['nota_satisfacao'].mean().reset_index()

Unnamed: 0,nome_x,nome_y,nota_satisfacao
0,Bem Viver,Dr(a). Camila Almeida,2.0
1,Bem Viver,Dr(a). Camila Lima,4.0
2,Bem Viver,Dr(a). Camila Rodrigues,4.0
3,Bem Viver,Dr(a). Camila Souza,4.0
4,Bem Viver,Dr(a). João Rodrigues,5.0
...,...,...,...
80,Saúde Total,Dr(a). Ricardo Lima,5.0
81,Saúde Total,Dr(a). Ricardo Souza,3.0
82,Vida Plena,Dr(a). Eduardo Lima,2.0
83,Vida Plena,Dr(a). Mariana Nascimento,3.0


In [None]:
df_nara_avaliacao

Unnamed: 0,level_0,index,id_consulta,id_paciente,id_medico,id_clinica,especialidade_x,data_hora_agendada,data_hora_inicio,status,tempo_espera,nome_x,cidade,capacidade_diaria,nome_y,especialidade_y,tempo_medio_atendimento,nota_satisfacao,comentario
0,8,8,9,69,16,49,Ortopedia,2023-01-29 16:33:00,2023-01-29 20:33:00,Realizada,240.0,Saúde Total,Manaus,20,Dr(a). Juliana Oliveira,Pediatria,19,4,Comentário 3
1,15,15,16,82,89,72,Ortopedia,2023-03-21 23:01:00,2023-03-22 00:01:00,Cancelada,60.0,Bem Viver,Brasília,74,Dr(a). Mariana Oliveira,Ginecologia,18,1,Comentário 83
2,33,33,34,11,94,63,Pediatria,2023-10-25 02:31:00,2023-10-25 02:36:00,Remarcada,5.0,Clínica Horizonte,Brasília,28,Dr(a). Ricardo Almeida,Oftalmologia,58,1,Comentário 2
3,79,79,80,90,14,49,Dermatologia,2023-11-14 13:06:00,2023-11-14 13:06:00,Cancelada,0.0,Saúde Total,Manaus,20,Dr(a). André Souza,Endocrinologia,17,1,Comentário 51
4,84,84,85,34,23,75,Ortopedia,2023-04-07 15:40:00,2023-04-07 15:40:00,Realizada,0.0,Clínica Vital,Curitiba,35,Dr(a). Patrícia Lima,Urologia,38,1,Comentário 97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,4742,4742,4743,79,71,42,Neurologia,2023-02-09 14:03:00,2023-02-09 19:03:00,Realizada,300.0,Vida Plena,Rio de Janeiro,37,Dr(a). Patrícia Oliveira,Neurologia,43,5,Comentário 14
96,4873,4873,4874,52,88,93,Ortopedia,2023-06-11 05:05:00,2023-06-11 05:05:00,Realizada,0.0,Clínica Horizonte,Belo Horizonte,54,Dr(a). Mariana Nascimento,Cardiologia,60,5,Comentário 29
97,4879,4879,4880,99,27,99,Pediatria,2023-10-20 19:55:00,2023-10-20 20:10:00,Realizada,15.0,Bem Viver,Salvador,71,Dr(a). Juliana Oliveira,Urologia,56,2,Comentário 96
98,4915,4915,4916,85,19,39,Cardiologia,2023-03-01 02:15:00,2023-03-01 03:15:00,Realizada,60.0,Clínica São Lucas,Salvador,83,Dr(a). Eduardo Lima,Psiquiatria,55,2,Comentário 44


In [None]:
# correlação entre avaliação e tempo de espera

plt.scatter(df_nara_avaliacao['nota_satisfacao'], df_nara_avaliacao['tempo_espera'])
plt.title('\nCorrelação entre "Tempo de Espera" e "Avaliação"\n')
plt.xlabel('\nNota de Avaliação\n')
plt.ylabel('\nTempo de espera\n')
plt.show