In [2]:
import pandas as pd
from sqlalchemy import create_engine

db_url = "postgresql+psycopg2://docker:docker@postgresql:5432/hospital-db"

engine = create_engine(db_url)


# Preview df

In [3]:
df = pd.read_sql("SELECT * FROM form_answers", engine)

df.head(30)

Unnamed: 0,id,textAnswer,numericAnswer,type,createdAt,questionId,patientProfileId,userId
0,1,,5,RANGE,2024-10-11,1,1,4
1,2,,4,RANGE,2024-10-26,1,1,5
2,3,,4,RANGE,2024-10-29,1,1,18
3,4,,5,RANGE,2024-10-12,1,1,18
4,5,,4,RANGE,2024-10-13,1,1,18
5,6,,5,RANGE,2024-10-17,1,1,6
6,7,,4,RANGE,2024-10-14,1,1,3
7,8,,5,RANGE,2024-10-21,1,1,8
8,9,,4,RANGE,2024-10-15,1,1,16
9,10,,4,RANGE,2024-10-28,1,1,16


# Pacientes Avaliados

In [4]:
df = pd.read_sql("SELECT * FROM form_answers", engine)

df.drop(columns=["id", 'textAnswer'], inplace=True)

# Converte a coluna createdAt para datetime
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Define a coluna createdAt como índice
df.set_index('createdAt', inplace=True)

# Conta o número total de pacientes únicos por mês
monthly_total_patients = df.resample('ME')['patientProfileId'].nunique()

# Preenche os meses ausentes com zero
monthly_total_patients = monthly_total_patients.asfreq('ME', fill_value=0)

# Exibe o número total de pacientes únicos por mês
print("Número total de pacientes únicos por mês:")
print(monthly_total_patients)

Número total de pacientes únicos por mês:
createdAt
2024-10-31    40
2024-11-30    51
Freq: ME, Name: patientProfileId, dtype: int64


# Total de Registros por mes

In [5]:
df = pd.read_sql("SELECT * FROM form_answers", engine)

df.drop(columns=["id", 'textAnswer'], inplace=True)

# Converte a coluna createdAt para datetime
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Define a coluna createdAt como índice
df.set_index('createdAt', inplace=True)

# Conta o número de respostas por mês
monthly_counts = df.resample('ME').size()

# Exibe o número de respostas por mês
print(monthly_counts)

createdAt
2024-10-31    265
2024-11-30    358
Freq: ME, dtype: int64


# pacientes com lpp /mes

In [6]:
df = pd.read_sql("SELECT * FROM form_answers", engine)

df.drop(columns=["id", 'textAnswer'], inplace=True)

# Converte a coluna createdAt para datetime
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Define a coluna createdAt como índice
df.set_index('createdAt', inplace=True)

# Filtra os registros onde numericAnswer <= 5
lpp_df = df[df['numericAnswer'] <= 5]

# Conta o número de pacientes únicos com LPP por mês
monthly_lpp_patients = lpp_df.resample('ME')['patientProfileId'].nunique()

# Preenche os meses ausentes com zero
monthly_lpp_patients = monthly_lpp_patients.asfreq('ME', fill_value=0)

# Conta o número total de pacientes únicos por mês
monthly_total_patients = df.resample('ME')['patientProfileId'].nunique()

# Preenche os meses ausentes com zero
monthly_total_patients = monthly_total_patients.asfreq('ME', fill_value=0)

# Calcula a porcentagem de pacientes com LPP por mês
monthly_lpp_percentage = (monthly_lpp_patients / monthly_total_patients) * 100

# Exibe o número de pacientes únicos com LPP por mês
print("Número de pacientes únicos com LPP por mês:")
print(monthly_lpp_patients)

# Exibe a porcentagem de pacientes com LPP por mês
print("\nPorcentagem de pacientes com LPP por mês:")
print(monthly_lpp_percentage)

Número de pacientes únicos com LPP por mês:
createdAt
2024-10-31    13
2024-11-30    25
Freq: ME, Name: patientProfileId, dtype: int64

Porcentagem de pacientes com LPP por mês:
createdAt
2024-10-31    32.500000
2024-11-30    49.019608
Freq: ME, Name: patientProfileId, dtype: float64


# pac admitidos com lpp

In [7]:
# Presumindo que você já tenha seu DataFrame 'df':
df = pd.read_sql("SELECT * FROM form_answers", engine)

df.drop(columns=["id", 'textAnswer'], inplace=True)
# 1) Remover index do DataFrame para garantir que 'createdAt' seja coluna normal
df.reset_index(inplace=True)  # Agora 'createdAt' é uma coluna em vez de índice

# 2) Ordenar por 'createdAt' (ainda é coluna do DF)
df.sort_values(by='createdAt', inplace=True)

# 3) Agrupar por 'patientProfileId' e pegar a primeira linha de cada paciente
#    Isso preservará a linha de menor 'createdAt' para cada paciente
first_responses = df.groupby('patientProfileId').first().reset_index()

# 4) Filtrar os pacientes cuja primeira resposta é menor ou igual a 5
lpp_first_responses = first_responses[first_responses['numericAnswer'] <= 5]

# 5) Definir a coluna 'createdAt' como índice para poder usar resample
lpp_first_responses.set_index('createdAt', inplace=True)

# 6) Contar o número de pacientes únicos com LPP por mês
monthly_lpp_first_responses = lpp_first_responses.resample('ME').size()

# 7) Preencher os meses ausentes com zero
monthly_lpp_first_responses = monthly_lpp_first_responses.asfreq('ME', fill_value=0)

# 1) Calcular total de pacientes que responderam por mês
df['createdAt'] = pd.to_datetime(df['createdAt'])  # se ainda não estiver convertido
df.set_index('createdAt', inplace=True)
monthly_total_patients = df.resample('ME')['patientProfileId'].nunique().asfreq('ME', fill_value=0)

# 2) Calcular porcentagem de pacientes admitidos com LPP
monthly_lpp_percentage = (monthly_lpp_first_responses / monthly_total_patients) * 100

print("Número de pacientes que chegaram com LPP por mês:")
print(monthly_lpp_first_responses)



print("\nPorcentagem de pacientes que chegaram com LPP por mês:")
print(monthly_lpp_percentage)

Número de pacientes que chegaram com LPP por mês:
createdAt
2024-10-31    12
2024-11-30    20
Freq: ME, dtype: int64

Porcentagem de pacientes que chegaram com LPP por mês:
createdAt
2024-10-31    30.000000
2024-11-30    39.215686
Freq: ME, dtype: float64


# Pacientes com desfecho favoravel 


In [8]:
df = pd.read_sql("SELECT * FROM form_answers", engine)

df.drop(columns=["id", 'textAnswer'], inplace=True)

df['createdAt'] = pd.to_datetime(df['createdAt'])
df.sort_values(by='createdAt', inplace=True)

# Agrega dados por paciente
agg = df.groupby('patientProfileId').agg({
    'numericAnswer': ['first', 'mean'],
    'createdAt': 'first'
}).reset_index()

# print(agg)

# Renomeia colunas
agg.columns = ['patientProfileId', 'firstNumeric', 'meanNumeric', 'firstCreatedAt']

# Define desfecho favorável
agg['favorable'] = agg['meanNumeric'] >= agg['firstNumeric']

# Usa a data do primeiro registro como índice para resample
agg.set_index('firstCreatedAt', inplace=True)
agg.sort_index(inplace=True)

# Conta quantos foram favoráveis por mês
monthly_favorable_count = agg.resample('ME')['favorable'].sum()

# Conta total de pacientes por mês
monthly_total_count = agg.resample('ME')['favorable'].count()

# Calcula porcentagem de desfechos favoráveis
monthly_favorable_percentage = (monthly_favorable_count / monthly_total_count) * 100

print("Pacientes com desfecho favorável por mês:")
print(monthly_favorable_count)

print("\nTotal de pacientes por mês:")
print(monthly_total_count)

print("\nPorcentagem de desfechos favoráveis por mês:")
print(monthly_favorable_percentage)

Pacientes com desfecho favorável por mês:
firstCreatedAt
2024-10-31    34
2024-11-30    32
Freq: ME, Name: favorable, dtype: int64

Total de pacientes por mês:
firstCreatedAt
2024-10-31    40
2024-11-30    51
Freq: ME, Name: favorable, dtype: int64

Porcentagem de desfechos favoráveis por mês:
firstCreatedAt
2024-10-31    85.000000
2024-11-30    62.745098
Freq: ME, Name: favorable, dtype: float64


# same but by mouth

In [9]:

df = pd.read_sql("SELECT * FROM form_answers", engine)

df.drop(columns=["id", 'textAnswer'], inplace=True)


# Filtra só os registros de novembro/2024
mask_nov = (df['createdAt'].dt.year == 2024) & (df['createdAt'].dt.month == 11)
df_nov = df[mask_nov].copy()

# Agora agrupa SOMENTE o que está em novembro
agg_nov = df_nov.groupby('patientProfileId').agg({
    'numericAnswer': ['first', 'mean'],
    'createdAt': 'first'
}).reset_index()

agg_nov.columns = ['patientProfileId', 'firstNumeric', 'meanNumeric', 'firstCreatedAt']

# Desfecho favorável = média >= primeiro registro (em novembro)
agg_nov['favorable'] = agg_nov['meanNumeric'] >= agg_nov['firstNumeric']

# Usa a data do primeiro registro dentro de novembro como índice
agg_nov.set_index('firstCreatedAt', inplace=True)
agg_nov.sort_index(inplace=True)

# Contagem mensal
monthly_favorable_count_nov = agg_nov.resample('ME')['favorable'].sum()
monthly_total_count_nov = agg_nov.resample('ME')['favorable'].count()
monthly_favorable_percentage_nov = (monthly_favorable_count_nov / monthly_total_count_nov) * 100

print("FAVORÁVEIS (só dentro de novembro):")
print(monthly_favorable_count_nov)

print("TOTAL DE PACIENTES (só dentro de novembro):")
print(monthly_total_count_nov)

print("PORCENTAGEM DE DESFECHOS FAVORÁVEIS (só dentro de novembro):")
print(monthly_favorable_percentage_nov)

FAVORÁVEIS (só dentro de novembro):
firstCreatedAt
2024-11-30    32
Freq: ME, Name: favorable, dtype: int64
TOTAL DE PACIENTES (só dentro de novembro):
firstCreatedAt
2024-11-30    51
Freq: ME, Name: favorable, dtype: int64
PORCENTAGEM DE DESFECHOS FAVORÁVEIS (só dentro de novembro):
firstCreatedAt
2024-11-30    62.745098
Freq: ME, Name: favorable, dtype: float64


# pacientes sem risco que evoluiram para lpp

In [10]:
# 1) Ler os dados
df = pd.read_sql("SELECT * FROM form_answers", engine)
df.drop(columns=["id", 'textAnswer'], inplace=True)

# 2) Converter a coluna createdAt para datetime e ordenar
df['createdAt'] = pd.to_datetime(df['createdAt'])
df.sort_values(by='createdAt', inplace=True)

# 3) Identificar primeiro registro de cada paciente
first_records = df.groupby('patientProfileId').first().reset_index()

# 4) Filtrar pacientes cujo primeiro registro é >= 9 (bom estado inicial)
good_initial_condition = first_records[first_records['numericAnswer'] >= 9]['patientProfileId'].tolist()

# 5) Para esses pacientes, verificar quais tiveram registros subsequentes <= 5 (desenvolveram LPP)
deteriorated_patients = []

for patient_id in good_initial_condition:
    # Pegar todos os registros deste paciente
    patient_records = df[df['patientProfileId'] == patient_id]
    
    # Verificar se algum registro após o primeiro é <= 5
    if len(patient_records) > 1:  # Se há mais de um registro
        # Pula o primeiro registro e verifica se algum dos demais é <= 5
        subsequent_records = patient_records.iloc[1:]
        if any(subsequent_records['numericAnswer'] <= 5):
            deteriorated_patients.append(patient_id)

# 6) Filtrar o DataFrame original para incluir apenas os pacientes que deterioraram
deteriorated_df = df[df['patientProfileId'].isin(deteriorated_patients)]

# 7) Usar a data do primeiro registro para agrupar por mês
deteriorated_first_dates = first_records[first_records['patientProfileId'].isin(deteriorated_patients)]
deteriorated_first_dates.set_index('createdAt', inplace=True)

# 8) Contar quantos pacientes deterioraram por mês da primeira consulta
monthly_deteriorated = deteriorated_first_dates.resample('ME').size()
monthly_deteriorated = monthly_deteriorated.asfreq('ME', fill_value=0)

# 9) Calcular a porcentagem em relação ao total de pacientes por mês
monthly_deteriorated_percentage = (monthly_deteriorated / monthly_total_patients) * 100

print("Número de pacientes que chegaram bem (>=9) e depois desenvolveram LPP (<=5) por mês:")
print(monthly_deteriorated)

print("\nPorcentagem desses pacientes em relação ao total por mês:")
print(monthly_deteriorated_percentage)

Número de pacientes que chegaram bem (>=9) e depois desenvolveram LPP (<=5) por mês:
createdAt
2024-11-30    1
Freq: ME, dtype: int64

Porcentagem desses pacientes em relação ao total por mês:
createdAt
2024-10-31         NaN
2024-11-30    1.960784
Freq: ME, dtype: float64


In [11]:
from datetime import datetime

# Dicionário para traduzir meses em português para inglês
meses_portugues = {
    "Jan": "Jan", "Fev": "Feb", "Mar": "Mar", "Abr": "Apr",
    "Mai": "May", "Jun": "Jun", "Jul": "Jul", "Ago": "Aug",
    "Set": "Sep", "Out": "Oct", "Nov": "Nov", "Dez": "Dec"
}

# Define o mês e o ano
date_input = "Nov/2024" 

# Traduz o mês para inglês
mes, ano = date_input.split("/")
mes_ingles = meses_portugues[mes]

# Converte a string para um objeto datetime
date_obj = datetime.strptime(f"{mes_ingles}/{ano}", "%b/%Y")

# Extrai o ano e o mês
year = date_obj.year
month = date_obj.month

# Lê os dados da tabela form_answers filtrando pelo mês e ano
query = f"""
SELECT * FROM form_answers
WHERE EXTRACT(YEAR FROM "createdAt") = {year}
AND EXTRACT(MONTH FROM "createdAt") = {month}
"""

df = pd.read_sql(query, engine)

# Exibe os dados filtrados
display(df.groupby('patientProfileId').agg({
    'numericAnswer': ['first', 'mean'], 
    'createdAt': 'first'
}).reset_index())

Unnamed: 0_level_0,patientProfileId,numericAnswer,numericAnswer,createdAt
Unnamed: 0_level_1,Unnamed: 1_level_1,first,mean,first
0,91,10,5.863636,2024-11-01
1,92,10,10.0,2024-11-30
2,93,1,2.0,2024-11-13
3,94,3,2.538462,2024-11-25
4,95,7,7.0,2024-11-25
5,96,10,10.0,2024-11-03
6,97,10,10.0,2024-11-08
7,98,10,9.25,2024-11-20
8,99,4,5.0,2024-11-26
9,100,7,7.0,2024-11-29


In [12]:
def get_monthly_favorable_outcomes(df: pd.DataFrame) -> tuple:
    """
    Retorna desfechos favoráveis considerando apenas registros dentro do mesmo mês para cada paciente.
    Um desfecho é favorável quando a média das avaliações do paciente dentro do mês é >= à primeira avaliação do mês.

    Args:
        df: DataFrame contendo os registros de avaliação

    Returns:
        Tupla contendo (favoráveis por mês, total de pacientes por mês)
    """
    df_copy = df.copy()
    df_copy["year_month"] = df_copy["createdAt"].dt.to_period("M")

    # Inicializa DataFrames para armazenar resultados
    all_favorable = pd.DataFrame()
    all_counts = pd.DataFrame()

    # Para cada mês presente nos dados
    for period in df_copy["year_month"].unique():
        # Filtra registros apenas deste mês
        mask_month = df_copy["year_month"] == period
        df_month = df_copy[mask_month].copy()

        # Ordena cronologicamente
        df_month.sort_values(by="createdAt", inplace=True)

        # Agrupa por paciente para este mês específico
        month_agg = (
            df_month.groupby("patientProfileId")
            .agg({"numericAnswer": ["first", "mean"], "createdAt": "first"})
            .reset_index()
        )

        # Renomeia colunas
        month_agg.columns = [
            "patientProfileId",
            "firstNumeric",
            "meanNumeric",
            "firstCreatedAt",
        ]

        # Desfecho favorável = média >= primeiro registro do mês
        month_agg["favorable"] = month_agg["meanNumeric"] >= month_agg["firstNumeric"]

        # Usa a data do primeiro registro como índice
        month_agg.set_index("firstCreatedAt", inplace=True)

        # Adiciona ao DataFrame de resultados
        all_favorable = pd.concat([all_favorable, month_agg])

    # Agrupa resultados por mês
    all_favorable.sort_index(inplace=True)
    monthly_favorable = all_favorable.resample("ME")["favorable"].sum()
    monthly_total = all_favorable.resample("ME")["favorable"].count()

    return monthly_favorable.asfreq("ME", fill_value=0), monthly_total.asfreq(
        "ME", fill_value=0
    )


df = pd.read_sql("SELECT * FROM form_answers", engine)
df.drop(columns=["id", 'textAnswer'], inplace=True)

# Convertendo a coluna createdAt para datetime (caso ainda não esteja)
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Chamando a função para obter os desfechos favoráveis por mês
monthly_favorable, monthly_total = get_monthly_favorable_outcomes(df)

# Calculando a porcentagem de desfechos favoráveis
monthly_favorable_percentage = (monthly_favorable / monthly_total) * 100

# Exibindo os resultados
print("Número de pacientes com desfecho favorável por mês (apenas considerando dados do mesmo mês):")
print(monthly_favorable)

print("\nTotal de pacientes por mês:")
print(monthly_total)

print("\nPorcentagem de desfechos favoráveis por mês:")
print(monthly_favorable_percentage)

# Criando um DataFrame para melhor visualização
result_df = pd.DataFrame({
    'Favoráveis': monthly_favorable,
    'Total': monthly_total,
    'Porcentagem (%)': monthly_favorable_percentage.round(1)
})

print("\nTabela de resultados:")
display(result_df)

Número de pacientes com desfecho favorável por mês (apenas considerando dados do mesmo mês):
firstCreatedAt
2024-10-31    34
2024-11-30    32
Freq: ME, Name: favorable, dtype: int64

Total de pacientes por mês:
firstCreatedAt
2024-10-31    40
2024-11-30    51
Freq: ME, Name: favorable, dtype: int64

Porcentagem de desfechos favoráveis por mês:
firstCreatedAt
2024-10-31    85.000000
2024-11-30    62.745098
Freq: ME, Name: favorable, dtype: float64

Tabela de resultados:


Unnamed: 0_level_0,Favoráveis,Total,Porcentagem (%)
firstCreatedAt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-10-31,34,40,85.0
2024-11-30,32,51,62.7


In [13]:
import pandas as pd
import numpy as np
from datetime import timedelta

# Converter a coluna createdAt para datetime se ainda não estiver nesse formato
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Agrupar por paciente (patientProfileId) e calcular métricas importantes
analise_pacientes = df.groupby('patientProfileId').agg(
    primeiro_registro=('createdAt', 'min'),
    ultimo_registro=('createdAt', 'max'),
    total_registros=('createdAt', 'count'),
    dias_distintos=('createdAt', lambda x: x.dt.date.nunique())
)

# Calcular o total de dias entre o primeiro e último registro (incluindo ambos)
analise_pacientes['periodo_total_dias'] = (analise_pacientes['ultimo_registro'] - 
                                          analise_pacientes['primeiro_registro']).dt.days + 1

# Dias sem registro
analise_pacientes['dias_sem_registro'] = analise_pacientes['periodo_total_dias'] - analise_pacientes['dias_distintos']

# Calcular a porcentagem de cobertura (dias com registro / período total)
analise_pacientes['cobertura_percentual'] = (analise_pacientes['dias_distintos'] / 
                                           analise_pacientes['periodo_total_dias'] * 100).round(2)

# Adicionar colunas de datas no formato legível
analise_pacientes['data_inicio'] = analise_pacientes['primeiro_registro'].dt.strftime('%d/%m/%Y')
analise_pacientes['data_fim'] = analise_pacientes['ultimo_registro'].dt.strftime('%d/%m/%Y')

# Adicionar a média de numericAnswer para cada paciente
analise_pacientes['media_score'] = df.groupby('patientProfileId')['numericAnswer'].mean().round(2)

# Reorganizar colunas
resultado = analise_pacientes[[
    'data_inicio', 'data_fim', 'periodo_total_dias', 'dias_distintos', 
    'dias_sem_registro', 'total_registros', 'cobertura_percentual', 'media_score'
]]

# Exibir o resultado ordenado por maior período total
print(resultado.sort_values('periodo_total_dias', ascending=False))

# Médias globais
print("\nMédias globais:")
print(f"Média de dias sem registro por paciente: {resultado['dias_sem_registro'].mean():.2f}")
print(f"Média de cobertura percentual: {resultado['cobertura_percentual'].mean():.2f}%")
print(f"Média geral de score: {resultado['media_score'].mean():.2f}")

                 data_inicio    data_fim  periodo_total_dias  dias_distintos  \
patientProfileId                                                               
140               02/11/2024  26/11/2024                  25              22   
91                01/11/2024  23/11/2024                  23              22   
139               09/11/2024  30/11/2024                  22              21   
39                10/10/2024  31/10/2024                  22              20   
38                10/10/2024  30/10/2024                  21              19   
...                      ...         ...                 ...             ...   
131               30/11/2024  30/11/2024                   1               1   
103               12/11/2024  12/11/2024                   1               1   
32                31/10/2024  31/10/2024                   1               1   
45                03/10/2024  03/10/2024                   1               1   
28                26/10/2024  26/10/2024

In [14]:
import pandas as pd
import numpy as np
from datetime import timedelta

# Converter a coluna createdAt para datetime se ainda não estiver nesse formato
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Adicionar colunas de mês e ano para agrupar
df['mes_ano'] = df['createdAt'].dt.strftime('%m/%y')
df['mes'] = df['createdAt'].dt.month
df['ano'] = df['createdAt'].dt.year
df['data'] = df['createdAt'].dt.date

# Análise por mês
analise_mensal = []

# Obter lista de meses únicos nos dados
meses_unicos = df[['mes', 'ano', 'mes_ano']].drop_duplicates().sort_values(['ano', 'mes'])

# Para cada mês
for _, row in meses_unicos.iterrows():
    mes = row['mes']
    ano = row['ano']
    mes_ano = row['mes_ano']
    
    # Filtrar dados do mês atual
    df_mes = df[(df['mes'] == mes) & (df['ano'] == ano)]
    
    # Contar dias distintos por paciente neste mês
    dias_por_paciente = df_mes.groupby('patientProfileId')['data'].nunique()
    
    # Calcular as métricas mensais
    qtd_pacientes = len(dias_por_paciente)
    media_dias = dias_por_paciente.mean() if qtd_pacientes > 0 else 0
    total_registros = len(df_mes)
    registros_por_paciente = total_registros / qtd_pacientes if qtd_pacientes > 0 else 0
    
    # Guardar resultados
    analise_mensal.append({
        'mes_ano': mes_ano,
        'qtd_pacientes': qtd_pacientes,
        'media_dias_por_paciente': round(media_dias, 1),
        'total_registros': total_registros,
        'media_registros_por_paciente': round(registros_por_paciente, 1)
    })

# Converter para DataFrame e exibir
resultado_mensal = pd.DataFrame(analise_mensal)
resultado_mensal = resultado_mensal.set_index('mes_ano')

print("Análise Mensal:")
print(resultado_mensal)

# Criar uma tabela específica para o formato solicitado
tabela_simples = pd.DataFrame({
    'mes_ano': resultado_mensal.index,
    'media_dias': resultado_mensal['media_dias_por_paciente']
})

print("\nFormato solicitado:")
print("mes x  media de dias")
for _, row in tabela_simples.iterrows():
    print(f"{row['mes_ano']}    {row['media_dias']}")

Análise Mensal:
         qtd_pacientes  media_dias_por_paciente  total_registros  \
mes_ano                                                            
10/24               40                      6.6              265   
11/24               51                      7.0              358   

         media_registros_por_paciente  
mes_ano                                
10/24                             6.6  
11/24                             7.0  

Formato solicitado:
mes x  media de dias
10/24    6.6
11/24    7.0


In [15]:
import pandas as pd
import numpy as np

# Converter a coluna createdAt para datetime se ainda não estiver nesse formato
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Adicionar colunas de mês e ano para agrupar
df['mes_ano'] = df['createdAt'].dt.strftime('%m/%y')
df['mes'] = df['createdAt'].dt.month
df['ano'] = df['createdAt'].dt.year
df['data'] = df['createdAt'].dt.date

# Análise por mês
analise_mensal = []

# Obter lista de meses únicos nos dados
meses_unicos = df[['mes', 'ano', 'mes_ano']].drop_duplicates().sort_values(['ano', 'mes'])

# Para cada mês
for _, row in meses_unicos.iterrows():
    mes = row['mes']
    ano = row['ano']
    mes_ano = row['mes_ano']
    
    # Filtrar dados do mês atual
    df_mes = df[(df['mes'] == mes) & (df['ano'] == ano)]
    
    # Para cada paciente, calcular dias totais e dias com registro
    dias_sem_registro_pacientes = []
    
    for patient_id, patient_data in df_mes.groupby('patientProfileId'):
        # Primeiro e último registro do paciente no mês
        primeiro_dia = patient_data['data'].min()
        ultimo_dia = patient_data['data'].max()
        
        # Total de dias entre primeiro e último (inclusive)
        dias_totais = (ultimo_dia - primeiro_dia).days + 1
        
        # Dias com registro
        dias_com_registro = patient_data['data'].nunique()
        
        # Dias sem registro
        dias_sem_registro = dias_totais - dias_com_registro
        
        dias_sem_registro_pacientes.append(dias_sem_registro)
    
    # Calcular as métricas mensais
    qtd_pacientes = len(dias_sem_registro_pacientes)
    media_dias_sem_registro = np.mean(dias_sem_registro_pacientes) if qtd_pacientes > 0 else 0
    
    # Guardar resultados
    analise_mensal.append({
        'mes_ano': mes_ano,
        'qtd_pacientes': qtd_pacientes,
        'media_dias_com_registro': round(df_mes.groupby('patientProfileId')['data'].nunique().mean(), 1),
        'media_dias_sem_registro': round(media_dias_sem_registro, 1),
        'total_registros': len(df_mes)
    })

# Converter para DataFrame e exibir
resultado_mensal = pd.DataFrame(analise_mensal)
resultado_mensal = resultado_mensal.set_index('mes_ano')

print("Análise Mensal:")
print(resultado_mensal)

# Criar uma tabela específica para o formato solicitado
tabela_simples = pd.DataFrame({
    'mes_ano': resultado_mensal.index,
    'media_dias_sem_registro': resultado_mensal['media_dias_sem_registro']
})

print("\nFormato solicitado:")
print("mes x  media de dias sem registro")
for _, row in tabela_simples.iterrows():
    print(f"{row['mes_ano']}    {row['media_dias_sem_registro']}")

Análise Mensal:
         qtd_pacientes  media_dias_com_registro  media_dias_sem_registro  \
mes_ano                                                                    
10/24               40                      6.6                      0.4   
11/24               51                      7.0                      0.6   

         total_registros  
mes_ano                   
10/24                265  
11/24                358  

Formato solicitado:
mes x  media de dias sem registro
10/24    0.4
11/24    0.6


In [16]:
import pandas as pd

# Garantir que createdAt está disponível como coluna e não apenas como índice
df_reset = df.reset_index() if 'createdAt' not in df.columns else df.copy()

# Identificar pacientes que tiveram LPP (numericAnswer <= 5)
lpp_patients = df_reset[df_reset['numericAnswer'] <= 5]['patientProfileId'].unique()

print(f"Total de pacientes que tiveram LPP: {len(lpp_patients)}")

# Criar um DataFrame para armazenar a evolução dos pacientes
evolution_data = []

# Para cada paciente com LPP
for patient_id in lpp_patients:
    # Filtrar dados deste paciente
    patient_data = df_reset[df_reset['patientProfileId'] == patient_id]
    
    # Verificar o valor mais baixo de numericAnswer (pior estado)
    lowest_score = patient_data['numericAnswer'].min()
    lowest_score_record = patient_data[patient_data['numericAnswer'] == lowest_score].sort_values('createdAt').iloc[0]
    lowest_score_date = lowest_score_record['createdAt']
    
    # Verificar a última resposta
    last_record = patient_data.sort_values('createdAt').iloc[-1]
    last_response = last_record['numericAnswer']
    last_response_date = last_record['createdAt']
    
    # Calcular a evolução (diferença entre o último valor e o valor mais baixo)
    evolution = last_response - lowest_score
    
    # Armazenar os dados
    evolution_data.append({
        'patientProfileId': patient_id,
        'lowest_score': lowest_score,
        'lowest_score_date': lowest_score_date,
        'last_response': last_response,
        'last_response_date': last_response_date,
        'evolution': evolution,
        'days_of_treatment': (last_response_date - lowest_score_date).days
    })

# Criar DataFrame com os dados de evolução
evolution_df = pd.DataFrame(evolution_data)

# Classificar os pacientes
evolution_df['status'] = evolution_df['evolution'].apply(
    lambda x: 'Melhorou' if x > 0 else ('Estável' if x == 0 else 'Piorou')
)

# Exibir resultados
print("\nEvolução dos pacientes com LPP:")
print(evolution_df[['patientProfileId', 'lowest_score', 'last_response', 'evolution', 'days_of_treatment', 'status']])

# Resumo
print("\nResumo da evolução:")
print(evolution_df['status'].value_counts())

# Exibir detalhes de pacientes que melhoraram
melhoraram = evolution_df[evolution_df['status'] == 'Melhorou']
if not melhoraram.empty:
    print("\nDetalhes dos pacientes que melhoraram:")
    print(melhoraram.sort_values('evolution', ascending=False))

# Exibir detalhes de pacientes que pioraram
pioraram = evolution_df[evolution_df['status'] == 'Piorou']
if not pioraram.empty:
    print("\nDetalhes dos pacientes que pioraram:")
    print(pioraram.sort_values('evolution'))

Total de pacientes que tiveram LPP: 38

Evolução dos pacientes com LPP:
    patientProfileId  lowest_score  last_response  evolution  \
0                  1             4              4          0   
1                  3             4              4          0   
2                  7             4              4          0   
3                 11             4              4          0   
4                 15             4              4          0   
5                 19             4              4          0   
6                 91             4              4          0   
7                128             1              1          0   
8                132             4              4          0   
9                133             3              4          1   
10               139             1              1          0   
11                25             4              4          0   
12                27             4              4          0   
13                30            

In [22]:
import pandas as pd

# Garantir que createdAt está disponível como coluna e não apenas como índice

df = pd.read_sql("SELECT * FROM form_answers", engine)

df_reset = df.reset_index() if 'createdAt' not in df.columns else df.copy()

# Certificar que createdAt está em formato datetime
if not pd.api.types.is_datetime64_any_dtype(df_reset['createdAt']):
    df_reset['createdAt'] = pd.to_datetime(df_reset['createdAt'])

# Identificar pacientes que tiveram LPP (numericAnswer <= 5)
lpp_patients = df_reset[df_reset['numericAnswer'] <= 5]['patientProfileId'].unique()

print(f"Total de pacientes que tiveram LPP: {len(lpp_patients)}")

# Criar um DataFrame para armazenar a evolução dos pacientes
evolution_data = []

# Para cada paciente com LPP
for patient_id in lpp_patients:
    # Filtrar dados deste paciente
    patient_data = df_reset[df_reset['patientProfileId'] == patient_id]
    
    # Verificar o valor mais baixo de numericAnswer (pior estado)
    lowest_score = patient_data['numericAnswer'].min()
    lowest_score_record = patient_data[patient_data['numericAnswer'] == lowest_score].sort_values('createdAt').iloc[0]
    lowest_score_date = lowest_score_record['createdAt']
    
    # Verificar a primeira data de registro
    first_record_date = patient_data.sort_values('createdAt').iloc[0]['createdAt']
    
    # Verificar a última resposta
    last_record = patient_data.sort_values('createdAt').iloc[-1]
    last_response = last_record['numericAnswer']
    last_response_date = last_record['createdAt']
    
    # Calcular a evolução (diferença entre o último valor e o valor mais baixo)
    evolution = last_response - lowest_score
    
    # Armazenar os dados
    evolution_data.append({
        'patientProfileId': patient_id,
        'firstCreatedAt': first_record_date,
        'lowest_score': lowest_score,
        'lowest_score_date': lowest_score_date,
        'last_response': last_response,
        'last_response_date': last_response_date,
        'evolution': evolution,
        'days_of_treatment': (last_response_date - lowest_score_date).days,
        'month_year_first': first_record_date.strftime('%Y-%m'),
        'month_year_last': last_response_date.strftime('%Y-%m')
    })

# Criar DataFrame com os dados de evolução
evolution_df = pd.DataFrame(evolution_data)

# print(evolution_df)

# Classificar os pacientes
evolution_df['status'] = evolution_df['evolution'].apply(
    lambda x: 'Melhorou' if x > 0 else ('Estável' if x == 0 else 'Piorou')
)

# Criar colunas de ano-mês para agrupamento
evolution_df['month_first'] = pd.to_datetime(evolution_df['firstCreatedAt']).dt.to_period('M')
evolution_df['month_last'] = pd.to_datetime(evolution_df['last_response_date']).dt.to_period('M')

# Análise mensal - baseada no mês de primeira avaliação
# print("\nTotal de pacientes com lesão por mês de primeira avaliação:")
# total_por_mes_inicio = evolution_df.groupby('month_first').size()
# print(total_por_mes_inicio)

# print("\nTotal de pacientes com lesão que tiveram melhora por mês de primeira avaliação:")
# melhora_por_mes_inicio = evolution_df[evolution_df['status'] == 'Melhorou'].groupby('month_first').size()
# print(melhora_por_mes_inicio)

# Análise mensal - baseada no mês da última avaliação
print("\nTotal de pacientes com lesão por mês de última avaliação:")
total_por_mes_final = evolution_df.groupby('month_last').size()
print(total_por_mes_final)

print("\nTotal de pacientes com lesão que tiveram melhora por mês de última avaliação:")
melhora_por_mes_final = evolution_df[evolution_df['status'] == 'Melhorou'].groupby('month_last').size()
print(melhora_por_mes_final)

# Calculando o percentual de melhora por mês (última avaliação)
print("\nPercentual de pacientes que melhoraram por mês de última avaliação:")
percentual_melhora = (melhora_por_mes_final / total_por_mes_final * 100).round(2)
print(percentual_melhora)

# Exibir resultados gerais
print("\nEvolução dos pacientes com LPP:")
print(evolution_df[['patientProfileId', 'month_first', 'month_last', 'lowest_score', 'last_response', 'evolution', 'status']])

# Resumo geral
print("\nResumo da evolução geral:")
print(evolution_df['status'].value_counts())

Total de pacientes que tiveram LPP: 38

Total de pacientes com lesão por mês de última avaliação:
month_last
2024-10    13
2024-11    25
Freq: M, dtype: int64

Total de pacientes com lesão que tiveram melhora por mês de última avaliação:
month_last
2024-11    5
Freq: M, dtype: int64

Percentual de pacientes que melhoraram por mês de última avaliação:
month_last
2024-10     NaN
2024-11    20.0
Freq: M, dtype: float64

Evolução dos pacientes com LPP:
    patientProfileId month_first month_last  lowest_score  last_response  \
0                  1     2024-10    2024-10             4              4   
1                  3     2024-10    2024-10             4              4   
2                  7     2024-10    2024-10             4              4   
3                 11     2024-10    2024-10             4              4   
4                 15     2024-10    2024-10             4              4   
5                 19     2024-10    2024-10             4              4   
6              

In [23]:
def get_lpp_improvement_per_month(df: pd.DataFrame) -> tuple:
    """
    Retorna a quantidade de pacientes que tiveram LPP (numericAnswer <= 5)
    e cujo último registro foi superior à sua pior avaliação, agrupados por mês.

    Args:
        df: DataFrame com os registros de avaliação

    Returns:
        Tupla contendo (pacientes com melhora por mês, total de pacientes com LPP por mês)
    """
    df_copy = df.copy()

    # Certificar que createdAt está em formato datetime
    if not pd.api.types.is_datetime64_any_dtype(df_copy["createdAt"]):
        df_copy["createdAt"] = pd.to_datetime(df_copy["createdAt"])

    # Identificar pacientes que tiveram LPP (numericAnswer <= 5)
    lpp_patients = df_copy[df_copy["numericAnswer"] <= 5]["patientProfileId"].unique()

    # Lista para armazenar dados de evolução
    evolution_data = []

    # Para cada paciente com LPP
    for patient_id in lpp_patients:
        # Filtrar dados deste paciente
        patient_data = df_copy[df_copy["patientProfileId"] == patient_id]

        # Verificar o valor mais baixo de numericAnswer (pior estado)
        lowest_score = patient_data["numericAnswer"].min()
        lowest_score_record = (
            patient_data[patient_data["numericAnswer"] == lowest_score]
            .sort_values("createdAt")
            .iloc[0]
        )
        lowest_score_date = lowest_score_record["createdAt"]

        # Verificar a última resposta
        last_record = patient_data.sort_values("createdAt").iloc[-1]
        last_response = last_record["numericAnswer"]
        last_response_date = last_record["createdAt"]

        # Calcular a evolução (diferença entre o último valor e o valor mais baixo)
        evolution = last_response - lowest_score

        # Armazenar os dados
        evolution_data.append(
            {
                "patientProfileId": patient_id,
                "lowest_score": lowest_score,
                "lowest_score_date": lowest_score_date,
                "last_response": last_response,
                "last_response_date": last_response_date,
                "evolution": evolution,
                "improved": evolution
                > 0,  # Paciente melhorou se último valor > pior valor
            }
        )

    # Criar DataFrame com os dados de evolução
    evolution_df = pd.DataFrame(evolution_data)

    # Se não houver dados, retornar séries vazias
    if evolution_df.empty:
        # MODIFICAÇÃO: Usar 'M' em vez de 'ME'
        empty_series = pd.Series(dtype=int).asfreq("M", fill_value=0)
        return empty_series, empty_series

    # Converter datas para período mensal para agrupamento
    evolution_df["month"] = pd.to_datetime(
        evolution_df["last_response_date"]
    ).dt.to_period("M")

    # Agrupar por mês
    monthly_improved = evolution_df[evolution_df["improved"]].groupby("month").size()
    monthly_total = evolution_df.groupby("month").size()

    # MODIFICAÇÃO: Usar 'M' em vez de 'ME' para compatibilidade com o período
    monthly_improved = monthly_improved.asfreq("M", fill_value=0)
    monthly_total = monthly_total.asfreq("M", fill_value=0)

    return monthly_improved, monthly_total

df = pd.read_sql("SELECT * FROM form_answers", engine)

GLIPM = get_lpp_improvement_per_month(df)

print("\nPacientes com melhora por mês (último registro > pior avaliação):")
print(GLIPM)


Pacientes com melhora por mês (último registro > pior avaliação):
(month
2024-11    5
Freq: M, dtype: int64, month
2024-10    13
2024-11    25
Freq: M, dtype: int64)
