In [31]:
import pandas as pd
from sqlalchemy import create_engine

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

db_url = "postgresql+psycopg2://docker:docker@postgresql:5432/food-adction"
engine = create_engine(db_url)


query = "SELECT * FROM form_food_addiction_answers WHERE origem = 'Rede Pública' or origem = 'Rede Privada'"
df = pd.read_sql(query, engine)


print("Quantidade total de registros:", len(df))
df.head(15)

Quantidade total de registros: 58


Unnamed: 0,id,createdAt,userId,q1,q2,q3,q4,q5,q6,q7,q8,q9,q10,q11,q12,q13,origem,identificador_paciente
0,13,2023-01-17 10:32:38.183,1,5,5,1,3,5,5,0,5,3,4,1,0,1,Rede Privada,15
1,14,2023-01-18 15:26:01.097,1,1,1,1,4,5,1,5,5,0,1,7,1,7,Rede Privada,102
2,15,2023-02-13 12:29:09.352,1,0,1,0,1,0,0,0,1,0,0,3,0,1,Rede Pública,1
3,16,2023-02-14 08:58:02.232,1,4,3,0,2,2,3,1,2,0,0,0,0,0,Rede Pública,100
4,17,2023-02-14 09:31:09.250,1,2,3,0,1,1,2,0,0,0,0,2,2,0,Rede Pública,101
5,18,2023-02-14 10:25:33.849,1,0,3,0,1,0,2,2,7,6,0,1,0,0,Rede Pública,102
6,19,2023-02-15 05:36:29.104,1,0,1,3,7,7,7,7,6,6,6,7,6,6,Rede Pública,104
7,20,2023-02-15 05:39:00.426,1,5,5,3,3,3,3,5,5,3,0,5,0,5,Rede Pública,105
8,21,2023-02-15 05:43:12.425,1,0,0,1,1,1,1,1,3,2,3,7,0,5,Rede Pública,103
9,22,2023-03-13 13:14:17.947,1,5,4,0,7,5,7,5,4,5,4,7,0,2,Rede Privada,26


In [32]:
perguntas = [
    'q1', 'q2', 'q3', 'q4', 'q5', 'q6', 
    'q7', 'q8', 'q9', 'q10', 'q11', 'q12', 'q13'
]

# Definir os valores numéricos que representam sintomas
frequencias_sintomas_padrao = [5, 6, 7]  # 2-3 vezes por semana, 4-6 vezes por semana, Todos os dias

# Itens específicos onde "Uma vez por semana" (valor 4) também conta como sintoma

itens_especiais = ['q1', 'q2', 'q4', 'q9', 'q10', 'q11']

# Função para contar sintomas por paciente com critério ajustado
def contar_sintomas(row):
    count = 0
    for pergunta in perguntas:
        if pergunta in itens_especiais:
            # Para itens especiais, "Uma vez por semana" (4) também é considerado sintoma
            if row[pergunta] in frequencias_sintomas_padrao or row[pergunta] == 4:
                count += 1
        else:
            # Para os demais itens, apenas frequências mais altas são consideradas sintomas
            if row[pergunta] in frequencias_sintomas_padrao:
                count += 1
    return count

# Aplicar a função e criar uma nova coluna com a contagem de sintomas
df['Total_Sintomas'] = df.apply(contar_sintomas, axis=1)

# Classificar a severidade
def classificar_severidade(sintomas):
    if sintomas <= 1:
        return "Sem adicção"
    elif 2 <= sintomas <= 3:
        return "Leve"
    elif 4 <= sintomas <= 5:
        return "Moderado"
    elif sintomas >= 6:
        return "Grave"

df['Severidade'] = df['Total_Sintomas'].apply(classificar_severidade)

# Contar pacientes em cada classificação
contagem_severidade = df['Severidade'].value_counts()
print(contagem_severidade)

# Percentual de pacientes em cada classificação
percentual_severidade = df['Severidade'].value_counts(normalize=True) * 100
print("\nPercentual:")
print(percentual_severidade)

Severidade
Sem adicção    34
Grave          12
Leve            9
Moderado        3
Name: count, dtype: int64

Percentual:
Severidade
Sem adicção    58.620690
Grave          20.689655
Leve           15.517241
Moderado        5.172414
Name: proportion, dtype: float64


In [33]:

colunas_para_manter = ['id', 'createdAt', 'origem', 'identificador_paciente', 'Total_Sintomas', 'Severidade']
df_sem_perguntas = df[colunas_para_manter].copy()

df_sem_perguntas

Unnamed: 0,id,createdAt,origem,identificador_paciente,Total_Sintomas,Severidade
0,13,2023-01-17 10:32:38.183,Rede Privada,15.0,6,Grave
1,14,2023-01-18 15:26:01.097,Rede Privada,102.0,6,Grave
2,15,2023-02-13 12:29:09.352,Rede Pública,1.0,0,Sem adicção
3,16,2023-02-14 08:58:02.232,Rede Pública,100.0,1,Sem adicção
4,17,2023-02-14 09:31:09.250,Rede Pública,101.0,0,Sem adicção
5,18,2023-02-14 10:25:33.849,Rede Pública,102.0,2,Leve
6,19,2023-02-15 05:36:29.104,Rede Pública,104.0,10,Grave
7,20,2023-02-15 05:39:00.426,Rede Pública,105.0,6,Grave
8,21,2023-02-15 05:43:12.425,Rede Pública,103.0,2,Leve
9,22,2023-03-13 13:14:17.947,Rede Privada,26.0,9,Grave


In [34]:

df['origem'] = df['origem'].fillna('N/A')

# Total de registros
total_registros = len(df)
print(f"Total de registros: {total_registros}")

# Contagem por origem do paciente
contagem_por_origem = df.groupby('origem').size()
print("\nContagem por origem")
print(contagem_por_origem)

# Percentual por origem
percentual_por_origem = df.groupby('origem').size() / total_registros * 100
print("\nPercentual por origem")
print(percentual_por_origem.round(2))

# Cruzamento de severidade com origem
print("\nSeveridade por origem")
tabela_cruzada = pd.crosstab(df['origem'], df['Severidade'], normalize='index') * 100
print(tabela_cruzada.round(2))




Total de registros: 58

Contagem por origem
origem
Rede Privada     4
Rede Pública    54
dtype: int64

Percentual por origem
origem
Rede Privada     6.9
Rede Pública    93.1
dtype: float64

Severidade por origem
Severidade    Grave   Leve  Moderado  Sem adicção
origem                                           
Rede Privada  75.00   0.00      25.0         0.00
Rede Pública  16.67  16.67       3.7        62.96


In [35]:
# Distribuição da contagem de sintomas
contagem_sintomas = df['Total_Sintomas'].value_counts().sort_index()
print("Distribuição do Total de Sintomas:")
print(contagem_sintomas)

# Percentual de cada contagem de sintomas
percentual_sintomas = df['Total_Sintomas'].value_counts(normalize=True).sort_index() * 100
print("\nPercentual de cada contagem de sintomas:")
print(percentual_sintomas.round(2))

# Visualização da distribuição com gráfico (opcional)



Distribuição do Total de Sintomas:
Total_Sintomas
0     27
1      7
2      6
3      3
4      3
6      3
7      1
8      2
9      1
10     1
12     1
13     3
Name: count, dtype: int64

Percentual de cada contagem de sintomas:
Total_Sintomas
0     46.55
1     12.07
2     10.34
3      5.17
4      5.17
6      5.17
7      1.72
8      3.45
9      1.72
10     1.72
12     1.72
13     5.17
Name: proportion, dtype: float64


In [36]:
import pandas as pd
import matplotlib.pyplot as plt

# Garantir que a coluna de data é do tipo datetime
df['createdAt'] = pd.to_datetime(df['createdAt'])

# Criar coluna de mês/ano para agrupamento
df['mes_ano'] = df['createdAt'].dt.strftime('%Y-%m')

# Criar tabela cruzada de severidade por mês-ano
tabela_tempo = pd.crosstab(df['mes_ano'], df['Severidade'])

# Garantir que todos os meses entre o primeiro e o último registro apareçam
primeiro_mes = df['createdAt'].min().strftime('%Y-%m')
ultimo_mes = df['createdAt'].max().strftime('%Y-%m')

# Criar um intervalo completo de meses
todos_meses = pd.date_range(
    start=primeiro_mes, 
    end=ultimo_mes, 
    freq='MS'
).strftime('%Y-%m').tolist()

# Reindexar para incluir todos os meses e preencher com zeros
tabela_tempo_completa = tabela_tempo.reindex(todos_meses, fill_value=0)

# Mostrar a tabela completa
# print("Tendências de severidade por mês/ano:")
# print(tabela_tempo_completa)# Exibir as primeiras linhas para verificar

tabela_filtrada = tabela_tempo_completa.loc[tabela_tempo_completa.sum(axis=1) > 0]

# Mostrar a tabela filtrada
print("Tendências de severidade por mês/ano (apenas meses com dados):")
print(tabela_filtrada)

Tendências de severidade por mês/ano (apenas meses com dados):
Severidade  Grave  Leve  Moderado  Sem adicção
mes_ano                                       
2023-01         2     0         0            0
2023-02         2     2         0            3
2023-03         1     0         0            0
2023-04         0     1         0            6
2023-05         4     2         0           10
2023-06         3     4         2           15
2025-04         0     0         1            0


In [37]:

# Definir as possíveis respostas
respostas = [0,
    1,
   2,
    3,
    4,
    5,
    6,
    7,
    
]

# Criar DataFrame para armazenar os percentuais
matriz_percentual = pd.DataFrame(index=perguntas, columns=respostas)

# Calcular percentuais para cada pergunta
for pergunta in perguntas:
    total_respostas = len(df[pergunta])
    distribuicao = df[pergunta].value_counts(normalize=True) * 100
    
    # Preencher matriz com os percentuais (colocando 0 onde não há respostas)
    for resposta in respostas:
        if resposta in distribuicao:
            matriz_percentual.loc[pergunta, resposta] = distribuicao[resposta]
        else:
            matriz_percentual.loc[pergunta, resposta] = 0

# Substituir os nomes longos das perguntas por versões mais curtas para melhor visualização
nomes_curtos = [f"Q{i+1}" for i in range(len(perguntas))]
matriz_percentual.index = nomes_curtos



# Arredondar para uma casa decimal para melhor visualização
matriz_formatada = matriz_percentual.round(1)

# Imprimir a matriz percentual
print("Matriz percentual de respostas por pergunta:")
matriz_formatada


Matriz percentual de respostas por pergunta:


Unnamed: 0,0,1,2,3,4,5,6,7
Q1,56.896552,12.068966,8.62069,3.448276,5.172414,6.896552,6.896552,0.0
Q2,29.310345,24.137931,6.896552,18.965517,5.172414,6.896552,5.172414,3.448276
Q3,75.862069,10.344828,3.448276,3.448276,0.0,1.724138,5.172414,0.0
Q4,41.37931,13.793103,17.241379,6.896552,3.448276,1.724138,6.896552,8.62069
Q5,41.37931,13.793103,8.62069,6.896552,1.724138,6.896552,6.896552,13.793103
Q6,48.275862,5.172414,13.793103,5.172414,1.724138,3.448276,3.448276,18.965517
Q7,60.344828,8.62069,10.344828,1.724138,1.724138,5.172414,6.896552,5.172414
Q8,46.551724,12.068966,10.344828,5.172414,1.724138,6.896552,6.896552,10.344828
Q9,46.551724,12.068966,18.965517,5.172414,0.0,3.448276,8.62069,5.172414
Q10,63.793103,8.62069,5.172414,5.172414,3.448276,0.0,10.344828,3.448276


In [38]:
# Criar um DataFrame para armazenar os resultados
sintomas_por_pergunta = pd.DataFrame(index=range(1, len(perguntas)+1), columns=['Pergunta', 'Percentual Sintomático'])


# Calcular o percentual sintomático para cada pergunta
for i, pergunta in enumerate(perguntas, 1):
    # Definir quais respostas são consideradas sintomáticas para esta pergunta
    if pergunta in itens_especiais:
        # Para perguntas especiais (1, 2, 4, 9, 10, 11), "Uma vez por semana" também conta
        indices_sintomaticos = [4, 5, 6, 7]  # Índices das colunas sintomáticas na matriz formatada
    else:
        # Para as demais perguntas
        indices_sintomaticos = [5, 6, 7]  # Apenas frequências mais altas
    
    # Somar os percentuais das respostas sintomáticas da linha correspondente
    percentual = matriz_formatada.iloc[i-1, indices_sintomaticos].sum()
    
    # Armazenar no DataFrame
    sintomas_por_pergunta.loc[i, 'Pergunta'] = f"Q{i}"
    sintomas_por_pergunta.loc[i, 'Percentual Sintomático'] = percentual

# Ordenar do maior para o menor percentual
sintomas_por_pergunta = sintomas_por_pergunta.sort_values('Percentual Sintomático', ascending=False)

# Apresentar o resultado
print("Percentual de respostas sintomáticas por pergunta:")
print(sintomas_por_pergunta)



Percentual de respostas sintomáticas por pergunta:
   Pergunta Percentual Sintomático
11      Q11              29.310345
5        Q5              27.586207
13      Q13              25.862069
6        Q6              25.862069
8        Q8              24.137931
4        Q4              20.689655
2        Q2              20.689655
1        Q1              18.965517
9        Q9              17.241379
7        Q7              17.241379
10      Q10              17.241379
12      Q12                8.62069
3        Q3               6.896552


In [41]:


# Tabela de frequência completa
freq_table = pd.DataFrame({
    'Contagem': contagem_sintomas,
    'Percentual (%)': percentual_sintomas.round(2),
    'Acumulado (%)': percentual_sintomas.cumsum().round(2)
})
print("\nTabela de frequência detalhada:")
print(freq_table)


Tabela de frequência detalhada:
                Contagem  Percentual (%)  Acumulado (%)
Total_Sintomas                                         
0                     27           46.55          46.55
1                      7           12.07          58.62
2                      6           10.34          68.97
3                      3            5.17          74.14
4                      3            5.17          79.31
6                      3            5.17          84.48
7                      1            1.72          86.21
8                      2            3.45          89.66
9                      1            1.72          91.38
10                     1            1.72          93.10
12                     1            1.72          94.83
13                     3            5.17         100.00
