<a href="https://colab.research.google.com/github/filipepaulista12/rm4health-dashboard-deploy/blob/notebooks-google-colab/redcap-dashboard-simples/notebooks_colab/rm4health_sono_psqi_real.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RM4Health - Análise PSQI (Qualidade do Sono Real)

**Baseado em**: Campos reais PSQI do REDCap RM4Health  
**Algoritmo**: Componentes PSQI conforme literatura científica  

## Componentes PSQI Analisados:
1. **Qualidade subjetiva do sono**
2. **Latência do sono** (tempo para adormecer)
3. **Duração do sono**
4. **Eficiência habitual do sono**
5. **Distúrbios do sono**
6. **Uso de medicação para dormir**
7. **Disfunção diurna**

In [None]:
# Setup
import os, warnings
warnings.filterwarnings('ignore')

try:
    import google.colab
    IN_COLAB = True
except:
    IN_COLAB = False

if IN_COLAB and not os.path.exists('rm4health-dashboard-deploy'):
    !git clone https://github.com/filipepaulista12/rm4health-dashboard-deploy.git
    os.chdir('rm4health-dashboard-deploy')
    !git checkout notebooks-google-colab

!pip install pandas numpy matplotlib seaborn plotly -q

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import re

# Carregar CSV real
paths = ['redcap-dashboard-simples/data/rm4health_dados_reais.csv', 'data/rm4health_dados_reais.csv']
df = None
for p in paths:
    if os.path.exists(p):
        for encoding in ['latin1', 'utf-8', 'cp1252']:
            try:
                df = pd.read_csv(p, encoding=encoding)
                print(f' CSV carregado: {p} (encoding: {encoding})')
                print(f' Shape: {df.shape}')
                break
            except:
                continue
        if df is not None:
            break

if df is None:
    print(' CSV não encontrado')
else:
    # Campo ID
    id_candidates = ['Código do Participante (Plataforma/ISEP)', 'participant_code']
    id_field = next((c for c in id_candidates if c in df.columns), df.columns[0])
    print(f' Campo ID: {id_field}')

In [None]:
# === IDENTIFICAÇÃO DE CAMPOS PSQI REAIS ===

if df is not None:
    print(' === MAPEANDO CAMPOS PSQI DO REDCap ===')
    
    # Campos PSQI reais identificados no CSV
    psqi_fields = {
        'hora_deitar': [col for col in df.columns if 'deitou' in col.lower()],
        'tempo_adormecer': [col for col in df.columns if 'adormecer' in col.lower()],
        'hora_acordar': [col for col in df.columns if 'acordou' in col.lower()],
        'horas_sono': [col for col in df.columns if 'horas de sono' in col.lower()],
        'qualidade_sono': [col for col in df.columns if 'qualidade' in col.lower() and 'sono' in col.lower()],
        'medicacao_sono': [col for col in df.columns if 'medicamento' in col.lower() and 'dormir' in col.lower()],
        'problemas_adormecer': [col for col in df.columns if '30 minutos' in col.lower()],
        'acordar_noite': [col for col in df.columns if 'meio da noite' in col.lower()],
        'casa_banho': [col for col in df.columns if 'casa de banho' in col.lower()],
        'dificuldade_respirar': [col for col in df.columns if 'respirar' in col.lower()],
        'tossir_ressonar': [col for col in df.columns if 'tossir' in col.lower() or 'ressonar' in col.lower()],
        'frio': [col for col in df.columns if 'frio' in col.lower()],
        'calor': [col for col in df.columns if 'calor' in col.lower()],
        'pesadelos': [col for col in df.columns if 'pesadelo' in col.lower() or 'sonhos' in col.lower()],
        'dores_sono': [col for col in df.columns if 'dores' in col.lower()],
        'problemas_acordado': [col for col in df.columns if 'acordado' in col.lower() and 'problema' in col.lower()],
        'falta_entusiasmo': [col for col in df.columns if 'entusiasmo' in col.lower()]
    }
    
    print(' Campos PSQI identificados no REDCap:')
    total_fields = 0
    for component, fields in psqi_fields.items():
        if fields:
            print(f"    {component}: {len(fields)} campos")
            for field in fields[:1]:  # Mostrar primeiro
                filled = df[field].notna().sum()
                pct = (filled / len(df)) * 100
                print(f"      - {field[:50]}... ({filled}/{len(df)} = {pct:.1f}%)")
            total_fields += len(fields)
        else:
            print(f"    {component}: não encontrado")
    
    print(f"\n Total de campos PSQI: {total_fields}")
    
    # Campos de sono mais preenchidos
    sleep_cols = [col for col in df.columns if any(x in col.lower() for x in ['sono', 'sleep', 'dormiu', 'acordar'])]
    
    if sleep_cols:
        print(f"\n === TOP CAMPOS DE SONO MAIS PREENCHIDOS ===")
        
        field_completion = []
        for col in sleep_cols:
            filled = df[col].notna().sum()
            pct = (filled / len(df)) * 100
            field_completion.append({'Campo': col, 'Preenchido': filled, 'Percentual': pct})
        
        # Ordenar por completude
        field_completion.sort(key=lambda x: x['Percentual'], reverse=True)
        
        for i, field_data in enumerate(field_completion[:10]):
            print(f"{i+1:2}. {field_data['Campo'][:60]}... ({field_data['Preenchido']}/{len(df)} = {field_data['Percentual']:.1f}%)")

else:
    print(' Execute a célula anterior primeiro')

In [None]:
# === CÁLCULO PSQI REAL (Baseado na Literatura) ===

def calculate_psqi_components_real(df, id_field, psqi_fields):
    """Calcula componentes PSQI usando campos reais do REDCap"""
    
    print(' === CALCULANDO COMPONENTES PSQI (ALGORITMO CIENTÍFICO) ===')
    
    participant_psqi = {}
    
    for participant_id in df[id_field].dropna().unique():
        participant_data = df[df[id_field] == participant_id]
        
        # Componente 1: Qualidade subjetiva do sono
        c1_score = 0
        for field in psqi_fields['qualidade_sono']:
            if field in participant_data.columns:
                for value in participant_data[field].dropna():
                    value_str = str(value).lower()
                    if 'muito boa' in value_str:
                        c1_score = 0
                    elif 'boa' in value_str:
                        c1_score = 1
                    elif 'má' in value_str and 'muito' not in value_str:
                        c1_score = 2
                    elif 'muito má' in value_str:
                        c1_score = 3
                    break
        
        # Componente 2: Latência do sono (tempo para adormecer)
        c2_score = 0
        for field in psqi_fields['tempo_adormecer']:
            if field in participant_data.columns:
                for value in participant_data[field].dropna():
                    try:
                        minutes = float(value)
                        if minutes <= 15:
                            c2_score = 0
                        elif minutes <= 30:
                            c2_score = 1
                        elif minutes <= 60:
                            c2_score = 2
                        else:
                            c2_score = 3
                    except:
                        pass
                    break
        
        # Componente 3: Duração do sono
        c3_score = 0
        for field in psqi_fields['horas_sono']:
            if field in participant_data.columns:
                for value in participant_data[field].dropna():
                    try:
                        hours = float(value)
                        if hours >= 7:
                            c3_score = 0
                        elif hours >= 6:
                            c3_score = 1
                        elif hours >= 5:
                            c3_score = 2
                        else:
                            c3_score = 3
                    except:
                        pass
                    break
        
        # Componente 5: Distúrbios do sono (problemas específicos)
        c5_score = 0
        disturbance_count = 0
        
        disturbance_fields = [
            psqi_fields['problemas_adormecer'],
            psqi_fields['acordar_noite'], 
            psqi_fields['casa_banho'],
            psqi_fields['dificuldade_respirar'],
            psqi_fields['tossir_ressonar'],
            psqi_fields['frio'],
            psqi_fields['calor'],
            psqi_fields['pesadelos'],
            psqi_fields['dores_sono']
        ]
        
        for field_group in disturbance_fields:
            for field in field_group:
                if field in participant_data.columns:
                    for value in participant_data[field].dropna():
                        value_str = str(value).lower()
                        # Frequência dos problemas (baseado no REDCap)
                        if any(freq in value_str for freq in ['3 vezes', 'todas as noites', 'frequentemente']):
                            disturbance_count += 2  # Problema grave
                        elif any(freq in value_str for freq in ['1-2 vezes', 'às vezes', 'ocasionalmente']):
                            disturbance_count += 1  # Problema moderado
        
        # Score baseado na soma de distúrbios
        if disturbance_count == 0:
            c5_score = 0
        elif disturbance_count <= 9:
            c5_score = 1
        elif disturbance_count <= 18:
            c5_score = 2
        else:
            c5_score = 3
        
        # Componente 6: Uso de medicação para dormir
        c6_score = 0
        for field in psqi_fields['medicacao_sono']:
            if field in participant_data.columns:
                for value in participant_data[field].dropna():
                    value_str = str(value).lower()
                    if 'nunca' in value_str:
                        c6_score = 0
                    elif 'menos de 1 vez' in value_str:
                        c6_score = 1
                    elif '1-2 vezes' in value_str:
                        c6_score = 2
                    elif '3 vezes' in value_str:
                        c6_score = 3
                    break
        
        # Componente 7: Disfunção diurna
        c7_score = 0
        for field in psqi_fields['problemas_acordado'] + psqi_fields['falta_entusiasmo']:
            if field in participant_data.columns:
                for value in participant_data[field].dropna():
                    value_str = str(value).lower()
                    if any(prob in value_str for prob in ['problema', 'dificuldade', 'falta']):
                        if 'nunca' in value_str:
                            c7_score = max(c7_score, 0)
                        elif 'raramente' in value_str:
                            c7_score = max(c7_score, 1)
                        elif 'às vezes' in value_str:
                            c7_score = max(c7_score, 2)
                        elif 'frequentemente' in value_str:
                            c7_score = max(c7_score, 3)
        
        # PSQI Global (soma dos componentes)
        psqi_global = c1_score + c2_score + c3_score + c5_score + c6_score + c7_score
        
        # Classificação (literatura científica)
        if psqi_global <= 5:
            sleep_quality_level = 'Boa'
        elif psqi_global <= 10:
            sleep_quality_level = 'Moderada'
        else:
            sleep_quality_level = 'Má'
        
        participant_psqi[str(participant_id)] = {
            'c1_qualidade_subjetiva': c1_score,
            'c2_latencia_sono': c2_score,
            'c3_duracao_sono': c3_score,
            'c5_disturbios_sono': c5_score,
            'c6_medicacao_sono': c6_score,
            'c7_disfuncao_diurna': c7_score,
            'psqi_global': psqi_global,
            'qualidade_nivel': sleep_quality_level,
            'disturbance_count': disturbance_count
        }
    
    return participant_psqi

# Executar análise PSQI
if df is not None and 'psqi_fields' in locals():
    psqi_results = calculate_psqi_components_real(df, id_field, psqi_fields)
    print(f' Análise PSQI concluída para {len(psqi_results)} participantes!')
else:
    print(' Execute a célula anterior primeiro')

In [None]:
# === RESULTADOS E VISUALIZAÇÕES PSQI ===

if 'psqi_results' in locals() and psqi_results:
    
    print(' === RESULTADOS PSQI (DADOS REAIS REDCap) ===')
    
    # Estatísticas gerais
    all_global_scores = [data['psqi_global'] for data in psqi_results.values()]
    quality_levels = [data['qualidade_nivel'] for data in psqi_results.values()]
    
    print(f"\n ESTATÍSTICAS PSQI GLOBAL:")
    print(f"    Score médio: {np.mean(all_global_scores):.2f}")
    print(f"    Score mínimo: {min(all_global_scores)}")
    print(f"    Score máximo: {max(all_global_scores)}")
    print(f"    Desvio padrão: {np.std(all_global_scores):.2f}")
    
    # Distribuição por qualidade
    from collections import Counter
    quality_dist = Counter(quality_levels)
    
    print(f"\n DISTRIBUIÇÃO QUALIDADE DO SONO:")
    for level, count in quality_dist.items():
        pct = (count / len(quality_levels)) * 100
        emoji = '' if level == 'Boa' else ('' if level == 'Moderada' else '')
        print(f"   {emoji} {level}: {count} participantes ({pct:.1f}%)")
    
    # GRÁFICO 1: Radar dos componentes PSQI
    print('\n === GRÁFICO: RADAR COMPONENTES PSQI ===')
    
    # Média dos componentes
    component_means = {
        'Qualidade Subjetiva': np.mean([data['c1_qualidade_subjetiva'] for data in psqi_results.values()]),
        'Latência Sono': np.mean([data['c2_latencia_sono'] for data in psqi_results.values()]),
        'Duração Sono': np.mean([data['c3_duracao_sono'] for data in psqi_results.values()]),
        'Distúrbios Sono': np.mean([data['c5_disturbios_sono'] for data in psqi_results.values()]),
        'Medicação Sono': np.mean([data['c6_medicacao_sono'] for data in psqi_results.values()]),
        'Disfunção Diurna': np.mean([data['c7_disfuncao_diurna'] for data in psqi_results.values()])
    }
    
    # Radar chart
    angles = np.linspace(0, 2 * np.pi, len(component_means), endpoint=False).tolist()
    values = list(component_means.values())
    
    # Fechar o radar
    angles += angles[:1]
    values += values[:1]
    
    fig, ax = plt.subplots(figsize=(10, 10), subplot_kw=dict(projection='polar'))
    ax.plot(angles, values, 'o-', linewidth=2, color='red', alpha=0.8)
    ax.fill(angles, values, alpha=0.25, color='red')
    
    # Labels
    ax.set_xticks(angles[:-1])
    ax.set_xticklabels(list(component_means.keys()), fontsize=10)
    ax.set_ylim(0, 3)
    ax.set_yticks([0, 1, 2, 3])
    ax.set_yticklabels(['0\n(Melhor)', '1', '2', '3\n(Pior)'])
    ax.grid(True)
    
    plt.title('Perfil PSQI Médio - Componentes (Dados Reais)', 
             fontsize=14, fontweight='bold', pad=20)
    plt.show()
    
    # GRÁFICO 2: Distribuição PSQI Global
    print('\n === DISTRIBUIÇÃO PSQI GLOBAL ===')
    
    plt.figure(figsize=(12, 8))
    
    # Subplot 1: Histograma
    plt.subplot(2, 2, 1)
    colors_hist = ['green' if s <= 5 else 'orange' if s <= 10 else 'red' for s in all_global_scores]
    plt.hist(all_global_scores, bins=range(0, max(all_global_scores)+2), 
             alpha=0.7, color='steelblue', edgecolor='black')
    plt.axvline(5, color='green', linestyle='--', alpha=0.8, label='Boa (5)')
    plt.axvline(10, color='orange', linestyle='--', alpha=0.8, label='Moderada (10)')
    plt.title('Distribuição PSQI Global')
    plt.xlabel('Score PSQI')
    plt.ylabel('Número de Participantes')
    plt.legend()
    
    # Subplot 2: Pizza qualidade
    plt.subplot(2, 2, 2)
    colors_pie = ['green', 'orange', 'red']
    plt.pie(quality_dist.values(), labels=quality_dist.keys(), 
            autopct='%1.1f%%', startangle=90, colors=colors_pie)
    plt.title('Qualidade do Sono')
    
    # Subplot 3: Componentes em barras
    plt.subplot(2, 2, 3)
    components = list(component_means.keys())
    scores = list(component_means.values())
    
    bars = plt.bar(range(len(components)), scores, alpha=0.7, color='lightblue')
    plt.title('Scores Médios por Componente')
    plt.ylabel('Score Médio')
    plt.xticks(range(len(components)), [c[:8] + '...' for c in components], rotation=45)
    
    for bar, score in zip(bars, scores):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.05, 
                f'{score:.2f}', ha='center', va='bottom', fontweight='bold')
    
    # Subplot 4: Box plot por nível
    plt.subplot(2, 2, 4)
    
    level_scores = {}
    for level in ['Boa', 'Moderada', 'Má']:
        level_data = [data['psqi_global'] for data in psqi_results.values() 
                     if data['qualidade_nivel'] == level]
        if level_data:
            level_scores[level] = level_data
    
    if level_scores:
        plt.boxplot(level_scores.values(), labels=level_scores.keys())
        plt.title('Distribuição PSQI por Qualidade')
        plt.ylabel('Score PSQI Global')
    
    plt.tight_layout()
    plt.show()
    
    print('\n === ANÁLISE PSQI COMPLETA (DADOS REAIS) ===')
    print(f" Baseada nos campos reais do REDCap RM4Health")
    print(f" Algoritmo PSQI conforme literatura científica")
    print(f" {len(psqi_results)} participantes analisados")

else:
    print(' Execute as células anteriores primeiro')

In [None]:
# === TABELA DETALHADA DOS RESULTADOS ===

if 'psqi_results' in locals() and psqi_results:
    
    print(' === TABELA DETALHADA PSQI POR PARTICIPANTE ===')
    
    # Converter para DataFrame para melhor visualização
    psqi_df = pd.DataFrame.from_dict(psqi_results, orient='index')
    
    # Renomear colunas para melhor legibilidade
    psqi_df.columns = [
        'C1: Qualidade Subjetiva', 'C2: Latência Sono', 'C3: Duração Sono',
        'C5: Distúrbios', 'C6: Medicação', 'C7: Disfunção Diurna',
        'PSQI Global', 'Qualidade Nível', 'Total Distúrbios'
    ]
    
    # Ordenar por PSQI Global (pior primeiro)
    psqi_df_sorted = psqi_df.sort_values('PSQI Global', ascending=False)
    
    print('\n === PARTICIPANTES COM PIOR QUALIDADE DE SONO ===')
    display(psqi_df_sorted.head(10))
    
    print('\n === PARTICIPANTES COM MELHOR QUALIDADE DE SONO ===')
    display(psqi_df_sorted.tail(10))
    
    # Estatísticas por componente
    print('\n === ESTATÍSTICAS POR COMPONENTE PSQI ===')
    
    component_stats = psqi_df[[
        'C1: Qualidade Subjetiva', 'C2: Latência Sono', 'C3: Duração Sono',
        'C5: Distúrbios', 'C6: Medicação', 'C7: Disfunção Diurna'
    ]].describe()
    
    display(component_stats)
    
    # Participantes que precisam de intervenção
    high_psqi = psqi_df_sorted[psqi_df_sorted['PSQI Global'] > 10]
    
    if len(high_psqi) > 0:
        print(f'\n === PARTICIPANTES QUE PRECISAM INTERVENÇÃO (PSQI >10) ===')
        print(f" Total: {len(high_psqi)} participantes")
        
        for participant_id, data in high_psqi.iterrows():
            print(f"\n Participante {participant_id}:")
            print(f"    PSQI Global: {data['PSQI Global']} (Qualidade {data['Qualidade Nível']})")
            print(f"    Componentes problemáticos:")
            
            problematic = []
            if data['C1: Qualidade Subjetiva'] >= 2:
                problematic.append(f"Qualidade subjetiva ({data['C1: Qualidade Subjetiva']})")
            if data['C2: Latência Sono'] >= 2:
                problematic.append(f"Latência sono ({data['C2: Latência Sono']})")
            if data['C5: Distúrbios'] >= 2:
                problematic.append(f"Distúrbios ({data['C5: Distúrbios']})")
            if data['C6: Medicação'] >= 2:
                problematic.append(f"Medicação sono ({data['C6: Medicação']})")
            
            for problema in problematic:
                print(f"      - {problema}")
            
            if not problematic:
                print(f"      - Score alto mas componentes individuais aceitáveis")
    
    else:
        print('\n Nenhum participante com PSQI >10 (todos com sono aceitável)')
    
    print('\n' + '='*60)
    print(' ANÁLISE PSQI COMPLETA COM DADOS REAIS REDCap!')
    print(f' {len(psqi_results)} participantes analisados')
    print(f' Algoritmo baseado na literatura científica PSQI')
    print(f' Usando campos reais do formulário REDCap')
    print('='*60)

else:
    print(' Execute as células anteriores primeiro')