<a href="https://colab.research.google.com/github/filipepaulista12/rm4health-dashboard-deploy/blob/notebooks-google-colab/redcap-dashboard-simples/notebooks_colab/rm4health_medicacao_real.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RM4Health - Análise de Medicação (Funções Reais)

**Baseado em**: `data_processor.py` - `calculate_adherence_rates()` e `analyze_adherence_factors()`  
**Dataset**: CSV real do REDCap  

## Funcionalidades:
-  Taxa de adesão medicamentosa por participante
-  Análise por medicamento específico
-  Fatores associados à baixa adesão
-  Impacto de efeitos adversos
-  Padrões temporais de medicação

In [None]:
# Setup + Carregamento
import os, warnings
warnings.filterwarnings('ignore')

try:
    import google.colab
    IN_COLAB = True
except:
    IN_COLAB = False

if IN_COLAB and not os.path.exists('rm4health-dashboard-deploy'):
    !git clone https://github.com/filipepaulista12/rm4health-dashboard-deploy.git
    os.chdir('rm4health-dashboard-deploy')
    !git checkout notebooks-google-colab

!pip install pandas numpy matplotlib seaborn plotly -q

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict, Counter

# Carregar CSV real
paths = ['redcap-dashboard-simples/data/rm4health_dados_reais.csv', 'data/rm4health_dados_reais.csv']
df = None
for p in paths:
    if os.path.exists(p):
        try:
            df = pd.read_csv(p, encoding='latin1')
            print(f' CSV real carregado: {p} - Shape: {df.shape}')
            break
        except:
            try:
                df = pd.read_csv(p)
                print(f' CSV carregado: {p}')
                break
            except Exception as e:
                continue

if df is None:
    print(' CSV não encontrado')
else:
    # Detectar campo ID
    id_candidates = ['Código do Participante (Plataforma/ISEP)', 'participant_code', 'record_id']
    id_field = None
    for candidate in id_candidates:
        if candidate in df.columns:
            id_field = candidate
            break
    
    if id_field is None:
        id_field = df.columns[0]
    
    print(f' Campo ID: {id_field}')
    print(f' Participantes únicos: {df[id_field].nunique()}')

In [None]:
# === FUNÇÃO REAL: calculate_adherence_rates() ===

def calculate_adherence_rates_real(df, id_field):
    """Função EXATA da aplicação real - calculate_adherence_rates()"""
    
    medication_data = df.copy()
    participant_adherence = {}
    adherence_scores = []
    
    print(' === CALCULANDO ADESÃO MEDICAMENTOSA (ALGORITMO REAL) ===')
    
    for participant_id in medication_data[id_field].unique():
        if pd.isna(participant_id):
            continue
            
        participant_data = medication_data[medication_data[id_field] == participant_id]
        
        # Calcular adesão baseada nos dados disponíveis
        scores = []
        adherence_records = 0
        
        # 1. Adesão baseada em "took_medications_yesterday" (campo real REDCap)
        took_meds_fields = [col for col in df.columns if any(x in col.lower() for x in ['tomou', 'took'])]
        
        for field in took_meds_fields:
            took_meds_values = participant_data[field].dropna()
            for value in took_meds_values:
                if str(value) == 'Sim':
                    scores.append(4)  # Alta adesão
                    adherence_records += 1
                elif str(value) == 'Não':
                    scores.append(0)  # Baixa adesão
                    adherence_records += 1
                elif str(value) in ['Às vezes', 'Parcialmente']:
                    scores.append(2)  # Adesão moderada
                    adherence_records += 1
        
        # 2. Verificar se tem medicação prescrita
        medication_name_fields = [col for col in df.columns if 'medicament' in col.lower() and 'nome' in col.lower()]
        has_medication = False
        for field in medication_name_fields:
            if not participant_data[field].dropna().empty:
                has_medication = True
                break
        
        # 3. Uso de medicação para dormir (campo real)
        sleep_med_fields = [col for col in df.columns if 'medicamento' in col.lower() and 'dormir' in col.lower()]
        for field in sleep_med_fields:
            sleep_med_use = participant_data[field].dropna()
            for value in sleep_med_use:
                if '3x/semana ou mais' in str(value):
                    scores.append(3)  # Uso regular
                    adherence_records += 1
                elif 'nunca' in str(value).lower():
                    scores.append(1)  # Uso raro
                    adherence_records += 1
        
        # Calcular score médio se houver dados
        if scores and has_medication:
            avg_score = np.mean(scores)
            percentage = round((avg_score / 4) * 100, 1)
            
            # Determinar nível (algoritmo real)
            if percentage >= 75:
                level = 'Alta'
            elif percentage >= 50:
                level = 'Média'
            else:
                level = 'Baixa'
            
            participant_adherence[str(participant_id)] = {
                'score': round(avg_score, 2),
                'percentage': percentage,
                'level': level,
                'total_records': adherence_records,
                'has_medication': has_medication
            }
            adherence_scores.append(avg_score)
    
    # Adesão por medicamento (usando medication_name_other - campo real)
    medication_adherence = {}
    medication_name_fields = [col for col in df.columns if 'medicament' in col.lower()]
    
    for field in medication_name_fields:
        medication_names = df[field].dropna().unique()
        
        for med_name in medication_names[:10]:  # Top 10 medicamentos
            if pd.isna(med_name) or len(str(med_name).strip()) < 3:
                continue
                
            # Participantes que usam este medicamento
            med_users = df[df[field] == med_name]
            med_scores = []
            
            for _, row in med_users.iterrows():
                participant_id = row[id_field]
                if str(participant_id) in participant_adherence:
                    participant_score = participant_adherence[str(participant_id)]['score']
                    med_scores.append(participant_score)
            
            if med_scores:
                avg_score = np.mean(med_scores)
                medication_adherence[str(med_name)[:30]] = {  # Truncar nome
                    'score': round(avg_score, 2),
                    'percentage': round((avg_score / 4) * 100, 1),
                    'n_participants': len(med_scores)
                }
        break  # Usar apenas primeiro campo encontrado
    
    # Estatísticas gerais (algoritmo exato da aplicação)
    if adherence_scores:
        overall_score = np.mean(adherence_scores)
        statistics = {
            'mean_adherence': round(overall_score, 2),
            'mean_percentage': round((overall_score / 4) * 100, 1),
            'std_dev': round(np.std(adherence_scores), 2),
            'high_adherence': len([s for s in adherence_scores if s >= 3]),
            'medium_adherence': len([s for s in adherence_scores if 2 <= s < 3]),
            'low_adherence': len([s for s in adherence_scores if s < 2]),
            'total_participants': len(participant_adherence)
        }
    else:
        overall_score = 0
        statistics = {
            'mean_adherence': 0, 'mean_percentage': 0, 'std_dev': 0,
            'high_adherence': 0, 'medium_adherence': 0, 'low_adherence': 0,
            'total_participants': 0
        }
    
    return {
        'by_participant': participant_adherence,
        'by_medication': medication_adherence,
        'statistics': statistics,
        'fields_analyzed': {
            'medication_fields': medication_name_fields[:3],
            'adherence_fields': took_meds_fields[:3],
            'sleep_medication_fields': sleep_med_fields[:2] if 'sleep_med_fields' in locals() else []
        }
    }

# Executar análise
if df is not None:
    adherence_results = calculate_adherence_rates_real(df, id_field)
    print(' Análise de adesão medicamentosa concluída!')
else:
    print(' Carregue os dados primeiro')

In [None]:
# === RESULTADOS: ADESÃO MEDICAMENTOSA ===

if 'adherence_results' in locals() and adherence_results:
    
    print(' === RESULTADOS ADESÃO MEDICAMENTOSA (REAL) ===')
    
    stats = adherence_results['statistics']
    
    # Estatísticas principais
    print(f"\n ESTATÍSTICAS GERAIS:")
    print(f"    Adesão média: {stats['mean_percentage']}%")
    print(f"    Desvio padrão: {stats['std_dev']}")
    print(f"    Participantes analisados: {stats['total_participants']}")
    print(f"    Alta adesão (75%): {stats['high_adherence']} participantes")
    print(f"    Média adesão (50-74%): {stats['medium_adherence']} participantes")
    print(f"    Baixa adesão (<50%): {stats['low_adherence']} participantes")
    
    # Campos analisados
    print(f"\n CAMPOS REDCap ANALISADOS:")
    fields = adherence_results['fields_analyzed']
    for categoria, campo_lista in fields.items():
        if campo_lista:
            print(f"   {categoria}:")
            for campo in campo_lista:
                print(f"      - {campo[:60]}...")
    
    # GRÁFICO 1: Adesão por participante
    if adherence_results['by_participant']:
        print('\n === GRÁFICO: ADESÃO POR PARTICIPANTE ===')
        
        participant_data = adherence_results['by_participant']
        participants = list(participant_data.keys())
        percentages = [participant_data[p]['percentage'] for p in participants]
        levels = [participant_data[p]['level'] for p in participants]
        
        # Cores baseadas no nível (algoritmo real)
        color_map = {'Alta': 'green', 'Média': 'orange', 'Baixa': 'red'}
        colors = [color_map[level] for level in levels]
        
        plt.figure(figsize=(15, 6))
        bars = plt.bar(range(len(participants)), percentages, color=colors, alpha=0.7, edgecolor='black')
        
        plt.title('Taxa de Adesão Medicamentosa por Participante (Dados REDCap Reais)', 
                 fontsize=14, fontweight='bold')
        plt.xlabel('Participantes')
        plt.ylabel('Adesão (%)')
        
        # Labels nos participantes
        plt.xticks(range(len(participants)), 
                  [f'P{i+1}' for i in range(len(participants))], 
                  rotation=45)
        
        # Linhas de referência (critérios reais)
        plt.axhline(y=75, color='green', linestyle='--', alpha=0.8, label='Alta Adesão (75%)')
        plt.axhline(y=50, color='orange', linestyle='--', alpha=0.8, label='Adesão Aceitável (50%)')
        
        # Valores nas barras
        for i, (bar, pct, level) in enumerate(zip(bars, percentages, levels)):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1, 
                    f'{pct}%', ha='center', va='bottom', fontsize=8, fontweight='bold')
        
        plt.legend()
        plt.tight_layout()
        plt.show()
        
        # Distribuição de níveis
        level_counts = Counter(levels)
        print(f"\n DISTRIBUIÇÃO DE NÍVEIS:")
        for level, count in level_counts.items():
            pct = (count / len(levels)) * 100
            print(f"   {level}: {count} participantes ({pct:.1f}%)")
    
    # GRÁFICO 2: Adesão por medicamento
    if adherence_results['by_medication']:
        print('\n === ADESÃO POR MEDICAMENTO ESPECÍFICO ===')
        
        med_data = adherence_results['by_medication']
        meds = list(med_data.keys())
        med_percentages = [med_data[med]['percentage'] for med in meds]
        med_n_participants = [med_data[med]['n_participants'] for med in meds]
        
        plt.figure(figsize=(12, 8))
        
        # Subplot 1: Percentagens
        plt.subplot(2, 1, 1)
        bars = plt.bar(range(len(meds)), med_percentages, alpha=0.7, color='steelblue')
        plt.title('Adesão por Medicamento (Dados Reais)', fontweight='bold')
        plt.ylabel('Adesão (%)')
        plt.xticks(range(len(meds)), [f'Med {i+1}' for i in range(len(meds))])
        
        for bar, pct in zip(bars, med_percentages):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1, 
                    f'{pct}%', ha='center', va='bottom', fontweight='bold')
        
        # Subplot 2: Número de participantes
        plt.subplot(2, 1, 2)
        plt.bar(range(len(meds)), med_n_participants, alpha=0.7, color='lightcoral')
        plt.title('Número de Participantes por Medicamento')
        plt.ylabel('N° Participantes')
        plt.xticks(range(len(meds)), [med[:20] + '...' if len(med) > 20 else med for med in meds], rotation=45)
        
        plt.tight_layout()
        plt.show()
        
        # Detalhes por medicamento
        print(f"\n DETALHES POR MEDICAMENTO:")
        for med, data in list(med_data.items())[:5]:  # Top 5
            print(f"    {med}: {data['percentage']}% adesão ({data['n_participants']} participantes)")

else:
    print(' Execute a célula anterior primeiro')

In [None]:
# === FUNÇÃO REAL: analyze_adherence_factors() ===

def analyze_adherence_factors_real(df, id_field):
    """Função EXATA da aplicação - analyze_adherence_factors()"""
    
    print(' === ANALISANDO FATORES DE ADESÃO (ALGORITMO REAL) ===')
    
    data_df = df.copy()
    factors = {}
    
    # 1. Correlação idade-adesão (algoritmo real)
    age_adherence_correlation = {}
    
    # Campos de idade
    age_fields = [col for col in df.columns if any(x in col.lower() for x in ['nascimento', 'idade', 'age'])]
    
    for age_field in age_fields:
        if age_field in data_df.columns:
            age_data = data_df[[id_field, age_field]].dropna()
            
            # Calcular idades (se ano de nascimento)
            if 'nascimento' in age_field.lower():
                current_year = 2025
                age_data['calculated_age'] = current_year - pd.to_numeric(age_data[age_field], errors='coerce')
                age_col = 'calculated_age'
            else:
                age_col = age_field
            
            # Agrupar por faixas etárias
            age_groups = {
                '60-70': [],
                '71-80': [],
                '81+': []
            }
            
            for _, row in age_data.iterrows():
                participant_id = row[id_field]
                age = row[age_col]
                
                if pd.notna(age) and str(participant_id) in adherence_results['by_participant']:
                    adherence_pct = adherence_results['by_participant'][str(participant_id)]['percentage']
                    
                    if age <= 70:
                        age_groups['60-70'].append(adherence_pct)
                    elif age <= 80:
                        age_groups['71-80'].append(adherence_pct)
                    else:
                        age_groups['81+'].append(adherence_pct)
            
            # Calcular médias por grupo
            for group, adherences in age_groups.items():
                if adherences:
                    age_adherence_correlation[group] = {
                        'mean_adherence': round(np.mean(adherences), 1),
                        'n_participants': len(adherences)
                    }
            
            factors['age_correlation'] = age_adherence_correlation
            break
    
    # 2. Impacto de efeitos adversos (algoritmo real)
    adverse_effect_fields = [col for col in df.columns if any(x in col.lower() for x in ['efeito', 'adverse', 'reação'])]
    adverse_effect_impact = {}
    
    if adverse_effect_fields:
        for effect_field in adverse_effect_fields[:3]:  # Limitar a 3 campos
            effect_values = data_df[effect_field].dropna().unique()
            
            for effect in effect_values:
                if pd.isna(effect) or len(str(effect).strip()) < 2:
                    continue
                    
                effect_data = data_df[data_df[effect_field] == effect]
                adherence_scores = []
                
                # Mapear adesão (algoritmo real)
                adherence_mapping = {'Sempre': 4, 'Frequentemente': 3, 'Às vezes': 2, 'Raramente': 1, 'Nunca': 0}
                
                for _, row in effect_data.iterrows():
                    participant_id = row[id_field]
                    if str(participant_id) in adherence_results['by_participant']:
                        score = adherence_results['by_participant'][str(participant_id)]['score']
                        adherence_scores.append(score)
                
                if adherence_scores:
                    adverse_effect_impact[str(effect)[:25]] = {  # Truncar nome
                        'mean_adherence': round(np.mean(adherence_scores), 2),
                        'n_participants': len(effect_data[id_field].unique())
                    }
        
        if adverse_effect_impact:
            factors['adverse_effects'] = adverse_effect_impact
    
    # 3. Grupos de risco (baseado na aplicação)
    risk_groups = {'high_risk': [], 'medium_risk': [], 'low_risk': []}
    
    for participant_id, data in adherence_results['by_participant'].items():
        if data['percentage'] >= 75:
            risk_groups['low_risk'].append(participant_id)
        elif data['percentage'] >= 50:
            risk_groups['medium_risk'].append(participant_id)
        else:
            risk_groups['high_risk'].append(participant_id)
    
    factors['risk_groups'] = risk_groups
    
    return factors

# Executar análise de fatores
if df is not None and 'adherence_results' in locals():
    factors_results = analyze_adherence_factors_real(df, id_field)
    
    print('\n === FATORES ASSOCIADOS À ADESÃO ===')
    
    # Correlação com idade
    if 'age_correlation' in factors_results:
        print('\n CORRELAÇÃO IDADE-ADESÃO:')
        for group, data in factors_results['age_correlation'].items():
            print(f"   {group} anos: {data['mean_adherence']}% ({data['n_participants']} participantes)")
    
    # Efeitos adversos
    if 'adverse_effects' in factors_results:
        print('\n  IMPACTO DE EFEITOS ADVERSOS:')
        for effect, data in list(factors_results['adverse_effects'].items())[:5]:
            print(f"   {effect}: {data['mean_adherence']} score ({data['n_participants']} participantes)")
    
    # Grupos de risco
    if 'risk_groups' in factors_results:
        print('\n GRUPOS DE RISCO:')
        risk_groups = factors_results['risk_groups']
        print(f"    Alto risco (<50%): {len(risk_groups['high_risk'])} participantes")
        print(f"    Médio risco (50-74%): {len(risk_groups['medium_risk'])} participantes")
        print(f"    Baixo risco (75%): {len(risk_groups['low_risk'])} participantes")

else:
    print(' Execute as células anteriores primeiro')

In [None]:
# === VISUALIZAÇÕES AVANÇADAS (Estilo Dashboard Real) ===

if df is not None and 'adherence_results' in locals():
    
    print(' === VISUALIZAÇÕES AVANÇADAS (ESTILO DASHBOARD) ===')
    
    # Configurar estilo
    plt.style.use('default')
    sns.set_palette('husl')
    
    fig = plt.figure(figsize=(16, 12))
    
    # 1. Heatmap de adesão por participante e tempo
    plt.subplot(2, 3, 1)
    
    participant_data = adherence_results['by_participant']
    participants = list(participant_data.keys())[:20]  # Top 20
    percentages = [participant_data[p]['percentage'] for p in participants]
    
    # Criar matriz para heatmap
    matrix_data = np.array(percentages).reshape(-1, 1)
    
    sns.heatmap(matrix_data.T, 
                xticklabels=[f'P{i+1}' for i in range(len(participants))],
                yticklabels=['Adesão %'],
                annot=True, fmt='.1f', cmap='RdYlGn', 
                cbar_kws={'label': 'Adesão (%)'})
    plt.title('Heatmap Adesão por Participante')
    plt.xlabel('Participantes')
    
    # 2. Box plot por nível de adesão
    plt.subplot(2, 3, 2)
    
    levels = [participant_data[p]['level'] for p in participants]
    level_percentages = {}
    
    for level in ['Baixa', 'Média', 'Alta']:
        level_data = [participant_data[p]['percentage'] for p in participants 
                     if participant_data[p]['level'] == level]
        if level_data:
            level_percentages[level] = level_data
    
    if level_percentages:
        plt.boxplot(level_percentages.values(), labels=level_percentages.keys())
        plt.title('Distribuição por Nível de Adesão')
        plt.ylabel('Adesão (%)')
    
    # 3. Distribuição geral
    plt.subplot(2, 3, 3)
    plt.hist(percentages, bins=10, alpha=0.7, color='skyblue', edgecolor='black')
    plt.axvline(np.mean(percentages), color='red', linestyle='--', 
                label=f'Média: {np.mean(percentages):.1f}%')
    plt.title('Distribuição Geral de Adesão')
    plt.xlabel('Adesão (%)')
    plt.ylabel('Frequência')
    plt.legend()
    
    # 4. Correlação com número de registros
    plt.subplot(2, 3, 4)
    records_count = [participant_data[p]['total_records'] for p in participants]
    
    plt.scatter(records_count, percentages, alpha=0.6, s=60)
    plt.title('Adesão vs Número de Registros')
    plt.xlabel('Número de Registros')
    plt.ylabel('Adesão (%)')
    
    # Linha de tendência
    if len(records_count) > 1:
        z = np.polyfit(records_count, percentages, 1)
        p = np.poly1d(z)
        plt.plot(sorted(records_count), p(sorted(records_count)), 'r--', alpha=0.8)
    
    # 5. Pizza de níveis de adesão
    plt.subplot(2, 3, 5)
    level_counts = Counter(levels)
    colors_pie = ['red', 'orange', 'green']
    plt.pie(level_counts.values(), labels=level_counts.keys(), 
            autopct='%1.1f%%', startangle=90, colors=colors_pie)
    plt.title('Distribuição de Níveis')
    
    # 6. Tabela resumo
    plt.subplot(2, 3, 6)
    plt.axis('off')
    
    summary_text = f"""RESUMO EXECUTIVO
    
Participantes: {len(participants)}
Adesão Média: {np.mean(percentages):.1f}%
Desvio Padrão: {np.std(percentages):.1f}%

Alta Adesão: {level_counts.get('Alta', 0)}
Média Adesão: {level_counts.get('Média', 0)}
Baixa Adesão: {level_counts.get('Baixa', 0)}

Algoritmo: data_processor.py
Fonte: REDCap Real
    """
    
    plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, 
             fontsize=10, verticalalignment='top',
             bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.8))
    
    plt.tight_layout()
    plt.show()
    
    print('\n === ANÁLISE DE MEDICAÇÃO COMPLETA (FUNÇÕES REAIS) ===')
    print(f" Baseada no algoritmo exato do data_processor.py")
    print(f" Usando dados reais do REDCap RM4Health")
    print(f" {len(participants)} participantes analisados")

else:
    print(' Execute as células anteriores primeiro')