<a href="https://colab.research.google.com/github/filipepaulista12/rm4health-dashboard-deploy/blob/notebooks-google-colab/redcap-dashboard-simples/notebooks_colab/rm4health_servicos_saude_real.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RM4Health - Utilização de Serviços de Saúde (Real)

**Baseado em**: `data_processor.py` - `identify_utilization_predictors_rm4health()`  
**Algoritmo**: Exatamente como na aplicação principal  

## Análises Incluídas:
-  Consultas médicas programadas e não-programadas
-  Visitas ao Serviço de Urgência
-  Hospitalizações (>24h)
-  Quedas e sequelas
-  Identificação de altos utilizadores
-  Preditores de alta utilização
-  Análise de custo-efetividade

In [None]:
# Setup e carregamento
import os, warnings
warnings.filterwarnings('ignore')

try:
    import google.colab
    IN_COLAB = True
except:
    IN_COLAB = False

if IN_COLAB and not os.path.exists('rm4health-dashboard-deploy'):
    !git clone https://github.com/filipepaulista12/rm4health-dashboard-deploy.git
    os.chdir('rm4health-dashboard-deploy')
    !git checkout notebooks-google-colab

!pip install pandas numpy matplotlib seaborn plotly -q

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict, Counter

# Carregar CSV real
paths = ['redcap-dashboard-simples/data/rm4health_dados_reais.csv', 'data/rm4health_dados_reais.csv']
df = None
for p in paths:
    if os.path.exists(p):
        for encoding in ['latin1', 'utf-8', 'cp1252']:
            try:
                df = pd.read_csv(p, encoding=encoding)
                print(f' CSV carregado: {p} ({df.shape[0]} registros, {df.shape[1]} colunas)')
                break
            except:
                continue
        if df is not None:
            break

if df is None:
    print(' CSV não encontrado')
else:
    # Campo ID
    id_candidates = ['Código do Participante (Plataforma/ISEP)', 'participant_code']
    id_field = next((c for c in id_candidates if c in df.columns), df.columns[0])
    print(f' Campo ID: {id_field}')
    print(f' Participantes únicos: {df[id_field].nunique()}')

In [None]:
# === IDENTIFICAR CAMPOS DE UTILIZAÇÃO REAIS ===

if df is not None:
    print(' === CAMPOS DE UTILIZAÇÃO IDENTIFICADOS NO REDCap ===')
    
    # Campos reais de utilização (baseado no mapeamento da aplicação)
    utilization_fields = {
        'consultas_programadas': [col for col in df.columns if 
                                'consulta' in col.lower() and 'programada' in col.lower()],
        'consultas_nao_programadas': [col for col in df.columns if 
                                    'consulta' in col.lower() and ('não' in col.lower() or 'nao' in col.lower())],
        'servico_urgencia': [col for col in df.columns if 
                           'urgência' in col.lower() or 'urgencia' in col.lower()],
        'hospitalizacoes': [col for col in df.columns if 
                          'internado' in col.lower() or ('hospital' in col.lower() and '24' in col.lower())],
        'quedas': [col for col in df.columns if 'queda' in col.lower()],
        'lesoes_quedas': [col for col in df.columns if 'lesão' in col.lower() or 'sequela' in col.lower()]
    }
    
    print(' Campos por categoria:')
    total_utilization_fields = 0
    
    for category, fields in utilization_fields.items():
        if fields:
            print(f"\n {category}: {len(fields)} campos")
            total_utilization_fields += len(fields)
            
            for field in fields:
                filled = df[field].notna().sum()
                pct = (filled / len(df)) * 100
                
                # Analisar valores típicos
                unique_vals = df[field].dropna().unique()
                sample_vals = [str(v) for v in unique_vals[:3] if pd.notna(v)]
                
                print(f"   - {field[:55]}...")
                print(f"      Preenchido: {filled}/{len(df)} ({pct:.1f}%)")
                print(f"      Valores: {', '.join(sample_vals)}")
        else:
            print(f"\n {category}: não encontrado")
    
    print(f"\n Total de campos de utilização: {total_utilization_fields}")
    
    # Campos mais promissores (maior completude)
    all_health_fields = [col for col in df.columns if 
                        any(term in col.lower() for term in 
                            ['consulta', 'urgência', 'hospital', 'internado', 'queda'])]
    
    if all_health_fields:
        print('\n === CAMPOS MAIS COMPLETOS ===')
        
        field_completeness = []
        for field in all_health_fields:
            filled = df[field].notna().sum()
            pct = (filled / len(df)) * 100
            field_completeness.append({'campo': field, 'preenchido': filled, 'percentual': pct})
        
        # Ordenar por completude
        field_completeness.sort(key=lambda x: x['percentual'], reverse=True)
        
        for i, field_data in enumerate(field_completeness[:8]):
            print(f"{i+1:2}. {field_data['campo'][:50]}... ({field_data['preenchido']}/{len(df)} = {field_data['percentual']:.1f}%)")

else:
    print(' Execute a célula anterior primeiro')

In [None]:
# === FUNÇÃO REAL: identify_utilization_predictors_rm4health() ===

def identify_utilization_predictors_rm4health_real(df, id_field):
    """Função EXATA da aplicação - identify_utilization_predictors_rm4health()"""
    
    print(' === IDENTIFICANDO PREDITORES DE UTILIZAÇÃO (ALGORITMO REAL) ===')
    
    predictor_data = df.copy()
    
    # Preditores potenciais (baseado no código real)
    potential_predictors = {
        'demographic': {
            'age': 'Idade/Ano nascimento',
            'gender': 'Sexo',
            'education': 'Escolaridade',
            'marital_status': 'Estado civil'
        },
        'health_conditions': {
            'diabetes': 'Diabetes',
            'hypertension': 'Hipertensão',
            'heart_disease': 'Doença cardíaca',
            'depression': 'Depressão'
        },
        'functional_status': {
            'mobility': 'Mobilidade',
            'self_care': 'Cuidados pessoais',
            'daily_activities': 'Atividades habituais'
        },
        'medication': {
            'adherence': 'Adesão medicamentosa',
            'polypharmacy': 'Polimedicação'
        }
    }
    
    # Mapear campos reais para preditores
    available_predictors = {}
    
    for category, predictors in potential_predictors.items():
        available_predictors[category] = {}
        
        for predictor_key, predictor_name in predictors.items():
            # Buscar campos que correspondem ao preditor
            matching_fields = []
            
            if 'age' in predictor_key.lower():
                matching_fields = [col for col in df.columns if 'nascimento' in col.lower()]
            elif 'gender' in predictor_key.lower():
                matching_fields = [col for col in df.columns if 'sexo' in col.lower()]
            elif 'education' in predictor_key.lower():
                matching_fields = [col for col in df.columns if 'escolaridade' in col.lower()]
            elif 'diabetes' in predictor_key.lower():
                matching_fields = [col for col in df.columns if 'diabetes' in col.lower()]
            elif 'hypertension' in predictor_key.lower():
                matching_fields = [col for col in df.columns if 'hipertensão' in col.lower()]
            elif 'depression' in predictor_key.lower():
                matching_fields = [col for col in df.columns if 'depressão' in col.lower()]
            elif 'mobility' in predictor_key.lower():
                matching_fields = [col for col in df.columns if 'mobilidade' in col.lower()]
            
            # Adicionar campo se encontrado e tiver dados
            for field in matching_fields:
                if field in predictor_data.columns:
                    field_data = predictor_data[field].dropna()
                    if len(field_data) > 0:
                        available_predictors[category][predictor_key] = {
                            'name': predictor_name,
                            'field': field,
                            'data_points': len(field_data),
                            'unique_values': len(field_data.unique()),
                            'coverage_rate': round((len(field_data) / len(predictor_data)) * 100, 1)
                        }
                    break
    
    # CAMPOS REAIS DE UTILIZAÇÃO (identificados no REDCap)
    service_fields = {
        'scheduled_medical_visits': [col for col in df.columns if 'consulta' in col.lower() and 'programada' in col.lower()],
        'unscheduled_medical_visits': [col for col in df.columns if 'consulta' in col.lower() and 'não' in col.lower()],
        'emergency_visits': [col for col in df.columns if 'urgência' in col.lower()],
        'hospitalizations': [col for col in df.columns if 'internado' in col.lower()]
    }
    
    utilization_scores = {}
    participants_with_data = 0
    
    for _, participant in predictor_data.iterrows():
        participant_id = str(participant[id_field])
        if pd.isna(participant[id_field]):
            continue
            
        utilization_count = 0
        total_services = 0
        service_breakdown = {}
        
        for service_type, fields in service_fields.items():
            service_total = 0
            for field in fields:
                if field in participant.index and pd.notna(participant[field]):
                    try:
                        value = float(participant[field])
                        service_total += value
                        total_services += 1
                    except (ValueError, TypeError):
                        # Tentar mapear valores textuais
                        if str(participant[field]).lower() in ['sim', 'yes', '1']:
                            service_total += 1
                            total_services += 1
            
            service_breakdown[service_type] = service_total
            utilization_count += service_total
        
        if total_services > 0:
            participants_with_data += 1
            utilization_scores[participant_id] = {
                'total_utilization': utilization_count,
                'service_breakdown': service_breakdown,
                'risk_level': 'low'  # Será calculado abaixo
            }
    
    # Identificar altos utilizadores (algoritmo real)
    if utilization_scores:
        utilization_values = [data['total_utilization'] for data in utilization_scores.values()]
        
        if utilization_values:
            # Usar percentil 75 como threshold (método real)
            threshold = np.percentile(utilization_values, 75)
            mean_utilization = np.mean(utilization_values)
            
            high_utilizers = []
            
            for participant_id, data in utilization_scores.items():
                if data['total_utilization'] >= threshold:
                    data['risk_level'] = 'high'
                    high_utilizers.append(participant_id)
                elif data['total_utilization'] >= mean_utilization:
                    data['risk_level'] = 'medium'
                else:
                    data['risk_level'] = 'low'
    
    return {
        'utilization_scores': utilization_scores,
        'predictor_analysis': available_predictors,
        'high_utilizers': high_utilizers if 'high_utilizers' in locals() else [],
        'utilization_threshold': threshold if 'threshold' in locals() else 0,
        'participants_analyzed': participants_with_data,
        'service_fields_analyzed': service_fields,
        'data_summary': {
            'analysis_type': 'real_data_only',
            'participants_with_utilization': participants_with_data,
            'available_predictor_categories': len([cat for cat, data in available_predictors.items() if data])
        }
    }

# Executar análise
if df is not None:
    utilization_results = identify_utilization_predictors_rm4health_real(df, id_field)
    print(' Análise de utilização concluída!')
else:
    print(' Carregue os dados primeiro')

In [None]:
# === RESULTADOS: UTILIZAÇÃO DE SERVIÇOS ===

if 'utilization_results' in locals() and utilization_results:
    
    print(' === RESULTADOS UTILIZAÇÃO DE SERVIÇOS (DADOS REAIS) ===')
    
    # Estatísticas principais
    util_scores = utilization_results['utilization_scores']
    high_utilizers = utilization_results['high_utilizers']
    threshold = utilization_results['utilization_threshold']
    
    print(f"\n ESTATÍSTICAS GERAIS:")
    print(f"    Participantes analisados: {utilization_results['participants_analyzed']}")
    print(f"    Threshold altos utilizadores: {threshold:.1f}")
    print(f"    Altos utilizadores identificados: {len(high_utilizers)}")
    
    if util_scores:
        all_utilizations = [data['total_utilization'] for data in util_scores.values()]
        print(f"    Utilização média: {np.mean(all_utilizations):.1f}")
        print(f"    Utilização mínima: {min(all_utilizations)}")
        print(f"    Utilização máxima: {max(all_utilizations)}")
    
    # Preditores disponíveis
    predictors = utilization_results['predictor_analysis']
    print(f"\n PREDITORES ANALISADOS:")
    
    for category, pred_data in predictors.items():
        if pred_data:
            print(f"\n    {category.upper()}:")
            for predictor_key, details in pred_data.items():
                print(f"       {details['name']}: {details['data_points']} dados ({details['coverage_rate']}%)")
        else:
            print(f"\n    {category.upper()}: sem dados disponíveis")
    
    # Campos de serviços analisados
    service_fields = utilization_results['service_fields_analyzed']
    print(f"\n CAMPOS DE SERVIÇOS ANALISADOS:")
    
    for service_type, fields in service_fields.items():
        if fields:
            print(f"    {service_type}: {len(fields)} campos")
            for field in fields[:1]:  # Mostrar primeiro
                print(f"      - {field[:60]}...")
    
    # GRÁFICO 1: Distribuição de utilização
    if util_scores:
        print('\n === VISUALIZAÇÕES DE UTILIZAÇÃO ===')
        
        plt.figure(figsize=(15, 10))
        
        # Subplot 1: Histograma geral
        plt.subplot(2, 3, 1)
        plt.hist(all_utilizations, bins=min(15, len(set(all_utilizations))), 
                alpha=0.7, color='steelblue', edgecolor='black')
        plt.axvline(threshold, color='red', linestyle='--', 
                   label=f'Threshold Alto Utilizador: {threshold:.1f}')
        plt.axvline(np.mean(all_utilizations), color='orange', linestyle='--', 
                   label=f'Média: {np.mean(all_utilizations):.1f}')
        plt.title('Distribuição de Utilização Total')
        plt.xlabel('Total de Utilizações')
        plt.ylabel('Número de Participantes')
        plt.legend()
        
        # Subplot 2: Por nível de risco
        plt.subplot(2, 3, 2)
        risk_levels = [data['risk_level'] for data in util_scores.values()]
        risk_counts = Counter(risk_levels)
        
        colors_risk = {'low': 'green', 'medium': 'orange', 'high': 'red'}
        plt.bar(risk_counts.keys(), risk_counts.values(), 
                color=[colors_risk[level] for level in risk_counts.keys()], alpha=0.7)
        plt.title('Participantes por Nível de Risco')
        plt.ylabel('Número de Participantes')
        
        # Subplot 3: Utilização por tipo de serviço
        plt.subplot(2, 3, 3)
        service_totals = defaultdict(int)
        
        for data in util_scores.values():
            for service_type, count in data['service_breakdown'].items():
                service_totals[service_type] += count
        
        if service_totals:
            services = list(service_totals.keys())
            counts = list(service_totals.values())
            
            plt.bar(range(len(services)), counts, alpha=0.7, color='lightcoral')
            plt.title('Total por Tipo de Serviço')
            plt.xticks(range(len(services)), 
                      [s.replace('_', '\n') for s in services], rotation=45)
            plt.ylabel('Total de Utilizações')
        
        # Subplot 4: Box plot por risco
        plt.subplot(2, 3, 4)
        risk_utilizations = {}
        for level in ['low', 'medium', 'high']:
            level_data = [data['total_utilization'] for data in util_scores.values() 
                         if data['risk_level'] == level]
            if level_data:
                risk_utilizations[level] = level_data
        
        if risk_utilizations:
            plt.boxplot(risk_utilizations.values(), labels=risk_utilizations.keys())
            plt.title('Distribuição por Nível de Risco')
            plt.ylabel('Total de Utilizações')
        
        # Subplot 5: Top utilizadores
        plt.subplot(2, 3, 5)
        
        # Ordenar participantes por utilização
        sorted_participants = sorted(util_scores.items(), 
                                   key=lambda x: x[1]['total_utilization'], 
                                   reverse=True)
        
        top_10 = sorted_participants[:10]
        if top_10:
            participants_top = [f'P{i+1}' for i in range(len(top_10))]
            utilizations_top = [data['total_utilization'] for _, data in top_10]
            colors_top = ['red' if data['risk_level'] == 'high' else 
                         'orange' if data['risk_level'] == 'medium' else 'green' 
                         for _, data in top_10]
            
            plt.bar(participants_top, utilizations_top, color=colors_top, alpha=0.7)
            plt.title('Top 10 Utilizadores')
            plt.xlabel('Participantes')
            plt.ylabel('Total Utilizações')
            plt.xticks(rotation=45)
        
        # Subplot 6: Resumo estatístico
        plt.subplot(2, 3, 6)
        plt.axis('off')
        
        summary_text = f"""RESUMO UTILIZAÇÃO
        
Total analisados: {len(util_scores)}
Média utilização: {np.mean(all_utilizations):.1f}
Mediana: {np.median(all_utilizations):.1f}
Desvio padrão: {np.std(all_utilizations):.1f}

Alto risco: {risk_counts.get('high', 0)}
Médio risco: {risk_counts.get('medium', 0)}
Baixo risco: {risk_counts.get('low', 0)}

Algoritmo: data_processor.py
Fonte: REDCap Real
        """
        
        plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, 
                fontsize=10, verticalalignment='top',
                bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.8))
        
        plt.tight_layout()
        plt.show()

else:
    print(' Execute a célula anterior primeiro')

In [None]:
# === ANÁLISE DETALHADA DOS ALTOS UTILIZADORES ===

if 'utilization_results' in locals() and utilization_results['high_utilizers']:
    
    print(' === PERFIL DOS ALTOS UTILIZADORES ===')
    
    util_scores = utilization_results['utilization_scores']
    high_utilizers = utilization_results['high_utilizers']
    
    print(f"\n Total de altos utilizadores: {len(high_utilizers)}")
    
    # Detalhes por alto utilizador
    print('\n === DETALHES POR ALTO UTILIZADOR ===')
    
    for i, participant_id in enumerate(high_utilizers[:10]):
        data = util_scores[participant_id]
        
        print(f"\n{i+1:2}. Participante {participant_id}:")
        print(f"     Total utilizações: {data['total_utilization']}")
        print(f"     Nível de risco: {data['risk_level'].upper()}")
        print(f"     Breakdown por serviço:")
        
        for service_type, count in data['service_breakdown'].items():
            if count > 0:
                service_name = service_type.replace('_', ' ').title()
                print(f"       - {service_name}: {count}")
        
        if sum(data['service_breakdown'].values()) == 0:
            print(f"       - Nenhum serviço específico registrado")
    
    # Análise por tipo de serviço dos altos utilizadores
    print('\n === PADRÕES DE UTILIZAÇÃO (ALTOS UTILIZADORES) ===')
    
    high_util_services = defaultdict(list)
    
    for participant_id in high_utilizers:
        data = util_scores[participant_id]
        for service_type, count in data['service_breakdown'].items():
            high_util_services[service_type].append(count)
    
    for service_type, counts in high_util_services.items():
        if counts and any(c > 0 for c in counts):
            service_name = service_type.replace('_', ' ').title()
            avg_usage = np.mean([c for c in counts if c > 0])
            users_count = len([c for c in counts if c > 0])
            
            print(f"    {service_name}:")
            print(f"      - Média entre usuários: {avg_usage:.1f}")
            print(f"      - Altos utilizadores que usam: {users_count}/{len(high_utilizers)}")
    
    # Recomendações baseadas nos dados
    print('\n === RECOMENDAÇÕES BASEADAS NOS DADOS ===')
    
    total_participants = len(util_scores)
    high_util_rate = (len(high_utilizers) / total_participants) * 100
    
    print(f"\n {high_util_rate:.1f}% dos participantes são altos utilizadores")
    
    if high_util_rate > 25:
        print("    ALERTA: Taxa alta de utilização - considerar intervenções")
    elif high_util_rate > 15:
        print("    ATENÇÃO: Taxa moderada - monitorizar tendências")
    else:
        print("    OK: Taxa normal de altos utilizadores")
    
    # Serviço mais utilizado
    all_service_totals = defaultdict(int)
    for data in util_scores.values():
        for service_type, count in data['service_breakdown'].items():
            all_service_totals[service_type] += count
    
    if all_service_totals:
        most_used_service = max(all_service_totals, key=all_service_totals.get)
        most_used_count = all_service_totals[most_used_service]
        
        print(f"\n Serviço mais utilizado: {most_used_service.replace('_', ' ').title()}")
        print(f"    Total utilizações: {most_used_count}")
        
        if 'emergency' in most_used_service:
            print("    Sugestão: Avaliar causas de visitas ao SU - possível melhoria nos cuidados primários")
        elif 'unscheduled' in most_used_service:
            print("    Sugestão: Melhorar acesso a consultas programadas")
        elif 'hospitalization' in most_used_service:
            print("    Sugestão: Avaliar prevenção de hospitalizações através de cuidados ambulatórios")
    
    print('\n === ANÁLISE DE UTILIZAÇÃO COMPLETA (DADOS REAIS) ===')
    print(f" Baseada no algoritmo exato do data_processor.py")
    print(f" Usando campos reais do REDCap RM4Health")

elif 'utilization_results' in locals():
    print('ℹ  Nenhum alto utilizador identificado nos dados atuais')
else:
    print(' Execute as células anteriores primeiro')