 ## üè• Gera√ß√£o de Dados M√©dicos Fict√≠cios com Faker e Random

Este notebook demonstra como criar um **conjunto de dados m√©dicos fict√≠cios**
utilizando as bibliotecas **Faker** e **random**, ideal para testes,
an√°lises explorat√≥rias e demonstra√ß√µes sem expor informa√ß√µes reais.

### üìå Funcionalidades do c√≥digo:
- **Dados Pessoais**: Gera√ß√£o de nomes realistas em portugu√™s, idade, altura, peso e g√™nero.
- **Hist√≥rico M√©dico**: Cria√ß√£o de registros m√©dicos probabil√≠sticos, variando com a idade.
- **Consultas**: Datas de atendimento nos √∫ltimos 2 anos.
- **Avalia√ß√£o do Servi√ßo**: Notas aleat√≥rias de 0 a 10.
- **Sintomas e Tratamentos**: Sele√ß√£o de sintomas (ex.: *Resfriado*, *COVID-19*, *Tuberculose*),
  com resultados e tratamentos ajustados conforme a gravidade.

### üîß Bibliotecas Utilizadas:
- **pandas / numpy**: Estrutura√ß√£o e manipula√ß√£o dos dados gerados.
- **faker**: Gera√ß√£o de nomes, datas e textos realistas.
- **random**: Sorteio de n√∫meros, categorias e probabilidades.

> üí° **Uso pr√°tico**: Ideal para criar datasets fict√≠cios para treinamento de modelos,
prot√≥tipos de dashboards, testes de sistemas de sa√∫de ou estudos acad√™micos.

In [13]:
import pandas as pd
import numpy as np
from faker import Faker
import random

fake = Faker('pt_BR') # Usando Faker com localiza√ß√£o brasileira

def generate_medical_data(num_records):
    data = []
    for _ in range(num_records):
        name = fake.name()
        age = random.randint(18, 80)
        height = round(random.uniform(1.50, 1.90), 2)
        weight = round(random.uniform(50, 100), 2)
        gender = random.choice(['Masculino', 'Feminino', 'Outro', np.nan])

        # Hist√≥rico m√©dico mais prov√°vel com a idade
        medical_history = fake.sentence() if random.random() < (age / 100.0) + 0.1 else np.nan # Aumenta a probabilidade com a idade

        consultation_date = fake.date_between(start_date='-2y', end_date='today')
        service_rating = random.randint(0, 10) # Adicionando classifica√ß√£o do atendimento

        # Adiciona Sintomas e relaciona com Resultado e Tratamento
        symptoms = random.choice(['Resfriado', 'Infec√ß√£o de Garganta', 'COVID-19', 'Tuberculose'])
        outcome = 'Melhorou' # Resultado padr√£o
        treatment = 'Medica√ß√£o Comum (analg√©sicos/antit√©rmicos/antigripais.)' # Tratamento padr√£o
        severity = np.nan # Gravidade padr√£o

        # Determina tratamento e resultado com base nos sintomas e gravidade
        if symptoms == 'COVID-19' or symptoms == 'Tuberculose':
            severity = random.choice(['Leve', 'M√©dio', 'Grave'])
            if severity == 'Grave':
                treatment = 'Tratamento Intensivo'
                outcome = 'Encaminhado'
            elif severity == 'M√©dio':
                 treatment = random.choice(['Antibi√≥ticos Orais', 'Antibi√≥ticos Injet√°veis', 'Tratamento Intensivo'])
                 outcome = 'Encaminhado' if random.random() < 0.7 else random.choice(['Melhorou', 'N√£o Melhorou', 'Aguardando Resultado']) # Maior chance de encaminhado
            else: # Leve
                treatment = random.choice(['Medica√ß√£o Comum (analg√©sicos/antit√©rmicos/antigripais.)', 'Antibi√≥ticos Orais'])
                outcome = random.choice(['Melhorou', 'N√£o Melhorou', 'Aguardando Resultado'])

        elif symptoms == 'Infec√ß√£o de Garganta':
             treatment = random.choice(['Antibi√≥ticos Orais', 'Medica√ß√£o Comum (analg√©sicos/antit√©rmicos/antigripais.)'])
             outcome = random.choice(['Melhorou', 'N√£o Melhorou', 'Aguardando Resultado'])
        else: # Resfriado
             treatment = 'Medica√ß√£o Comum (analg√©sicos/antit√©rmicos/antigripais.)'
             outcome = random.choice(['Melhorou', 'N√£o Melhorou', 'Aguardando Resultado'])

        # Introduz uma pequena chance de melhor resultado com maior classifica√ß√£o de atendimento (menos impactante que fatores m√©dicos)
        if service_rating > 7 and outcome != 'Encaminhado' and random.random() < 0.2:
            outcome = 'Melhorou'


        # Introduzindo erros e inconsist√™ncias
        if random.random() < 0.05: # 5% de chance de idade incorreta
            age = random.choice([-10, 150, 'vinte e cinco'])
        if random.random() < 0.03: # 3% de chance de altura/peso incorreto
            height = random.choice([5.5, 0.80, 'alto'])
            weight = random.choice([200, 30, 'pesado'])
        if random.random() < 0.08: # 8% de chance de varia√ß√µes no nome
            name = name.upper() if random.random() < 0.5 else name.lower()
        if random.random() < 0.1: # 10% de chance de formatos de data diferentes
             consultation_date = consultation_date.strftime(random.choice(['%d/%m/%Y', '%Y-%m-%d', '%m-%d-%Y']))


        data.append([name, age, height, weight, gender, medical_history, consultation_date, outcome, service_rating, symptoms, severity, treatment])

    df = pd.DataFrame(data, columns=['Nome', 'Idade', 'Altura', 'Peso', 'G√™nero', 'Hist√≥rico M√©dico', 'Data da Consulta', 'Resultado', 'Classifica√ß√£o do Atendimento', 'Sintomas', 'Gravidade', 'Tratamento'])

    # Converte colunas para float para lidar com potenciais outliers float
    for col in ['Idade', 'Altura', 'Peso', 'Classifica√ß√£o do Atendimento']:
        # Converte para num√©rico, tratando erros como NaN, depois para float
        df[col] = pd.to_numeric(df[col], errors='coerce').astype(float)


    # Adiciona alguns outliers
    for _ in range(int(num_records * 0.01)): # 1% de outliers
        random_row = random.randint(0, num_records - 1)
        df.loc[random_row, random.choice(['Idade', 'Altura', 'Peso', 'Classifica√ß√£o do Atendimento'])] = random.choice([200.0, 0.5, 300.0, -5.0, 15.0]) # Garante que outliers s√£o floats


    # Adiciona alguns duplicados
    duplicate_rows = df.sample(frac=0.02) # 2% de duplicados
    df = pd.concat([df, duplicate_rows], ignore_index=True)

    return df

# Gera um conjunto de dados de exemplo
num_records = 10000 # Aumentado para 10000
medical_df = generate_medical_data(num_records)

display(medical_df.head())

Unnamed: 0,Nome,Idade,Altura,Peso,G√™nero,Hist√≥rico M√©dico,Data da Consulta,Resultado,Classifica√ß√£o do Atendimento,Sintomas,Gravidade,Tratamento
0,Sra. Maria Cec√≠lia Pimenta,34.0,1.7,95.02,Masculino,Repellendus necessitatibus architecto.,2025-04-20,Encaminhado,6.0,Tuberculose,Grave,Tratamento Intensivo
1,Maria Clara Sales,49.0,1.55,50.49,,Deleniti molestiae fugit nam aspernatur aut.,2024-05-12,Aguardando Resultado,9.0,Resfriado,,Medica√ß√£o Comum (analg√©sicos/antit√©rmicos/anti...
2,Elisa da Mota,50.0,1.81,86.86,Outro,Facilis dolorem ducimus veritatis perferendis ...,2024-10-27,Encaminhado,4.0,Tuberculose,M√©dio,Antibi√≥ticos Injet√°veis
3,Zoe Guerra,74.0,1.77,53.32,Feminino,Corrupti ab eveniet unde inventore.,2024-10-21,N√£o Melhorou,10.0,COVID-19,Leve,Antibi√≥ticos Orais
4,Rodrigo Nascimento,79.0,1.59,62.36,,Amet eaque sint rem quae error dolorem rerum.,2025-08-12,Aguardando Resultado,4.0,Resfriado,,Medica√ß√£o Comum (analg√©sicos/antit√©rmicos/anti...
