# Criar Database:

### Prompt para criar base de dados:

Você é um especialista na área de [área/tema, ex: saúde, finanças, marketing] que entende profundamente as principais variáveis que influenciam [problema alvo, ex: diagnóstico de diabetes, churn de clientes, classificação de fraudes].

Sua tarefa é gerar uma base de dados artificial, em formato tabular (CSV), que reflita padrões realistas e inclua variáveis relevantes para a previsão de [alvo].  
A base deve conter [número] registros e apresentar:  

1. **Colunas com variáveis explicativas (features)** coerentes com o domínio.  
2. **Coluna alvo (target)** indicando a classe a ser prevista.  
3. **Distribuição de classes balanceada ou levemente desbalanceada** (como na vida real).  
4. **Ruído nos dados** (valores faltantes, pequenas inconsistências ou variações) para simular cenários reais.  
5. **Valores em formatos variados** (numéricos, categóricos e/ou textuais, conforme o problema).  

Entregue o resultado como uma tabela pronta para ser exportada em CSV.  


In [None]:
# Manipulação e Geração de Dados
import pandas as pd
import numpy as np
import random

n_samples = 10000

# Gêneros possíveis
genders = ['Masculino', 'Feminino']

# Classes alvo possíveis
targets = ['Diabetes Tipo 1', 'Diabetes Tipo 2', 'Pré-diabetes', 'Não diabético']

# Função para gerar amostra com ruídos naturais e sem restrição por classe
def gerar_amostra_realista():
    idade = np.random.randint(10, 90)
    genero = random.choice(genders)

    imc = round(np.random.normal(loc=25, scale=6), 1)
    glicemia = np.random.randint(60, 300)
    hba1c = round(np.random.normal(loc=6.0, scale=1.2), 1)
    insulina = round(np.random.uniform(2, 30), 1)
    atividade = np.random.randint(0, 10)
    historico = np.random.choice([0, 1], p=[0.7, 0.3])
    pressao = np.random.randint(90, 180)
    colesterol = np.random.randint(120, 280)
    triglicerideos = np.random.randint(50, 300)

    # Adicionando variabilidade na rotulagem
    if glicemia > 250 or hba1c > 10:
        classe = 'Diabetes Tipo 1'
    elif hba1c >= 6.5 and glicemia > 125:
        classe = 'Diabetes Tipo 2'
    elif 100 <= glicemia <= 125 or (5.7 <= hba1c < 6.5):
        classe = 'Pré-diabetes'
    else:
        classe = 'Não diabético'

    # Introduzir um ruído de rotulagem para simular erros de diagnóstico
    if np.random.rand() < 0.1:
        classe = random.choice(targets)

    return [
        idade, genero, imc, glicemia, hba1c, insulina, atividade,
        historico, pressao, colesterol, triglicerideos, classe
    ]

# Gerar base de dados
dados = [gerar_amostra_realista() for _ in range(n_samples)]

# Nome das colunas
colunas = [
    'idade', 'genero', 'imc', 'glicemia', 'hba1c', 'insulina',
    'atividade_fisica', 'historico_familiar', 'pressao_arterial',
    'colesterol_total', 'triglicerideos', 'diagnostico'
]

df = pd.DataFrame(dados, columns=colunas)

# Exportar CSV
caminho_csv = "dataset_clinico_realista.csv"
df.to_csv(caminho_csv)

caminho_csv


'dataset_clinico_realista_teste.csv'