# Criação de uma base de dados sintetica para validação de modelos

**Bloco 1: Importação das bibliotecas e configuração inicial**

Este bloco importa todas as bibliotecas necessárias e configura alguns parâmetros iniciais, como o número de pacientes e as probabilidades para a localização do tumor.

In [3]:
# Importação das bibliotecas necessárias
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score, roc_curve, precision_recall_curve, average_precision_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# Configuração inicial
num_patients = 196

**Bloco 2: Geração da base de dados fictícia**

Neste bloco, geramos as variáveis demográficas, clínicas e tumorais dos pacientes. Utilizamos distribuições que simulam dados realistas para cada variável e salvamos tudo em um dicionário chamado data.

In [4]:
# Probabilidades para cada local primário do tumor (Primary tumor site)
# A soma das probabilidades deve ser exatamente 1 para garantir consistência nas escolhas
primary_tumor_site_probabilities = [0.062, 0.052, 0.3, 0.02, 0.15, 0.05, 0.12, 0.114, 0.022, 0.11]
print("Soma das probabilidades de Primary tumor site:", sum(primary_tumor_site_probabilities))

# Geração da base de dados fictícia

# Criação de um dicionário que define cada variável da base de dados (colunas)
# Cada chave representa o nome de uma coluna, e o valor é uma lista gerada aleatoriamente com base nas especificações
data = {
    # Dados demográficos
    "Age (years)": np.random.normal(loc=65, scale=10, size=num_patients).astype(int),  # Idade dos pacientes
    "Gender": np.random.choice(["Female", "Male"], size=num_patients, p=[0.449, 0.551]),  # Gênero
    "Race": np.random.choice(["White", "Black", "Other"], size=num_patients, p=[0.77, 0.09, 0.14]),  # Raça
    "Hispanic": np.random.choice(["No", "Yes"], size=num_patients, p=[0.92, 0.08]),  # Origem hispânica
    "Marital status": np.random.choice(["Married", "Single", "Unknown"], size=num_patients, p=[0.41, 0.53, 0.06]),  # Estado civil

    # Dados sobre o tumor
    "Histological type": np.random.choice(["Adenocarcinoma", "Mucinous", "Signet ring cell carcinoma"], size=num_patients, p=[0.83, 0.14, 0.03]),  # Tipo histológico
    "Grade": np.random.choice(["Grade I", "Grade II", "Grade III", "Grade IV", "Unknown"], size=num_patients, p=[0.133, 0.725, 0.122, 0.015, 0.005]),  # Grau do tumor
    "Primary tumor site": np.random.choice(
        ["Cecum", "Appendix", "Ascending colon", "Hepatic flexure of colon", "Transverse colon",
         "Splenic flexure of colon", "Descending colon", "Sigmoid colon", "Rectum", "Overlapping lesion of colon"],
        size=num_patients,
        p=primary_tumor_site_probabilities
    ),  # Localização primária do tumor
    "T stage": np.random.choice(["T1", "T2", "T3", "T4", "TX"], size=num_patients, p=[0.031, 0.087, 0.658, 0.224, 0.0]),  # Estágio T
    "N stage": np.random.choice(["N0", "N1", "N2", "NX"], size=num_patients, p=[0.571, 0.286, 0.143, 0.0]),  # Estágio N

    # Tamanho do tumor e outras características clínicas
    "Tumor size (cm)": np.where(
        np.random.rand(num_patients) < 0.505,  # 50.5% dos tumores serão <5 cm
        np.random.normal(loc=3, scale=1, size=num_patients),  # Tamanho médio de 3 cm para tumores <5 cm
        np.where(
            np.random.rand(num_patients) < 0.342 / (1 - 0.505),  # 34.2% dos tumores restantes são >=5 cm
            np.random.normal(loc=7, scale=1.5, size=num_patients),  # Tamanho médio de 7 cm para tumores >=5 cm
            np.nan  # 16.2% dos tumores são "Unknown" (valores NaN)
        )
    ).round(2),  # Arredonda o tamanho do tumor para 2 casas decimais

    "CEA": np.random.choice(["Negative", "Borderline", "Positive", "Unknown"], size=num_patients, p=[0.536, 0.0, 0.296, 0.168]),  # Nível de CEA
    "Tumor deposits": np.random.choice(["No", "Yes", "Unknown"], size=num_patients, p=[0.91, 0.09, 0.0]),  # Depósitos tumorais
    "Liver and/or lung metastasis": np.random.choice(["No", "Yes"], size=num_patients, p=[0.825, 0.175])  # Metástase em fígado/pulmão
}

Soma das probabilidades de Primary tumor site: 1.0


**Bloco 3: Criação e salvamento do DataFrame**

Este bloco converte o dicionário data em um DataFrame do Pandas, facilitando a manipulação dos dados. Em seguida, salva o DataFrame como um arquivo CSV, que pode ser baixado do Google Colab para uso posterior.

In [5]:
# Criação e salvamento do DataFrame

# Converte o dicionário 'data' em um DataFrame do Pandas para manipulação de dados estruturada
df = pd.DataFrame(data)

# Salva o DataFrame em um arquivo CSV no Google Colab
# O arquivo é salvo no diretório '/content/' com o nome 'bdsintetico.csv'
df.to_csv('/content/bdsintetico.csv', index=False)
print("Arquivo CSV salvo como 'bdsintetico.csv'")


Arquivo CSV salvo como 'bdsintetico.csv'
