In [1]:
import pandas as pd
import numpy as np
import random

In [2]:
# Semilla para reproducibilidad
np.random.seed(42)

# Configuración
n_variantes = 200

In [3]:
# 1. Generar datos numéricos (Genómica)

# Variantes con mayor calidad tienden a ser más 'reales', pero mezclaremos un poco
calidad = np.random.normal(loc=60, scale=15, size=n_variantes).astype(int) # Escala Phred 0-100
profundidad = np.random.poisson(lam=30, size=n_variantes) # Depth of coverage

In [5]:
# 2. Generar texto para NLP (Simulando notas clínicas/biológicas)

# Palabras "malas" (indican patogenicidad)
palabras_bad = ["frameshift", "stop_gained", "pathogenic", "high_impact", "deleterious", "critical_region","risk","inestable"]
# Palabras "buenas" (indican benignidad)
palabras_good = ["synonymous", "intronic", "benign", "tolerated", "no_change", "common_variant","better","estable"]

anotaciones = []
clases = [] # 1 = Patogénica, 0 = Benigna

In [6]:
for _ in range(n_variantes):
    # Decidimos aleatoriamente si esta variante será 'mala' (1) o 'buena' (0)
    es_patogenica = random.choice([0, 1])
    
    if es_patogenica:
        # Construimos una frase con palabras 'malas'
        tokens = random.sample(palabras_bad, k=2) + ["variant", "found", "in", "patient"]
        random.shuffle(tokens)
        frase = " ".join(tokens)
        clases.append(1)
        # Hacemos trampa ligera: las patogénicas tendrán un poco más de profundidad promedio en este ejemplo
    else:
        # Construimos una frase con palabras 'buenas'
        tokens = random.sample(palabras_good, k=2) + ["variant", "observed", "population"]
        random.shuffle(tokens)
        frase = " ".join(tokens)
        clases.append(0)
    
    anotaciones.append(frase)

In [7]:
# 3. Crear el DataFrame
df = pd.DataFrame({
    'variant_id': [f'rs{i}' for i in range(1, n_variantes + 1)],
    'quality_phred': calidad,
    'read_depth': profundidad,
    'clinical_notes': anotaciones,
    'target_class': clases
})

In [8]:
# Guardar el CSV
df.to_csv('variantes_mock.csv', index=False)

print("Archivo 'variantes_mock.csv' generado con éxito.")
print(df.head())

Archivo 'variantes_mock.csv' generado con éxito.
  variant_id  quality_phred  read_depth  \
0        rs1             67          37   
1        rs2             57          33   
2        rs3             69          28   
3        rs4             82          30   
4        rs5             56          35   

                                   clinical_notes  target_class  
0  pathogenic found patient frameshift variant in             1  
1  intronic tolerated observed population variant             0  
2   variant patient critical_region in risk found             1  
3     benign observed intronic variant population             0  
4       variant risk found in stop_gained patient             1  
