# Prueba del método read_vcf con subset de 50k


In [None]:
import sys
import os

# Configurar el directorio del proyecto
project_root = os.path.abspath(os.path.join(os.getcwd(), '..', 'src'))
if project_root not in sys.path:
    sys.path.append(project_root)

print('✅ PYTHONPATH configurado para incluir:', project_root)


## Importar la función read_vcf


In [2]:
from pyMut import read_vcf

print("✅ Función read_vcf importada correctamente")


✅ Función read_vcf importada correctamente


## Definir ruta del archivo subset de 250k


In [3]:
# Ruta al archivo VCF de subset de 250k variantes
vcf_path = "../src/pyMut/data/subsets/subset_50k_variants.vcf"

print("📁 Archivo a procesar:")
print(f"  - 50k subset: {vcf_path}")

# Verificar que el archivo existe
if os.path.exists(vcf_path):
    print("✅ Archivo encontrado")
else:
    print("❌ Archivo no encontrado")


📁 Archivo a procesar:
  - 50k subset: ../src/pyMut/data/subsets/subset_50k_variants.vcf
✅ Archivo encontrado


## Leer archivo VCF de 50k con configuración optimizada

Usamos la configuración optimizada de pandas + PyArrow:


In [4]:
print("📖 Leyendo archivo subset de 50k variantes...")

try:
    # Leer con configuración optimizada (solo pandas + PyArrow)
    pymutation_obj = read_vcf(vcf_path)

    print("✅ Objeto PyMutation creado exitosamente")
    print(f"   Forma del DataFrame: {pymutation_obj.data.shape}")
    print(f"   Número de variantes: {len(pymutation_obj.data)}")
    print(f"   Número de columnas: {len(pymutation_obj.data.columns)}")

except Exception as e:
    print(f"❌ Error al leer el archivo: {e}")
    import traceback
    traceback.print_exc()



2025-07-07 12:01:23,351 | INFO | pyMut.input | Starting optimized VCF reading: ../src/pyMut/data/subsets/subset_50k_variants.vcf
2025-07-07 12:01:23,352 | INFO | pyMut.input | SYSTEM CONFIGURATION
2025-07-07 12:01:23,353 | INFO | pyMut.input | CPU: 12 cores available
2025-07-07 12:01:23,354 | INFO | pyMut.input | MEMORY:
2025-07-07 12:01:23,354 | INFO | pyMut.input |   Total: 31.26 GB
2025-07-07 12:01:23,354 | INFO | pyMut.input |   Available: 22.11 GB
2025-07-07 12:01:23,354 | INFO | pyMut.input |   Used: 8.63 GB (29.3%)
2025-07-07 12:01:23,355 | INFO | pyMut.input | DISK (current directory):
2025-07-07 12:01:23,355 | INFO | pyMut.input |   Total: 409.14 GB
2025-07-07 12:01:23,355 | INFO | pyMut.input |   Free: 284.40 GB
2025-07-07 12:01:23,355 | INFO | pyMut.input |   Used: 103.89 GB (25.4%)
2025-07-07 12:01:23,355 | INFO | pyMut.input | AVAILABLE LIBRARIES:
2025-07-07 12:01:23,356 | INFO | pyMut.input |   PyArrow: ✓
2025-07-07 12:01:23,356 | INFO | pyMut.input |   cyvcf2: ✓
2025-07-

📖 Leyendo archivo subset de 50k variantes...


2025-07-07 12:01:36,741 | INFO | pyMut.input | Pandas reading completed.
2025-07-07 12:01:36,793 | INFO | pyMut.input | Expanding INFO column with vectorized operations...
2025-07-07 12:01:37,334 | INFO | pyMut.input | Detected 2555 sample columns. Starting vectorized genotype conversion...
2025-07-07 12:03:57,720 | INFO | pyMut.input | GT conversion: 140.39 s
2025-07-07 12:03:59,332 | INFO | pyMut.input | Saving to cache: ../src/pyMut/data/subsets/.pymut_cache/subset_50k_variants_4af024cc2f46c45a.parquet
2025-07-07 12:04:06,944 | INFO | pyMut.input | VCF processed successfully: 50000 rows, 2569 columns in 163.59 seconds


✅ Objeto PyMutation creado exitosamente
   Forma del DataFrame: (50000, 2569)
   Número de variantes: 50000
   Número de columnas: 2569


## Mostrar primeras filas del DataFrame


In [6]:
print("\n🔍 Primeras 3 filas del subset de 50k:")
pymutation_obj.head(3)



🔍 Primeras 3 filas del subset de 50k:


Unnamed: 0,CHROM,POS,ID,REF,ALT,QUAL,FILTER,HG00096,HG00097,HG00099,...,VT,NS,EX_TARGET,INFO,FORMAT,AC,AN,DP,AF,AFR_AF
0,chr10,11501,.,C,A,.,PASS,C|A,C|C,C|C,...,.,.,.,AC=286;AN=5096;DP=20462;AF=0.06;EAS_AF=0;EUR_A...,GT,286,5096,20462,0.06,0.08
1,chr10,36097,.,G,A,.,PASS,G|A,A|G,G|G,...,.,.,.,AC=992;AN=5096;DP=18607;AF=0.19;EAS_AF=0.26;EU...,GT,992,5096,18607,0.19,0.18
2,chr10,45900,.,C,T,.,PASS,C|C,C|C,C|C,...,.,.,.,AC=2;AN=5096;DP=19215;AF=0;EAS_AF=0;EUR_AF=0;A...,GT,2,5096,19215,0.0,0.0
