# VCF to PyMutation Conversion


In [1]:
import sys
import os

# Configurar el directorio del proyecto
project_root = os.path.abspath(os.path.join(os.getcwd(), '..', '..', '..', 'src'))
if project_root not in sys.path:
    sys.path.append(project_root)

print('✅ PYTHONPATH configurado para incluir:', project_root)


✅ PYTHONPATH configurado para incluir: /home/luisruimore/Escritorio/TFG/src


## Importar la función read_vcf


In [2]:
from pyMut import read_vcf

print("✅ Función read_vcf importada correctamente")


✅ Función read_vcf importada correctamente


## Definir ruta del archivo subset de 250k


In [3]:
# Ruta al archivo VCF de subset de 50k variantes con anotaciones VEP
vcf_path = "../../../subset_50k_variants.vep_gene_annotation.vcf"

print("📁 Archivo a procesar:")
print(f"  - 50k subset: {vcf_path}")

# Verificar que el archivo existe
if os.path.exists(vcf_path):
    print("✅ Archivo encontrado")
else:
    print("❌ Archivo no encontrado")


📁 Archivo a procesar:
  - 50k subset: ../../../subset_50k_variants.vep_gene_annotation.vcf
✅ Archivo encontrado


## Leer archivo VCF de 50k con configuración optimizada

Usamos la configuración optimizada de pandas + PyArrow:


In [4]:
print("📖 Leyendo archivo subset de 50k variantes...")

try:
    # Leer con configuración optimizada (solo pandas + PyArrow)
    pymutation_obj = read_vcf(vcf_path)

    print("✅ Objeto PyMutation creado exitosamente")
    print(f"   Forma del DataFrame: {pymutation_obj.data.shape}")
    print(f"   Número de variantes: {len(pymutation_obj.data)}")
    print(f"   Número de columnas: {len(pymutation_obj.data.columns)}")

except Exception as e:
    print(f"❌ Error al leer el archivo: {e}")
    import traceback
    traceback.print_exc()



2025-07-18 15:49:20,543 | INFO | pyMut.input | Starting optimized VCF reading: ../../../subset_50k_variants.vep_gene_annotation.vcf
2025-07-18 15:49:20,544 | INFO | pyMut.input | SYSTEM CONFIGURATION
2025-07-18 15:49:20,545 | INFO | pyMut.input | CPU: 12 cores available
2025-07-18 15:49:20,546 | INFO | pyMut.input | MEMORY:
2025-07-18 15:49:20,546 | INFO | pyMut.input |   Total: 31.26 GB
2025-07-18 15:49:20,547 | INFO | pyMut.input |   Available: 18.14 GB
2025-07-18 15:49:20,547 | INFO | pyMut.input |   Used: 12.46 GB (42.0%)
2025-07-18 15:49:20,547 | INFO | pyMut.input | DISK (current directory):
2025-07-18 15:49:20,548 | INFO | pyMut.input |   Total: 409.14 GB
2025-07-18 15:49:20,548 | INFO | pyMut.input |   Free: 156.64 GB
2025-07-18 15:49:20,548 | INFO | pyMut.input |   Used: 231.65 GB (56.6%)
2025-07-18 15:49:20,549 | INFO | pyMut.input | AVAILABLE LIBRARIES:
2025-07-18 15:49:20,549 | INFO | pyMut.input |   PyArrow: ✓
2025-07-18 15:49:20,549 | INFO | pyMut.input |   cyvcf2: ✓
2025

📖 Leyendo archivo subset de 50k variantes...


2025-07-18 15:49:38,477 | INFO | pyMut.input | Pandas reading completed.
2025-07-18 15:49:38,504 | INFO | pyMut.input | Expanding INFO column with vectorized operations...
2025-07-18 15:49:39,090 | INFO | pyMut.input | Expanding VEP CSQ annotations into individual columns...
2025-07-18 15:49:39,580 | INFO | pyMut.input | CSQ expanded into 23 VEP annotation columns in 0.49 s
2025-07-18 15:49:39,580 | INFO | pyMut.input | Detected 2555 sample columns. Starting vectorized genotype conversion...
2025-07-18 15:52:00,015 | INFO | pyMut.input | GT conversion: 140.43 s
2025-07-18 15:52:01,687 | INFO | pyMut.input | Saving to cache: ../../../.pymut_cache/subset_50k_variants.vep_gene_annotation_e0e4d99b05b85f8e.parquet
2025-07-18 15:52:09,044 | INFO | pyMut.input | VCF processed successfully: 50000 rows, 2591 columns in 168.50 seconds


✅ Objeto PyMutation creado exitosamente
   Forma del DataFrame: (50000, 2591)
   Número de variantes: 50000
   Número de columnas: 2591


## Mostrar primeras filas del DataFrame


In [5]:
print("\n🔍 Primeras 3 filas del subset de 50k:")
pymutation_obj.head(3)



🔍 Primeras 3 filas del subset de 50k:


Unnamed: 0,CHROM,POS,ID,REF,ALT,QUAL,FILTER,HG00096,HG00097,HG00099,...,VEP_CDS_position,VEP_Protein_position,VEP_Amino_acids,VEP_Codons,VEP_Existing_variation,VEP_DISTANCE,VEP_STRAND,VEP_FLAGS,VEP_SYMBOL_SOURCE,VEP_HGNC_ID
0,chr10,11501,.,C,A,.,PASS,C|A,C|C,C|C,...,,,,,,,1,,,
1,chr10,36097,.,G,A,.,PASS,G|A,A|G,G|G,...,,,,,,,1,,,
2,chr10,45900,.,C,T,.,PASS,C|C,C|C,C|C,...,,,,,,988.0,-1,,HGNC,HGNC:20773


## Mostrar lista de las columnas disponibles (sin samples)

La columna CSQ contiene las anotaciones de consecuencias de VEP (Variant Effect Predictor) con información sobre el impacto de las variantes en los genes.


In [14]:
# Mostrar las columnas disponibles en el DataFrame sin incluir los samples (PyMutation.samples)
print("\nColumnas disponibles (sin samples):")
columns = pymutation_obj.data.columns.tolist()
samples = pymutation_obj.samples

# Mostrar solo las columnas que no son samples
columns_without_samples = [col for col in columns if col not in samples]
print(columns_without_samples)



Columnas disponibles (sin samples):
['CHROM', 'POS', 'ID', 'REF', 'ALT', 'QUAL', 'FILTER', 'FORMAT', 'AC', 'AN', 'DP', 'AF', 'AFR_AF', 'VEP_Allele', 'VEP_Consequence', 'VEP_IMPACT', 'VEP_SYMBOL', 'VEP_Gene', 'VEP_Feature_type', 'VEP_Feature', 'VEP_BIOTYPE', 'VEP_EXON', 'VEP_INTRON', 'VEP_HGVSc', 'VEP_HGVSp', 'VEP_cDNA_position', 'VEP_CDS_position', 'VEP_Protein_position', 'VEP_Amino_acids', 'VEP_Codons', 'VEP_Existing_variation', 'VEP_DISTANCE', 'VEP_STRAND', 'VEP_FLAGS', 'VEP_SYMBOL_SOURCE', 'VEP_HGNC_ID']
