# VCF to PyMutation Conversion


In [1]:
import sys
import os

# Añadir la ruta de VEP al PATH
vep_path = "../../../../ensembl-vep"
if vep_path not in os.environ["PATH"]:
    os.environ["PATH"] = vep_path + ":" + os.environ["PATH"]

print("PATH actualizado:", os.environ["PATH"])

# Configurar el directorio del proyecto
project_root = os.path.abspath(os.path.join(os.getcwd(), '..', '..', '..', 'src'))
if project_root not in sys.path:
    sys.path.append(project_root)

print('✅ PYTHONPATH configurado para incluir:', project_root)


PATH actualizado: ../../../../ensembl-vep:/home/luisruimore/anaconda3/envs/PyMutTFG/bin:/home/luisruimore/anaconda3/condabin:/home/luisruimore/.deno/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/snap/bin
✅ PYTHONPATH configurado para incluir: /home/luisruimore/Escritorio/TFG/src


## Importar la función read_vcf


In [2]:
from pyMut import read_vcf

print("✅ Función read_vcf importada correctamente")


✅ Función read_vcf importada correctamente


## Definir ruta del archivo subset de 250k


In [3]:
# Ruta al archivo VCF de subset de 50k variantes con anotaciones VEP
vcf_path = "../../../src/pyMut/data/examples/VCF/subset_50k_variants_vep_protein_gene_variant_class.vcf.gz"

print("📁 Archivo a procesar:")
print(f"  - 50k subset: {vcf_path}")

# Verificar que el archivo existe
if os.path.exists(vcf_path):
    print("✅ Archivo encontrado")
else:
    print("❌ Archivo no encontrado")


📁 Archivo a procesar:
  - 50k subset: ../../../src/pyMut/data/examples/VCF/subset_50k_variants_vep_protein_gene_variant_class.vcf.gz
✅ Archivo encontrado


## Leer archivo VCF de 50k con configuración optimizada

Usamos la configuración optimizada de pandas + PyArrow:


In [4]:
print("📖 Leyendo archivo subset de 50k variantes...")

try:
    # Leer con configuración optimizada (solo pandas + PyArrow)
    pymutation_obj = read_vcf(vcf_path, assembly="38")

    print("✅ Objeto PyMutation creado exitosamente")
    print(f"   Forma del DataFrame: {pymutation_obj.data.shape}")
    print(f"   Número de variantes: {len(pymutation_obj.data)}")
    print(f"   Número de columnas: {len(pymutation_obj.data.columns)}")

except Exception as e:
    print(f"❌ Error al leer el archivo: {e}")
    import traceback
    traceback.print_exc()



2025-07-30 22:48:18,892 | INFO | pyMut.input | Starting optimized VCF reading: ../../../src/pyMut/data/examples/VCF/subset_50k_variants_vep_protein_gene_variant_class.vcf.gz
2025-07-30 22:48:18,893 | INFO | pyMut.input | Loading from cache: ../../../src/pyMut/data/examples/VCF/.pymut_cache/subset_50k_variants_vep_protein_gene_variant_class.vcf_21e67d41779766b9.parquet


📖 Leyendo archivo subset de 50k variantes...


2025-07-30 22:48:21,211 | INFO | pyMut.input | Cache loaded successfully in 2.32 seconds


✅ Objeto PyMutation creado exitosamente
   Forma del DataFrame: (50000, 2601)
   Número de variantes: 50000
   Número de columnas: 2601


## Mostrar primeras filas del DataFrame


In [5]:
print("\n🔍 Primeras 3 filas del subset de 50k:")
pymutation_obj.head(3)



🔍 Primeras 3 filas del subset de 50k:


Unnamed: 0,CHROM,POS,ID,REF,ALT,QUAL,FILTER,HG00096,HG00097,HG00099,...,VEP_ENSP,VEP_SWISSPROT,VEP_TREMBL,VEP_UNIPARC,VEP_UNIPROT_ISOFORM,VEP_NEAREST,VEP_DOMAINS,Hugo_Symbol,Variant_Classification,Variant_Type
0,chr10,11501,.,C,A,.,PASS,C|A,C|C,C|C,...,,,,,,TUBB8,,TUBB8,INTRON,SNP
1,chr10,36097,.,G,A,.,PASS,G|A,A|G,G|G,...,,,,,,TUBB8,,TUBB8,INTRON,SNP
2,chr10,45900,.,C,T,.,PASS,C|C,C|C,C|C,...,ENSP00000456206,Q3ZCM7.157,,UPI000007238E,,TUBB8,,TUBB8,3'FLANK,SNP


## Mostrar lista de las columnas disponibles (sin samples)

La columna CSQ contiene las anotaciones de consecuencias de VEP (Variant Effect Predictor) con información sobre el impacto de las variantes en los genes.


In [6]:
# Mostrar las columnas disponibles en el DataFrame sin incluir los samples (PyMutation.samples)
print("\nColumnas disponibles (sin samples):")
columns = pymutation_obj.data.columns.tolist()
samples = pymutation_obj.samples

# Mostrar solo las columnas que no son samples
columns_without_samples = [col for col in columns if col not in samples]
print(columns_without_samples)



Columnas disponibles (sin samples):
['CHROM', 'POS', 'ID', 'REF', 'ALT', 'QUAL', 'FILTER', 'AC', 'AN', 'DP', 'AF', 'EAS_AF', 'EUR_AF', 'AFR_AF', 'AMR_AF', 'SAS_AF', 'VT', 'NS', 'EX_TARGET', 'VEP_Allele', 'VEP_Consequence', 'VEP_IMPACT', 'VEP_SYMBOL', 'VEP_Gene', 'VEP_Feature_type', 'VEP_Feature', 'VEP_BIOTYPE', 'VEP_EXON', 'VEP_INTRON', 'VEP_HGVSc', 'VEP_HGVSp', 'VEP_cDNA_position', 'VEP_CDS_position', 'VEP_Protein_position', 'VEP_Amino_acids', 'VEP_Codons', 'VEP_Existing_variation', 'VEP_DISTANCE', 'VEP_STRAND', 'VEP_FLAGS', 'VEP_VARIANT_CLASS', 'VEP_SYMBOL_SOURCE', 'VEP_HGNC_ID', 'VEP_ENSP', 'VEP_SWISSPROT', 'VEP_TREMBL', 'VEP_UNIPARC', 'VEP_UNIPROT_ISOFORM', 'VEP_NEAREST', 'VEP_DOMAINS', 'Hugo_Symbol', 'Variant_Classification', 'Variant_Type']


In [7]:
# Muestrame un dataframe solo con 'VEP_SYMBOL', 'VEP_Gene','VEP_NEAREST'
vep_columns = ['VEP_SYMBOL','VEP_NEAREST','Hugo_Symbol','VEP_Consequence', 'VEP_VARIANT_CLASS', 'Variant_Classification', 'Variant_Type']
vep_df = pymutation_obj.data[vep_columns]
print("\n🔍 DataFrame con columnas VEP:")
vep_df.head(1000)


🔍 DataFrame con columnas VEP:


Unnamed: 0,VEP_SYMBOL,VEP_NEAREST,Hugo_Symbol,VEP_Consequence,VEP_VARIANT_CLASS,Variant_Classification,Variant_Type
0,,TUBB8,TUBB8,intron_variant&non_coding_transcript_variant,SNV,INTRON,SNP
1,,TUBB8,TUBB8,intron_variant&non_coding_transcript_variant,SNV,INTRON,SNP
2,TUBB8,TUBB8,TUBB8,downstream_gene_variant,SNV,3'FLANK,SNP
3,TUBB8,TUBB8,TUBB8,3_prime_UTR_variant,deletion,3'UTR_DEL,DEL
4,TUBB8,TUBB8,TUBB8,inframe_deletion,deletion,RNA_DEL,DEL
...,...,...,...,...,...,...,...
995,IL9RP2,TUBB8,IL9RP2,upstream_gene_variant,SNV,5'FLANK,SNP
996,IL9RP2,TUBB8,IL9RP2,upstream_gene_variant,SNV,5'FLANK,SNP
997,IL9RP2,TUBB8,IL9RP2,upstream_gene_variant,SNV,5'FLANK,SNP
998,IL9RP2,TUBB8,IL9RP2,upstream_gene_variant,SNV,5'FLANK,SNP


In [8]:
# Mira los diferentes valores de 'Hugo_Symbol'
print("\nValores únicos de 'Hugo_Symbol':")
unique_hugo_symbols = vep_df['Hugo_Symbol'].unique()
print(unique_hugo_symbols)


Valores únicos de 'Hugo_Symbol':
['TUBB8' 'IL9RP2' 'ZMYND11' 'DIP2C' 'LARP4B' 'LARP4B-DT' 'GTPBP4' 'IDI2'
 'IDI2-AS1' 'IDI1' 'WDR37' 'ADARB2' 'LINC00200']
