# VEP Annotation Merge Demo

Este notebook demuestra el uso del módulo `merge_vep_annotation.py` de pyMut para fusionar anotaciones VEP con datos MAF.

## Descripción del módulo

El módulo `merge_vep_annotation` permite combinar las anotaciones generadas por VEP (Variant Effect Predictor) con archivos MAF (Mutation Annotation Format), enriqueciendo los datos de mutaciones con información detallada sobre consecuencias funcionales, dominios proteicos, y otros metadatos importantes.


## 1. Importar librerías y configurar el entorno


In [1]:
import sys
import os

sys.path.insert(0, '../src')

# Importar la función específica
from pyMut.utils.merge_vep_annotation import merge_maf_with_vep_annotations

print("=== TEST: merge_maf_with_vep_annotations ===")

try:
    maf_file = "../src/pyMut/data/examples/tcga_laml.maf.gz"
    vep_file = "../src/pyMut/data/examples/annVEP_tcga_laml/tcga_laml_vep.txt"
    # output_file = "merged_maf_with_vep.tsv.gz"


    print(f"Archivo MAF: {maf_file}")
    print(f"Archivo VEP: {vep_file}")

    # Verificar que los archivos existen
    if not os.path.exists(maf_file):
        print(f"✗ Error: No se encuentra el archivo MAF: {maf_file}")
    elif not os.path.exists(vep_file):
        print(f"✗ Error: No se encuentra el archivo VEP: {vep_file}")
    else:
        print("✓ Archivos de entrada encontrados")

        # Ejecutar la función de merge
        print("\nEjecutando merge_maf_with_vep_annotations...")
        result_df, output_path = merge_maf_with_vep_annotations(
            maf_file=maf_file,
            vep_file=vep_file
        )

        print(f"✓ Merge completado exitosamente!")
        print(f"✓ Archivo de salida generado: {output_path}")
        print(f"✓ Número de mutaciones procesadas: {len(result_df)}")
        print(f"✓ Número de columnas en el resultado: {len(result_df.columns)}")

        # Ejecutar la funcion de merge con compresión
        print(f"\n=== Demostrando compresión ===")
        result_df_compressed, output_path_compressed = merge_maf_with_vep_annotations(
            maf_file=maf_file,
            vep_file=vep_file,
            compress=True
        )

        print(f"✓ Archivo comprimido generado: {output_path_compressed}")
except Exception as e:
    print(f"✗ Error durante el test: {e}")
    import traceback

    traceback.print_exc()


2025-07-10 12:56:31,449 | INFO | pyMut.utils.merge_vep_annotation | Reading MAF file: ../src/pyMut/data/examples/tcga_laml.maf.gz
2025-07-10 12:56:31,457 | INFO | pyMut.utils.merge_vep_annotation | MAF file loaded: 2207 rows, 17 columns
2025-07-10 12:56:31,457 | INFO | pyMut.utils.merge_vep_annotation | Reading VEP file: ../src/pyMut/data/examples/annVEP_tcga_laml/tcga_laml_vep.txt
2025-07-10 12:56:31,462 | INFO | pyMut.utils.merge_vep_annotation | VEP file loaded: 1619 rows, 14 columns
2025-07-10 12:56:31,463 | INFO | pyMut.utils.merge_vep_annotation | Creating region keys for MAF data...
2025-07-10 12:56:31,482 | INFO | pyMut.utils.merge_vep_annotation | Parsing VEP Extra column...
2025-07-10 12:56:31,491 | INFO | pyMut.utils.merge_vep_annotation | Filtered to 1422 meaningful annotations
2025-07-10 12:56:31,491 | INFO | pyMut.utils.merge_vep_annotation | Performing optimized merge with DuckDB...
2025-07-10 12:56:31,549 | INFO | pyMut.utils.merge_vep_annotation | Merge completed: 2431

=== TEST: merge_maf_with_vep_annotations ===
Archivo MAF: ../src/pyMut/data/examples/tcga_laml.maf.gz
Archivo VEP: ../src/pyMut/data/examples/annVEP_tcga_laml/tcga_laml_vep.txt
✓ Archivos de entrada encontrados

Ejecutando merge_maf_with_vep_annotations...
✓ Merge completado exitosamente!
✓ Archivo de salida generado: ../src/pyMut/data/examples/tcga_laml_VEP_annotated.maf
✓ Número de mutaciones procesadas: 2431
✓ Número de columnas en el resultado: 39

=== Demostrando compresión ===


2025-07-10 12:56:31,665 | INFO | pyMut.utils.merge_vep_annotation | Merge completed: 2431 rows, 39 columns
2025-07-10 12:56:31,666 | INFO | pyMut.utils.merge_vep_annotation | Saving annotated file to: ../src/pyMut/data/examples/tcga_laml_VEP_annotated.maf.gz


✓ Archivo comprimido generado: ../src/pyMut/data/examples/tcga_laml_VEP_annotated.maf.gz
