# Demostraci√≥n del An√°lisis de Carga Mutacional (TMB)

Este notebook demuestra c√≥mo utilizar el m√©todo `calculate_tmb_analysis` de PyMutation para calcular la Carga Mutacional Tumoral (TMB) y generar los archivos de an√°lisis correspondientes.

## ¬øQu√© es TMB?
La Carga Mutacional Tumoral (TMB) es una medida del n√∫mero de mutaciones presentes en un tumor, normalizada por el tama√±o del genoma interrogado. Es un biomarcador importante en oncolog√≠a.


## Configuraci√≥n Inicial


In [1]:
import sys
import os

# Configurar el path para importar pyMut
project_root = os.path.abspath('../../src')
if project_root not in sys.path:
    sys.path.append(project_root)

print('‚úÖ PYTHONPATH configurado para incluir:', project_root)


‚úÖ PYTHONPATH configurado para incluir: /home/luisruimore/Escritorio/TFG/src


In [2]:
# Importar PyMutation y cargar datos
from pyMut.input import read_maf
from pyMut.analysis.mutation_burden import add_tmb_method_to_pymutation

# Asegurar que el m√©todo TMB est√© disponible
add_tmb_method_to_pymutation()

print('‚úÖ M√≥dulos importados correctamente')


‚úÖ M√≥dulos importados correctamente


## Cargar Datos de Ejemplo


In [3]:
# Cargar el archivo MAF de ejemplo
maf_path = os.path.join(project_root, 'pyMut', 'data', 'examples', 'tcga_laml.maf.gz')

print(f'üìÇ Cargando archivo: {maf_path}')
py_mutation = read_maf(maf_path)

print(f"‚úÖ Datos cargados exitosamente")
print(f"üìä Forma de los datos: {py_mutation.data.shape}")
print(f"üë• N√∫mero de muestras: {len(py_mutation.samples)}")
print(f"üß¨ Primeras 3 muestras: {py_mutation.samples[:3]}")


2025-07-10 22:56:42,618 | INFO | pyMut.input | Starting MAF reading: /home/luisruimore/Escritorio/TFG/src/pyMut/data/examples/tcga_laml.maf.gz
2025-07-10 22:56:42,619 | INFO | pyMut.input | Loading from cache: /home/luisruimore/Escritorio/TFG/src/pyMut/data/examples/.pymut_cache/tcga_laml.maf_1d12b7270b4f7707.parquet
2025-07-10 22:56:42,655 | INFO | pyMut.input | Cache loaded successfully in 0.04 seconds


üìÇ Cargando archivo: /home/luisruimore/Escritorio/TFG/src/pyMut/data/examples/tcga_laml.maf.gz
‚úÖ Datos cargados exitosamente
üìä Forma de los datos: (2207, 216)
üë• N√∫mero de muestras: 193
üß¨ Primeras 3 muestras: ['TCGA-AB-2988', 'TCGA-AB-2869', 'TCGA-AB-3009']


## Explorar las Columnas de Clasificaci√≥n de Variantes

Antes de ejecutar el an√°lisis TMB, veamos qu√© columnas de clasificaci√≥n de variantes est√°n disponibles:


In [4]:
# Buscar columnas de clasificaci√≥n de variantes
import re

pattern = re.compile(r'^(gencode_\d+_)?variant[_]?classification$', flags=re.IGNORECASE)
variant_cols = [col for col in py_mutation.data.columns if pattern.match(col)]

print("üîç Columnas de clasificaci√≥n de variantes encontradas:")
if variant_cols:
    for i, col in enumerate(variant_cols, 1):
        print(f"  {i}. {col}")
else:
    print("  ‚ùå No se encontraron columnas de clasificaci√≥n de variantes")

# Mostrar algunas columnas que contienen 'variant' en el nombre
variant_like_cols = [col for col in py_mutation.data.columns if 'variant' in col.lower()]
print(f"\nüîç Columnas que contienen 'variant' ({len(variant_like_cols)}):")
for col in variant_like_cols[:5]:  # Mostrar solo las primeras 5
    print(f"  ‚Ä¢ {col}")


üîç Columnas de clasificaci√≥n de variantes encontradas:
  1. Variant_Classification

üîç Columnas que contienen 'variant' (2):
  ‚Ä¢ Variant_Classification
  ‚Ä¢ Variant_Type


## Ejecutar An√°lisis TMB

Ahora ejecutaremos el an√°lisis de carga mutacional. El m√©todo generar√° dos archivos:
1. **TMB_analysis.tsv**: An√°lisis por muestra con conteos de mutaciones y TMB normalizado
2. **TMB_statistics.tsv**: Estad√≠sticas globales (media, mediana, cuartiles, etc.)


In [5]:
# Crear directorio para los resultados
output_dir = "results_tmb"
os.makedirs(output_dir, exist_ok=True)

print(f"üìÅ Directorio de salida: {output_dir}")


üìÅ Directorio de salida: results_tmb


In [6]:
# Ejecutar el an√°lisis TMB
print("üß¨ Ejecutando an√°lisis de carga mutacional...")
print("‚è≥ Esto puede tomar unos momentos...")

try:
    # Ejecutar an√°lisis TMB con configuraci√≥n est√°ndar para WES
    results = py_mutation.calculate_tmb_analysis(
        genome_size_bp=60456963,  # Tama√±o est√°ndar para WES
        output_dir=output_dir,
        save_files=True
    )
    
    print("‚úÖ An√°lisis TMB completado exitosamente!")
    
except Exception as e:
    print(f"‚ùå Error durante el an√°lisis TMB: {e}")
    results = None


2025-07-10 22:56:42,761 | INFO | pyMut.analysis.mutation_burden | Auto-detected variant classification column: Variant_Classification


üß¨ Ejecutando an√°lisis de carga mutacional...
‚è≥ Esto puede tomar unos momentos...


2025-07-10 22:56:58,414 | INFO | pyMut.analysis.mutation_burden | TMB analysis saved to: results_tmb/TMB_analysis.tsv
2025-07-10 22:56:58,414 | INFO | pyMut.analysis.mutation_burden | TMB statistics saved to: results_tmb/TMB_statistics.tsv
2025-07-10 22:56:58,414 | INFO | pyMut.analysis.mutation_burden | Analyzed 193 samples with 2207 total mutations
2025-07-10 22:56:58,415 | INFO | pyMut.analysis.mutation_burden | TMB ANALYSIS SUMMARY
2025-07-10 22:56:58,415 | INFO | pyMut.analysis.mutation_burden | ‚Ä¢ Total samples analyzed: 193
2025-07-10 22:56:58,416 | INFO | pyMut.analysis.mutation_burden | ‚Ä¢ Average total mutations per sample: 11.4
2025-07-10 22:56:58,416 | INFO | pyMut.analysis.mutation_burden | ‚Ä¢ Average non-synonymous mutations per sample: 9.0
2025-07-10 22:56:58,416 | INFO | pyMut.analysis.mutation_burden | ‚Ä¢ Average normalized TMB (total): 0.189147 mutations/Mb
2025-07-10 22:56:58,416 | INFO | pyMut.analysis.mutation_burden | ‚Ä¢ Average normalized TMB (non-synonymous

‚úÖ An√°lisis TMB completado exitosamente!


## Explorar los Resultados


In [7]:
if results:
    # Obtener los DataFrames de resultados
    analysis_df = results['analysis']
    statistics_df = results['statistics']
    
    print("üìä RESULTADOS DEL AN√ÅLISIS TMB")
    print("=" * 50)
    print(f"üë• Muestras analizadas: {len(analysis_df)}")
    print(f"üìà M√©tricas calculadas: {len(statistics_df)}")
    
    # Mostrar las primeras filas del an√°lisis por muestra
    print("\nüîç Primeras 5 muestras del an√°lisis:")
    print("-" * 40)
    display(analysis_df.head())
    
else:
    print("‚ùå No se pudieron obtener los resultados del an√°lisis")


üìä RESULTADOS DEL AN√ÅLISIS TMB
üë• Muestras analizadas: 193
üìà M√©tricas calculadas: 4

üîç Primeras 5 muestras del an√°lisis:
----------------------------------------


Unnamed: 0,Sample,Total_Mutations,Non_Synonymous_Mutations,TMB_Total_Normalized,TMB_Non_Synonymous_Normalized
0,TCGA-AB-2988,15,13,0.24811,0.215029
1,TCGA-AB-2869,12,8,0.198488,0.132326
2,TCGA-AB-3009,42,34,0.694709,0.562384
3,TCGA-AB-2830,17,13,0.281192,0.215029
4,TCGA-AB-2887,15,12,0.24811,0.198488


## Estad√≠sticas Globales


In [8]:
if results:
    print("üìà ESTAD√çSTICAS GLOBALES DEL TMB")
    print("=" * 40)
    display(statistics_df)
    
    # Mostrar algunas estad√≠sticas clave
    print("\nüéØ ESTAD√çSTICAS CLAVE:")
    print("-" * 30)
    
    # TMB total normalizado
    tmb_total_stats = statistics_df[statistics_df['Metric'] == 'TMB_Total_Normalized'].iloc[0]
    print(f"üß¨ TMB Total Normalizado:")
    print(f"   ‚Ä¢ Media: {tmb_total_stats['Mean']:.4f} mutaciones/Mb")
    print(f"   ‚Ä¢ Mediana: {tmb_total_stats['Median']:.4f} mutaciones/Mb")
    print(f"   ‚Ä¢ Rango: {tmb_total_stats['Min']:.4f} - {tmb_total_stats['Max']:.4f} mutaciones/Mb")
    
    # TMB no sin√≥nimo normalizado
    tmb_nonsyn_stats = statistics_df[statistics_df['Metric'] == 'TMB_Non_Synonymous_Normalized'].iloc[0]
    print(f"\nüéØ TMB No Sin√≥nimo Normalizado:")
    print(f"   ‚Ä¢ Media: {tmb_nonsyn_stats['Mean']:.4f} mutaciones/Mb")
    print(f"   ‚Ä¢ Mediana: {tmb_nonsyn_stats['Median']:.4f} mutaciones/Mb")
    print(f"   ‚Ä¢ Rango: {tmb_nonsyn_stats['Min']:.4f} - {tmb_nonsyn_stats['Max']:.4f} mutaciones/Mb")


üìà ESTAD√çSTICAS GLOBALES DEL TMB


Unnamed: 0,Metric,Count,Mean,Median,Min,Max,Q1,Q3,Std
0,Total_Mutations,193,11.435233,11.0,1.0,42.0,6.0,15.0,6.75287
1,Non_Synonymous_Mutations,193,8.974093,9.0,0.0,34.0,5.0,12.0,5.452862
2,TMB_Total_Normalized,193,0.189147,0.181948,0.016541,0.694709,0.099244,0.24811,0.111697
3,TMB_Non_Synonymous_Normalized,193,0.148438,0.148866,0.0,0.562384,0.082703,0.198488,0.090194



üéØ ESTAD√çSTICAS CLAVE:
------------------------------
üß¨ TMB Total Normalizado:
   ‚Ä¢ Media: 0.1891 mutaciones/Mb
   ‚Ä¢ Mediana: 0.1819 mutaciones/Mb
   ‚Ä¢ Rango: 0.0165 - 0.6947 mutaciones/Mb

üéØ TMB No Sin√≥nimo Normalizado:
   ‚Ä¢ Media: 0.1484 mutaciones/Mb
   ‚Ä¢ Mediana: 0.1489 mutaciones/Mb
   ‚Ä¢ Rango: 0.0000 - 0.5624 mutaciones/Mb
