# An√°lisis de Firmas Mutacionales con pyMut
Este notebook demuestra c√≥mo usar **pyMut** para realizar an√°lisis de firmas mutacionales de forma **simple y directa**.

pyMut proporciona una API de alto nivel que permite generar an√°lisis completos con pocas l√≠neas de c√≥digo.

## ¬øQu√© son las firmas mutacionales?

Las firmas mutacionales son patrones caracter√≠sticos que revelan procesos mutag√©nicos espec√≠ficos:
- Exposici√≥n al tabaco
- Da√±o por radiaci√≥n UV  
- Defectos en reparaci√≥n del ADN
- Procesos de envejecimiento

---


## 1. Configuraci√≥n Simple


In [7]:
# Importaciones simples
import pandas as pd
import numpy as np
from pyMut import PyMutation
from pyMut.core import MutationMetadata

# Configurar para gr√°ficos de alta calidad
PyMutation.configure_high_quality_plots()

print("‚úÖ pyMut configurado correctamente")


‚úÖ High-quality configuration activated for matplotlib
   ‚Ä¢ DPI: 300 (high resolution)
   ‚Ä¢ Margins: automatic (tight)
   ‚Ä¢ Format: optimized PNG
   ‚ÑπÔ∏è  Now all figures will be automatically saved in high quality
‚úÖ pyMut configurado correctamente


## 2. Cargar Datos


In [9]:
# Cargar datos reales de TCGA LAML (formato wide ya procesado)
import os

# Ruta al archivo de datos TCGA
data_path = "../src/pyMut/data/examples/tcga_laml_converted.tsv"

# Verificar que el archivo existe
if not os.path.exists(data_path):
    raise FileNotFoundError(f"No se encontr√≥ el archivo de datos: {data_path}")

# Cargar datos reales
print("üìÅ Loading TCGA LAML data...")
datos = pd.read_csv(data_path, sep='\t')

# Obtener columnas de muestras (formato TCGA-AB-XXXX)
sample_columns = [col for col in datos.columns if col.startswith('TCGA-AB-')]
n_samples = len(sample_columns)

# Mostrar informaci√≥n b√°sica de los datos
print(f"‚úÖ Data loaded successfully!")
print(f"   ‚Ä¢ {len(datos):,} mutations")
print(f"   ‚Ä¢ {n_samples:,} unique samples")
print(f"   ‚Ä¢ {datos['Hugo_Symbol'].nunique():,} unique genes")

# Mostrar las primeras columnas para verificar el formato
print(f"\nüìä Data format: Wide format (samples as columns)")
print(f"   ‚Ä¢ VCF-like columns: CHROM, POS, REF, ALT, FILTER")
print(f"   ‚Ä¢ Sample columns: {sample_columns[:3]}... (showing first 3)")
print(f"   ‚Ä¢ Gene info: Hugo_Symbol, Variant_Classification")

print(f"\nüîç First 3 rows (selected columns):")
preview_cols = ['CHROM', 'POS', 'REF', 'ALT'] + sample_columns[:2] + ['Hugo_Symbol', 'Variant_Classification']
print(datos[preview_cols].head(3))

# Crear objeto PyMutation con datos reales
metadata = MutationMetadata(
    source_format="TCGA_VCF_like", 
    file_path=data_path,
    filters=["PASS"], 
    fasta="GRCh37"
)

py_mut = PyMutation(datos, metadata)

print(f"\nüéØ PyMutation object created successfully with TCGA LAML data!")
print(f"   ‚Ä¢ Ready for mutational signature analysis")
print(f"   ‚Ä¢ Data format: Wide (samples as columns)")
print(f"   ‚Ä¢ Total samples: {n_samples}")


üìÅ Loading TCGA LAML data...
‚úÖ Data loaded successfully!
   ‚Ä¢ 2,207 mutations
   ‚Ä¢ 193 unique samples
   ‚Ä¢ 1,611 unique genes

üìä Data format: Wide format (samples as columns)
   ‚Ä¢ VCF-like columns: CHROM, POS, REF, ALT, FILTER
   ‚Ä¢ Sample columns: ['TCGA-AB-2988', 'TCGA-AB-2869', 'TCGA-AB-3009']... (showing first 3)
   ‚Ä¢ Gene info: Hugo_Symbol, Variant_Classification

üîç First 3 rows (selected columns):
  CHROM        POS REF ALT TCGA-AB-2988 TCGA-AB-2869 Hugo_Symbol  \
0    17   67170916   T   C          T|C          T|T      ABCA10   
1     1   94490593   C   T          C|C          C|T       ABCA4   
2     2  169780249   G   A          G|G          G|G      ABCB11   

  Variant_Classification  
0            SPLICE_SITE  
1      MISSENSE_MUTATION  
2      MISSENSE_MUTATION  

üéØ PyMutation object created successfully with TCGA LAML data!
   ‚Ä¢ Ready for mutational signature analysis
   ‚Ä¢ Data format: Wide (samples as columns)
   ‚Ä¢ Total samples: 193


## 3. An√°lisis Completo

**¬°Esta es la potencia de pyMut!** Una sola llamada genera todo el an√°lisis:

- Extracci√≥n autom√°tica de la matriz de 96 categor√≠as
- Factorizaci√≥n NMF para identificar firmas
- Perfiles de firmas mutacionales
- Similitud con firmas COSMIC conocidas  
- Mapas de calor de contribuciones
- Gr√°ficos de barras y donas


In [10]:
fig_completo = py_mut.mutational_signature_plot(
    n_signatures=3,
    title="TCGA LAML - Mutational Signature Analysis",
    figsize=(20, 24),
    show_interactive=False
)

# Guardar el an√°lisis completo
fig_completo.savefig("analisis_mutational_signature_completo.png")
print("üíæ Analysis saved as: analisis_mutational_signature_completo.png")


Extracting mutation matrix...
Matrix shape: (0, 96)
Total mutations: 0
üíæ Analysis saved as: analisis_mutational_signature_completo.png


<Figure size 6000x7200 with 0 Axes>

## 4. An√°lisis Espec√≠ficos (Opcional)

Si necesitas solo una visualizaci√≥n espec√≠fica, pyMut tambi√©n lo permite:


In [11]:
# Si solo necesitas una visualizaci√≥n espec√≠fica, puedes usar las funciones individuales
from pyMut.visualizations.mutational_signature import (
    extract_mutation_matrix,
    perform_nmf, 
    create_signature_profile_plot
)

# Ejemplo de perfiles de firmas mutacionales √∫nicamente
matriz, muestras = extract_mutation_matrix(datos)
W, H = perform_nmf(matriz, n_signatures=3)

fig_perfiles = create_signature_profile_plot(
    H, 
    signature_names=["Signature 1", "Signature 2", "Signature 3"],
    figsize=(20, 6)
)

print("üìä Individual signature profiles generated")
fig_perfiles.savefig("perfiles_firmas_mutacionales.png")
print("üíæ Signature profiles saved as: perfiles_firmas_mutacionales.png")

ValueError: Found array with 0 sample(s) (shape=(0, 96)) while a minimum of 1 is required by NMF.