# An√°lisis Exploratorio de Datos de C√°ncer - TCIA

Este notebook proporciona un an√°lisis exploratorio completo de datos de c√°ncer obtenidos de The Cancer Imaging Archive (TCIA). Incluye:

- Conexi√≥n y descarga de datos desde TCIA
- Procesamiento de im√°genes DICOM
- An√°lisis estad√≠stico descriptivo
- Visualizaciones interactivas
- Preprocesamiento para modelos de ML

## Configuraci√≥n Inicial

In [None]:
# Imports necesarios
import sys
import os
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Agregar src al path
src_path = Path('../src').absolute()
if str(src_path) not in sys.path:
    sys.path.append(str(src_path))

# Imports principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import json

# Configurar estilo de visualizaciones
plt.style.use('seaborn-v0_8')
sns.set_palette("viridis")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print(f"An√°lisis iniciado: {datetime.now()}")
print(f"Directorio de trabajo: {os.getcwd()}")

In [None]:
# Importar m√≥dulos del proyecto
try:
    from utils.tcia_client import TCIAClient
    from utils.dicom_processor import DICOMProcessor
    from utils.gemini_analyzer import GeminiAnalyzer
    print("‚úì M√≥dulos del proyecto importados exitosamente")
except ImportError as e:
    print(f"‚ùå Error importando m√≥dulos: {e}")
    print("Aseg√∫rese de tener instaladas las dependencias requeridas")

## 1. Conexi√≥n con TCIA y Exploraci√≥n de Colecciones

Primero exploraremos las colecciones disponibles en TCIA y seleccionaremos las m√°s relevantes para an√°lisis de c√°ncer.

In [None]:
# Inicializar cliente TCIA
try:
    tcia = TCIAClient()
    print("‚úì Cliente TCIA inicializado")
except Exception as e:
    print(f"‚ùå Error inicializando cliente TCIA: {e}")
    tcia = None

In [None]:
# Obtener y analizar colecciones disponibles
if tcia:
    collections = tcia.get_collections()
    
    if collections:
        print(f"Total de colecciones disponibles: {len(collections)}")
        
        # Mostrar primeras colecciones
        collections_df = pd.DataFrame(collections)
        print("\nPrimeras 10 colecciones:")
        display(collections_df.head(10))
    else:
        print("No se pudieron obtener colecciones")
        collections_df = pd.DataFrame()

In [None]:
# Analizar colecciones espec√≠ficas de c√°ncer
target_collections = ['CMB-LCA', 'CMB-BRCA', 'CMB-CRC', 'CMB-MEL', 'AURORA-Metastatic-Breast-Multiomics']

collection_stats = []

for collection in target_collections:
    try:
        stats = tcia.get_collection_statistics(collection)
        if stats:
            collection_stats.append(stats)
            print(f"\nüìä Estad√≠sticas para {collection}:")
            print(f"  - Pacientes: {stats['total_patients']}")
            print(f"  - Estudios: {stats['total_studies']}")
            print(f"  - Series: {stats['total_series']}")
            print(f"  - Modalidades: {stats['modalities']}")
    except Exception as e:
        print(f"‚ùå Error obteniendo estad√≠sticas de {collection}: {e}")

In [None]:
# Visualizar estad√≠sticas de colecciones
if collection_stats:
    stats_df = pd.DataFrame(collection_stats)
    
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # Gr√°fico de pacientes por colecci√≥n
    axes[0,0].bar(stats_df['collection'], stats_df['total_patients'])
    axes[0,0].set_title('N√∫mero de Pacientes por Colecci√≥n')
    axes[0,0].set_xlabel('Colecci√≥n')
    axes[0,0].set_ylabel('N√∫mero de Pacientes')
    axes[0,0].tick_params(axis='x', rotation=45)
    
    # Gr√°fico de estudios por colecci√≥n
    axes[0,1].bar(stats_df['collection'], stats_df['total_studies'])
    axes[0,1].set_title('N√∫mero de Estudios por Colecci√≥n')
    axes[0,1].set_xlabel('Colecci√≥n')
    axes[0,1].set_ylabel('N√∫mero de Estudios')
    axes[0,1].tick_params(axis='x', rotation=45)
    
    # Gr√°fico de series por colecci√≥n
    axes[1,0].bar(stats_df['collection'], stats_df['total_series'])
    axes[1,0].set_title('N√∫mero de Series por Colecci√≥n')
    axes[1,0].set_xlabel('Colecci√≥n')
    axes[1,0].set_ylabel('N√∫mero de Series')
    axes[1,0].tick_params(axis='x', rotation=45)
    
    # Resumen estad√≠stico
    axes[1,1].axis('off')
    summary_text = f"""
    Resumen de Colecciones:
    
    Total Pacientes: {stats_df['total_patients'].sum()}
    Total Estudios: {stats_df['total_studies'].sum()}
    Total Series: {stats_df['total_series'].sum()}
    
    Promedio por Colecci√≥n:
    - Pacientes: {stats_df['total_patients'].mean():.1f}
    - Estudios: {stats_df['total_studies'].mean():.1f}
    - Series: {stats_df['total_series'].mean():.1f}
    """
    axes[1,1].text(0.1, 0.5, summary_text, fontsize=12, va='center')
    
    plt.tight_layout()
    plt.show()
    
    # Guardar estad√≠sticas
    stats_df.to_csv('../results/collection_statistics.csv', index=False)
    print("\nüíæ Estad√≠sticas guardadas en results/collection_statistics.csv")

## 2. Descarga y Procesamiento de Muestra de Datos

Descargaremos una muestra peque√±a de datos para an√°lisis exploratorio.

In [None]:
# Inicializar procesador DICOM
try:
    dicom_processor = DICOMProcessor()
    print("‚úì Procesador DICOM inicializado")
except Exception as e:
    print(f"‚ùå Error inicializando procesador DICOM: {e}")
    dicom_processor = None

In [None]:
# Descargar muestra peque√±a de la colecci√≥n de c√°ncer de pulm√≥n
sample_collection = 'CMB-LCA'  # Lung Cancer

print(f"Descargando muestra de {sample_collection}...")
print("‚ö†Ô∏è  Esto puede tomar algunos minutos...")

try:
    downloaded_files = tcia.download_collection_sample(
        collection=sample_collection,
        max_patients=2,  # Solo 2 pacientes para demo
        max_series_per_patient=1  # 1 serie por paciente
    )
    
    print(f"\n‚úì Descargados {len(downloaded_files)} archivos:")
    for file in downloaded_files:
        print(f"  - {file}")
        
except Exception as e:
    print(f"‚ùå Error en descarga: {e}")
    downloaded_files = []

In [None]:
# Procesar archivos DICOM descargados
if downloaded_files and dicom_processor:
    processing_results = []
    
    for i, zip_file in enumerate(downloaded_files[:2]):  # Procesar solo los primeros 2
        print(f"\nProcesando archivo {i+1}: {zip_file}")
        
        output_dir = f"../data/processed/sample_{i+1}"
        
        try:
            result = dicom_processor.process_dicom_series(zip_file, output_dir)
            processing_results.append(result)
            
            print(f"  ‚úì Procesadas {len(result['processed_images'])} im√°genes")
            if result['errors']:
                print(f"  ‚ö†Ô∏è  {len(result['errors'])} errores encontrados")
                
        except Exception as e:
            print(f"  ‚ùå Error procesando {zip_file}: {e}")
    
    print(f"\nüìä Resumen del procesamiento:")
    total_images = sum(len(r['processed_images']) for r in processing_results)
    total_errors = sum(len(r['errors']) for r in processing_results)
    print(f"  - Total im√°genes procesadas: {total_images}")
    print(f"  - Total errores: {total_errors}")
else:
    processing_results = []
    print("No hay archivos para procesar o procesador no disponible")

## 3. An√°lisis de Metadatos DICOM

Analizaremos los metadatos extra√≠dos de las im√°genes DICOM para entender mejor los datos.

In [None]:
# Consolidar metadatos de todas las im√°genes procesadas
all_metadata = []

for result in processing_results:
    all_metadata.extend(result['metadata'])

if all_metadata:
    metadata_df = pd.DataFrame(all_metadata)
    
    print(f"üìã Metadatos de {len(metadata_df)} im√°genes:")
    print(f"Columnas disponibles: {list(metadata_df.columns)}")
    
    # Mostrar muestra de metadatos
    display(metadata_df.head())
    
    # An√°lisis de modalidades
    if 'Modality' in metadata_df.columns:
        modality_counts = metadata_df['Modality'].value_counts()
        print(f"\nüî¨ Modalidades encontradas:")
        for modality, count in modality_counts.items():
            print(f"  - {modality}: {count} im√°genes")
    
    # An√°lisis de dimensiones de imagen
    if 'Rows' in metadata_df.columns and 'Columns' in metadata_df.columns:
        print(f"\nüìê Dimensiones de im√°genes:")
        print(f"  - Filas: {metadata_df['Rows'].describe()}")
        print(f"  - Columnas: {metadata_df['Columns'].describe()}")
        
        # Visualizar distribuci√≥n de tama√±os
        fig, axes = plt.subplots(1, 2, figsize=(12, 4))
        
        metadata_df['Rows'].hist(bins=20, ax=axes[0])
        axes[0].set_title('Distribuci√≥n de Filas')
        axes[0].set_xlabel('N√∫mero de Filas')
        
        metadata_df['Columns'].hist(bins=20, ax=axes[1])
        axes[1].set_title('Distribuci√≥n de Columnas')
        axes[1].set_xlabel('N√∫mero de Columnas')
        
        plt.tight_layout()
        plt.show()
    
    # Guardar metadatos
    metadata_df.to_csv('../results/dicom_metadata.csv', index=False)
    print("\nüíæ Metadatos guardados en results/dicom_metadata.csv")
    
else:
    print("No hay metadatos para analizar")
    metadata_df = pd.DataFrame()

## 4. Visualizaci√≥n de Im√°genes Procesadas

Visualizaremos algunas de las im√°genes procesadas para verificar la calidad del preprocesamiento.

In [None]:
# Encontrar im√°genes procesadas
processed_images = []

for result in processing_results:
    processed_images.extend(result['processed_images'])

print(f"üñºÔ∏è  Im√°genes procesadas encontradas: {len(processed_images)}")

if processed_images:
    # Mostrar algunas im√°genes
    n_display = min(6, len(processed_images))
    
    fig, axes = plt.subplots(2, 3, figsize=(15, 10))
    axes = axes.flatten()
    
    for i in range(n_display):
        try:
            img_path = processed_images[i]
            img = plt.imread(img_path)
            
            axes[i].imshow(img, cmap='gray')
            axes[i].set_title(f'Imagen {i+1}\n{Path(img_path).name}')
            axes[i].axis('off')
            
            # Mostrar estad√≠sticas b√°sicas
            axes[i].text(0.02, 0.98, f'Shape: {img.shape}\nMin: {img.min():.2f}\nMax: {img.max():.2f}', 
                        transform=axes[i].transAxes, va='top', ha='left',
                        bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))
            
        except Exception as e:
            axes[i].text(0.5, 0.5, f'Error cargando\nimagen {i+1}\n{e}', 
                        ha='center', va='center', transform=axes[i].transAxes)
            axes[i].axis('off')
    
    # Ocultar axes vac√≠os
    for i in range(n_display, len(axes)):
        axes[i].axis('off')
    
    plt.suptitle('Muestra de Im√°genes Procesadas', fontsize=16)
    plt.tight_layout()
    plt.show()
    
else:
    print("No hay im√°genes procesadas para mostrar")

## 5. An√°lisis con Gemini AI (Opcional)

Si la API de Gemini est√° configurada, realizaremos an√°lisis de algunas im√°genes.

In [None]:
# Inicializar analizador Gemini (opcional)
try:
    gemini_analyzer = GeminiAnalyzer()
    print("‚úì Analizador Gemini inicializado")
    gemini_available = True
except Exception as e:
    print(f"‚ö†Ô∏è  Analizador Gemini no disponible: {e}")
    print("   Verifique que tenga configurada la API key de Gemini")
    gemini_available = False

In [None]:
# An√°lisis con Gemini de algunas im√°genes
if gemini_available and processed_images:
    print("ü§ñ Analizando im√°genes con Gemini AI...")
    
    # Analizar las primeras 2 im√°genes
    gemini_results = []
    
    for i, img_path in enumerate(processed_images[:2]):
        print(f"\nAnalizando imagen {i+1}: {Path(img_path).name}")
        
        try:
            result = gemini_analyzer.analyze_medical_image(
                img_path, 
                analysis_type="cancer_detection"
            )
            gemini_results.append(result)
            
            print(f"‚úì An√°lisis completado")
            
            # Mostrar resumen del an√°lisis
            if 'gemini_response' in result:
                response = result['gemini_response'][:200] + "..." if len(result['gemini_response']) > 200 else result['gemini_response']
                print(f"  Respuesta: {response}")
            
            if 'confidence_indicators' in result and result['confidence_indicators']:
                print(f"  Indicadores de confianza: {result['confidence_indicators']}")
                
        except Exception as e:
            print(f"‚ùå Error analizando imagen {i+1}: {e}")
    
    # Guardar resultados de Gemini
    if gemini_results:
        with open('../results/gemini_analysis.json', 'w') as f:
            json.dump(gemini_results, f, indent=2)
        print("\nüíæ Resultados de Gemini guardados en results/gemini_analysis.json")
        
else:
    print("üîí An√°lisis con Gemini no disponible o no hay im√°genes")
    gemini_results = []

## 6. Resumen y Conclusiones

Resumen del an√°lisis exploratorio realizado.

In [None]:
# Generar resumen final
print("üìä RESUMEN DEL AN√ÅLISIS EXPLORATORIO")
print("=" * 50)

print(f"\nüóÇÔ∏è  DATOS ANALIZADOS:")
print(f"  - Colecciones TCIA exploradas: {len(target_collections)}")
print(f"  - Archivos DICOM descargados: {len(downloaded_files)}")
print(f"  - Im√°genes procesadas: {len(processed_images)}")
print(f"  - Metadatos extra√≠dos: {len(all_metadata)}")

if collection_stats:
    total_patients = sum(s['total_patients'] for s in collection_stats)
    total_studies = sum(s['total_studies'] for s in collection_stats)
    total_series = sum(s['total_series'] for s in collection_stats)
    
    print(f"\nüìà ESTAD√çSTICAS DE COLECCIONES:")
    print(f"  - Total pacientes disponibles: {total_patients}")
    print(f"  - Total estudios disponibles: {total_studies}")
    print(f"  - Total series disponibles: {total_series}")

if not metadata_df.empty and 'Modality' in metadata_df.columns:
    print(f"\nüî¨ MODALIDADES PROCESADAS:")
    for modality, count in metadata_df['Modality'].value_counts().items():
        print(f"  - {modality}: {count} im√°genes")

if gemini_results:
    print(f"\nü§ñ AN√ÅLISIS CON IA:")
    print(f"  - Im√°genes analizadas con Gemini: {len(gemini_results)}")
    print(f"  - Resultados guardados en: results/gemini_analysis.json")

print(f"\nüíæ ARCHIVOS GENERADOS:")
output_files = [
    'results/collection_statistics.csv',
    'results/dicom_metadata.csv'
]
if gemini_results:
    output_files.append('results/gemini_analysis.json')

for file in output_files:
    if Path(f'../{file}').exists():
        print(f"  ‚úì {file}")
    else:
        print(f"  ‚ùå {file} (no generado)")

print(f"\nüéØ PR√ìXIMOS PASOS:")
print(f"  1. Descargar conjuntos de datos m√°s grandes")
print(f"  2. Realizar an√°lisis radi√≥mico detallado")
print(f"  3. Entrenar modelos de deep learning")
print(f"  4. Validar modelos con datos independientes")
print(f"  5. Desarrollar pipeline de producci√≥n")

print(f"\n‚úÖ An√°lisis exploratorio completado: {datetime.now()}")