# üî¨ Cancer Analytics - Prueba Funcional

Este notebook demuestra las funcionalidades b√°sicas del proyecto de an√°lisis de c√°ncer.

## Objetivos:
- ‚úÖ Verificar importaciones
- ‚úÖ Cargar configuraci√≥n
- ‚úÖ Generar datos de prueba
- ‚úÖ An√°lisis b√°sico
- ‚úÖ Visualizaciones

In [1]:
# üì¶ Importaciones b√°sicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
import os
from pathlib import Path
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Importaciones b√°sicas exitosas")
print(f"üìÖ Fecha: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

‚úÖ Importaciones b√°sicas exitosas
üìÖ Fecha: 2025-11-01 19:24:20


In [2]:
# üîß Configurar entorno
plt.style.use('default')
sns.set_palette("viridis")
plt.rcParams['figure.figsize'] = (10, 6)

# Paths del proyecto
base_dir = Path().absolute()
config_path = base_dir / "config" / "config.json"
results_dir = base_dir / "results"

print(f"üìÅ Directorio base: {base_dir}")
print(f"‚öôÔ∏è Config existe: {'‚úÖ' if config_path.exists() else '‚ùå'}")
print(f"üìä Results existe: {'‚úÖ' if results_dir.exists() else '‚ùå'}")

üìÅ Directorio base: f:\GitHub\medical-study\cancer\notebooks
‚öôÔ∏è Config existe: ‚ùå
üìä Results existe: ‚ùå


In [None]:
# üìã Cargar configuraci√≥n
def load_config():
    try:
        if config_path.exists():
            with open(config_path, 'r') as f:
                return json.load(f)
        return {}
    except Exception as e:
        print(f"‚ùå Error cargando config: {e}")
        return {}

config = load_config()

print(f"üìã Configuraci√≥n cargada: {'‚úÖ' if config else '‚ùå'}")
if config:
    print(f"üîë Secciones: {list(config.keys())}")
    
    # Verificar Gemini
    gemini_configured = bool(config.get('gemini', {}).get('api_key'))
    print(f"üß† Gemini configurado: {'‚úÖ' if gemini_configured else '‚ùå'}")

In [None]:
# üß™ Verificar dependencias
dependencies = {
    'pandas': False,
    'numpy': False,
    'matplotlib': False,
    'seaborn': False,
    'sklearn': False,
    'tensorflow': False,
    'cv2': False,
    'PIL': False
}

for lib in dependencies:
    try:
        if lib == 'PIL':
            from PIL import Image
        elif lib == 'cv2':
            import cv2
        elif lib == 'sklearn':
            import sklearn
        else:
            __import__(lib)
        dependencies[lib] = True
    except ImportError:
        dependencies[lib] = False

print("üì¶ Estado de dependencias:")
for lib, status in dependencies.items():
    icon = "‚úÖ" if status else "‚ùå"
    print(f"  {icon} {lib}")

# Resumen
available = sum(dependencies.values())
total = len(dependencies)
print(f"\nüìä Resumen: {available}/{total} dependencias disponibles ({available/total*100:.1f}%)")

## üìä An√°lisis de Datos Simulados

Vamos a generar y analizar datos sint√©ticos para demostrar las capacidades del sistema.

In [None]:
# üé≤ Generar datos sint√©ticos de c√°ncer
np.random.seed(42)

# Tipos de c√°ncer
cancer_types = ['Pulm√≥n', 'Mama', 'Pr√≥stata', 'Colon', 'Melanoma', 'H√≠gado']

# Generar datos por tipo
cancer_data = []

for i, cancer_type in enumerate(cancer_types):
    # Casos benignos y malignos con variaci√≥n realista
    total_cases = np.random.randint(80, 200)
    malignant_rate = np.random.uniform(0.25, 0.65)  # 25-65% malignos
    
    malignant = int(total_cases * malignant_rate)
    benign = total_cases - malignant
    
    cancer_data.append({
        'Tipo': cancer_type,
        'Benigno': benign,
        'Maligno': malignant,
        'Total': total_cases,
        'Tasa_Malignidad': malignant_rate
    })

# Crear DataFrame
df_cancer = pd.DataFrame(cancer_data)

print("üìä Dataset de c√°ncer generado:")
print(f"   Tipos de c√°ncer: {len(cancer_types)}")
print(f"   Total de casos: {df_cancer['Total'].sum()}")
print(f"   Casos malignos: {df_cancer['Maligno'].sum()}")
print(f"   Casos benignos: {df_cancer['Benigno'].sum()}")

# Mostrar datos
display(df_cancer)

In [None]:
# üìà Visualizaci√≥n 1: Distribuci√≥n de casos
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Gr√°fico 1: Total de casos por tipo
axes[0,0].bar(df_cancer['Tipo'], df_cancer['Total'], color='skyblue', alpha=0.7)
axes[0,0].set_title('Total de Casos por Tipo de C√°ncer')
axes[0,0].set_xlabel('Tipo de C√°ncer')
axes[0,0].set_ylabel('N√∫mero de Casos')
axes[0,0].tick_params(axis='x', rotation=45)

# Gr√°fico 2: Comparaci√≥n Benigno vs Maligno
x = range(len(cancer_types))
width = 0.35

axes[0,1].bar([i - width/2 for i in x], df_cancer['Benigno'], width, 
              label='Benigno', color='lightgreen', alpha=0.7)
axes[0,1].bar([i + width/2 for i in x], df_cancer['Maligno'], width, 
              label='Maligno', color='salmon', alpha=0.7)

axes[0,1].set_title('Distribuci√≥n Benigno vs Maligno')
axes[0,1].set_xlabel('Tipo de C√°ncer')
axes[0,1].set_ylabel('N√∫mero de Casos')
axes[0,1].set_xticks(x)
axes[0,1].set_xticklabels(cancer_types, rotation=45)
axes[0,1].legend()

# Gr√°fico 3: Tasa de malignidad
colors = plt.cm.RdYlBu_r(df_cancer['Tasa_Malignidad'])
axes[1,0].bar(df_cancer['Tipo'], df_cancer['Tasa_Malignidad'], color=colors, alpha=0.8)
axes[1,0].set_title('Tasa de Malignidad por Tipo')
axes[1,0].set_xlabel('Tipo de C√°ncer')
axes[1,0].set_ylabel('Tasa de Malignidad')
axes[1,0].tick_params(axis='x', rotation=45)
axes[1,0].set_ylim(0, 1)

# Gr√°fico 4: Pi chart de distribuci√≥n total
axes[1,1].pie(df_cancer['Total'], labels=df_cancer['Tipo'], autopct='%1.1f%%',
              colors=plt.cm.Set3(range(len(cancer_types))))
axes[1,1].set_title('Distribuci√≥n Total de Casos')

plt.tight_layout()
plt.show()

print("‚úÖ Visualizaciones generadas exitosamente")

## üî¨ An√°lisis Estad√≠stico B√°sico

In [None]:
# üìä Estad√≠sticas descriptivas
print("üìä ESTAD√çSTICAS DESCRIPTIVAS")
print("=" * 50)

# Estad√≠sticas b√°sicas
stats = {
    'Total de tipos de c√°ncer': len(df_cancer),
    'Total de casos': df_cancer['Total'].sum(),
    'Promedio casos por tipo': df_cancer['Total'].mean(),
    'Mediana casos por tipo': df_cancer['Total'].median(),
    'Desviaci√≥n est√°ndar': df_cancer['Total'].std(),
    'Casos m√≠nimos': df_cancer['Total'].min(),
    'Casos m√°ximos': df_cancer['Total'].max()
}

for key, value in stats.items():
    if isinstance(value, float):
        print(f"‚Ä¢ {key}: {value:.2f}")
    else:
        print(f"‚Ä¢ {key}: {value}")

print("\nüéØ AN√ÅLISIS DE MALIGNIDAD")
print("=" * 50)

malignancy_stats = {
    'Tasa promedio de malignidad': df_cancer['Tasa_Malignidad'].mean(),
    'Tasa m√≠nima de malignidad': df_cancer['Tasa_Malignidad'].min(),
    'Tasa m√°xima de malignidad': df_cancer['Tasa_Malignidad'].max(),
    'Desviaci√≥n est√°ndar malignidad': df_cancer['Tasa_Malignidad'].std()
}

for key, value in malignancy_stats.items():
    print(f"‚Ä¢ {key}: {value:.3f}")

# Tipo m√°s y menos agresivo
most_malignant = df_cancer.loc[df_cancer['Tasa_Malignidad'].idxmax()]
least_malignant = df_cancer.loc[df_cancer['Tasa_Malignidad'].idxmin()]

print(f"\nüî¥ Tipo m√°s agresivo: {most_malignant['Tipo']} ({most_malignant['Tasa_Malignidad']:.3f})")
print(f"üü¢ Tipo menos agresivo: {least_malignant['Tipo']} ({least_malignant['Tasa_Malignidad']:.3f})")

In [None]:
# üßÆ An√°lisis de correlaci√≥n
print("üîó AN√ÅLISIS DE CORRELACI√ìN")
print("=" * 50)

# Crear matriz de correlaci√≥n con variables num√©ricas
numeric_cols = ['Benigno', 'Maligno', 'Total', 'Tasa_Malignidad']
correlation_matrix = df_cancer[numeric_cols].corr()

# Visualizar matriz de correlaci√≥n
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5)
plt.title('Matriz de Correlaci√≥n - Variables de C√°ncer')
plt.tight_layout()
plt.show()

# Mostrar correlaciones significativas
print("\nCorrelaciones m√°s fuertes:")
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_value = correlation_matrix.iloc[i, j]
        if abs(corr_value) > 0.5:  # Solo correlaciones > 0.5
            var1 = correlation_matrix.columns[i]
            var2 = correlation_matrix.columns[j]
            print(f"‚Ä¢ {var1} vs {var2}: {corr_value:.3f}")

## ü§ñ Simulaci√≥n de An√°lisis con IA

In [None]:
# üß† Simulaci√≥n de modelos de IA
print("ü§ñ SIMULACI√ìN DE MODELOS DE IA")
print("=" * 50)

# Generar m√©tricas simuladas para diferentes modelos
models = ['ResNet50', 'EfficientNet-B0', 'Vision Transformer', 'Hybrid CNN-ViT', 'DenseNet121']
metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score', 'AUC-ROC']

# Generar datos realistas
np.random.seed(123)
model_results = []

for model in models:
    # Generar m√©tricas con variaci√≥n realista
    base_performance = np.random.uniform(0.85, 0.95)
    model_metrics = {}
    
    for metric in metrics:
        # A√±adir peque√±a variaci√≥n por m√©trica
        variation = np.random.normal(0, 0.02)
        value = np.clip(base_performance + variation, 0.7, 0.99)
        model_metrics[metric] = value
    
    model_metrics['Modelo'] = model
    model_results.append(model_metrics)

# Crear DataFrame
df_models = pd.DataFrame(model_results)

print("Resultados de modelos simulados:")
display(df_models.round(4))

# Encontrar mejor modelo
best_model_idx = df_models['Accuracy'].idxmax()
best_model = df_models.iloc[best_model_idx]['Modelo']
best_accuracy = df_models.iloc[best_model_idx]['Accuracy']

print(f"\nüèÜ Mejor modelo: {best_model} (Accuracy: {best_accuracy:.4f})")

In [None]:
# üìä Visualizaci√≥n de rendimiento de modelos
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Comparaci√≥n de m√©tricas
df_models_plot = df_models.set_index('Modelo')[metrics]
df_models_plot.plot(kind='bar', ax=axes[0], width=0.8)
axes[0].set_title('Comparaci√≥n de M√©tricas por Modelo')
axes[0].set_xlabel('Modelo')
axes[0].set_ylabel('Valor de M√©trica')
axes[0].legend(bbox_to_anchor=(1.05, 1), loc='upper left')
axes[0].tick_params(axis='x', rotation=45)
axes[0].grid(True, alpha=0.3)

# Gr√°fico 2: Accuracy por modelo
colors = plt.cm.viridis(np.linspace(0, 1, len(models)))
bars = axes[1].bar(df_models['Modelo'], df_models['Accuracy'], color=colors, alpha=0.8)
axes[1].set_title('Accuracy por Modelo')
axes[1].set_xlabel('Modelo')
axes[1].set_ylabel('Accuracy')
axes[1].tick_params(axis='x', rotation=45)
axes[1].set_ylim(0.8, 1.0)

# A√±adir valores en las barras
for bar, acc in zip(bars, df_models['Accuracy']):
    height = bar.get_height()
    axes[1].text(bar.get_x() + bar.get_width()/2., height + 0.005,
                f'{acc:.3f}', ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

print("‚úÖ An√°lisis de modelos completado")

## üìã Resumen y Conclusiones

In [None]:
# üìã Generar reporte final
print("üìã REPORTE FINAL DEL AN√ÅLISIS")
print("=" * 60)

print(f"\nüìÖ Fecha del an√°lisis: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üîß Estado del sistema: {'‚úÖ Operativo' if sum(dependencies.values()) > 4 else '‚ö†Ô∏è Parcial'}")

print("\nüìä DATOS ANALIZADOS:")
print(f"   ‚Ä¢ Tipos de c√°ncer: {len(cancer_types)}")
print(f"   ‚Ä¢ Total de casos: {df_cancer['Total'].sum():,}")
print(f"   ‚Ä¢ Tasa promedio de malignidad: {df_cancer['Tasa_Malignidad'].mean():.1%}")

print("\nü§ñ MODELOS EVALUADOS:")
print(f"   ‚Ä¢ N√∫mero de modelos: {len(models)}")
print(f"   ‚Ä¢ Mejor modelo: {best_model}")
print(f"   ‚Ä¢ Mejor accuracy: {best_accuracy:.3f}")
print(f"   ‚Ä¢ Accuracy promedio: {df_models['Accuracy'].mean():.3f}")

print("\nüîß SISTEMA:")
available_deps = sum(dependencies.values())
total_deps = len(dependencies)
print(f"   ‚Ä¢ Dependencias disponibles: {available_deps}/{total_deps}")
print(f"   ‚Ä¢ Configuraci√≥n: {'‚úÖ Cargada' if config else '‚ùå No encontrada'}")
print(f"   ‚Ä¢ Gemini AI: {'‚úÖ Configurado' if gemini_configured else '‚ùå Sin configurar'}")

print("\nüéØ PR√ìXIMOS PASOS:")
print("   1. Integrar datos reales de TCIA")
print("   2. Entrenar modelos con datos reales")
print("   3. Implementar an√°lisis radi√≥mico")
print("   4. Validar con conjuntos de prueba externos")
print("   5. Desplegar en producci√≥n")

print("\n‚úÖ AN√ÅLISIS COMPLETADO EXITOSAMENTE")
print("=" * 60)

In [None]:
# üíæ Guardar resultados
try:
    # Crear directorio de resultados si no existe
    results_dir.mkdir(exist_ok=True)
    
    # Guardar datos de c√°ncer
    df_cancer.to_csv(results_dir / 'cancer_data_analysis.csv', index=False)
    print(f"‚úÖ Datos de c√°ncer guardados: {results_dir / 'cancer_data_analysis.csv'}")
    
    # Guardar resultados de modelos
    df_models.to_csv(results_dir / 'model_performance.csv', index=False)
    print(f"‚úÖ Resultados de modelos guardados: {results_dir / 'model_performance.csv'}")
    
    # Guardar resumen en JSON
    summary = {
        'timestamp': datetime.now().isoformat(),
        'cancer_types_analyzed': len(cancer_types),
        'total_cases': int(df_cancer['Total'].sum()),
        'average_malignancy_rate': float(df_cancer['Tasa_Malignidad'].mean()),
        'models_evaluated': len(models),
        'best_model': best_model,
        'best_accuracy': float(best_accuracy),
        'dependencies_available': available_deps,
        'total_dependencies': total_deps,
        'system_status': 'operational' if available_deps > 4 else 'partial'
    }
    
    with open(results_dir / 'analysis_summary.json', 'w') as f:
        json.dump(summary, f, indent=2)
    
    print(f"‚úÖ Resumen guardado: {results_dir / 'analysis_summary.json'}")
    print("\nüéâ ¬°Todos los resultados guardados exitosamente!")
    
except Exception as e:
    print(f"‚ùå Error guardando resultados: {e}")