In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from model_pipeline import ModelPipeline
import os

class ELFAnalyzer:
    def __init__(self):
        self.pipeline = ModelPipeline()
        

    def analyze_data(self):
        # Cargar datos
        data_elf, _ = self.pipeline.load_data('data')
        if data_elf is None:
            print("Error cargando datos ELF")
            return
            
        # Mostrar las columnas reales
        print("\nColumnas en el dataset:")
        print(data_elf.columns.tolist())
            
        # Análisis básico
        print("\nAnálisis de datos ELF:")
        print(f"Total muestras: {len(data_elf)}")
        print("\nDistribución de clases:")
        print(data_elf['Label'].value_counts())
        
        # Estadísticas descriptivas
        print("\nEstadísticas descriptivas:")
        print(data_elf.describe())
        
        # Crear directorio para plots
        os.makedirs('analysis_plots', exist_ok=True)
        
        # 1. Distribución de clases
        plt.figure(figsize=(8, 6))
        sns.countplot(data=data_elf, x='Label')
        plt.title('Distribución de Clases ELF')
        plt.savefig('analysis_plots/elf_class_distribution.png')
        plt.close()
        
        # 2. Correlación entre características
        data_without_label = data_elf.drop('Label', axis=1)
        plt.figure(figsize=(12, 8))
        correlation_matrix = data_without_label.corr()
        sns.heatmap(correlation_matrix, cmap='coolwarm', center=0)
        plt.title('Matriz de Correlación ELF')
        plt.savefig('analysis_plots/elf_correlation.png')
        plt.close()
        
        # 3. Distribución de valores por clase
        # Seleccionar solo columnas numéricas excluyendo 'Label'
        numeric_cols = data_elf.select_dtypes(include=[np.number]).columns.tolist()
        if 'Label' in numeric_cols:
            numeric_cols.remove('Label')
        
        # Analizar primeras 5 características
        for col in numeric_cols[:5]:
            plt.figure(figsize=(8, 6))
            sns.boxplot(data=data_elf, x='Label', y=col)
            plt.title(f'Distribución de {col} por Clase')
            plt.savefig(f'analysis_plots/elf_distribution_{col}.png')
            plt.close()
        
        # 4. Análisis de valores atípicos
        plt.figure(figsize=(15, 6))
        data_elf[numeric_cols[:10]].boxplot(figsize=(15,6))
        plt.xticks(rotation=45)
        plt.title('Análisis de Valores Atípicos')
        plt.savefig('analysis_plots/elf_outliers.png')
        plt.close()

        return data_elf

    def suggest_improvements(self, data_elf):
        print("\nSugerencias de mejora:")
        
        # 1. Verificar balance de clases
        class_counts = data_elf['Label'].value_counts()
        if class_counts.max() / class_counts.min() > 1.5:
            print("- Desbalance de clases detectado. Considerar:")
            print("  * Aumentar el peso de la clase minoritaria")
            print("  * Usar técnicas de submuestreo/sobremuestreo")
        
        # 2. Verificar varianza de características
        variances = data_elf.var()
        low_variance_features = variances[variances < 0.01].index
        if len(low_variance_features) > 0:
            print("\n- Características con baja varianza detectadas:")
            print("  * Considerar eliminar estas características")
        
        # 3. Análisis de correlación
        correlation_matrix = data_elf.corr()
        high_correlation = np.where(np.abs(correlation_matrix) > 0.95)
        high_correlation = [(correlation_matrix.index[x], correlation_matrix.columns[y]) 
                          for x, y in zip(*high_correlation) if x != y and x < y]
        if high_correlation:
            print("\n- Alta correlación entre características:")
            print("  * Considerar reducción de dimensionalidad")
            print("  * Evaluar eliminación de características redundantes")

def main():
    analyzer = ELFAnalyzer()
    data_elf = analyzer.analyze_data()
    analyzer.suggest_improvements(data_elf)

if __name__ == "__main__":
    main()

Data loaded - ELF shape: (453, 322), MAG shape: (938, 322)

Columnas en el dataset:
['SampleID', 'Data_0', 'Data_1', 'Data_2', 'Data_3', 'Data_4', 'Data_5', 'Data_6', 'Data_7', 'Data_8', 'Data_9', 'Data_10', 'Data_11', 'Data_12', 'Data_13', 'Data_14', 'Data_15', 'Data_16', 'Data_17', 'Data_18', 'Data_19', 'Data_20', 'Data_21', 'Data_22', 'Data_23', 'Data_24', 'Data_25', 'Data_26', 'Data_27', 'Data_28', 'Data_29', 'Data_30', 'Data_31', 'Data_32', 'Data_33', 'Data_34', 'Data_35', 'Data_36', 'Data_37', 'Data_38', 'Data_39', 'Data_40', 'Data_41', 'Data_42', 'Data_43', 'Data_44', 'Data_45', 'Data_46', 'Data_47', 'Data_48', 'Data_49', 'Data_50', 'Data_51', 'Data_52', 'Data_53', 'Data_54', 'Data_55', 'Data_56', 'Data_57', 'Data_58', 'Data_59', 'Data_60', 'Data_61', 'Data_62', 'Data_63', 'Data_64', 'Data_65', 'Data_66', 'Data_67', 'Data_68', 'Data_69', 'Data_70', 'Data_71', 'Data_72', 'Data_73', 'Data_74', 'Data_75', 'Data_76', 'Data_77', 'Data_78', 'Data_79', 'Data_80', 'Data_81', 'Data_82', 