In [10]:
# Importando las librerías necesarias
import pandas as pd
import numpy as np

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import datasets

import pytest
import ipytest
ipytest.autoconfig()

In [11]:
# Leer el dataset desde un archivo CSV
dataset = pd.read_csv(r"../../data/processed/TCGA_GBM_LGG_Mutations_clean_v2.csv") # cambiar la ruta al probar

# Crear un DataFrame a partir del dataset leído
dataset_df = pd.DataFrame(dataset, columns=dataset.columns)

# Convertir la columna "Grade" a tipo categórico
dataset_df["Grade"] = dataset_df["Grade"].astype('category')

In [12]:
class SimplePipeline:
    def __init__(self):
        self.frame = None
        self.X_train, self.X_test, self.y_train, self.y_test = None, None, None, None
        self.model = None
        self.load_dataset()
    
    def load_dataset(self):
        """Carga el dataset y realiza la división en conjuntos de entrenamiento y prueba."""
        dataset = pd.read_csv(r"../../data/processed/TCGA_GBM_LGG_Mutations_clean_v2.csv") # cambiar la ruta al probar
        self.frame = pd.DataFrame(dataset, columns=dataset.columns)
        self.frame["Grade"] = self.frame["Grade"].astype('category')  # Convertir la columna "Grade" a tipo categórico
        
        # Obtener los nombres de las características excluyendo la columna 'Grade'
        feature_names = [col for col in self.frame.columns if col != 'Grade']
        
        # Dividir el dataset en conjuntos de entrenamiento y prueba
        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(
            self.frame[feature_names], self.frame['Grade'], test_size=0.65, random_state=42)
        
    def train(self, algorithm=LogisticRegression):
        """Entrenar el modelo usando el algoritmo especificado (por defecto LogisticRegression)."""
        self.model = algorithm(solver='lbfgs', multi_class='auto')
        self.model.fit(self.X_train, self.y_train)
        
    def predict(self, input_data):
        """Realizar predicciones usando el modelo entrenado."""
        return self.model.predict(input_data)
        
    def get_accuracy(self):
        """Obtener la precisión del modelo en el conjunto de prueba."""
        return self.model.score(X=self.X_test, y=self.y_test)
    
    def run_pipeline(self):
        """Método de ejecución para correr el pipeline varias veces."""
        self.load_dataset()
        self.train()

In [13]:
# Crear una instancia de la clase SimplePipeline
pipeline = SimplePipeline()

# Ejecutar el pipeline, lo que incluye cargar el dataset, entrenar el modelo, etc.
pipeline.run_pipeline()

# Obtener la precisión del modelo en el conjunto de prueba
accuracy_score = pipeline.get_accuracy()

# Imprimir la precisión del modelo
print(f'La precisión del modelo es: {accuracy_score}')

La precisión del modelo es: 0.9157706093189965


In [14]:
# Definiendo el esquema
tumor_schema = {
    'Grade': {
        'allowed_values': [0, 1],  # Ajusta según los valores de grado observados
        'dtype': int,  # Tipo de dato: entero
    },
    'Gender': {
        'allowed_values': [0, 1],  # 0 para femenino, 1 para masculino (si aplica)
        'dtype': int,  # Tipo de dato: entero
    },
    'Age_at_diagnosis': {
        'range': {
            'min': 0,
            'max': 120  # Rango típico de edad en años
        },
        'dtype': float,  # Tipo de dato: flotante
    },
    'Race': {
        'allowed_values': [0, 1, 2, 3],  # Ajusta según las categorías de raza en el dataset
        'dtype': int,  # Tipo de dato: entero
    },
    'Tumor_Specification': {
        'allowed_values': [0, 1, 2],  # Ajusta según las especificaciones tumorales observadas
        'dtype': int,  # Tipo de dato: entero
    },
    # Genes mutados (0: No mutado, 1: Mutado)
    'PTEN': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'EGFR': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'CIC': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'MUC16': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'PIK3CA': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'NF1': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'PIK3R1': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'FUBP1': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'RB1': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'NOTCH1': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'BCOR': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'CSMD3': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'SMARCA4': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'GRIN2A': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'IDH2': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'FAT4': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    },
    'PDGFRA': {
        'allowed_values': [0, 1],  # Valores permitidos: 0 o 1
        'dtype': int,  # Tipo de dato: entero
    }
}


In [15]:
@pytest.fixture
def pipeline():
    # Crear una instancia de la clase SimplePipeline
    pl = SimplePipeline()
    
    # Ejecutar el pipeline, lo que incluye cargar el dataset, entrenar el modelo, etc.
    pl.run_pipeline()
    
    # Devolver la instancia del pipeline
    return pl

In [16]:
%%ipytest

def test_input_data_ranges(pipeline):
    # Obtener los valores máximos y mínimos solo para las columnas numéricas
    numeric_columns = pipeline.frame.select_dtypes(include=['float64', 'int64']).columns
    max_values = pipeline.frame[numeric_columns].max()
    min_values = pipeline.frame[numeric_columns].min()
    
    # Asegurarse de que los valores máximos y mínimos estén dentro del rango esperado
    for feature in numeric_columns:
        if 'range' in tumor_schema[feature]:
            assert max_values[feature] <= tumor_schema[feature]['range']['max'], f"{feature} excede el valor máximo permitido"
            assert min_values[feature] >= tumor_schema[feature]['range']['min'], f"{feature} está por debajo del valor mínimo permitido"
    
    # Para las columnas categóricas, comprobar los valores permitidos
    categorical_columns = pipeline.frame.select_dtypes(include=['category']).columns
    for feature in categorical_columns:
        if 'allowed_values' in tumor_schema[feature]:
            unique_values = pipeline.frame[feature].cat.categories
            assert all(value in tumor_schema[feature]['allowed_values'] for value in unique_values), f"{feature} contiene valores no permitidos"

def test_input_data_types(pipeline):
    # Obtener los tipos de datos de cada columna
    data_types = pipeline.frame.dtypes
    
    # Probar la compatibilidad entre los tipos de datos
    for feature in pipeline.frame.columns:
        expected_type = tumor_schema[feature]['dtype']
        
        # Comparar teniendo en cuenta que 'category' se usa para valores categóricos en lugar de int
        if data_types[feature].name == 'category':
            assert expected_type == int, f"{feature} debe ser de tipo categórico pero se esperaba int en el esquema"
        else:
            # Verificar compatibilidad de tipos
            if expected_type == int:
                assert pd.api.types.is_integer_dtype(data_types[feature]), f"{feature} tiene un tipo incompatible"
            elif expected_type == float:
                assert pd.api.types.is_float_dtype(data_types[feature]), f"{feature} tiene un tipo incompatible"
            elif expected_type == str:
                assert pd.api.types.is_string_dtype(data_types[feature]), f"{feature} tiene un tipo incompatible"
            else:
                assert data_types[feature] == expected_type, f"{feature} tiene un tipo incompatible"


[32m.[0m[32m.[0m[32m                                                                                           [100%][0m
[32m[32m[1m2 passed[0m[32m in 0.08s[0m[0m
