In [1]:
# Instala el paquete "deepsig"
!pip install deepsig

# Importa las bibliotecas necesarias
import numpy as np  # Importa la biblioteca NumPy para manejo de matrices y operaciones numéricas
from deepsig import aso, multi_aso, bootstrap_power_analysis  # Importa la funcionalidades "aso", "multi_aso" y "bootstrap_power_analysis" del paquete "deepsig"
from itertools import product # Importa la funcionalidad "product" del paquete "itertools"

Collecting deepsig
  Downloading deepsig-1.2.6-py3-none-any.whl (48 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/48.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━[0m [32m41.0/48.1 kB[0m [31m1.4 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.1/48.1 kB[0m [31m1.0 MB/s[0m eta [36m0:00:00[0m
Collecting dill>=0.3.4 (from deepsig)
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: dill, deepsig
Successfully installed deepsig-1.2.6 dill-0.3.7


In [2]:
# Establece una semilla para la generación de números aleatorios
seed = 1234
np.random.seed(seed)

# Simula puntajes para modelos
N = 5  # Número de semillas aleatorias
my_model_scores = np.random.normal(loc=0.9, scale=0.8, size=N)  # Puntajes de "my_model"
baseline_scores = np.random.normal(loc=0, scale=1, size=N)  # Puntajes de "baseline"

# Calcula el valor de epsilon utilizando la función "aso"
min_eps = aso(my_model_scores, baseline_scores, seed=seed)  # min_eps = 0.225, lo que significa que "A" es mejor
print(min_eps)  # Imprime el valor de epsilon calculado

Bootstrap iterations: 100%|█████████▉| 999/1000 [00:17<00:00, 58.73it/s] 

0.22488112073395775





In [3]:
# Imprime los puntajes del conjunto "my_model"
print(my_model_scores)
# Imprime una línea separadora para claridad
print('---------------')
# Imprime los puntajes del conjunto "baseline"
print(baseline_scores)

[ 1.27714813 -0.05278056  2.04616557  0.64987848  0.32352901]
---------------
[ 0.88716294  0.85958841 -0.6365235   0.01569637 -2.24268495]


In [4]:
# Imprime el valor de la variable "min_eps" y su tipo de dato
print(min_eps, type(min_eps))

0.22488112073395775 <class 'numpy.float64'>


In [5]:
# Establece una semilla para la generación de números aleatorios
seed = 1234
np.random.seed(seed)

# Simula puntuaciones para tres conjuntos de datos
M = 3  # Número de conjuntos de datos
N = 5  # Número de semillas aleatorias
my_model_scores_per_dataset = [np.random.normal(loc=0.3, scale=0.8, size=N) for _ in range(M)]
baseline_scores_per_dataset = [np.random.normal(loc=0, scale=1, size=N) for _ in range(M)]

# Calcula los valores de eps_min para cada par de puntuaciones
eps_min = [aso(a, b, confidence_level=0.95, num_comparisons=M, seed=seed) for a, b in zip(my_model_scores_per_dataset, baseline_scores_per_dataset)]

Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 96.83it/s]
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:12<00:00, 80.76it/s] 
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 93.86it/s] 


In [6]:
print(my_model_scores_per_dataset,baseline_scores_per_dataset)

[array([ 0.67714813, -0.65278056,  1.44616557,  0.04987848, -0.27647099]), array([ 1.00973035,  0.98767073, -0.2092188 ,  0.3125571 , -1.49414796]), array([ 1.22002858,  1.09355682,  1.0626593 , -1.31700386,  0.03273811])] [array([ 0.00211836,  0.40545341,  0.28909194,  1.32115819, -1.54690555]), array([-0.20264632, -0.65596934,  0.19342138,  0.55343891,  1.31815155]), array([-0.46930528,  0.67555409, -1.81702723, -0.18310854,  1.05896919])]


In [9]:
# Establecer la semilla para reproducibilidad
seed = 1234
np.random.seed(seed)

# Simulación de puntuaciones para varias ejecuciones
M = 40   # Número de puntos de datos
N = 3    # Número de semillas aleatorias
my_model_scored_samples_per_run = [np.random.normal(loc=0.3, scale=0.8, size=M) for _ in range(N)]
baseline_scored_samples_per_run = [np.random.normal(loc=0, scale=1, size=M) for _ in range(N)]

# Generar pares de conjuntos de puntuaciones utilizando todas las combinaciones posibles
pairs = list(product(my_model_scored_samples_per_run, baseline_scored_samples_per_run))

# Calcular los valores epsilon_min con corrección de Bonferroni para cada par de puntuaciones
eps_min = [aso(a, b, confidence_level=0.95, num_comparisons=len(pairs), seed=seed) for a, b in pairs]


Bootstrap iterations: 100%|█████████▉| 999/1000 [00:11<00:00, 85.33it/s] 
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 91.66it/s]
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 92.39it/s]
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 92.70it/s]
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 94.31it/s]
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 97.93it/s] 
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 92.07it/s]
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 92.46it/s] 
Bootstrap iterations: 100%|█████████▉| 999/1000 [00:10<00:00, 91.75it/s] 


In [12]:
# Configuración de la semilla para reproducibilidad
seed = 1234
np.random.seed(seed)

# Número de semillas aleatorias
N = 5

# Número de modelos o algoritmos diferentes
M = 3

# Simular puntajes de diferentes modelos mediante muestreo de distribuciones normales con medias crecientes
# Aquí, muestreamos desde N(0.1, 0.8), N(0.15, 0.8), N(0.2, 0.8)
my_models_scores = np.array([np.random.normal(loc=loc, scale=0.8, size=N) for loc in np.arange(0.1, 0.1 + 0.05 * M, step=0.05)])


In [13]:
# Imprime el tipo de la matriz de puntajes de modelos simulados
print(type(my_models_scores))

# Imprime la cantidad de filas en la matriz (número de modelos)
print(len(my_models_scores))

# Imprime la forma de la matriz (número de modelos x número de puntajes por modelo)
print(my_models_scores.shape)

# Imprime la matriz de puntajes de modelos simulados
print(my_models_scores)

# Imprime los valores de eps_min obtenidos a través del cálculo de multi ASO
print(eps_min)

<class 'numpy.ndarray'>
3
(3, 5)
[[ 0.47714813 -0.85278056  1.24616557 -0.15012152 -0.47647099]
 [ 0.85973035  0.83767073 -0.3592188   0.1625571  -1.64414796]
 [ 1.12002858  0.99355682  0.9626593  -1.41700386 -0.06726189]]
[0.3831678636198528, 0.07194780234194881, 0.9152792807128325, 0.5273463008857844, 0.14946944524461184, 1.0, 0.6099543280369378, 0.22387448804041898, 1.0]


In [14]:
# Crear una muestra con pocos datos y alta varianza
scores = np.random.normal(loc=0, scale=20, size=5)

# Realizar análisis de potencia con el método bootstrap
# show_progress=False para no mostrar el progreso del análisis
power = bootstrap_power_analysis(scores, show_progress=False)
# El resultado será un valor bajo de potencia (0.081), lo que indica que la muestra es pequeña y no es representativa.

# Crear una muestra más grande
scores2 = np.random.normal(loc=0, scale=20, size=50)

# Realizar análisis de potencia con el método bootstrap para la muestra más grande
power2 = bootstrap_power_analysis(scores2, show_progress=False)

# El resultado será un valor más alto de potencia (0.2556), lo que indica que la muestra más grande tiene una potencia estadística mejorada.

In [15]:
# Crear una muestra con pocos datos y alta varianza
scores3 = np.random.normal(loc=0, scale=20, size=5)

# Realizar análisis de potencia con el método bootstrap para la nueva muestra
# show_progress=False para no mostrar el progreso del análisis
power3 = bootstrap_power_analysis(scores3, show_progress=False)

# Imprimir el resultado del análisis de potencia
print(power3)

0.1422


In [16]:
# Imprimir los resultados del análisis de potencia
print(power)    # Imprimir la potencia del primer conjunto de puntajes
print(power2)   # Imprimir la potencia del segundo conjunto de puntajes

0.0742
0.2424
