## Descripci√≥n contextual del problema
Una cl√≠nica m√©dica debe seleccionar un subconjunto de pruebas diagn√≥sticas (representadas por caracter√≠sticas del dataset load_breast_cancer de sklearn) para incluir en un paquete b√°sico de ex√°menes preventivos. Cada prueba tiene:

* Un costo asociado.
* Un nivel de importancia cl√≠nica basado en su correlaci√≥n con el diagn√≥stico.
* Un l√≠mite total de presupuesto para el paquete.

El objetivo es maximizar la utilidad total de las pruebas seleccionadas sin exceder el presupuesto disponible.

### Identificaci√≥n del tipo de problema

* Determinista
* Lineal
* Con restricciones
* Variables Discretas (0 o 1 por prueba seleccionada)

### Formulaci√≥n matem√°tica

Variables de decisi√≥n:

* ùë•ùëñ ‚àà {0, 1}: 1 si seleccionamos la prueba ùëñ, 0 si no.

Funci√≥n objetivo (maximizar):

$$
\text{Maximizar} \quad Z = \sum_{i=1}^{n} u_i x_i
$$

Donde:

* ùë¢ùëñ: utilidad (ej., correlaci√≥n con el diagn√≥stico) de la prueba ùëñ.

Restricci√≥n de presupuesto:

$$
\sum_{i=1}^{n} c_i x_i \leq B
$$

Donde:

* ùëêùëñ: costo de la prueba ùëñ,
* ùêµ: presupuesto m√°ximo disponible.

### Importar librer√≠as

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Conjunto de datos real de c√°ncer de mama incluido en scikit-learn.
# Este dataset contiene 30 caracter√≠sticas (variables) que se usar√°n como base
from sklearn.datasets import load_breast_cancer

# La funci√≥n linprog permite resolver problemas de programaci√≥n lineal, es decir,
# encontrar el valor √≥ptimo (m√°ximo o m√≠nimo) de una funci√≥n lineal sujeta a restricciones tambi√©n lineales.
from scipy.optimize import linprog

### Cargar dataset

In [None]:
data = load_breast_cancer()
n_features = data.data.shape[1]

print(data.DESCR)

### Simulaciones

In [None]:
# Simular costos de las pruebas (aleatorios entre 1 y 10)
np.random.seed(42)
costs = np.random.randint(1, 11, size=n_features)

# Simular utilidad como la correlaci√≥n con el target
X = data.data
y = data.target

# Calcular qu√© tan relevante es cada atributo respecto al target, usando correlaci√≥n de Pearson
# Se utiliza la transpuesta de X para seleccionar las correlaciones relevantes entre y y cada caracter√≠stica
utilities = np.abs(np.corrcoef(X.T, y)[-1, :-1])
# El resultado antes de 'np.abs' es un vector como: [0.65, -0.22, 0.41, ...]

# Se toma el valor absoluto de cada correlaci√≥n porque la correlaci√≥n negativa
# tambi√©n significa relaci√≥n fuerte, el signo no importa para medir relevancia

# Presupuesto m√°ximo
budget = 60

# Convertir a problema de minimizaci√≥n (linprog minimiza por defecto)
c = -utilities  # porque queremos maximizar Z
A = [costs]
b = [budget]
bounds = [(0, 1) for _ in range(n_features)]  # variables binarias entre 0 y 1

# Resolver con linprog
res = linprog(c, A_ub=A, b_ub=b, bounds=bounds, method='highs')

### Mostrar resultados

In [None]:
print("Valor √≥ptimo (utilidad total):", -res.fun)
print("Presupuesto usado:", np.dot(costs, res.x))

print("\nPruebas seleccionadas:")
costos = 0
for i, val in enumerate(res.x):
    if val == 1:  # considerar como seleccionada
        print(f"- {data.feature_names[i]} (costo: {costs[i]}, utilidad: {utilities[i]:.2f})")
        costos += costs[i]

print("\nCantidad de pruebas seleccionadas:", np.sum(res.x == 1.0))
print("Presupuesto usado realmente:", costos)

# La diferencia con el presupuesto inicial (60) se debe a que np.dot(costs, res.x)
# multiplica cada costo por el valor de la variable √≥ptima. Como se muestra en la tabla siguiente,
# la √∫ltima prueba tiene un costo de 4 y un valor √≥ptimo de 0.25, lo que aporta 1 al total,
# pero no debe considerarse, ya que solo se cuentan las pruebas cuyo valor de variable es 1.

print("\n√çndice | Costo   | Variable √≥ptima")
print("----------------------------------")
for i, (c, x) in enumerate(zip(costs, res.x)):
    print(f"{i:6d} | {c:7.2f} | {x:15.3f}")