## Estructura del código

## Modelo

In [3]:
import numpy as np
from numpy.linalg import det, inv

In [4]:
class ClassEncoder:
  def fit(self, y):
    self.names = np.unique(y)
    self.name_to_class = {name:idx for idx, name in enumerate(self.names)}
    self.fmt = y.dtype
    # Q1: por que no hace falta definir un class_to_name para el mapeo inverso?

  def _map_reshape(self, f, arr):
    return np.array([f(elem) for elem in arr.flatten()]).reshape(arr.shape)
    # Q2: por que hace falta un reshape?

  def transform(self, y):
    return self._map_reshape(lambda name: self.name_to_class[name], y)

  def fit_transform(self, y):
    self.fit(y)
    return self.transform(y)

  def detransform(self, y_hat):
    return self._map_reshape(lambda idx: self.names[idx], y_hat)

In [5]:
class BaseBayesianClassifier:
  def __init__(self):
    self.encoder = ClassEncoder()

  def _estimate_a_priori(self, y):
    a_priori = np.bincount(y.flatten().astype(int)) / y.size
    # Q3: para que sirve bincount?
    return np.log(a_priori)

  def _fit_params(self, X, y):
    # estimate all needed parameters for given model
    raise NotImplementedError()

  def _predict_log_conditional(self, x, class_idx):
    # predict the log(P(x|G=class_idx)), the log of the conditional probability of x given the class
    # this should depend on the model used
    raise NotImplementedError()

  def fit(self, X, y, a_priori=None):
    # first encode the classes
    y = self.encoder.fit_transform(y)

    # if it's needed, estimate a priori probabilities
    self.log_a_priori = self._estimate_a_priori(y) if a_priori is None else np.log(a_priori)

    # check that a_priori has the correct number of classes
    assert len(self.log_a_priori) == len(self.encoder.names), "A priori probabilities do not match number of classes"

    # now that everything else is in place, estimate all needed parameters for given model
    self._fit_params(X, y)
    # Q4: por que el _fit_params va al final? no se puede mover a, por ejemplo, antes de la priori?

  def predict(self, X):
    # this is actually an individual prediction encased in a for-loop
    m_obs = X.shape[1]
    y_hat = np.empty(m_obs, dtype=self.encoder.fmt)

    for i in range(m_obs):
      encoded_y_hat_i = self._predict_one(X[:,i].reshape(-1,1))
      y_hat[i] = self.encoder.names[encoded_y_hat_i]

    # return prediction as a row vector (matching y)
    return y_hat.reshape(1,-1)

  def _predict_one(self, x):
    # calculate all log posteriori probabilities (actually, +C)
    log_posteriori = [ log_a_priori_i + self._predict_log_conditional(x, idx) for idx, log_a_priori_i
                  in enumerate(self.log_a_priori) ]

    # return the class that has maximum a posteriori probability
    return np.argmax(log_posteriori)

In [6]:
class QDA(BaseBayesianClassifier):

  def _fit_params(self, X, y):
    # estimate each covariance matrix
    self.inv_covs = [inv(np.cov(X[:,y.flatten()==idx], bias=True))
                      for idx in range(len(self.log_a_priori))]
    # Q5: por que hace falta el flatten y no se puede directamente X[:,y==idx]?
    # Q6: por que se usa bias=True en vez del default bias=False?
    self.means = [X[:,y.flatten()==idx].mean(axis=1, keepdims=True)
                  for idx in range(len(self.log_a_priori))]
    # Q7: que hace axis=1? por que no axis=0?

  def _predict_log_conditional(self, x, class_idx):
    # predict the log(P(x|G=class_idx)), the log of the conditional probability of x given the class
    # this should depend on the model used
    inv_cov = self.inv_covs[class_idx]
    unbiased_x =  x - self.means[class_idx]
    return 0.5*np.log(det(inv_cov)) -0.5 * unbiased_x.T @ inv_cov @ unbiased_x

In [7]:
class TensorizedQDA(QDA):

    def _fit_params(self, X, y):
        # ask plain QDA to fit params
        super()._fit_params(X,y)

        # stack onto new dimension
        self.tensor_inv_cov = np.stack(self.inv_covs)
        self.tensor_means = np.stack(self.means)

    def _predict_log_conditionals(self,x):
        unbiased_x = x - self.tensor_means
        inner_prod = unbiased_x.transpose(0,2,1) @ self.tensor_inv_cov @ unbiased_x        

        return 0.5*np.log(det(self.tensor_inv_cov)) - 0.5 * inner_prod.flatten()

    def _predict_one(self, x):
        # return the class that has maximum a posteriori probability
        return np.argmax(self.log_a_priori + self._predict_log_conditionals(x))



## Código para pruebas

Seteamos los datos

In [10]:
# hiperparámetros
rng_seed = 6543

In [11]:
from sklearn.datasets import load_iris, fetch_openml

def get_iris_dataset():
  data = load_iris()
  X_full = data.data
  y_full = np.array([data.target_names[y] for y in data.target.reshape(-1,1)])
  return X_full, y_full

def get_penguins():
    # get data
    df, tgt = fetch_openml(name="penguins", return_X_y=True, as_frame=True, parser='auto')

    # drop non-numeric columns
    df.drop(columns=["island","sex"], inplace=True)

    # drop rows with missing values
    mask = df.isna().sum(axis=1) == 0
    df = df[mask]
    tgt = tgt[mask]

    return df.values, tgt.to_numpy().reshape(-1,1)

# showing for iris
X_full, y_full = get_iris_dataset()

print(f"X: {X_full.shape}, Y:{y_full.shape}")

X: (150, 4), Y:(150, 1)


In [12]:
# peek data matrix
X_full[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [13]:
# peek target vector
y_full[:5]

array([['setosa'],
       ['setosa'],
       ['setosa'],
       ['setosa'],
       ['setosa']], dtype='<U10')

Separamos el dataset en train y test para medir performance

In [14]:
# preparing data, train - test validation
# 70-30 split
from sklearn.model_selection import train_test_split

def split_transpose(X, y, test_sz, random_state):
    # split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=random_state)

    # transpose so observations are column vectors
    return X_train.T, y_train.T, X_test.T, y_test.T

def accuracy(y_true, y_pred):
  return (y_true == y_pred).mean()

train_x, train_y, test_x, test_y = split_transpose(X_full, y_full, 0.4, rng_seed)

print(train_x.shape, train_y.shape, test_x.shape, test_y.shape)

(4, 90) (1, 90) (4, 60) (1, 60)


Entrenamos un QDA y medimos su accuracy

In [11]:
qda = QDA()

qda.fit(train_x, train_y)

In [12]:
train_acc = accuracy(train_y, qda.predict(train_x))
test_acc = accuracy(test_y, qda.predict(test_x))
print(f"Train (apparent) error is {1-train_acc:.4f} while test error is {1-test_acc:.4f}")

Train (apparent) error is 0.0111 while test error is 0.0167


Con el magic %%timeit podemos estimar el tiempo que tarda en correr una celda en base a varias ejecuciones. Por poner un ejemplo, acá vamos a estimar lo que tarda un ciclo completo de QDA y también su inferencia (predicción).

Ojo! a veces [puede ser necesario ejecutarlo varias veces](https://stackoverflow.com/questions/10994405/python-timeit-results-cached-instead-of-calculated) para obtener resultados consistentes.

Si quieren explorar otros métodos de medición también es válido!

In [13]:
%%timeit

qda.predict(test_x)

4.37 ms ± 55.7 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [14]:
%%timeit

model = QDA()
model.fit(train_x, train_y)
model.predict(test_x)

4.85 ms ± 42.1 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Implementación base

## Parte 1

### Distribucion del dataset completo

In [15]:
#Creo el modelo
qda_total = QDA()

#La probabilidad a priori se basa en las frecuencias de las clases en el conjunto completo.
qda_total.fit(X_full.T, y_full.T)

In [16]:
#Mido prescicion del modelo
qda_total_acc = accuracy(y_full.T, qda_total.predict(X_full.T))
print(f"Train (apparent) error is {1-qda_total_acc:.4f}")

Train (apparent) error is 0.0200


### Distribucion uniforme

In [17]:
# Cargo el dataset iris
X_iris, y_iris = get_iris_dataset()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [18]:
#Creo el modelo
qda_uniform = QDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
qda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [19]:
#Mido prescicion del modelo
train_acc_qda_uniform = accuracy(train_y_iris, qda_uniform.predict(train_x_iris))
test_acc_qda_uniform = accuracy(test_y_iris, qda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_qda_uniform:.4f} while test error is {1-test_acc_qda_uniform:.4f}")

Train (apparent) error is 0.0222 while test error is 0.0167


### Distribuciones sesgadas

In [20]:
#Creo nuevo modelo
qda_prob = QDA()

qda_prob.fit(train_x_iris, train_y_iris, a_priori = [0.9, 0.05, 0.05])

In [21]:
#Mido prescicion del modelo
train_acc_qda_prob = accuracy(train_y_iris, qda_prob.predict(train_x_iris))
test_acc_qda_prob = accuracy(test_y_iris, qda_prob.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_qda_prob:.4f} while test error is {1-test_acc_qda_prob:.4f}")

Train (apparent) error is 0.0222 while test error is 0.0167


In [22]:
#Cambio de orden las probabilidades
qda_prob.fit(train_x_iris, train_y_iris, a_priori = [0.05, 0.9, 0.05])

In [23]:
#Mido prescicion del modelo
train_acc_qda_prob = accuracy(train_y_iris, qda_prob.predict(train_x_iris))
test_acc_qda_prob = accuracy(test_y_iris, qda_prob.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_qda_prob:.4f} while test error is {1-test_acc_qda_prob:.4f}")

Train (apparent) error is 0.0333 while test error is 0.0000


In [24]:
#Cambio de orden las probabilidades
qda_prob.fit(train_x_iris, train_y_iris, a_priori = [0.05, 0.05, 0.9])

In [25]:
#Mido prescicion del modelo
train_acc_qda_prob = accuracy(train_y_iris, qda_prob.predict(train_x_iris))
test_acc_qda_prob = accuracy(test_y_iris, qda_prob.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_qda_prob:.4f} while test error is {1-test_acc_qda_prob:.4f}")

Train (apparent) error is 0.0333 while test error is 0.0500


<center>

Modelo | Dataset | Seed | Error (train) | Error (test)
:---: | :---: | :---: | :---: | :---:
QDA_total | Iris | 6543 | 0.0200 | N/A
QDA_uniforme | Iris | 6543 | 0.0222 | 0.0167
QDA_sesgada_1 | Iris | 6543 | 0.0222 | 0.0167
QDA_sesgada_2 | Iris | 6543 | 0.0333 | 0
QDA_sesgada_3 | Iris | 6543 | 0.0333 | 0.0500

</center>


En cuanto a la diferencia que se observa:
- **Distribuciones a priori distintas**, afectan las probabilidades de las clases y, por lo tanto, el comportamiento del modelo. Por ejemplo, si usas una distribución sesgada (donde una clase tiene una probabilidad mucho mayor), el modelo tenderá a clasificar más observaciones en esa clase, lo que podría afectar las métricas de desempeño.
- **Cuando spliteas el dataset**, los datos de entrenamiento podrían tener una distribución diferente de clases en comparación con el conjunto completo, lo que podría hacer que las distribuciones a priori aprendidas por el modelo sean diferentes si no se establecen explícitamente.
- **Cuando no se splitea el dataset**, esto debería dar como resultado distribuciones a priori basadas en las frecuencias de las clases en el conjunto completo, por ende el las metricas de desempeño aumentan porque las distribuciones a priori son mas acorde con la distribucion de clases en el dataset

## Parte 2

### Distribucion del dataset completo de penguin

In [26]:
# seteamos penguin
X_full, y_full = get_penguins()

#Creo el modelo
qda_total = QDA()

#La probabilidad a priori se basa en las frecuencias de las clases en el conjunto completo.
qda_total.fit(X_full.T, y_full.T)

In [27]:
#Mido prescicion del modelo
qda_total_acc = accuracy(y_full.T, qda_total.predict(X_full.T))
print(f"Train (apparent) error is {1-qda_total_acc:.4f}")

Train (apparent) error is 0.0117


### Distribucion uniforme

In [28]:
# Cargo el dataset penguin
X_penguins, y_penguins = get_penguins()

#Separo en test de entrenamiento y test de evaluacio
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)

In [29]:
#Creo el modelo
qda_uniform = QDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
qda_uniform.fit(train_x_penguins, train_y_penguins, a_priori = [1/3, 1/3, 1/3])

In [30]:
#Mido prescicion del modelo
train_acc_qda_uniform = accuracy(train_y_penguins, qda_uniform.predict(train_x_penguins))
test_acc_qda_uniform = accuracy(test_y_penguins, qda_uniform.predict(test_x_penguins))
print(f"Train (apparent) error is {1-train_acc_qda_uniform:.4f} while test error is {1-test_acc_qda_uniform:.4f}")

Train (apparent) error is 0.0098 while test error is 0.0073


### Distribuciones sesgadas

In [31]:
#Creo nuevo modelo
qda_prob = QDA()

qda_prob.fit(train_x_penguins, train_y_penguins, a_priori = [0.9, 0.05, 0.05])

In [32]:
#Mido prescicion del modelo
train_acc_qda_prob = accuracy(train_y_penguins, qda_prob.predict(train_x_penguins))
test_acc_qda_prob = accuracy(test_y_penguins, qda_prob.predict(test_x_penguins))
print(f"Train (apparent) error is {1-train_acc_qda_prob:.4f} while test error is {1-test_acc_qda_prob:.4f}")

Train (apparent) error is 0.0195 while test error is 0.0219


In [33]:
qda_prob.fit(train_x_penguins, train_y_penguins, a_priori = [0.05, 0.9, 0.05])

In [34]:
#Mido prescicion del modelo
train_acc_qda_prob = accuracy(train_y_penguins, qda_prob.predict(train_x_penguins))
test_acc_qda_prob = accuracy(test_y_penguins, qda_prob.predict(test_x_penguins))
print(f"Train (apparent) error is {1-train_acc_qda_prob:.4f} while test error is {1-test_acc_qda_prob:.4f}")

Train (apparent) error is 0.0098 while test error is 0.0219


In [35]:
qda_prob.fit(train_x_penguins, train_y_penguins, a_priori = [0.05, 0.05, 0.9])

In [36]:
#Mido prescicion del modelo
train_acc_qda_prob = accuracy(train_y_penguins, qda_prob.predict(train_x_penguins))
test_acc_qda_prob = accuracy(test_y_penguins, qda_prob.predict(test_x_penguins))
print(f"Train (apparent) error is {1-train_acc_qda_prob:.4f} while test error is {1-test_acc_qda_prob:.4f}")

Train (apparent) error is 0.0098 while test error is 0.0073


<center>

Modelo | Dataset | Seed | Error (train) | Error (test)
:---: | :---: | :---: | :---: | :---:
QDA_total | Penguins | 6543 | 0.0117 | N/A
QDA_uniforme | Penguins | 6543 | 0.0098 | 0.0073
QDA_sesgada_1 | Penguins | 6543 | 0.0195 | 0.0219
QDA_sesgada_2 | Penguins | 6543 | 0.0098 | 0.0219
QDA_sesgada_3 | Penguins | 6543 | 0.0098 | 0.0073

</center>


**Conclusión:**
- El **error aparente en el conjunto de entrenamiento** generalmente será bajo, pero lo importante es cómo se comporta el modelo en el conjunto de test. Si las distribuciones a priori son muy sesgadas (como [0.9, 0.05, 0.05]), el modelo puede tender a favorecer más una clase y perder precisión en otras, lo que lleva a un mayor **error de test**.
- Las distribuciones a priori balanceadas (uniformes o moderadamente sesgadas) parecen producir los mejores resultados en este dataset.
  
El comportamiento de los errores refleja cómo el modelo ajusta las probabilidades a priori y cómo las clases desbalanceadas afectan las predicciones. Si alguna clase está sobrerrepresentada, como en el caso de la clase con probabilidad 0.9, el modelo podría obtener buenos resultados en el entrenamiento pero no generalizar bien a nuevos datos.

## Parte 3

### Implementacion del modelo LDA

In [25]:
class LDA(BaseBayesianClassifier):

    def _fit_params(self, X, y):
        # Calcular la matriz de covarianza de cada clase (Σ_j)
        self.cov_matrices = [np.cov(X[:, y.flatten() == idx], bias=True)
                             for idx in range(len(self.log_a_priori))]
        
        # Calcular el promedio ponderado para la matriz de covarianza global (Σ)
        class_sizes = [np.sum(y.flatten() == idx) for idx in range(len(self.log_a_priori))]
        n_total = len(y.flatten())
        self.cov_matrix = sum((class_sizes[idx] / n_total) * self.cov_matrices[idx]
                              for idx in range(len(self.log_a_priori)))
        
        # Calcular la inversa de la matriz de covarianza global
        self.inv_cov_matrix = inv(self.cov_matrix)
        
        # Calcular las medias de cada clase (μ_j)
        self.means = [X[:, y.flatten() == idx].mean(axis=1, keepdims=True)
                      for idx in range(len(self.log_a_priori))]

    #def _predict_log_conditional(self, x, class_idx):
        # Calcular el logaritmo de P(x|G=class_idx), el log de la probabilidad condicional
       # unbiased_x = x - self.means[class_idx]
      #  return -0.5 * np.log(det(self.cov_matrix)) - 0.5 * unbiased_x.T @ self.inv_cov_matrix @ unbiased_x
    def _predict_log_conditional(self, x, class_idx):
        # x debe ser un vector columna
        inv_cov = self.inv_cov_matrix
        mean = self.means[class_idx]
    
        # Calcular el término lineal
        linear_term = mean.T @ inv_cov @ x
    
        # Calcular el término cuadrático constante para la clase
        class_constant = -0.5 * mean.T @ inv_cov @ mean
    
        return (linear_term + class_constant).item()



### Distribucion del dataset completo de iris

In [38]:
X_full, y_full = get_iris_dataset()
#Creo el modelo
lda_total = LDA()

#La probabilidad a priori se basa en las frecuencias de las clases en el conjunto completo.
lda_total.fit(X_full.T, y_full.T)

In [39]:
#Mido prescicion del modelo
lda_total_acc = accuracy(y_full.T, lda_total.predict(X_full.T))
print(f"Train (apparent) error is {1-lda_total_acc:.4f}")

Train (apparent) error is 0.0200


#### Distribucion uniforme

In [40]:
# Cargo el dataset iris
X_iris, y_iris = get_iris_dataset()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [41]:
#Creo el modelo
lda_uniform = LDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
lda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [42]:
#Mido prescicion del modelo
train_acc_lda_uniform = accuracy(train_y_iris, lda_uniform.predict(train_x_iris))
test_acc_lda_uniform = accuracy(test_y_iris, lda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_lda_uniform:.4f} while test error is {1-test_acc_lda_uniform:.4f}")

Train (apparent) error is 0.0222 while test error is 0.0167


### Distribucion del dataset completo de penguins

In [43]:
X_full, y_full = get_penguins()
#Creo el modelo
lda_total = LDA()

#La probabilidad a priori se basa en las frecuencias de las clases en el conjunto completo.
lda_total.fit(X_full.T, y_full.T)

In [44]:
#Mido prescicion del modelo
lda_total_acc = accuracy(y_full.T, lda_total.predict(X_full.T))
print(f"Train (apparent) error is {1-lda_total_acc:.4f}")

Train (apparent) error is 0.0117


#### Distribucion uniforme

In [45]:
# Cargo el dataset iris
X_iris, y_iris = get_penguins()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [46]:
#Creo el modelo
lda_uniform = LDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
lda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [47]:
#Mido prescicion del modelo
train_acc_lda_uniform = accuracy(train_y_iris, lda_uniform.predict(train_x_iris))
test_acc_lda_uniform = accuracy(test_y_iris, lda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_lda_uniform:.4f} while test error is {1-test_acc_lda_uniform:.4f}")

Train (apparent) error is 0.0098 while test error is 0.0073


<center>

Modelo | Dataset | Seed | Error (train) | Error (test)
:---: | :---: | :---: | :---: | :---:
QDA_total | Iris | 6543 | 0.0200 | N/A
QDA_uniforme | Iris | 6543 | 0.0222 | 0.0167
QDA_total | Penguins | 6543 | 0.0117 | N/A
QDA_uniforme | Penguins | 6543 | 0.0098 | 0.0073
LDA_total | Iris | 6543 | 0.0200 | N/A
LDA_uniforme | Iris | 6543 | 0.0222 | 0.0167
LDA_total | Penguins | 6543 | 0.0117 | N/A
LDA_uniforme | Penguins | 6543 | 0.0098 | 0.0073

</center>


**Los resultados son consistentes con datasets como Iris y Penguins, donde las clases están bien definidas y no tienen grandes diferencias en sus varianzas. Esto demuestra que ambos modelos funcionan bien, pero LDA puede considerarse mejor en este caso por ser más simple.** (verificar)

No se observan diferencias en los resultados pero podria decirse que LDA es notoriamente mejor por la robustes del metodo que requiere menos parametros para su implementacion. La ventaja de QDA quizas no se esta aprovechando porque las diferencias en las varianzas de las clases no deben ser grandes, entonces la generalizacion que hace LDA lo convierte en el metodo de preferencia por ser mas simple.

## Parte 4

### rng_seed = 1000

In [48]:
# hiperparámetros
rng_seed = 3000

#### Distribucion uniforme QDA iris

In [49]:
# Cargo el dataset iris
X_iris, y_iris = get_iris_dataset()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [50]:
#Creo el modelo
qda_uniform = QDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
qda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [51]:
#Mido prescicion del modelo
train_acc_qda_uniform = accuracy(train_y_iris, qda_uniform.predict(train_x_iris))
test_acc_qda_uniform = accuracy(test_y_iris, qda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_qda_uniform:.4f} while test error is {1-test_acc_qda_uniform:.4f}")

Train (apparent) error is 0.0111 while test error is 0.0167


#### Distribucion uniforme LDA iris

In [52]:
# Cargo el dataset iris
X_iris, y_iris = get_iris_dataset()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [53]:
#Creo el modelo
lda_uniform = LDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
lda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [54]:
#Mido prescicion del modelo
train_acc_lda_uniform = accuracy(train_y_iris, lda_uniform.predict(train_x_iris))
test_acc_lda_uniform = accuracy(test_y_iris, lda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_lda_uniform:.4f} while test error is {1-test_acc_lda_uniform:.4f}")

Train (apparent) error is 0.0000 while test error is 0.0667


#### Distribucion uniforme QDA penguin

In [55]:
# Cargo el dataset iris
X_penguins, y_penguins = get_penguins()

#Separo en test de entrenamiento y test de evaluacio
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)

In [56]:
#Creo el modelo
qda_uniform = QDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
qda_uniform.fit(train_x_penguins, train_y_penguins, a_priori = [1/3, 1/3, 1/3])

In [57]:
#Mido prescicion del modelo
train_acc_qda_uniform = accuracy(train_y_penguins, qda_uniform.predict(train_x_penguins))
test_acc_qda_uniform = accuracy(test_y_penguins, qda_uniform.predict(test_x_penguins))
print(f"Train (apparent) error is {1-train_acc_qda_uniform:.4f} while test error is {1-test_acc_qda_uniform:.4f}")

Train (apparent) error is 0.0049 while test error is 0.0073


#### Distribucion uniforme LDA penguin

In [58]:
# Cargo el dataset iris
X_iris, y_iris = get_penguins()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [59]:
#Creo el modelo
lda_uniform = LDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
lda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [60]:
#Mido prescicion del modelo
train_acc_lda_uniform = accuracy(train_y_iris, lda_uniform.predict(train_x_iris))
test_acc_lda_uniform = accuracy(test_y_iris, lda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_lda_uniform:.4f} while test error is {1-test_acc_lda_uniform:.4f}")

Train (apparent) error is 0.0146 while test error is 0.0073


### rng_seed = 1

In [61]:
# hiperparámetros
rng_seed = 2000

#### Distribucion uniforme QDA iris

In [62]:
# Cargo el dataset iris
X_iris, y_iris = get_iris_dataset()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [63]:
#Creo el modelo
qda_uniform = QDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
qda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [64]:
#Mido prescicion del modelo
train_acc_qda_uniform = accuracy(train_y_iris, qda_uniform.predict(train_x_iris))
test_acc_qda_uniform = accuracy(test_y_iris, qda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_qda_uniform:.4f} while test error is {1-test_acc_qda_uniform:.4f}")

Train (apparent) error is 0.0111 while test error is 0.0833


#### Distribucion uniforme LDA iris

In [65]:
# Cargo el dataset iris
X_iris, y_iris = get_iris_dataset()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [66]:
#Creo el modelo
lda_uniform = LDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
lda_uniform.fit(train_x_iris, train_y_iris, a_priori = [1/3, 1/3, 1/3])

In [67]:
#Mido prescicion del modelo
train_acc_lda_uniform = accuracy(train_y_iris, lda_uniform.predict(train_x_iris))
test_acc_lda_uniform = accuracy(test_y_iris, lda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_lda_uniform:.4f} while test error is {1-test_acc_lda_uniform:.4f}")

Train (apparent) error is 0.0000 while test error is 0.0500


#### Distribucion uniforme QDA penguin

In [68]:
# Cargo el dataset iris
X_penguins, y_penguins = get_penguins()

#Separo en test de entrenamiento y test de evaluacio
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)

In [69]:
#Creo el modelo
qda_uniform = QDA()

#La probabilidad a priori es un array de largo 3 porque CLass encoder toma los y unicos, 
#en este caso son 3
qda_uniform.fit(train_x_penguins, train_y_penguins, a_priori = [1/3, 1/3, 1/3])

In [70]:
#Mido prescicion del modelo
train_acc_qda_uniform = accuracy(train_y_penguins, qda_uniform.predict(train_x_penguins))
test_acc_qda_uniform = accuracy(test_y_penguins, qda_uniform.predict(test_x_penguins))
print(f"Train (apparent) error is {1-train_acc_qda_uniform:.4f} while test error is {1-test_acc_qda_uniform:.4f}")

Train (apparent) error is 0.0098 while test error is 0.0146


#### Distribucion uniforme LDA penguin

In [71]:
# Cargo el dataset iris
X_iris, y_iris = get_penguins()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [72]:
# Cargo el dataset iris
X_iris, y_iris = get_penguins()

#Separo en test de entrenamiento y test de evaluacio
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)

In [73]:
#Mido prescicion del modelo
train_acc_lda_uniform = accuracy(train_y_iris, lda_uniform.predict(train_x_iris))
test_acc_lda_uniform = accuracy(test_y_iris, lda_uniform.predict(test_x_iris))
print(f"Train (apparent) error is {1-train_acc_lda_uniform:.4f} while test error is {1-test_acc_lda_uniform:.4f}")

Train (apparent) error is 1.0000 while test error is 1.0000


<center>

Modelo | Dataset | Seed | Error (train) | Error (test)
:---: | :---: | :---: | :---: | :---:
QDA_uniforme | Iris | 3000 | 0.0111 | 0.0333
LDA_uniforme | Iris | 3000 | 0 | 0.0667
QDA_uniforme | penguins | 3000 | 0.0049 | 0.0073
LDA_uniforme | penguins | 3000 | 0.0146 | 0.0073
QDA_uniforme | Iris | 2000 | 0.0111 | 0.0833
LDA_uniforme | Iris | 2000 | 0 | 0.0500
QDA_uniforme | penguins | 2000 | 0.0098 | 0.0146
LDA_uniforme | penguins | 2000 | 0.0098 | 0.0146

</center>

**Conclusion**

- QDA tiene mejor desempeño en el dataset Iris (menor error de prueba) en la mayoría de los casos, pero es más sensible a los splits de datos y puede sobreajustarse si las matrices de covarianza de las clases no son muy distintas.
- LDA es más estable y consistente, especialmente en el dataset Penguins, donde las clases tienen propiedades similares. También tiene menos riesgo de sobreajuste debido a su simplicidad.

Ninguno de los dos modelos es estrictamente "mejor" en todos los escenarios. La elección entre QDA y LDA debe depender de las características del dataset y del propósito del análisis. En general, si las clases tienen matrices de covarianza similares, LDA es más apropiado.
Si las clases son más heterogéneas, QDA puede ofrecer ventajas si el dataset tiene suficientes datos.

## Parte 5

In [74]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_iris, y_iris = get_iris_dataset()
#Separo en test de entrenamiento y test de evaluacion
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)
#Creo el modelo
qda_timeit = QDA()
#La probabilidad a priori frecuentista
qda_timeit.fit(train_x_iris, train_y_iris)

In [75]:
%%timeit

qda_timeit.predict(test_x_iris)

4.37 ms ± 119 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [76]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_penguins, y_penguins = get_penguins()
#Separo en test de entrenamiento y test de evaluacion
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)
#Creo el modelo
qda_timeit = QDA()
#La probabilidad a priori frecuentista
qda_timeit.fit(train_x_penguins, train_y_penguins)

In [77]:
%%timeit

qda_timeit.predict(test_x_penguins)

9.68 ms ± 65 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [78]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_iris, y_iris = get_iris_dataset()
#Separo en test de entrenamiento y test de evaluacion
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)
#Creo el modelo
tensorizedqda_timeit = TensorizedQDA()
#La probabilidad a priori frecuentista
tensorizedqda_timeit.fit(train_x_iris, train_y_iris)

In [79]:
%%timeit

tensorizedqda_timeit.predict(test_x_iris)

1.71 ms ± 13.1 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [80]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_penguins, y_penguins = get_penguins()
#Separo en test de entrenamiento y test de evaluacion
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)
#Creo el modelo
tensorizedqda_timeit = TensorizedQDA()
#La probabilidad a priori frecuentista
tensorizedqda_timeit.fit(train_x_penguins, train_y_penguins)

In [81]:
%%timeit

tensorizedqda_timeit.predict(test_x_penguins)

3.64 ms ± 24.4 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


<center>

Modelo | Dataset | Seed | Mean [ms] | ± Std [us] | Parametro | Runs/Loops
:---: | :---: | :---: | :---: | :---: | :---: | :---:
QDA | Iris | 4000 | 4.41 | 52.4 | p | 7/100
QDA | Penguins | 4000 | 10.3 | 316 | p | 7/100
TensorizedQDA | Iris | 4000 | 1.66 | 17.6 | p | 7/100
TensorizedQDA | Penguins | 4000 | 3.56 | 193 | p | 7/100
</center>

**Observaciones**
TensorizedQDA es significativamente más rápido que QDA para la predicción, con tiempos promedios que son aproximadamente 2.5x a 3x menores, dependiendo del dataset. Esto se debe a su uso de operaciones vectorizadas, que optimizan los cálculos al reducir redundancias y aprovechar mejor el hardware moderno, como las tarjetas graficas. Ambos métodos producen los mismos resultados, pero TensorizedQDA es preferible cuando se prioriza la eficiencia computacional. Se destaca el hecho de que la optimizacion no se da a nivel de codigo sino a nivel matematico, trabajando con tensores en tres dimensiones en lugar de matrices.


# Optimizacion matematica QDA

## Parte 1

In [16]:
class FasterQDA(TensorizedQDA):
    
    def predict(self, X):
    # this is actually an individual prediction encased in a for-loop
        m_obs = X.shape[1]
        p_par = X.shape[0]
        y_hat = np.empty(m_obs, dtype=self.encoder.fmt)
        
        new_tensor_means = np.repeat(self.tensor_means, m_obs, axis=2) #Forma(clases,p,n)
        unbiased_x = X - new_tensor_means

        inner_prod = unbiased_x.transpose(0,2,1) @ self.tensor_inv_cov @ unbiased_x #Forma(clases,nxn)
        #print(inner_prod.shape)
        #diagonal = inner_prod.diagonal()
        diagonal = np.array([inner_prod[i].diagonal() for i in range(inner_prod.shape[0])]).T  # Forma (n,clases)
        #print(diagonal.shape)
        log_dets = 0.5*np.log(det(self.tensor_inv_cov))
        
        log_posteriors = self.log_a_priori + log_dets - 0.5 * diagonal
       
        y_hat_indices = np.argmax(log_posteriors, axis=1)
        y_hat = self.encoder.detransform(y_hat_indices)
        return y_hat.reshape(1, -1)

In [17]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_iris, y_iris = get_iris_dataset()
#Separo en test de entrenamiento y test de evaluacion
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)
#Creo el modelo
fasterqda_timeit = FasterQDA()
#La probabilidad a priori frecuentista
fasterqda_timeit.fit(train_x_iris, train_y_iris)

In [24]:
%%timeit -n 100

fasterqda_timeit.predict(test_x_iris)

121 μs ± 1.66 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [25]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_penguins, y_penguins = get_penguins()
#Separo en test de entrenamiento y test de evaluacion
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)
#Creo el modelo
fasterqda_timeit = FasterQDA()
#La probabilidad a priori frecuentista
fasterqda_timeit.fit(train_x_penguins, train_y_penguins)

In [26]:
%%timeit -n 100

fasterqda_timeit.predict(test_x_penguins)

184 μs ± 7.56 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Parte 2

<center>
    
Modelo | Dataset | Seed | Mean [ms] | ± Std [us] | Parametro | Runs/Loops
:---: | :---: | :---: | :---: | :---: | :---: | :---:
QDA | Iris | 4000 | 4.41 | 52.4 | p | 7/100
TensorizedQDA | Iris | 4000 | 1.66 | 17.6 | p | 7/100
FasterQDA | Iris | 4000 | 0.121 | 1.66 | 100 | 7/100
QDA | Penguins | 4000 | 10.3 | 316 | p | 7/100
TensorizedQDA | Penguins | 4000 | 3.56 | 193 | p | 7/100
FasterQDA | Penguins | 4000 | 0.184 | 7.56 | 100 | 7/100
</center>

**Conclusiones**

- Para el dataset de Iris: FasterQDA es aproximadamente 36 veces más rápido que QDA tradicional y 14 veces más rápido que TensorizedQDA. La variabilidad en tiempos de predicción es mucho menor para FasterQDA, lo que demuestra un desempeño más estable.
- Para el dataset de Penguins: FasterQDA es aproximadamente 56 veces más rápido que QDA tradicional y 20 veces más rápido que TensorizedQDA. Nuevamente, FasterQDA tiene la menor variabilidad, lo que lo hace ideal para aplicaciones sensibles al tiempo.

En resumen, FasterQDA es extremadamente eficiente en comparación con QDA tradicional y TensorizedQDA. Esto se debe a que reduce drásticamente los cálculos internos y optimiza las operaciones relacionadas con las diagonales y los productos internos.

## Parte 3

In [56]:
class FasterQDA(TensorizedQDA):
    
    def predict(self, X):
    # this is actually an individual prediction encased in a for-loop
        m_obs = X.shape[1]
        p_par = X.shape[0]
        y_hat = np.empty(m_obs, dtype=self.encoder.fmt)
        
        new_tensor_means = np.repeat(self.tensor_means, m_obs, axis=2) #Forma(clases,p,n)
        unbiased_x = X - new_tensor_means

        inner_prod = unbiased_x.transpose(0,2,1) @ self.tensor_inv_cov @ unbiased_x #Forma(clases,nxn)
        print("La matriz nxn es la que esta en el tensor (clases, nxn)", inner_prod.shape)
        diagonal = np.array([inner_prod[i].diagonal() for i in range(inner_prod.shape[0])]).T  # Forma (n,clases)
        #print(diagonal.shape)
        log_dets = 0.5*np.log(det(self.tensor_inv_cov))
        
        log_posteriors = self.log_a_priori + log_dets - 0.5 * diagonal
       
        y_hat_indices = np.argmax(log_posteriors, axis=1)
        y_hat = self.encoder.detransform(y_hat_indices)
        return y_hat.reshape(1, -1)

In [57]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_iris, y_iris = get_iris_dataset()
#Separo en test de entrenamiento y test de evaluacion
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)
#Creo el modelo
fasterqda_timeit = FasterQDA()
#La probabilidad a priori frecuentista
fasterqda_timeit.fit(train_x_iris, train_y_iris)

fasterqda_timeit.predict(test_x_iris);

La matriz nxn es la que esta en el tensor (clases, nxn) (3, 60, 60)


## Parte 4

#### **Demostración de la Propiedad Matemática:**

La diagonal del producto de dos matrices $ A \cdot B $ es igual a la suma por filas del producto elemento a elemento de $ A $ y la transpuesta de $ B $:
$$
\text{diag}(A \cdot B) = \sum_{\text{columnas}} A \odot B^T
$$

Donde:
- $ A $ es una matriz de dimensiones $ n \times p $.
- $ B $ es una matriz de dimensiones $ p \times n $.
- $ \odot $ representa el producto elemento a elemento (producto de Hadamard).

---

Demostración:
#### Elemento $ ii $ de la Diagonal:

El elemento en la posición $ ii $ de la diagonal del producto $ A \cdot B $ es:
$$
(A \cdot B)_{ii} = \sum_{k=1}^{p} A_{ik} \cdot B_{ki}
$$
Es decir, es la suma sobre $ k $ de $ A_{ik} $ multiplicado por $ B_{ki} $.

---

#### Producto Elemento a Elemento con $ B^T $:

Al considerar la transpuesta de $ B $, es decir, $ B^T $, que es de dimensiones $ n \times p $, el producto elemento a elemento $ A \odot B^T $ resulta en una matriz $ C $ de dimensiones $ n \times p $, donde cada elemento es:
$$
C_{ik} = A_{ik} \cdot B_{ik}^T = A_{ik} \cdot B_{ki}
$$

---

#### Suma por Filas:

La suma de los elementos de la fila $ i $ de $ C $ es:
$$
\sum_{k=1}^{p} C_{ik} = \sum_{k=1}^{p} A_{ik} \cdot B_{ki}
$$
Que es exactamente el elemento $ ii $ de la diagonal de $ A \cdot B $.

---

Conclusión:
Por lo tanto:
$$
\text{diag}(A \cdot B) = \sum_{\text{columnas}} A \odot B^T
$$

## Parte 5

In [15]:
class EvenFasterQDA(TensorizedQDA):
    def predict(self, X):
    # this is actually an individual prediction encased in a for-loop
        m_obs = X.shape[1]
        p_par = X.shape[0]
        y_hat = np.empty(m_obs, dtype=self.encoder.fmt)
        
        new_tensor_means = np.repeat(self.tensor_means, m_obs, axis=2) #Forma(clases,p,n)
        unbiased_x = X - new_tensor_means

        A = unbiased_x.transpose(0,2,1) @ self.tensor_inv_cov
        B = unbiased_x
        
        diagonal = np.sum(A * B.transpose(0,2,1), axis = 2).T  # Forma (n,clases)
        log_dets = 0.5*np.log(det(self.tensor_inv_cov))
        
        log_posteriors = self.log_a_priori + log_dets - 0.5 * diagonal
       
        y_hat_indices = np.argmax(log_posteriors, axis=1)
        y_hat = self.encoder.detransform(y_hat_indices)
        return y_hat.reshape(1, -1)

In [17]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_iris, y_iris = get_iris_dataset()
#Separo en test de entrenamiento y test de evaluacion
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)
#Creo el modelo
evenfasterqda_timeit = EvenFasterQDA()
#La probabilidad a priori frecuentista
evenfasterqda_timeit.fit(train_x_iris, train_y_iris)

In [20]:
%%timeit -n 100

evenfasterqda_timeit.predict(test_x_iris)

140 μs ± 16.3 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [21]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_penguins, y_penguins = get_penguins()
#Separo en test de entrenamiento y test de evaluacion
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)
#Creo el modelo
evenfasterqda_timeit = EvenFasterQDA()
#La probabilidad a priori frecuentista
evenfasterqda_timeit.fit(train_x_penguins, train_y_penguins)

In [22]:
%%timeit -n 100

evenfasterqda_timeit.predict(test_x_penguins)

135 μs ± 3.26 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


<center>
    
Modelo | Dataset | Seed | Mean [ms] | ± Std [us] | Parametro | Runs/Loops
:---: | :---: | :---: | :---: | :---: | :---: | :---:
QDA | Iris | 4000 | 4.41 | 52.4 | 100 | 7/100
TensorizedQDA | Iris | 4000 | 1.66 | 17.6 | 100 | 7/100
FasterQDA | Iris | 4000 | 0.121 | 1.66 | 100 | 7/100
EvenFasterQDA | Iris | 4000 | 0.140 | 16.3 | 100 | 7/100
QDA | Penguins | 4000 | 10.3 | 316 | 100 | 7/100
TensorizedQDA | Penguins | 4000 | 3.56 | 193 | 100 | 7/100
FasterQDA | Penguins | 4000 | 0.184 | 7.56 | 100 | 7/100
EvenFasterQDA | Penguins | 4000 | 0.135 | 3.26 | 100 | 7/100

</center>

**Conclusiones**

- Para el dataset de Iris: EvenFasterQDA tiene un tiempo de predicción ligeramente mayor que FasterQDA (0.140 ms vs. 0.121 ms). Sin embargo, esta diferencia es marginal y probablemente no significativa en la práctica. La variabilidad en los tiempos de EvenFasterQDA es mayor que en FasterQDA (± 16.3 µs vs. ± 1.66 µs), lo que indica una posible pérdida de estabilidad en esta nueva implementación.
- Para el dataset de Penguins: EvenFasterQDA logra una mejora marginal en el tiempo promedio de predicción frente a FasterQDA (0.135 ms vs. 0.184 ms), siendo aproximadamente 1.36 veces más rápido. La variabilidad también se reduce significativamente (± 3.26 µs vs. ± 7.56 µs), lo que sugiere mayor estabilidad en esta implementación para este dataset.

En resumen, EvenFasterQDA logra una ligera mejora en el tiempo promedio de predicción frente a FasterQDA en el dataset Penguins. Sin embargo, en el dataset Iris, los tiempos de predicción son ligeramente mayores. Las diferencias son pequeñas, por lo que, en términos de velocidad, las implementaciones FasterQDA y EvenFasterQDA son prácticamente equivalentes.

En el dataset Penguins, EvenFasterQDA muestra una mejora significativa en la estabilidad (menor variabilidad). Sin embargo, en el dataset Iris, la variabilidad aumenta respecto a FasterQDA, lo que sugiere que la implementación no es consistentemente mejor en todos los casos.

La propiedad utilizada en EvenFasterQDA introduce una nueva forma de optimizar los cálculos, pero no siempre conduce a mejoras significativas en el tiempo de predicción. Esto sugiere que la implementación FasterQDA ya estaba cerca del límite de optimización en este contexto.

# Optimizacion matematica LDA

## Tensorizado

In [26]:
class TensorizedLDA(LDA):

    def _fit_params(self, X, y):
        # ask plain QDA to fit params
        super()._fit_params(X,y)

        # stack onto new dimension
        self.tensor_inv_cov = np.stack(self.inv_cov_matrix)#inv(self.tensor_cov_matrix)
        self.tensor_means = np.stack(self.means)
        self.tensor_means_x_inv_cov = self.tensor_means.transpose(0,2,1) @ self.tensor_inv_cov

    def _predict_log_conditionals(self,x):
         # Calcular el término lineal
        linear_term = self.tensor_means_x_inv_cov @ x
    
        # Calcular el término cuadrático constante para la clase
        class_constant = -0.5 * self.tensor_means_x_inv_cov @ self.tensor_means
        return (linear_term + class_constant).flatten()

    def _predict_one(self, x):
        # return the class that has maximum a posteriori probability
        return np.argmax(self.log_a_priori + self._predict_log_conditionals(x))

In [35]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_iris, y_iris = get_iris_dataset()
#Separo en test de entrenamiento y test de evaluacion
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)
#Creo los modelos
lda_timeit = LDA()
tensorizedlda_timeit = TensorizedLDA()
#La probabilidad a priori frecuentista
lda_timeit.fit(train_x_iris, train_y_iris)
tensorizedlda_timeit.fit(train_x_iris, train_y_iris)

In [36]:
%%timeit -n 100

lda_timeit.predict(test_x_iris)

2.59 ms ± 38.3 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [29]:
%%timeit -n 100

tensorizedlda_timeit.predict(test_x_iris)

826 μs ± 19.1 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [37]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_penguins, y_penguins = get_penguins()
#Separo en test de entrenamiento y test de evaluacion
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)
#Creo los modelos
lda_timeit = LDA()
tensorizedlda_timeit = TensorizedLDA()
#La probabilidad a priori frecuentista
lda_timeit.fit(train_x_iris, train_y_iris)
tensorizedlda_timeit.fit(train_x_penguins, train_y_penguins)

In [38]:
%%timeit -n 100

lda_timeit.predict(test_x_iris)

2.62 ms ± 36.7 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [40]:
%%timeit -n 100

tensorizedlda_timeit.predict(test_x_penguins)

1.69 ms ± 38.9 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


<center>

Modelo | Dataset | Seed | Mean [ms] | ± Std [us] | Parametro | Runs/Loops
:---: | :---: | :---: | :---: | :---: | :---: | :---:
LDA | Iris | 4000 | 2.59 | 38.3 | 100 | 7/100
TensorizedLDA | Iris | 4000 | 0.826 | 19.1 | 100 | 7/100
LDA | Penguins | 4000 | 2.62 | 36.7 | 100 | 7/100
TensorizedLDA | Penguins | 4000 | 1.69 | 38.9 | 100 | 7/100
</center>

**Conclusiones**

- Para el dataset de Iris: el modelo tensorizado muestra una mejora significativa en el tiempo de predicción, siendo aproximadamente 3 veces más rápido que el modelo LDA tradicional. Además, tiene una menor variabilidad en el tiempo de predicción, lo que sugiere mayor estabilidad.
- Para el dataset de Penguins: en este caso, la versión tensorizada también supera al modelo LDA tradicional, siendo aproximadamente 1.5 veces más rápida. Sin embargo, la variabilidad en los tiempos de predicción es ligeramente mayor en el modelo tensorizado.

En resumen, el aprovechamiento del calculo matricial en la version tensorizada reduce la necesidad de realizar cálculos redundantes lo que mejora la eficiencia y en cuanto a la estabilidad, si bien la version tensorizada es mas rapida, no necesariamente es mas estable en todos los datasets como se observa en Penguins.



## Faster LDA

In [41]:
class FasterLDA(TensorizedLDA):
    def predict(self, X):
    # this is actually an individual prediction encased in a for-loop
        m_obs = X.shape[1]
        p_par = X.shape[0]
        y_hat = np.empty(m_obs, dtype=self.encoder.fmt)
        
        new_tensor_means = np.repeat(self.tensor_means, m_obs, axis=2) #Forma(clases,p,n)
        self.tensor_means_x_inv_cov = new_tensor_means.transpose(0,2,1) @ self.tensor_inv_cov
        
        linear_term = self.tensor_means_x_inv_cov @ X
        # Calcular el término cuadrático constante para la clase
        class_constant = -0.5 * self.tensor_means_x_inv_cov @ new_tensor_means
        log_cond = (linear_term + class_constant)
        
        diagonal = np.array([log_cond[i].diagonal() for i in range(log_cond.shape[0])]).T
        log_posteriors = self.log_a_priori + diagonal
       
        y_hat_indices = np.argmax(log_posteriors, axis=1)
        y_hat = self.encoder.detransform(y_hat_indices)
        return y_hat.reshape(1, -1)

In [42]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_iris, y_iris = get_iris_dataset()
#Separo en test de entrenamiento y test de evaluacion
train_x_iris, train_y_iris, test_x_iris, test_y_iris = split_transpose(X_iris, y_iris, 0.4, rng_seed)
#Creo el modelo
fasterlda_timeit = FasterLDA()
#La probabilidad a priori frecuentista
fasterlda_timeit.fit(train_x_iris, train_y_iris)

In [43]:
%%timeit -n 100

fasterlda_timeit.predict(test_x_iris)

126 μs ± 8.71 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [44]:
#seed para split
rng_seed = 4000
#cargamos los dataset nuevamente
X_penguins, y_penguins = get_penguins()
#Separo en test de entrenamiento y test de evaluacion
train_x_penguins, train_y_penguins, test_x_penguins, test_y_penguins = split_transpose(X_penguins, y_penguins, 0.4, rng_seed)
#Creo el model
fasterlda_timeit = FasterLDA()
#La probabilidad a priori frecuentista
fasterlda_timeit.fit(train_x_iris, train_y_iris)

In [45]:
%%timeit -n 100

fasterlda_timeit.predict(test_x_iris)

133 μs ± 11 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


<center>

Modelo | Dataset | Seed | Mean [ms] | ± Std [us] | Parametro | Runs/Loops
:---: | :---: | :---: | :---: | :---: | :---: | :---:
LDA | Iris | 4000 | 2.59 | 38.3 | 100 | 7/100
TensorizedLDA | Iris | 4000 | 0.826 | 19.1 | 100 | 7/100
FasterLDA | Iris | 4000 | 0.126 | 8.71 | 100 | 7/100
LDA | Penguins | 4000 | 2.62 | 36.7 | 100 | 7/100
TensorizedLDA | Penguins | 4000 | 1.69 | 38.9 | 100 | 7/100
FasterLDA | Penguins | 4000 | 0.133 | 11 | 100 | 7/100
</center>

**Conclusiones**

- Para el dataset de Iris: FasterLDA es aproximadamente 20 veces más rápido que LDA tradicional y 6.5 veces más rápido que TensorizedLDA en este dataset. También tiene la menor variabilidad en tiempos de predicción, lo que indica un desempeño muy estable.
- Para el dataset de Penguins: FasterLDA es aproximadamente 20 veces más rápido que LDA tradicional y 13 veces más rápido que TensorizedLDA en este dataset. La variabilidad en tiempos de predicción es nuevamente la más baja, lo que demuestra su estabilidad y eficiencia.

En resumen, FasterLDA supera ampliamente a las implementaciones anteriores, logrando tiempos de predicción significativamente menores en ambos datasets. Esto se debe a que evita cálculos innecesarios y aprovecha mejor las operaciones matriciales en batch. Además de ser más rápido, FasterLDA muestra menor variabilidad en los tiempos de predicción.

# Ejercicio teórico

Para poder calcular las derivadas parciales de $J(\theta)=\frac{1}{2}(\hat{y}_\theta-y)^2$ respecto de cada parámetro $w^{(1)}$, $w^{(2)}$, $b^{(1)}$, $b^{(2)}$, teniendo en cuentas las observaciones de $x$ e $y$, debemos realizar primero foward propagation y luego back propagation.
Para poder facilitar los procedimientos y calculos nobrareos a las siguientes variables:
$$
z^{(1)} = w^{(1)} \cdot x+b^{(1)}
$$
$$
y^{(1)} = \sigma (z^{(1)})
$$
$$
z^{(2)} = w^{(2)} \cdot y^{(1)} +b^{(2)}
$$
$$
y^{(2)} = \sigma (z^{(2)})
$$
$$
\hat y = y^{(2)}
$$

## Foward propagation

Debemos de calcular $\hat y$ en base a los datos conocidos. Para ello el orden a seguir es calcular: 
1. $z^{(1)}$
2. $y^{(1)}$
3. $z^{(2)}$
4. $y^{(2)}$

In [83]:
#Creaos los parametros
w_1 = np.array([[0.1, -0.5], [-0.3, -0.9], [0.8, 0.02]])

b_1 = np.array([[0.1, 0.5, 0.8]]).T

w_2 = np.array([[-0.4, 0.2, -0.5]])

b_2 = 0.7

In [84]:
#Creamos las observaciones
x = np.array([[1.8, -3.4]]).T

y = 5

In [85]:
#Definimos la funcion z_i
def z_i(w, x, b):
    return w @ x + b

In [86]:
#Definimos la funcion z_i
def y_i(z_i):
    return 1/(1+np.exp(-z_i))

### Calculamos $z^{(1)}$

In [87]:
z_1 = z_i(w_1, x, b_1)
z_1

array([[1.98 ],
       [3.02 ],
       [2.172]])

$$
z^{(1)} = 
\begin{pmatrix}
1.98 \\
3.02 \\
2.172
\end{pmatrix}
$$

### Calculamos $y^{(1)}$

In [88]:
y_1 = y_i(z_1)
y_1

array([[0.87868116],
       [0.95346953],
       [0.89770677]])

$$
y^{(1)} = 
\begin{pmatrix}
0.87868116 \\
0.95346953 \\
0.89770677
\end{pmatrix}
$$

### Calculamos $z^{(2)}$

In [89]:
z_2 = z_i(w_2, y_1, b_2)
z_2

array([[0.09036805]])

$$
z^{(2)} = 0.09036805
$$

### Calculamos $y^{(2)}$

In [90]:
y_2 = y_i(z_2)
y_2

array([[0.52257665]])

$$
y^{(2)} = 0.52257665
$$

Por lo tanto $\hat y = 0.52257665$

## Back propagation

Teniendo los resultados calculados anteriormente, ahora debemos hallar las derivadas parciales de cada $J(\theta)$ respecto a cada uno de los parametros.
Para ello comenzamos planteando:
$$
\frac{\partial J(\theta)}{\partial \hat{y}} = \hat{y} - y
$$

Donde conocemos tanto $\hat{y}$ como $y$

In [91]:
derivada_j_respecto_y_techo = y_2 - y
derivada_j_respecto_y_techo

array([[-4.47742335]])

$$
\hat{y} - y = -4.47742335
$$

Tambien resulta importante calcular $\frac{\partial J(\theta)}{\partial z^{(2)}}$
$$
\frac{\partial J(\theta)}{\partial z^{(2)}} =  \frac{\partial J(\theta)}{\partial \hat y} \frac{\partial \hat y}{\partial z^{(2)}}
$$
Donde podemos experesar $\hat y = \sigma (z^{(2)})$
$$
\frac{\partial J(\theta)}{\partial z^{(2)}} =  \frac{\partial J(\theta)}{\partial \hat y} \frac{\partial \sigma (z^{(2)})}{\partial z^{(2)}}
$$
Donde $\frac{\partial \sigma (z^{(2)})}{\partial z^{(2)}}$ es la derivada de la funcion sigmoidea la cual es $\sigma (z^{(2)})(1-\sigma (z^{(2)}))$
Por lo tanto nos queda:
$$
\frac{\partial J(\theta)}{\partial z^{(2)}} = (\hat y - y)(z^{(2)})(1-\sigma (z^{(2)}))
$$
o 
$$
\frac{\partial J(\theta)}{\partial z^{(2)}} = (\hat y - y)(\hat y)(1-\hat y)
$$

In [92]:
derivada_j_respecto_z_2 = derivada_j_respecto_y_techo * y_2 * (1 - y_2)
derivada_j_respecto_z_2

array([[-1.11707367]])

$$
\frac{\partial J(\theta)}{\partial z^{(2)}} = -1.11707367
$$

### Derivada respecto a $b^{(2)}$

Comenzamo planteando
$$
\frac {\partial J(\theta)}{\partial b^{(2)}} = \frac{\partial J(\theta)}{\partial z^{(2)}} \frac {\partial z^{(2)}}{\partial b^{(2)}}
$$
Donde $\frac{\partial J(\theta)}{\partial z^{(2)}}$ ya lo conocemos y $\frac {\partial z^{(2)}}{\partial b^{(2)}}$ es igual a 1. Entonces:
$$
\frac {\partial J(\theta)}{\partial b^{(2)}} = -1.11707367
$$

### Derivada respecto a $w^{(2)}$

Planteamos inicilamente:
$$
\frac {\partial J(\theta)}{\partial w^{(2)}} = \frac{\partial J(\theta)}{\partial z^{(2)}} \frac {\partial z^{(2)}}{\partial w^{(2)}}
$$
Donde:
$$
\frac {\partial z^{(2)}}{\partial w^{(2)}} =y^{(1)}
$$
Quedando entonces:
$$
\frac {\partial J(\theta)}{\partial w^{(2)}} = \frac{\partial J(\theta)}{\partial z^{(2)}} y^{(1)}
$$

In [93]:
derivada_j_respecto_w_2 = derivada_j_respecto_z_2 * y_1
derivada_j_respecto_w_2

array([[-0.98155159],
       [-1.0650957 ],
       [-1.0028046 ]])

$$
\frac {\partial J(\theta)}{\partial w^{(2)}} = \begin{pmatrix}
-0.98155159 \\
-1.0650957 \\
-1.0028046
\end{pmatrix}
$$

### Derivada respecto a $b^{(1)}$

Planteamos:
$$
\frac {\partial J(\theta)}{\partial b^{(1)}} = \frac {\partial J(\theta)}{\partial z^{(1)}} \frac {\partial z^{(1)}}{\partial b^{(1)}}
$$
Donde para poder realizar el calculo debemos hallar primero $\frac {\partial J(\theta)}{\partial z^{(1)}}$
$$
\frac {\partial J(\theta)}{\partial z^{(1)}} = \frac {\partial J(\theta)}{\partial y^{(1)}} \frac {\partial y^{(1)}}{\partial z^{(1)}}
$$
Donde tambien es necesario calcular $\frac {\partial J(\theta)}{\partial y^{(1)}}$
$$
\frac {\partial J(\theta)}{\partial y^{(1)}} = \frac {\partial J(\theta)}{\partial z^{(2)}} \frac {\partial z^{(2)}}{\partial y^{(1)}}
$$
Donde:
$$
\frac {\partial z^{(2)}}{\partial y^{(1)}} = w^{(2)}
$$
Tenemos entonces:
$$
\frac {\partial J(\theta)}{\partial y^{(1)}} = (w^{(2)})^T \frac {\partial J(\theta)}{\partial z^{(2)}}
$$

In [94]:
derivada_j_respecto_y_1 =  w_2.T * derivada_j_respecto_z_2
derivada_j_respecto_y_1

array([[ 0.44682947],
       [-0.22341473],
       [ 0.55853684]])

$$
\frac {\partial J(\theta)}{\partial y^{(1)}} = \begin{pmatrix}
0.44682947 \\
-0.22341473 \\
0.55853684
\end{pmatrix}
$$

Teniendo $\frac {\partial J(\theta)}{\partial y^{(1)}}$ podemos calcular $\frac {\partial J(\theta)}{\partial z^{(1)}}$
$$
\frac {\partial J(\theta)}{\partial z^{(1)}} = \frac {\partial J(\theta)}{\partial y^{(1)}} \frac {\partial y^{(1)}}{\partial z^{(1)}}
$$
Donde podemos planntear $y^{(1)}$ como $\sigma (z^{(1)})$, quedando nuevamente la derivada de la funcion sigmoidea
$$
\frac {\partial J(\theta)}{\partial z^{(1)}} = \frac {\partial J(\theta)}{\partial y^{(1)}} \sigma (z^{(1)}) (1 - \sigma (z^{(1)}))
$$
$$
\frac {\partial J(\theta)}{\partial z^{(1)}} = \frac {\partial J(\theta)}{\partial y^{(1)}} (y^{(1)}) (1 - y^{(1)})
$$

In [95]:
derivada_j_respecto_z_1 = derivada_j_respecto_y_1 * y_1 * (1 - y_1)
derivada_j_respecto_z_1

array([[ 0.04763228],
       [-0.00991188],
       [ 0.05129006]])

$$
\frac {\partial J(\theta)}{\partial z^{(1)}} = \begin{pmatrix}
0.04763228 \\
-0.00991188 \\
0.05129006
\end{pmatrix}
$$

Ahora si estamos en condiciones de calcular:
$$
\frac {\partial J(\theta)}{\partial b^{(1)}} = \frac {\partial J(\theta)}{\partial z^{(1)}} \frac {\partial z^{(1)}}{\partial b^{(1)}}
$$
Donde $\frac {\partial z^{(1)}}{\partial b^{(1)}}$ es igual a 1. Por lo tanto: 
$$
\frac {\partial J(\theta)}{\partial b^{(1)}} = \begin{pmatrix}
0.04763228 \\
-0.00991188 \\
0.05129006
\end{pmatrix}
$$

### Derivada respecto a $w^{(1)}$

Planteamos: 
$$
\frac {\partial J(\theta)}{\partial w^{(1)}} = \frac {\partial J(\theta)}{\partial z^{(1)}} \frac {\partial z^{(1)}}{\partial w^{(1)}}
$$
Donde: 
$$
\frac {\partial z^{(1)}}{\partial w^{(1)}} = x
$$
Por lo tanto:
$$
\frac {\partial J(\theta)}{\partial w^{(1)}} = \frac {\partial J(\theta)}{\partial z^{(1)}} x^T
$$

In [96]:
derivada_j_respecto_w_1 = derivada_j_respecto_z_1 * x.T
derivada_j_respecto_w_1

array([[ 0.0857381 , -0.16194975],
       [-0.01784139,  0.0337004 ],
       [ 0.09232211, -0.1743862 ]])

$$
\frac {\partial J(\theta)}{\partial w^{(1)}} = \begin{pmatrix}
0.0857381  & -0.16194975 \\
-0.01784139 & 0.0337004 \\
0.09232211 & -0.1743862
\end{pmatrix}
$$