# Juan Manuel Deutsch, Cesar Felipe Giraldo, Julian Felipe Pulido

# Exercise 1

Para este ejercicio tenemos $X$ siendo la matriz base y $Σ$ como la matriz de covarianza de $X$

Tambien tenemos los componentes principales $u_1, u_2,...,u_n$, que son los autovectores o vectores propios de $Σ$ que tienen varianzas asociadas $u_i^TΣu_i$, donde $u_i^T$ es la transpuesta del vector propio $u_i$

Ahora tendremos una tranformación lineal de los datos $X$, siendo $AX$ donde $A$ es una transformación $m x m$

Ahora con la matriz transformada tenemos la matriz de covarianza transformada $AΣA^T$ cuyos componentes principales estan dados por $v_1, v_2,...,v_n$ estos siendo los autovectores cuyas varianza asociadas estan dadas por $v_i^TAΣA^Tv_i$

Teniendo en cuenta que necesitamos demostrar los componentes principales y como cambian tenemos con relacion a $AX$ y $X$

$u_1$ siendo componente principal cuya varianza asociada es $u_i^TΣu_i$ y siendo $v_1$ el componente principal cuya varianza asociada es $v_i^TAΣA^Tv_i$

Teniendo en cuenta que $u_1$ y $v_1$ estan relacionados por una transformación lineal tenemos que $v_1 = Tu_1$ para una matriz T

Ahora, se puede escribir la varianza asociada de $v_1$ como:

$$v_1^TAΣA^Tv_1 = (Tu_1)^TAΣA^T(Tu_1) = u_1^TT^TAΣA^TTu_1$$

Dado que $T$ es una matriz de transformacion lineal, $T^TAΣA^TT$ es otra matriz de covarianza $Σ'$

Por lo tanto ahora tenemos:

$$v_1^TAΣA^Tv_1 = u_1^TΣ'u_1$$

Concluyendo con esta demostración, tenemos que la varianza asociada $v_1$ depende de la matriz de covarianza $Σ'$ que es una version transformada de la matriz de covarianza original $Σ$, por lo cual, $Σ'$ es diferente a $Σ$, entonces la varianza asociada a estos van a ser diferentes, por lo que un valor propio esta ligado conjunto de datos original y el otro valor propio esta ligado al conjunto transformado

## 1.2

Para esta demostracion tenemos $D$, como una matriz $f x c$ donde $f$ son filas y $c$ son columnas, ademas de $D'$ que es la matriz transformada con una transformación afin a una o mas columnas

Iniciando calculamos la matriz de correlación $corr(D)$
$$corr(D) = 1/n (D - D_u)^T(D - D_u)$$
Donde $D_u$ es la media de cada columna de $D$
De acuerdo a eso se los componentes principales por medio de $corr(D)$

Ahora realizamos el mismo proceso con la tranformación afin, que seria del siguiente modo:

$$D' = A*D+b$$

Donde $A$ es la transformación lineal y $b$ es el desplazamiento

Ahora calculamos la correlacion 

$$corr(D') = 1/n (D' - D'_u)^T(D' - D'_u)$$

Donde ahora $D'_u$ es la media de la matriz transformada, donde las columnas de $D'$ se ven afectadas por la transformación afin

Pero debemos tener en cuenta que para la covarianza los efectos de una transformación afin se dan de la siguiente forma:

$$cov(D') = A^Tcov(D)A$$

No obstante, estamos tratando es con matrices de correlación, las cuales son versiones escaladas de las matrices de covariaza, por lo cual la matriz de covarianza tambien afecta a la matriz de correlación con la misma transformación afin

Por lo cual los autovectores o vectores propios de $corr(D')$ son los mismos que $corr(D)$

# Exercise 2

# 1

In [39]:

import numpy as np

def PCA(D, red):

    mu = np.mean(D, axis=0)

    Z = D - mu
    
    cov_matrix = np.cov(Z, rowvar=False, bias=False)
    
    eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)
    
    if red < 1:

        total_variance = np.sum(eigenvalues)
        variance_top = red * total_variance
        
        cumulative_variance = 0
        r = 0
        for i in range(len(eigenvalues)):
            cumulative_variance += eigenvalues[i]
            if cumulative_variance >= variance_top:
                r = i + 1
            break
    else:

        r = red
    
    print(r)
  
    top_eigenvectors = eigenvectors[:, :r]

    print(top_eigenvectors)
    
    A = np.dot(Z, top_eigenvectors)
    
    v = np.sum(eigenvalues[:r])
    
    return A, v

#Prueba

D = np.array([[1, 2, 3],
               [4, 5, 6],
               [7, 8, 9],
               [10, 11, 12],
               [13, 14, 15]])

# Aplicamos PCA para reducir a 2 dimensiones conservando el 50% de la varianza
A, variance = PCA(D, 0.5)
print(A)
print(variance)


2
[[-0.81649658  0.57735027]
 [ 0.40824829  0.57735027]
 [ 0.40824829  0.57735027]]
[[-2.22044605e-16 -1.03923048e+01]
 [-1.11022302e-16 -5.19615242e+00]
 [ 0.00000000e+00  0.00000000e+00]
 [ 1.11022302e-16  5.19615242e+00]
 [ 2.22044605e-16  1.03923048e+01]]
67.5


# 2

In [46]:
# A
import pandas as pd
import numpy as np
import time

def getStats(A):
    
    mu = np.mean(A, axis=0)
    cov = np.cov(A, rowvar=False)
    cor = np.corrcoef(A, rowvar=False)
    return mu, cov, cor

iris_data = pd.read_csv('iris.csv')
baseball_data = pd.read_csv('baseball_numeric.csv')
fabert_data = pd.read_csv('fabert.csv')
amazon_data = pd.read_csv('amazon.csv')

datasets = {'iris': iris_data, 'baseball_numeric': baseball_data, 'fabert': fabert_data, 'amazon': amazon_data}
results = []

for dataset_name, dataset in datasets.items():

    # Excluir las columnas no numéricas
    numeric_cols = dataset.select_dtypes(include=[np.number]).columns
    dataset_numeric = dataset[numeric_cols]
    
    # Convertir el DataFrame a un array de NumPy
    A = dataset_numeric.values.astype(float)  # Convertir los datos a tipo float
    
    # Medir el tiempo de ejecución de getStats
    start_time_getStats = time.time()
    mu, cov, cor = getStats(A)
    getStats_time = time.time() - start_time_getStats
    
    # Medir el tiempo de ejecución de NumPy para calcular la matriz de correlación
    start_time_np = time.time()
    cov_np = np.cov(A, rowvar=False, bias=False)
    desv = np.sqrt(np.diag(cov_np))
    cor_np = cov_np / np.outer(desv, desv)
    np_time = time.time() - start_time_np
    
    results.append({'Dataset': dataset_name, 'Tiempo getStats': getStats_time, 'Tiempo Numpy': np_time})


results_df = pd.DataFrame(results)
print(results_df)

  c /= stddev[:, None]
  c /= stddev[None, :]
  cor_np = cov_np / np.outer(desv, desv)


            Dataset  Tiempo getStats  Tiempo Numpy
0              iris         0.086769      0.118026
1  baseball_numeric         0.002998      0.001001
2            fabert         0.210050      0.088030
3            amazon         3.791638      4.642221


In [5]:
#B
import numpy as np
import pandas as pd

datasets = {'iris': iris_data, 'baseball_numeric': baseball_data, 'fabert': fabert_data, 'amazon': amazon_data}
results = []

for dataset_name, dataset in datasets.items():

    numeric_dataset = dataset.select_dtypes(include=[np.number])
    A = numeric_dataset.values.astype(float)   

    reduced_data, variance = PCA(A, 9)
    
    total_variance_original = np.sum(np.linalg.eigvals(np.cov(A, rowvar=False)))
    relative_total_variance = variance / total_variance_original
    
    results.append({'Dataset': dataset_name, 'Dimensiones': reduced_data.shape[1], 'Varianza total absoluta': variance, 'Varianza Total Relativa': relative_total_variance})

results_df = pd.DataFrame(results)
print(results_df)

            Dataset  Dimensiones     Varianza total absoluta  \
0              iris            4      4.569291+    0.000000j   
1  baseball_numeric            9  17411.999147+    0.000000j   
2            fabert            9      3.073882+    0.000000j   
3            amazon            9   8868.256627+    0.000000j   

   Varianza Total Relativa  
0       1.000000+0.000000j  
1       0.999947+0.000000j  
2       0.538146+0.000000j  
3       0.656720+0.000000j  


In [7]:
#C
import numpy as np
import pandas as pd

datasets = {'iris': iris_data, 'baseball_numeric': baseball_data, 'fabert': fabert_data, 'amazon': amazon_data}
results = []

for dataset_name, dataset in datasets.items():

    numeric_dataset = dataset.select_dtypes(include=[np.number])
    
    X = numeric_dataset.values.astype(float)
    
    variances = []
    relative_variances = []
    
    for n_components in [1, 2, 3]:

        reduced_data, total_variance = PCA(X, n_components)
        relative_total_variance = total_variance / np.sum(np.linalg.eig(np.cov(X, rowvar=False, bias=False))[0])
        
        variances.append(total_variance)
        relative_variances.append(relative_total_variance)
    
    results.append({'Dataset': dataset_name, 'Varianza (1D)': variances[0], 'Varianza Relativa (1D)': relative_variances[0],
                    'Varianza (2D)': variances[1], 'Varianza Relativa(2D)': relative_variances[1],
                    'Varianza (3D)': variances[2], 'Varianza Relativa (3D)': relative_variances[2]})

results_df = pd.DataFrame(results)
results_df = results_df.round(3)  
print(results_df)

            Dataset         Varianza (1D)  Varianza Relativa (1D)  \
0              iris      4.225+    0.000j            0.925+0.000j   
1  baseball_numeric  11828.850+    0.000j            0.679+0.000j   
2            fabert      2.928+    0.000j            0.513+0.000j   
3            amazon   7324.483+    0.000j            0.542+0.000j   

          Varianza (2D)  Varianza Relativa(2D)         Varianza (3D)  \
0      4.467+    0.000j           0.978+0.000j      4.546+    0.000j   
1  17228.156+    0.000j           0.989+0.000j  17391.761+    0.000j   
2      2.953+    0.000j           0.517+0.000j      2.975+    0.000j   
3   7745.115+    0.000j           0.574+0.000j   7998.002+    0.000j   

   Varianza Relativa (3D)  
0            0.995+0.000j  
1            0.999+0.000j  
2            0.521+0.000j  
3            0.592+0.000j  
