<a href="https://colab.research.google.com/github/GuillermoSego/TSF/blob/main/02_PCA%26Comandline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Principal Component Analysis

Uno de los prinicpios básicos de la optimización es encontrar un algoritmo que minimice las operaciones en la computadora.

Es importante programar bien desde el prinicipio, trabajar de una manera optimizada.

El campo del análisis multivariable consiste en aquellas técnicas estadísticas que consideran dos o mas variables aleatorias relacionadas entre sí, como una sola entidad tratando de generar un resultado general tomando la relación entre las variables en cuenta. 

El análisis multivariable trabaja el problema como un todo, tratamos todos 
datos como un conjunto de números. Si tenemos por ejemplo una gran cantidad
de datos de dos poblaciones diferentes, una manera de abordarlo es hacer 
analsis independientes, pero esto no es optimo. El analisis multivariable 
aborda el conjunto de datos no como poblaciones diferentes sino como todo. 

Existen muchas técnicas en el campo del análisis multivariado y a pesar de que estas son empleadas en la inferencia estadística, la mayor de las aplicaciones son en el análisis de datos, en particular las técnicas que describen la estructura multivariable de los datos. **Principal Component Analysis** (PCA) es una técnica que mientras se utiliza como técnica descriptiva, es posible utilizarla en muchos procedimientos inferenciales también. 

## Un ejemplo hipotético

Suponga que se tiene un proceso en el cual se realiza una prueba de la concentración de un componente químico en una solución. Se probaron dos métodos distintos. Asumimos que los dos métodos son intercambiables. Se obtuvieron 15 mediciones de cada método. 

La pregunta es ¿Qué es lo que podemos hacer con estos datos?. Es posible hacer muchos test estadísticos, por ejemplo un t-test, o un análisis de varianza ANOVA. Estos métodos nos llevan a tratar ambos métodos por separado lo cual además de ser no eficiente, induce variabilidad en los resultados. Para esto podemos hacer un análisis multivariable. 

La manera de introducir un análisis multivariable en este caso, podría ser utilizando una regresión. Sin embargo, si realizamos una regresión sobre el primer método para posterior predecir el segundo, y después realizamos lo mismo pero ahora con el método dos para predecir el primero, tendríamos dos ecuaciones de regresión, lo cual induce la variabilidad que se quería evitar desde el principio. Se requiere una sola línea que sea capaz de predecir la dirección de ambos métodos. Esta línea es llamada **línea ortogonal** y es una regresión ortogonal en la que a diferencia de una de mínimos cuadrados, esta no minimiza la distancia cuadrada entre los puntos, sino que minimiza la distancia entre los puntos sin ser necesariamente un ángulo recto. Esta línea puede ser obtenida utilizando PCA. 

## El método Principal Component Analysis

Para ilustrar el método con el ejemplo anterior, necesitamos obtener las medias, las varianzas y la covarianza de ambos grupos de datos.

La media es
$$
\overline{\mathbf{x}}=\left[\begin{array}{c}
\bar{x}_{1} \\
\bar{x}_{2}
\end{array}\right]=\left[\begin{array}{l}
10.00 \\
10.00
\end{array}\right]
$$


La matriz de covarianza es la siguiente
$$
\mathbf{S}=\left[\begin{array}{cc}
s_{1}^{2} & s_{12} \\
s_{12} & s_{2}^{2}
\end{array}\right]=\left[\begin{array}{ll}
.7986 & .6793 \\
.6793 & .7343
\end{array}\right]
$$

donde $s_i^2$ es la varianza, y la covarianza es la siguiente
$$
s_{i j}=\frac{n \sum x_{i k} x_{j k}-\sum x_{i k} \sum x_{j k}}{[n(n-1)]}
$$

El método de PCA es basado en un resultado del álgebra lineal. Una matriz cuadrada, simétrica como la de la covariaza, puede ser reducida a una matriz diagonal $\mathbf{L}$ multiplicando la matriz $\mathbf{S}$ por una matriz $\mathbf{U}$ y su inversa por ambos lados

$$
\mathbf{U'SU} = \mathbf{L}
$$

Los elementos de la diagonal prinicipal de la matriz $\mathbf{L}$ son llamados **raices características** o **eigenvalores** de $\mathbf{S}$. Las columnas de la matriz $\mathbf{U}$ son llamados **eigenvectores** de $\mathbf{S}$.

Los eigenvalores son obtenidos gracias a la siguiente ecuación llamada **ecuación característica**

$$
|\mathbf{S}-l \mathbf{I}|=0
$$

donde $\mathbf{I}$ es la matriz identidad. 

Esta ecuación produce una ecuación polinómica de segundo grado, cuyas raices son los eigenvalores. Los eigenvectores son obtenidos como solución a las ecuaciones 
$$
[\mathbf{S}-l \mathbf{I}] \mathbf{t}_{i}=0
$$

y 

$$
\mathbf{u}_{i}=\frac{\mathbf{t}_{i}}{\sqrt{t_{i}^{\prime} t_{i}}}
$$

en donde obtenemos los eigenvectores normalizados. Y asi la matriz $\mathbf{U}$ es ortonormal. 

El resultado de la matriz de covarianza da los siguientes eigenvectores

$$
\mathbf{U}=\left[\begin{array}{l|l}
\mathbf{u}_{1} & \mathbf{u}_{2}
\end{array}\right]=\left[\begin{array}{l:r}
.7236 & -.6902 \\
.6902 & .7236
\end{array}\right]
$$

Geometricamente, el procedimiento describe una rotación de ejes. El eje coordenado original $x_1$ y $x_2$ que son las medias. Y los elementos de los eigenvectores son los cosenos directores de los nuevos ejes relacionados con los viejos.  El nuevo eje relacionado con $\mathbf{u}_1$ es la línea ortogonal que estamos buscando. 

## La covarianza

Calculamos la covarianza utilizando la siguiente ecuación
$$
S_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i-x)(y_i-y)
$$

Implementaremos una rutina para calcular la covarianza

In [None]:
%%writefile covarianza.c

double Covarianza(double x[], double y[], unsigned int elements){
    unsigned int n = elements;
    double sum_xy = 0;
    double sum_x  = 0;
    double sum_y =  0;

    do{
        sum_xy += (*x) * (*y);
        sum_x  += *( x++ );
        sum_y  += *( y++ );
    } while( -- elements);

    return ( n*sum_xy - sum_x * sum_y )/( n * (n-1) );
}

#include <stdio.h>

int main(){
    
    printf("Hola mundo, esta es la rutina de la covarianza");
    return 0;
}

Overwriting covarianza.c


In [None]:
%%shell
gcc covarianza.c -o cov
./cov

Hola mundo, esta es la rutina de la covarianza



## Introducción de argumentos desde la línea de comandos en C

In [None]:
%%writefile hola.c

#include <stdio.h>

//Es la función implementada en la clase 1 para la regla de Horner
double HornerRule( double x, double *coeff , int nCoeff){
    
    double accum = coeff[0];
    int index = 1;

    do{
        accum = accum*x + coeff[index];
        index ++;
    } while(index < nCoeff); // Es una macro me sirve 
    //para saber el tamaño de un arreglo que ya esta declarado
    
    return accum;
    
}

/*
Para la introducción de argumentos desde la línea de comandos necesitamos 
escribir los siguientes argumentos en el paréntesis del main.
*/
int main(int nArg, char *arg[])
{
    double coeff[10];
    double    x = 3;
    int       i = 0;
 
    do {
        
        sscanf(arg[i+1], "%lf", coeff+i );
    } while( ++i < (nArg - 1));

    printf(
        "%8.3lf, %8.3lf\n",
        coeff[0],
        HornerRule(coeff[0], coeff + 1, nArg-2) );

    return 0;
}

Overwriting hola.c


Cuando queremos correr un programa con argumentos desde la línea de comandos, los carateres se escriben junto con el programa que se esta corriendo. 

In [None]:
%%shell

gcc hola.c -o output
./output 2 2 -5 10

   2.000,    8.000


