# Nociones previas para el Análisis Factorial Exploratorio

>Este tutorial es una selección y adaptación al español del libro [A Matrix Algebra Companion for Statistical Learning](http://www.gastonsanchez.com/matrix4sl/index.html) de Gaston Sanchez. 

> Requiere cargar el archivo ["euthan.sav"](https://github.com/renatoparedes/EstadisticaYPsicologiaMatematica/raw/main/AFE/euthan.sav) en el repositorio local. 

## Dualidad Geométrica

En esta sección daremos pasos que te permitan adoptar una **mentalidad geométrica**. Más específicamente, aprenderás a pensar y observar cualquier matriz de datos desde un punto de vista geométrico. 

Este es un concepto increíblemente revelador al que algunos autores se refieren como la **dualidad de una matriz de datos**.

Es muy esclarecedor pensar en una matriz de datos vista desde el cristal de la geometría. La idea clave es **pensar en los datos de una matriz como elementos que viven en un espacio multidimensional**. 

En realidad, podemos considerar una matriz de datos desde dos perspectivas aparentemente diferentes que, en realidad, están íntimamente conectadas: la **perspectiva de filas** y **la perspectiva de columnas**.

Para explicar estas perspectivas, permítanme usar el siguiente diagrama de una matriz de datos $\mathbf{X}$ con $n$ filas y $p$ columnas, con $x_{ij}$ representando el elemento en la i-ésima fila y la j-ésima columna.

<p align="center">
  <img width="500" src="http://www.gastonsanchez.com/matrix4sl/images/duality/data-perspectives.png" alt="Variable Types">
</p>



Cuando miramos una matriz de datos desde la **perspectiva de las columnas**, lo que estamos haciendo es enfocarnos en las **p variables**. 

De manera similar, cuando miramos una matriz de datos desde la **perspectiva de sus filas**, nos enfocamos en los **n individuos**. 

Esta doble perspectiva o dualidad para abreviar, es como las dos caras de una misma moneda.

### Espacio de las filas

Sabemos que la visión humana se limita a las tres dimensiones, pero finge que tienes superpoderes que te permiten visualizar un espacio con cualquier número de dimensiones.

Debido a que cada fila de la matriz de datos tiene $p$ elementos, **podemos considerar a los individuos como objetos que viven en un espacio p-dimensional**. 

Para fines de visualización, **piensa en cada variable como si desempeñara el papel de una dimensión** asociada a un eje dado en este espacio. 

Asimismo, considera que cada uno de **los $n$ individuos está representado como un punto** (o partícula) en dicho espacio, como en el siguiente diagrama:

<p align="center">
  <img width="650" src="http://www.gastonsanchez.com/matrix4sl/images/duality/rows-space.png" alt="Variable Types">
</p>

En la figura anterior, aunque solo estoy mostrando tres ejes, debes fingir que estás visualizando un espacio p-dimensional (imaginando que hay $p$ ejes). 

Cada punto de este espacio corresponde a un solo individuo, y todos forman lo que se puede llamar una nube de puntos.

### Espacio de las columnas

Podemos hacer el mismo ejercicio visual con las columnas de una matriz de datos. Dado que cada variable tiene $n$ elementos, **podemos considerar el conjunto de $p$ variables como objetos que viven en un espacio de $n$ dimensiones**. 

Para fines convenientes, y para distinguirlos de los individuos, usamos una flecha (o vector) para representar gráficamente cada variable:

<p align="center">
  <img width="650" src="http://www.gastonsanchez.com/matrix4sl/images/duality/columns-space.png" alt="Variable Types">
</p>



De manera análoga al espacio de filas y su nube de individuos, también debes pretender que la imagen de arriba muestra un espacio n-dimensional con un montón de flechas azules apuntando en varias direcciones.

### Ejemplo

Para hacer las cosas menos abstractas, consideremos una matriz de datos de 2 × 2 de valores de peso y altura medidos en dos personas: Leia y Luke.

In [1]:
import pandas as pd

data = {'weight': [150, 172],
        'height': [49, 77]}

df_toy = pd.DataFrame(data, index=['Leia','Luke'])
df_toy

Unnamed: 0,weight,height
Leia,150,49
Luke,172,77


**Espacio de individuos:** si observas los datos en X desde el punto de vista de los individuos, cada uno de ellos se puede representar como un punto en el espacio bidimensional abarcado por las variables `weight` y `height`:

<p align="center">
  <img width="500" src="http://www.gastonsanchez.com/matrix4sl/matrix4sl_files/figure-html/unnamed-chunk-48-1.png" alt="Variable Types">
</p>


**Espacio de variables:** si observas los datos en X desde el punto de vista de las variables, cada una de ellas se puede representar como un vector en el espacio bidimensional que abarcan `Leia` y `Luke`:

<p align="center">
  <img width="500" src="http://www.gastonsanchez.com/matrix4sl/matrix4sl_files/figure-html/unnamed-chunk-49-1.png" alt="Variable Types">
</p>

### Espacio dual 

La siguiente figura ilustra la perspectiva dual de una matriz de datos. La convención estándar es representar a los **individuos como puntos** en un espacio de $p$ dimensiones; y, a su vez, representar **variables como vectores** en un espacio de $n$ dimensiones.


<p align="center">
  <img width="750" src="http://www.gastonsanchez.com/matrix4sl/images/duality/duality-diagram.png" alt="Variable Types">
</p>

## Conceptos básicos de vectores

Debido a que las variables pueden tratarse como vectores en un sentido geométrico, me gustaría revisar brevemente un par de conceptos clave para operar con vectores: el **producto interno** y sus operaciones derivadas.

El concepto de producto interno es uno de los conceptos de álgebra matricial más importantes, también conocido como _producto punto_. El **producto interno** es una operación especial definida sobre dos vectores $\mathbf{x}$ e $\mathbf{y}$ que, como su nombre indica, nos permite multiplicar $\mathbf{x}$ e $\mathbf{y}$ de cierta manera.

El producto interno de dos vectores $\mathbf{x}$ e $\mathbf{y}$ (del mismo tamaño) se define como:

$$
\mathbf{x \cdot y} = \sum_{i = 1}^{n} x_i y_i 
$$

Básicamente, el producto interno consiste en el producto elemento por elemento de $\mathbf{x}$ e $\mathbf{y}$, y luego sumar todo. El resultado no es otro vector, sino un solo número, un escalar. 

También podemos escribir el producto interno $\mathbf{x\cdot y}$ en notación vectorial como $\mathbf{x^\mathsf{T}y}$ dado que:

$$
\mathbf{x^\mathsf{T} y} = (x_1 \dots x_n) 
\begin{pmatrix} 
y_1 \\
\vdots \\
y_n
\end{pmatrix}
= \sum_{i = 1}^{n} x_i y_i
$$

Consideremos el ejemplo que revisamos anteriormente:

In [2]:
df_toy

Unnamed: 0,weight,height
Leia,150,49
Luke,172,77


Por ejemplo, el producto interno de `weight` y `height` en $\mathbf{X}$ es:

$$
\texttt{weight}^\mathsf{T} \hspace{1mm} \texttt{height} = (150 \times 49) + (172 \times 77) = 20594
$$

¿Qué significa este valor? Para responder a esta pregunta, necesitamos discutir otros tres conceptos que se derivan directamente de tener un producto interno:

- Longitud de un vector
- Ángulo entre vectores
- Proyección de vectores

Todos estos aspectos juegan un papel muy importante para los métodos multivariados. Pero no solo eso, veremos en un momento cuántas **medidas estadísticas se pueden obtener a través de productos internos**.

### Longitud

Otro uso importante del producto interno es que nos permite definir la __longitud__ de un vector $\mathbf{x}$, denotado por $\|\mathbf{x}\|$, como la raíz cuadrada del producto interno del vector consigo mismo:

$$
\| \mathbf{x} \| = \sqrt{\mathbf{x^\mathsf{T} x}}
$$

que normalmente se conoce como la __norma__ o __módulo__ de un vector.

Podemos calcular la longitud del vector `weight` como:

$$
\| \texttt{weight} \| = \sqrt{(150 \times 150) + (172 \times 172)} = 228.2192
$$

Asimismo, la longitud del vector `height` es:

$$
\| \texttt{height} \| = \sqrt{(49 \times 49) + (77 \times 77)} = 91.2688
$$

Ten en cuenta que el producto interno de un vector consigo mismo es igual a su norma al cuadrado:

$$
\mathbf{x^\mathsf{T} x} = \| \mathbf{x} \|^2
$$

### Ángulo

Además de la longitud de un vector, el __ángulo__ entre dos vectores distintos de cero $\mathbf{x}$ e $\mathbf{y}$ también se puede expresar usando productos internos. 

El ángulo $\theta$ es tal que:

$$
cos(\theta) = \frac{\mathbf{x^\mathsf{T} y}}{\sqrt{\mathbf{x^\mathsf{T} x}} \hspace{1mm} \sqrt{\mathbf{y^\mathsf{T} y}}}
$$

o de manera equivalente:

$$
cos(\theta) = \frac{\mathbf{x^\mathsf{T} y}}{\| \mathbf{x} \| \hspace{1mm} \| \mathbf{y} \|}
$$

Reorganizando algunos términos, podemos volver a expresar la fórmula del producto interno como:

$$
\mathbf{x^\mathsf{T} y} = \| \mathbf{x} \| \hspace{1mm} \| \mathbf{y} \| \hspace{1mm} cos(\theta)
$$

En nuestro ejemplo, el ángulo entre `weight` y `height` en $\mathbf{X}$ es tal que:

$$
cos(\theta) = \frac{20594}{228.2192 \times 91.2688} = 0.9887
$$

#### Ortogonalidad 

En un espacio bidimensional, la ortogonalidad equivale a la perpendicularidad; así que si dos vectores son perpendiculares entre sí (el ángulo entre ellos es un ángulo de 90 grados) son ortogonales. 

Dos vectores vectores $\mathbf{x}$ e $\mathbf{y}$ son ortogonales si su producto interno es cero:

$$
\mathbf{x^\mathsf{T} y} = 0 \iff \mathbf{x} \hspace{1mm} \bot \hspace{1mm} \mathbf{y} 
$$

### Proyección

Consideremos la __proyección ortogonal__ de un vector $\mathbf{y}$ sobre otro vector $\mathbf{x}$.

La proyección obtenida $\hat{\mathbf{y}}$ se expresa como $a\mathbf{x}$. Esto significa que una proyección implica multiplicar $\mathbf{x}$ por algún número $a$, de modo que $\hat{\mathbf{y}} = a \mathbf{x}$ es una versión ampliada o reducida de $\mathbf{x}$. 

Veámoslo gráficamente:

<p align="center">
  <img width="300" src="https://math.libretexts.org/@api/deki/files/63693/clipboard_e2cd7c153e580bbe9cb202d8308661c5c.png?revision=1" alt="Variable Types">
</p>


Teniendo dos vectores distintos de cero $\mathbf{x}$ e $\mathbf{y}$, podemos proyectar $\mathbf{y}$ en $\mathbf{x}$:

$$
\text{proj}_{x} \mathbf{\hat{y}} = \mathbf{x} \left( \frac{\mathbf{y^\mathsf{T} x}}{\mathbf{x^\mathsf{T} x}} \right)
$$

$$
= \mathbf{x} \left( \frac{\mathbf{y^\mathsf{T} x}}{\| \mathbf{x} \|^2} \right)
$$

Del mismo modo, podemos proyectar $\mathbf{x}$ en $\mathbf{y}$:

$$
\text{proj}_{y} \mathbf{\hat{x}}  = \mathbf{y} \left( \frac{\mathbf{x^\mathsf{T} y}}{\mathbf{y^\mathsf{T} y}} \right)
$$

$$
= \mathbf{y} \left( \frac{\mathbf{x^\mathsf{T} y}}{\| \mathbf{y} \|^2} \right)
$$

## Medidas estadísticas como vectores

### La media como una proyección

Si denotamos $\mathbf{1}_{n}$ un vector de unidades (unos) de tamaño $n$, entonces la media de un vector $\mathbf{x}$ se puede obtener con un producto interno:

$$
\bar{x} = \left(\frac{1}{n}\right) \mathbf{1}_{n}^\mathsf{T} \mathbf{x}
$$

Podemos obtener una idea de lo que hace una media si consideramos una variable desde la perspectiva del espacio de los individuos.

Considera el espacio $n$-dimensional $\mathbb{R}^n$ ilustrado en la figura debajo. 

<p align="center">
  <img width="600" src="http://www.gastonsanchez.com/matrix4sl/images/mean/mean-projection1.png" alt="Variable Types">
</p>


En este espacio, cada dimensión está asociada a un individuo. La variable $X$ está representada por el vector azul $\mathbf{x}$. A su vez, el vector naranja representa el vector unitario $\mathbf{1}$ del elemento $n$. 

Desde este punto de vista, la media adquiere un significado muy interesante: 

Resulta que **la media es la medida de la proyección de $\mathbf{x}$ sobre el eje generado por el vector unitario $\mathbf{1}$.**

Entonces, ¿cuál es el significado de esta proyección ortogonal? Te dice que $\bar{x} \mathbf{1}$ es el múltiplo del vector unitario más cercano a $\mathbf{x}$ en el sentido de mínimos cuadrados:

<p align="center">
  <img width="500" src="http://www.gastonsanchez.com/matrix4sl/images/mean/mean-projection2.png" alt="Variable Types">
</p>

El tamaño del vector residual $\mathbf{e} = \mathbf{x} - \bar{x} \mathbf{1}$ es el más pequeño entre todos los demás múltiplos de $\mathbf{1}$ que se puede usar para aproximar $\mathbf{x}$.

Calculemos la media de la variable `height` como una proyección sobre el vector unitario:

In [3]:
# Cargamos los datos
!pip install pyreadstat
df_sw = pd.read_csv('https://raw.githubusercontent.com/gastonstat/matrix4sl/master/data/starwars.csv')
df_sw.dropna(inplace=True)



In [4]:
import numpy as np

# Calculamos la cantidad de casos
n = df_sw['height'].size

# Definimos el vector unitario
unit_vector = np.ones(n)

# Calculamos la media como una proyección sobre el vector unitario
mean = (1/n) * ( unit_vector.T @ df_sw['height'] )
mean

1.685625

Comparamos el resultado con el cálculo por defecto de la media:

In [5]:
df_sw['height'].mean()

1.685625

### La desviación estándar como la norma

Si denotamos un vector de unos de tamaño $n$ como $\mathbf{1}_{n}$, entonces la varianza de un vector $\mathbf{x}$ se puede obtener con el siguiente producto interno:

$$
var(\mathbf{x}) = \frac{1}{n} (\mathbf{x} - \mathbf{\bar{x}})^\mathsf{T} (\mathbf{x} - \mathbf{\bar{x}})
$$

donde $\mathbf{\bar{x}}$ es un vector de $n$ elementos de los valores de la media $\bar{x}$.

Suponiendo que $\mathbf{x}$ ya está centrado en la media, entonces la varianza es proporcional a la norma al cuadrado de $\mathbf{x}$

$$
var(\mathbf{x}) = \frac{1}{n} \hspace{1mm} \mathbf{x}^\mathsf{T} \mathbf{x} = \frac{1}{n} \| \mathbf{x} \|^2
$$

Esto significa que podemos formular la varianza con la noción general de un producto interno.

Si usamos una matriz métrica $\mathbf{D}=diag(1/n)$, entonces tenemos que la varianza de $\mathbf{x}$ es equivalente a su norma al cuadrado cuando el espacio vectorial está dotado de una métrica $\mathbf{D}$. 

En consecuencia, la desviación estándar es simplemente la longitud de $\mathbf{x}$ en este espacio geométrico particular.

$$
sd(\mathbf{x}) = \| \mathbf{x} \|_{D}
$$

Al observar la desviación estándar desde esta perspectiva, en realidad puedes decir que la cantidad de dispersión de un vector $\mathbf{x}$ es en realidad su longitud (bajo la métrica $\mathbf{D}$).

Calculemos la varianza de la variable `height` como una proporción de la norma al cuadrado de x:

In [6]:
# Calculamos la cantidad de casos
n = df_sw['height'].size

# Centramos en la media a X
x_centered = df_sw['height'] - df_sw['height'].mean() 

# Calculamos la varianza como una proporción de la norma al cuadrado de x
var = (1/n) * np.linalg.norm(x_centered)**2
var

0.12681210937499998

Comparemos el resultado con el cálculo por defecto de la desviación estándar:

In [7]:
np.var(df_sw['height'])

0.12681210937499998

### Correlación como el producto interno

La covarianza generaliza el concepto de varianza para dos variables. Recuerde que la fórmula para la covarianza entre $\mathbf{x}$ e $\mathbf{y}$ es:

$$
cov(\mathbf{x, y}) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x}) (y_i - \bar{y})
$$

Básicamente, la covarianza es un resumen estadístico que se utiliza para evaluar la __asociación lineal entre pares de variables__.

Suponiendo que las variables están centradas en la media, podemos obtener una expresión de la covarianza en notación vectorial:

$$
cov(\mathbf{x, y}) = \frac{1}{n} (\mathbf{x^\mathsf{T} y})
$$

Aunque la covarianza indica la dirección, positiva o negativa, de una posible relación lineal, no nos dice qué tan grande o pequeña podría ser la relación. Para tener un índice más interpretable, debemos transformar la covarianza en una medida libre de unidades. 

Para hacer esto debemos considerar las desviaciones estándar de las variables para poder normalizar la convarianza. 

El resultado de esta normalización es el coeficiente de correlación lineal definido como:

$$
cor(\mathbf{x}, \mathbf{y}) = \frac{cov(\mathbf{x}, \mathbf{y})}{\sqrt{var(\mathbf{x})} \sqrt{var(\mathbf{y})}}
$$

Suponiendo que $\mathbf{x}$ e $\mathbf{y}$ están centrados en la media, podemos expresar la correlación como:

$$
cor(\mathbf{x, y}) = \frac{\mathbf{x^\mathsf{T} y}}{\|\mathbf{x}\| \|\mathbf{y}\|}
$$

En el caso de que tanto $\mathbf{x}$ como $\mathbf{y}$ estén estandarizados (media cero y varianza unitaria), la correlación es simplemente el producto interno:

$$
cor(\mathbf{x, y}) = \mathbf{x^\mathsf{T} y} \hspace{5mm} \mathrm{(variables} \hspace{1mm} \mathrm{estandarizadas)}
$$

Veamos dos variables (es decir, vectores) desde una perspectiva geométrica:

<p align="center">
  <img width="600" src="http://www.gastonsanchez.com/matrix4sl/matrix4sl_files/figure-html/unnamed-chunk-65-1.png" alt="Variable Types">
</p>

El producto interno de dos vectores centrados en la media $\mathbf{x}$ e $\mathbf{y}$ se obtiene con la siguiente ecuación:

$$
\mathbf{x^\mathsf{T} y} = \|\mathbf{x}\| \|\mathbf{y}\| cos(\theta_{x,y})
$$

donde $cos(\theta_{x, y})$ es el ángulo entre $\mathbf{x}$ e $\mathbf{y}$. 

Reordenando los términos en la ecuación anterior obtenemos que:

$$
cos(\theta_{x,y}) = \frac{\mathbf{x^\mathsf{T} y}}{\|\mathbf{x}\| \|\mathbf{y}\|} = cor(\mathbf{x, y}) 
$$

lo que significa que la correlación entre los vectores centrados en la media $\mathbf{x}$ e $\mathbf{y}$ resulta ser el coseno del ángulo entre $\mathbf{x}$ e $\mathbf{y}$.

Calculemos la correlación como un producto interno normalizado:

In [18]:
# Centramos en la media a X e Y
x_centered = df_sw['height'] - df_sw['height'].mean() 
y_centered = df_sw['weight'] - df_sw['weight'].mean() 

# Calculamos la correlación como un producto interno normalizado
cor = np.inner(x_centered, y_centered) / ( np.linalg.norm(x_centered) * np.linalg.norm(y_centered) )
cor

0.8139917520759036

Comparamos el resultado con el cálculo por defecto de la correlación:

In [9]:
np.corrcoef(df_sw['height'],df_sw['weight'])[0,1]

0.8139917520759037

## Descomposición de matrices

Una descomposición de matrices es una forma de **expresar una matriz $\mathbf{M}$ como el producto de un conjunto de matrices nuevas** (típicamente dos o tres), generalmente más simples en algún sentido, que nos dan una idea de la estructuras o relaciones inherentes en $\mathbf{M}$. 

Por "más simple" entendemos una serie de ideas como matrices más compactas, o con menos dimensiones, o con menos número de filas, o con menos número de columnas; quizás matrices triangulares, o incluso matrices casi llenas de ceros, excepto en su diagonal.

En términos generales, la descomposición de una matriz $\mathbf{M }$ de dimensiones $n\times p$ se puede describir mediante una ecuación genérica de la forma:

$$
\mathbf{M} = \mathbf{A B C}
$$

donde las dimensiones de las matrices son las siguientes:

- $\mathbf{M}$ es $n\times p$ (asumimos por simplicidad que $n>p$)
- $\mathbf{A}$ es $n\times k$ (generalmente $k<p$)
- $\mathbf{B}$ es $k\times k$ (generalmente diagonal)
- $\mathbf{C}$ es $k\times p$

La siguiente figura ilustra una descomposición matricial desde el punto de vista de las formas matriciales:

<p align="center">
  <img width="800" src="http://www.gastonsanchez.com/matrix4sl/images/decomps/matrix-decomposition.png" alt="Variable Types">
</p>

### Descomposición de valores propios

Las descomposiciones de valores propios juegan un papel fundamental en la estadística. 

En el caso del análisis multivariado, **los valores propios de las matrices de productos cruzados (por ejemplo, matrices de covarianza, matrices de correlaciones) permiten obtener estructuras simplificadas de matrices de datos**.

#### Autovectores y autovalores

Comencemos con la definición clásica de autovectores y autovalores.

Considera una matriz cuadrada $\mathbf{A}$ de orden $p\times p$. 

Cualquier vector $\mathbf{v}$ tal que:

$$
\mathbf{Av} = \lambda \mathbf{v}
$$

con $\lambda \neq 0$ escalar

se llama un __autovector__ de $\mathbf{A}$, y $\lambda$ un __autovalor__.

Por ejemplo, considere la siguiente matriz $\mathbf{A} $ y el vector $\mathbf{v_1}$:

$$\mathbf{A} = 
\begin{bmatrix} 
2 & 3 \\
4 & 1 \\
\end{bmatrix}$$

$$\mathbf{v_1} = 
\begin{bmatrix} 
1 \\
1 \\
\end{bmatrix}$$

El vector resultante de multiplicar $\mathbf{Av_1}$ es:

$$
\mathbf{A v_1} = 
\begin{bmatrix} 
2 & 3 \\
4 & 1 \\
\end{bmatrix}
\begin{bmatrix} 
1 \\
1 \\
\end{bmatrix}
=
\begin{bmatrix} 
5 \\
5 \\
\end{bmatrix}
=
5
\begin{bmatrix} 
1 \\
1 \\
\end{bmatrix}$$

Como puede apreciarse,

$$
\mathbf{Av_1} = 5 \mathbf{v_1}
$$

Por lo tanto, $\mathbf{v_1}$ y $\lambda_1 = 5$ son un autovector y autovalor, respectivamente, de $\mathbf{A}$.

Más formalmente, si pensamos en una matriz cuadrada $\mathbf{A}$ como una **transformación**, un autovector $\mathbf{v}$ de $\mathbf{A}$ es un tipo especial de vector: 

**Es un vector que bajo la transformación $\mathbf{A}$ se asigna a sí mismo o a un múltiplo de sí mismo**. 

Otra forma de decirlo es diciendo que los autovectores son **vectores invariantes** bajo una transformación dada.

A manera de ilustración, consideremos la matriz de correlación de las variables `height` y `weight`:

In [10]:
matrix = df_sw[['height','weight']].corr()
matrix

Unnamed: 0,height,weight
height,1.0,0.813992
weight,0.813992,1.0


Ahora, descompongamos esta matriz para extraer sus autovalores y autovectores:

In [11]:
# Descomponemos la matriz para obtener sus autovalores y autovectores
values, vectors = np.linalg.eig(matrix)

# Mostramos los resultados
print('Autovalores:',values)
print('Autovectores:')
print(vectors)

Autovalores: [1.81399175 0.18600825]
Autovectores:
[[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]


## Análisis Factorial

Se refiere a una familia de métodos para **analizar un conjunto de variables observadas (la matriz de datos $\mathbf{X}$) y expresarlas en menos dimensiones**.

Dos ramas básicas en el árbol genealógico: factores definidos (también conocidos como componentes principales) y factores inferidos (también conocido como análisis factorial común o análisis factorial clásico).

**En el análisis de componentes principales, definimos nuevas variables (factores), que son combinaciones lineales de nuestras variables observadas**, que resumen nuestros datos de entrada, al igual que un índice bursátil resume todo el mercado.

- El foco está en expresar las nuevas variables (los componentes principales) como promedios ponderados de las variables observadas
- Los factores (denominados correctamente puntuaciones de factores) tienen el mismo orden (número de valores) que las variables originales.

Podemos apreciar estas intuiciones expresadas gráficamente:

<p align="center">
  <img width="400" src="https://i2.wp.com/www.theanalysisfactor.com/wp-content/uploads/2016/09/KGM_Sept2016_Image1.png?resize=383%2C314" alt="Variable Types">
</p>

Este modelo se puede definir con una ecuación simple:

$$ C = w_{1}\times Y_{1} + w_{2}\times Y_{2} + w_{3}\times Y_{3} + w_{4}\times Y_{4} $$

**En el análisis factorial común inferimos la existencia de variables latentes que explican el patrón de correlaciones entre nuestras variables observadas**.
- La atención se centra en expresar las variables observadas como una combinación lineal de factores subyacentes.

Podemos apreciar estas intuiciones expresadas gráficamente:

<p align="center">
  <img width="400" src="https://i1.wp.com/www.theanalysisfactor.com/wp-content/uploads/2016/09/KGM_Sept2016_Image2.png?resize=383%2C235" alt="Variable Types">
</p>

En este modelo tenemos un conjunto de términos de error. Estos están designados por las **u**. Esta es la varianza en cada **Y** que el factor no explica.

Este modelo se puede definir como una serie de ecuaciones de regresión:

$$ Y_{1} = b_{1}\times F + u_{1} $$
$$ Y_{2} = b_{2}\times F + u_{2} $$
$$ Y_{3} = b_{3}\times F + u_{3} $$
$$ Y_{4} = b_{4}\times F + u_{4} $$

En ambos enfoques, **los factores se definen como combinaciones lineales de las variables y las variables se descomponen como combinaciones lineales de los factores**. Extraño pero cierto.

Dos resultados básicos del análisis factorial: 
- Un conjunto de puntuaciones de columna (variable) llamadas **cargas factoriales** (cada carga factorial tiene tantos valores como variables hay en la matriz de datos)
- Un conjunto de puntuaciones de fila (caso) llamadas **puntuaciones factoriales** (cada puntuación del factor tiene tantos valores como casos haya en la matriz de datos).

### Análisis Factorial Común

Dada como entrada una matriz $\mathbf{X}$ rectangular de 2 dimensiones cuyas columnas se ven como variables, el objetivo del análisis de factor común es **descomponer ("factorizar") las variables en términos de un conjunto de variables subyacentes "latentes" llamadas factores que se infieren del patrón de correlaciones entre las variables**.

Los factores subyacentes son la "razón de" las correlaciones observadas entre las variables. Es decir, **asumimos que las correlaciones entre las variables se deben al hecho de que cada variable está correlacionada con los factores subyacentes**. 


Si simplificamos y asumimos que solo hay un factor subyacente para un conjunto dado de variables, la idea es ver si podemos explicar la correlación observada $cor({X_{1}, X_{2}})$ entre dos variables $X_{1}$ e $X_{2}$ en función de la extensión a la que cada una se correlaciona con una tercera variable invisible, el factor $F$:

$$ cor(X_{1}, X_{2}) = cor(X_{1}, F)\times cor(X_{2}, F) $$ 

Esto se conoce como **teorema fundamental del análisis factorial de Spearman**. 

Si hay dos factores subyacentes, entonces la correlación entre dos variables se debe a sus correlaciones con cada uno de los factores latentes: 

$$ cor(X_{1}, X_{2}) = cor(X_{1}, F_{1})\times cor(X_{2}, F_{1}) + cor(X_{1}, F_{2})\times cor(X_{2}, F_{2}  ) $$ 


Veamos estas relaciones de manera gráfica:

<p align="center">
  <img width="500" src="https://www.empirical-methods.hslu.ch/files/2017/02/variables-as-vectors-2-cluster-analysis-300x161.jpg" alt="Variable Types">
</p>

**El tamaño del ángulo entre un vector y el eje refleja la correlación de la variable y el factor**. Cuanto mayor sea la correlación de la variable con el factor, menor será el ángulo entre el vector y el eje. Estos ángulos representan las **cargas factoriales**.

**Para calcular los factores es necesario contar con la información de la asociación entre todas las variables de la matriz de datos**. Esta información se encuentra en la matriz de covarianza de $\mathbf{X}$, que llamaremos $\mathbf{\Sigma}$. 

Asumiendo que $\mathbf{X}$ está centrada en la media, podemos definirla como:

$$ \Sigma = \frac{1}{n} \mathbf{X^\mathsf{T} X} =  \begin{pmatrix}
Var(X_{1}) & Cov(X_{1}, X_{2}) & \cdots  & Cov(X_{1}, X_{p}) \\ 
Cov(X_{1}, X_{2}) & Var(X_{2}) & \cdots  & Cov(X_{2}, X_{p}) \\ 
\vdots  & \vdots  & \ddots  & \vdots  \\ 
Cov(X_{1}, X_{p}) & Cov(X_{2}, X_{p}) & \cdots  & Var(X_{p})
\end{pmatrix} $$

Como veremos a lo largo del curso, la matriz de covarianza $\mathbf{\Sigma}$ es fundamental para los modelos multivariados. 

#### Definición formal 

El modelo de análisis factorial común es esencialmente una serie de ecuaciones de regresión donde $b_{ij}$ son coeficientes de regresión representando cómo la variable $X_{i}$ se relaciona con $k$ factores comunes:  

$$ X_{1} = b_{11} f_{1} + b_{12} f_{2} + ... + b_{1k} f_{k} + \mu_{1}$$
$$ X_{2} = b_{21} f_{1} + b_{22} f_{2} + ... + b_{2k} f_{k} + \mu_{2}$$
$$ . $$
$$ . $$
$$ . $$
$$ X_{q} = b_{q1} f_{1} + b_{q2} f_{2} + ... + b_{qk} f_{k} + \mu_{q}$$


Los **coeficientes $b_{ij}$, llamados cargas factoriales, miden la magnitud de la correlación entre los factores $f_{i}$ y las variables observadas $X_{i}$**. Los valores de $\mu_{i}$ representan los residuos y son llamados variantes específicos. 

En este modelo las cargas factoriales $b_{ij}$ se definen como:

$$ b_{ij} = \sqrt{\lambda_{j}} v_{ij} $$ 

donde $\lambda_{j}$ y $v_{ij}$ son los **autovalores** y **autovectores** de la matriz de covarianza $\mathbf{\Sigma}$ de la matriz de datos $\mathbf{X}$.

Podemos expresar el modelo completo en forma simplificada:

$$ \mathbf{X} = \mathbf{B} \mathbf{f} + \mathbf{\mu} $$

donde

$$ \mathbf{B} = \begin{pmatrix}
b_{11} & \cdots  & b_{1k}  \\ 
\vdots  & \ddots  & \vdots  \\ 
b_{q1} & \cdots  & b_{qk}
\end{pmatrix} $$ 

$$ \mathbf{f} = \begin{pmatrix}
f_{1} \\
\vdots  \\ 
f_{k}
\end{pmatrix} $$

$$ \mathbf{\mu} =  \begin{pmatrix}
\mu_{1} \\
\vdots  \\ 
\mu_{q}
\end{pmatrix} $$


El supuesto más importante del modelo es que las variables observadas $X_{i}$ son independientes entre sí, por lo que las correlaciones entre las variables manifiestas se deben únicamente a su relación con los factores.

La varianza de cada variable $X_{i}$ puede definirse como:

$$ \sigma_{i} = \sum_{j=1}^{k} b_{ij}^{2} + \psi_{i} $$

Esta cuenta con dos componentes. El primero se denomina **comunalidad de la varianza** y **representa la varianza compartida con otras variables como resultado de factores comunes**. El segundo componente se trata de una varianza específica que no se comparte con otras variables. 

#### Ejemplo de extracción de factores

Repasemos esta definición a partir de un ejemplo.

Primero, cargamos nuestra matriz de datos `df` la cual está compuesta por 12 variables y 357 casos. 

In [12]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

df = pd.read_spss('euthan.sav')
df

Unnamed: 0,e1,e2,e3,e4,e5,e6,e7,e8,e9,e10,e11,e12
0,5.0,5.0,3.0,4.0,5.0,5.0,4.0,4.0,5.0,5.0,3.0,3.0
1,3.0,4.0,2.0,3.0,4.0,4.0,3.0,3.0,4.0,2.0,2.0,3.0
2,5.0,5.0,1.0,4.0,5.0,5.0,4.0,4.0,5.0,5.0,5.0,4.0
3,4.0,5.0,1.0,4.0,5.0,5.0,5.0,5.0,3.0,5.0,3.0,3.0
4,3.0,4.0,4.0,3.0,3.0,4.0,4.0,4.0,3.0,4.0,3.0,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...
352,5.0,4.0,1.0,4.0,5.0,4.0,3.0,4.0,4.0,5.0,3.0,3.0
353,5.0,5.0,2.0,3.0,5.0,5.0,3.0,3.0,5.0,5.0,2.0,2.0
354,5.0,5.0,2.0,5.0,5.0,5.0,5.0,4.0,5.0,5.0,5.0,4.0
355,4.0,4.0,2.0,4.0,5.0,4.0,4.0,4.0,4.0,4.0,4.0,3.0


Antes de realizar el análisis factorial, estandarizamos nuestros datos:

In [13]:
# Estandarizamos los datos
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)
df = pd.DataFrame(scaled_data, columns=df.columns.values)
df

Unnamed: 0,e1,e2,e3,e4,e5,e6,e7,e8,e9,e10,e11,e12
0,0.857588,0.785601,0.119556,0.154735,0.686161,0.865330,0.272019,0.041718,0.881063,0.916052,0.039223,0.011506
1,-0.867251,-0.472065,-0.717338,-0.781541,-0.402548,-0.270416,-0.595042,-1.022102,-0.072087,-1.728400,-0.784465,0.011506
2,0.857588,0.785601,-1.554233,0.154735,0.686161,0.865330,0.272019,0.041718,0.881063,0.916052,1.686599,0.833058
3,-0.004831,0.785601,-1.554233,0.154735,0.686161,0.865330,1.139081,1.105538,-1.025236,0.916052,0.039223,0.011506
4,-0.867251,-0.472065,0.956451,-0.781541,-1.491256,-0.270416,0.272019,0.041718,-1.025236,0.034568,0.039223,0.833058
...,...,...,...,...,...,...,...,...,...,...,...,...
352,0.857588,-0.472065,-1.554233,0.154735,0.686161,-0.270416,-0.595042,0.041718,-0.072087,0.916052,0.039223,0.011506
353,0.857588,0.785601,-0.717338,-0.781541,0.686161,0.865330,-0.595042,-1.022102,0.881063,0.916052,-0.784465,-0.810046
354,0.857588,0.785601,-0.717338,1.091011,0.686161,0.865330,1.139081,0.041718,0.881063,0.916052,1.686599,0.833058
355,-0.004831,-0.472065,-0.717338,0.154735,0.686161,-0.270416,0.272019,0.041718,-0.072087,0.034568,0.862911,0.011506


Luego, calculamos la **matriz de covarianza** de nuestros datos estandarizados:

In [14]:
# Calculamos la matriz de covarianza
covariance_matrix = df.cov()
covariance_matrix

Unnamed: 0,e1,e2,e3,e4,e5,e6,e7,e8,e9,e10,e11,e12
e1,1.002809,0.594872,0.353347,0.268392,0.649493,0.535208,0.459223,0.296572,0.673888,0.39522,0.439179,0.197089
e2,0.594872,1.002809,0.263556,0.380861,0.601746,0.726613,0.324812,0.429396,0.541676,0.533302,0.335747,0.252147
e3,0.353347,0.263556,1.002809,0.269783,0.329792,0.272715,0.370973,0.377629,0.414208,0.223799,0.425167,0.60892
e4,0.268392,0.380861,0.269783,1.002809,0.254304,0.37053,0.573489,0.477552,0.299465,0.235739,0.468331,0.285584
e5,0.649493,0.601746,0.329792,0.254304,1.002809,0.616759,0.348454,0.244575,0.609261,0.364399,0.32063,0.203128
e6,0.535208,0.726613,0.272715,0.37053,0.616759,1.002809,0.364214,0.357491,0.533883,0.467762,0.299695,0.246873
e7,0.459223,0.324812,0.370973,0.573489,0.348454,0.364214,1.002809,0.493866,0.416634,0.168764,0.599169,0.222968
e8,0.296572,0.429396,0.377629,0.477552,0.244575,0.357491,0.493866,1.002809,0.313476,0.359426,0.365106,0.35304
e9,0.673888,0.541676,0.414208,0.299465,0.609261,0.533883,0.416634,0.313476,1.002809,0.34943,0.379947,0.253787
e10,0.39522,0.533302,0.223799,0.235739,0.364399,0.467762,0.168764,0.359426,0.34943,1.002809,0.286212,0.192853


Ahora, descomponemos la matriz de covarianza para calcular sus **autovalores y autovectores**. Aquí los presentamos los autovectores como una matriz de dimensión 12 x 12 y los autovalores como encabezados de cada columna:

In [15]:
import numpy as np

# Descomponemos la matriz para calcular sus autovalores y autovectores
values, vectors = np.linalg.eig(covariance_matrix)

# Mostramos los autovectores como una matriz y sus autovalores como encabezados de columna
pd.DataFrame(vectors,columns=values,index=df.columns.values)

Unnamed: 0,5.338172,1.539879,1.066268,0.943752,0.636552,0.551130,0.224493,0.299128,0.307217,0.340135,0.372825,0.414157
e1,0.329355,0.241105,0.014319,-0.32834,0.169005,-0.164657,-0.381125,0.393702,0.496065,0.208623,0.282384,-0.010241
e2,0.33418,0.288266,-0.03072,0.253775,-0.154881,0.12269,0.603816,0.444476,-0.115588,-0.080209,0.275003,-0.208009
e3,0.256284,-0.330235,0.510976,-0.125451,0.025524,-0.145906,0.001593,0.448293,-0.139227,-0.229717,-0.494183,0.095649
e4,0.25954,-0.302343,-0.428085,0.151793,-0.28516,0.353187,-0.142835,0.212451,-0.023895,0.219073,-0.058372,0.558
e5,0.311767,0.323373,0.095014,-0.230547,-0.177032,0.066548,0.079757,-0.249389,-0.209102,0.627578,-0.414271,-0.150094
e6,0.323673,0.284627,-0.026689,0.175915,-0.322684,0.250407,-0.472141,-0.173299,0.037482,-0.520286,-0.161791,-0.253986
e7,0.289447,-0.290676,-0.402953,-0.272671,0.000233,-0.143659,0.402964,-0.248143,0.466573,-0.213947,-0.247479,-0.160327
e8,0.268472,-0.266749,-0.15468,0.408827,-0.119487,-0.677454,-0.205001,-0.060014,-0.219529,0.175843,0.128847,-0.226139
e9,0.323168,0.188123,0.107908,-0.313203,-0.038864,-0.253718,0.106841,-0.335474,-0.292692,-0.2768,0.318478,0.544864
e10,0.247118,0.216986,0.053834,0.535679,0.639553,0.021704,0.059319,-0.170076,0.182968,0.025062,-0.236639,0.264487


Seguidamente, calculamos las **cargas factoriales** a partir de los autovalores y autovectores:

In [16]:
# Calculamos las cargas factoriales
factor_loadings = np.sqrt(values) * vectors

# Mostramos las cargas factoriales de cada variable
pd.DataFrame(factor_loadings,index=df.columns.values)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
e1,0.760958,0.299192,0.014785,-0.318972,0.13484,-0.122238,-0.180579,0.215326,0.274955,0.121671,0.172422,-0.006591
e2,0.772105,0.357714,-0.031721,0.246534,-0.123571,0.091082,0.286092,0.243095,-0.064067,-0.046779,0.167915,-0.133864
e3,0.592131,-0.409795,0.527635,-0.121872,0.020364,-0.108318,0.000755,0.245183,-0.07717,-0.133973,-0.301745,0.061555
e4,0.599655,-0.375183,-0.442041,0.147462,-0.227513,0.262199,-0.067676,0.116195,-0.013244,0.127766,-0.035642,0.359101
e5,0.72032,0.40128,0.098112,-0.223969,-0.141244,0.049404,0.03779,-0.136397,-0.1159,0.36601,-0.252952,-0.096593
e6,0.747829,0.353199,-0.027559,0.170896,-0.257451,0.185897,-0.223703,-0.094782,0.020775,-0.303436,-0.098788,-0.163453
e7,0.668751,-0.360706,-0.416091,-0.264892,0.000186,-0.10665,0.190927,-0.135716,0.258608,-0.124776,-0.151109,-0.103178
e8,0.62029,-0.331014,-0.159723,0.397163,-0.095332,-0.502929,-0.097131,-0.032823,-0.121679,0.102554,0.078673,-0.145532
e9,0.746662,0.233445,0.111426,-0.304267,-0.031007,-0.188355,0.050622,-0.183479,-0.162231,-0.161433,0.194461,0.350648
e10,0.570954,0.269262,0.055589,0.520396,0.510262,0.016113,0.028106,-0.093019,0.101414,0.014616,-0.14449,0.170211


Finalmente, calculamos las **comunalidades** de cada variable a partir de las cargas factoriales:

In [17]:
# Calculamos las comunalidades
com = np.sum(factor_loadings**2, axis=1)

# Mostramos comunalidades de cada variable
pd.Series(com,index=df.columns.values)

e1     1.002809
e2     1.002809
e3     1.002809
e4     1.002809
e5     1.002809
e6     1.002809
e7     1.002809
e8     1.002809
e9     1.002809
e10    1.002809
e11    1.002809
e12    1.002809
dtype: float64