# P31

# **Matriz de Dispersión y Histogramas Bidimensionales: Explicación Completa**

## **1. Matriz de Dispersión**

La **matriz de dispersión** mide cómo las variables en un conjunto de datos multidimensional varían con respecto al **vector de medias**. Es una herramienta fundamental en estadísticas para analizar la **covarianza** entre diferentes dimensiones de los datos.

La fórmula general para la matriz de dispersión es:

$$
S = \sum_{j=1}^{n} \left( \mathbf{x}_j - \bar{\mathbf{x}} \right) \left( \mathbf{x}_j - \bar{\mathbf{x}} \right)^T
$$

Donde:
- \( S \) es la **matriz de dispersión** (también llamada matriz de covarianza sin normalización).
- \( \mathbf{x}_j \) es el \( j \)-ésimo vector de datos en el conjunto.
- \( \bar{\mathbf{x}} \) es el **vector de medias** de los datos:

  $$
  \bar{\mathbf{x}} = \frac{1}{n} \sum_{j=1}^{n} \mathbf{x}_j
  $$

- \( \left( \mathbf{x}_j - \bar{\mathbf{x}} \right) \) es el **vector centrado**, es decir, la diferencia entre cada vector y la media.

### **Proceso para Calcular la Matriz de Dispersión:**

1. **Vector de Medias**:
   - Calculamos el promedio de cada componente a lo largo de las muestras. Si cada \( \mathbf{x}_j \) es un vector en \( \mathbb{R}^m \), el vector de medias también estará en \( \mathbb{R}^m \).

   $$
   \bar{x}_i = \frac{1}{n} \sum_{j=1}^{n} x_{j,i}
   $$

   Donde \( x_{j,i} \) es el valor de la \( i \)-ésima dimensión del vector \( \mathbf{x}_j \).

2. **Vector Centrando**:
   - Restamos el vector de medias \( \bar{\mathbf{x}} \) a cada vector \( \mathbf{x}_j \):

     $$
     \mathbf{c}_j = \mathbf{x}_j - \bar{\mathbf{x}}
     $$

3. **Producto Exterior**:
   - Para cada vector centrado \( \mathbf{c}_j \), calculamos su **producto exterior** con su transpuesta:

     $$
     \mathbf{c}_j \mathbf{c}_j^T
     $$

     El producto exterior genera una **matriz cuadrada** de tamaño \( m \times m \), donde \( m \) es el número de dimensiones de los vectores de datos.

4. **Suma de los Productos Exteriores**:
   - Finalmente, sumamos todas las matrices obtenidas para cada vector:

     $$
     S = \sum_{j=1}^{n} \mathbf{c}_j \mathbf{c}_j^T
     $$

   Esta matriz de dispersión refleja la **covarianza no normalizada** entre las variables en el conjunto de datos.


In [None]:
import numpy as np

def matriz_dispersion(datos):
    # Convertir los datos a un arreglo de NumPy
    datos = np.array(datos)

    # Calcular el vector de medias
    vector_medias = np.mean(datos, axis=0)

    # Centrar los datos restando el vector de medias
    datos_centrados = datos - vector_medias

    # Calcular la matriz de dispersión
    dispersion = np.dot(datos_centrados.T, datos_centrados)

    return dispersion

# Ejemplo de uso
datos = [
    [1, 2],
    [3, 4],
    [5, 6]
]

S = matriz_dispersion(datos)
print("Matriz de dispersión:")
print(S)


# p43


## **2. Histogramas Bidimensionales**

Un **histograma bidimensional** extiende la idea del histograma unidimensional a dos dimensiones. Divide el espacio en **bins** (contenedores) a lo largo de las dos dimensiones y cuenta cuántos puntos caen dentro de cada bin.

### **Conceptos Matemáticos del Histograma Bidimensional**

1. **División del Espacio en Bins**:
   - El rango de valores en la dimensión \( x \) se divide en \( \text{bins} \) contenedores con intervalos iguales:

     $$
     \text{bins}_x = \left[ x_{\min}, x_{\min} + \Delta x, \ldots, x_{\max} \right]
     $$

   - De manera similar, en la dimensión \( y \):

     $$
     \text{bins}_y = \left[ y_{\min}, y_{\min} + \Delta y, \ldots, y_{\max} \right]
     $$

2. **Cálculo del Ancho de los Bins**:
   - El **ancho** de cada bin para las dimensiones \( x \) e \( y \) se calcula como:

     $$
     \Delta x = \frac{x_{\max} - x_{\min}}{\text{bins}}, \quad \Delta y = \frac{y_{\max} - y_{\min}}{\text{bins}}
     $$

   Donde:
   - \( x_{\min} \) y \( x_{\max} \) son los valores mínimo y máximo en el eje \( x \).
   - \( y_{\min} \) y \( y_{\max} \) son los valores mínimo y máximo en el eje \( y \).
   - \( \Delta x \) y \( \Delta y \) son los **anchos** de los contenedores en cada dimensión.

3. **Conteo de Observaciones en Cada Bin**:
   - Para contar cuántas observaciones caen en cada bin \( [x_i, x_{i+1}) \) y \( [y_j, y_{j+1}) \), usamos la siguiente fórmula:

     $$
     \text{count}_{i,j} = \sum_{k=1}^{n} \mathbb{1}_{\left\{ x_i \leq x_k < x_{i+1} \, \text{y} \, y_j \leq y_k < y_{j+1} \right\}}
     $$

   Donde:
   - \( \mathbb{1} \) es una **función indicadora** que vale 1 si la condición dentro de las llaves es verdadera, y 0 en caso contrario.
   - \( n \) es el número total de observaciones.

### **Interpretación del Histograma Bidimensional**

Cada **bin** en el histograma bidimensional representa un **subespacio** del plano \( xy \), y el valor dentro de cada bin indica cuántos puntos de datos cayeron dentro de ese subespacio. Este tipo de histograma es útil para analizar la **distribución conjunta** de dos variables.

---

In [2]:
import numpy as np
import matplotlib.pyplot as plt

def calcular_bins(datos, num_bins):
    """
    Calcula los intervalos de los contenedores (bins) en dos dimensiones.
    """
    # Definir los intervalos para cada dimensión (eje X y eje Y)
    x_min, x_max = np.min(datos[:, 0]), np.max(datos[:, 0])
    y_min, y_max = np.min(datos[:, 1]), np.max(datos[:, 1])

    # Calcular los límites de cada bin en X e Y
    bins_x = np.linspace(x_min, x_max, num_bins + 1)
    bins_y = np.linspace(y_min, y_max, num_bins + 1)

    return bins_x, bins_y

def histograma_2d(datos, num_bins):
    """
    Genera un histograma 2D y cuenta las observaciones en cada contenedor.
    """
    bins_x, bins_y = calcular_bins(datos, num_bins)

    # Usar histogram2d para contar las observaciones en cada contenedor
    conteos, bordes_x, bordes_y = np.histogram2d(datos[:, 0], datos[:, 1], bins=[bins_x, bins_y])

    return conteos, bordes_x, bordes_y

# Ejemplo de uso
datos = np.array([
    [1, 2],
    [2, 3],
    [2, 1],
    [4, 5],
    [6, 7]
])

num_bins = 3
conteos, bordes_x, bordes_y = histograma_2d(datos, num_bins)

print("Número de observaciones por contenedor:")
print(conteos)

# Visualización del histograma 2D
plt.imshow(conteos, origin='lower', extent=[bordes_x[0], bordes_x[-1], bordes_y[0], bordes_y[-1]])
plt.colorbar(label='Número de observaciones')
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.title('Histograma 2D')
plt.show()
