# Estimación puntual

En este notebook ejemplificaremos la mayoría de los conceptos sobre _Estadísticas y distribuciones muestrales_, y _Estimación puntual_ vistos en el curso. La intención es que este material sea autocontenido y les ayude a reforzar sus conocimientos en los temas antes mencionados.

Este notebook se encuentra alojado en [GitHub](https://github.com/ivannpy/inferencia_estadistica).

Autor: Jorge Iván Reyes Hernández.

In [1]:
import numpy as np
import scipy.stats as stats
from utils import *

np.set_printoptions(precision=2)

## Introducción



## Sobre cómo implementar las estadísticas

Por definición, una estadística es una función medible que solo depende de la muestra aleatoria $X_1, \dots X_n$ y no de parámetros desconocidos. Usaremos las funciones de Python para implementar las estadísticas.

Por ejemplo, la implementación de la estadística
$$
 T_1(X_1, \dots, X_n) = \frac{1}{n} \sum _{i=1}^{n} X_i
$$
es

    def T_1(X):
        """ Calcula la media muestral de una muestra aleatoria X=(X_1,...X_n)
        :param X: X es un arreglo de Numpy.
        :return: La media aritmética de las entradas del vector X.
        """
        n = X.size
        sum_ = X.sum()
        
        return sum_ / n

o de manera más compacta,

    def T_1(X):
        """ Calcula la media muestral de una muestra aleatoria X=(X_1,...X_n)
        :param X: X es un arreglo de Numpy.
        :return: La media aritmética de las entradas del vector X.
        """
        return X.mean()
        
La implementación de la estadística
$$
 T_2(X_1, \dots, X_n) = \bigg( \frac{1}{n} \sum _{i=1}^{n} X_i, \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \bar{X}) \bigg)
$$
es

    def T_2(X):
        """ Calcula la media muestral y la estadística S^2.
        :param X: X es un arreglo de Numpy.
        :return: (media, s^2)
        """
        t_1 = X.mean()
        coef = 1 / (X.size - 1)
        t_2 = coef * ((X - X.mean()) ** 2).sum()
        
        return t_1, t_2
        
Ejemplo:

In [2]:
# Leemos los datos de una muestra aleatoria

sample = load_data("ejemplo_estadisticas.csv")

In [3]:
print_pretty_sample(sample)

Realización de la muestra aleatoria.
Tamaño de la muestra: 100.


<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

In [4]:
def T_1(X):
        """ Calcula la media muestral de una muestra aleatoria X=(X_1,...X_n)
        :param X: X es un arreglo de Numpy.
        :return: La media aritmética de las entradas del vector X.
        """

        return around2(X.mean())
    
def T_2(X):
        """ Calcula la media muestral y la estadística S^2.
        :param X: X es un arreglo de Numpy.
        :return: (media, s^2)
        """

        t_1 = X.mean()
        coef = 1 / (X.size - 1)
        t_2 = coef * ((X - X.mean()) ** 2).sum()
        
        return around2(t_1), around2(t_2)

In [5]:
print(T_1(sample))

0.54


In [6]:
T_2(sample)

(0.54, 18.7)

## Sobre el proceso de generación de muestras

Durante el curso siempre suponemos que tenemos (al menos) una muestra aleatoria, es decir, un conjunto de $n$ variables aleatorias independientes e idénticamente distribuidas
$$
    X_1, \dots X_n \sim F_{\vec{\theta}}
$$
donde $F_{\vec{\theta}}$ es un modelo de probabilidad paramétrico. Note que las $X_{i}$'s son variables aleatorias, pero en la práctica realmente tenemos realizaciones de estas variables aleatorias $x_1, \dots x_n$. A lo largo de este Notebook trabajaremos con las realizaciones de variables aleatorias (es decir, con números reales) pero hay que recordar que existe un modelo de probabilidad subyacente.


Recordemos que en probabilidad partimos de un modelo de probabilidad, $F$, conocido, y de este podemos obtener números que sigan esta distribución o ley de probabilidad. En estadística es al revés: inicialmente tenemos un conjunto de datos, por ejemplo

$$
   C = \{ -2.82, 1.90, 1.20, -1.22, 0.04, 0.07, 3.78, -6.46, -3.78,  1.07 \}
$$

y suponemos que existe un modelo de probabilidad paramétrico, $F_{\vec{\theta}}$. La elección del modelo se hace, en parte, haciendo un análisis exploratorio de datos (EDA) o por algún otro conocimiento previo del experimento que dio origen a los datos. En este caso, podemos suponer que el conjunto de datos $C$ proviene (o fue muestreado) de una población $F_{\mu,\sigma^{2}} = \mathcal{N}(\mu, \sigma ^{2})$. Note que los valores de la media y la varianza son, en principio, desconocidos; el objetivo de la estimación puntual es estimar puntualmente (es decir, con un único número) cada uno de esos parámetros usando la información contenida en la muestra $C$.

En lo sucesivo, partiremos de un conjunto de datos, $C$, que leeremos desde un archivo _.csv_, y diremos de qué modelo de probabilidad paramétrico fue muestreado, sin decir el valor de los parámetros (aunque estos son conocidos, de otra forma no se habrían podido simular computacionalmente).
