In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
        
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Estadística Inferencial - Conceptos

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

[Definiciones](#section_definiciones)

[Relación entre Población, Muestra, Parámetro, y Estimador](#section_poblacion_muestra_parametro_estimador)

[Relación entre Parámetro, Estimador y Estimación](#section_parametro_estimador_estimacion)

[Ley de grandes números](#section_ley_grandes_numeros)

[Teorema Central del Límite](#section_teorema_central_limite)

[Intervalos de Confianza](#section_intervalos_confianza)

[Referencias](#section_referencias)



<a id="section_intro"></a> 
## Intro

[volver a TOC](#section_toc)

En estadística, una población es un conjunto de seres, individuos, objetos, elementos o eventos con determinadas características. A menudo se obtiene una muestra de dicha población, es decir, un subconjunto representativo. Luego de realizar un análisis estadístico a la muestra, los resultados se extrapolan al resto de la población (inferencia estadística).

<a id="section_definiciones"></a> 
## Definiciones

[volver a TOC](#section_toc)

### Población

La palabra población tiene distintos significados estrechamente relacionados en estadística.

1. Un grupo finito y realmente existente de objetos que, aunque posiblemente grande, en teoría pueden enumerarse (por ejemplo, personas que viven en los USA).

2. Una generalización de una experiencia que es indefinidamente grande. Por ejemplo: el número total de lanzamientos que podrían realizarse en tiempo ilimitado con un par de dados en particular. Cualquier conjunto real de lanzamientos puede considerarse como una muestra extraída de esta población.


### Muestra

Una muestra es un subconjunto de una población que se obtiene a través de algún proceso, posiblemente selección aleatoria o selección basada en un determinado conjunto de criterios, con el fin de investigar las propiedades de la población subyacente. 

En particular, las cantidades estadísticas determinadas directamente a partir de la muestra (como la media de la muestra, la varianza de la muestra, etc.) se pueden usar como estimadores de las propiedades correspondientes de la distribución subyacente.

El proceso de obtención de una muestra se conoce como muestreo, y el número de miembros en una muestra se llama tamaño muestral.

#### Tipos de muestra

##### Probabilística

Podemos calcular la probabilidad de selección de cada una de las unidades de la muestra, por lo tanto tenemos una medida del error.

Algunos tipos son:

**1. Muestreo aleatorio simple** 

Todos los individuos tienen la misma probabilidad de ser seleccionados

Las observaciones se realizan con reposición, de forma que la población es igual en todas las extracciones. 

Supongamos que queremos elegir una muestra de n individuos de una población de N sujetos.

Cada elemento tiene probabilidad n/N de ser elegido en la muestra.

![Image](img/muestreo-probabilistico.jpg)

**2. Muestreo aleatorio estratificado**

Los individuos de toda la población se dividen en grupos o estratos. Cada elemento pertenece a un único estrato. La variable elegida para formar los estratos no debe permitir que un individuo o elemento de la población pertenezca a más de uno de ellos.

La variable elegida deberá ser significativa para el motivo u objetivo del estudio o investigación.

La elección de los elementos en cada estrato se realiza mediante algún método de muestreo aleatorio simple o muestreo sistemático.

Suponemos que hay $k$ estratos de tamaños $N_1$, $N_2$,…, $N_k$, de forma que:

$$N = N_1 + N_2 + ... + N_k$$ 

En cada estrato se toman $n_1$, $n_2$,…, $n_k$ elementos para la muestra, de manera que se toman en total $n$ individuos, es decir:

$$n = n_1 + n_2 + ... + n_k$$ 

![Image](img/muestreo-estratificado.jpg)

**3. Muestreo por clusters**

El método de muestreo por conglomerados se utiliza cuando la población está agrupada en conglomerados naturales.

Si se supone que los conglomerados son muestra significativa de la variable que se está estudiando, se puede seleccionar algunos conglomerados al azar (todos los conglomerados deben tener las mismas probabilidades de ser seleccionados) y utilizarlos en representación de la población.

Una vez seleccionados los conglomerados, el estudio se simplifica puesto que hay menos individuos en el análisis. El investigador debe elegir si estudiar a todos los sujetos de los conglomerados seleccionados o seleccionar una muestra mediante el método de muestreo aleatorio simple o muestreo sistemático.

![Image](img/muestreo-conglomerados.jpg)

**4. Muestreo aleatorio por etapas múltiples (combina 3 y 2)**



### Parámetro

Un parámetro estadístico o parámetro de población es una cantidad que define la distribución de probabilidad de una variable aleatoria. 

Puede considerarse como una característica numérica de una población estadística.

En inferencia estadística, los parámetros a veces se consideran inobservables, y en este caso la tarea del estadístico es inferir el valor del parámetro basado en una muestra aleatoria tomada de la población de interés.


### Estimador

Un estimador es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población.

Los estimadores son variables aleatorias.

### Estimación

#### Estimación puntual:

La estimación puntual consiste en utilizar el valor de un estadístico (alguna función de los datos) que denominaremos estimador para calcular el valor de un parámetro desconocido de una población. 
En estadística clásica, los parámetros de una población se consideran fijos (no aleatorios). 

Ejemplos:
* usamos la media muestral para estimar la media de una población, 
* usamos la proporción de una muestra para estimar el parámetro p de una distribución binomial.

Una **estimación puntual** de un parámetro de una población es **un solo valor** obtenido a partir de un estadístico.

#### Estimación por intervalos de confianza:

Se da una intervalo de valores posibles, un límite inferior (Li) y otro superior (Ls),  tal que la probabilidad de que Li y Ls atrape al parámetro es conocida.

<img src='img/confidence_interval.png' align='left' width=50%/>



<a id="section_poblacion_muestra_parametro_estimador"></a> 
## Relación entre Población, Muestra, Parámetro, y Estimador

[volver a TOC](#section_toc)

Un parámetro es a una población como el valor del estimador es a una muestra. 

En un momento determinado, puede existir algún parámetro para el porcentaje de todos los votantes en un país entero que prefieren un candidato electoral en particular. Pero no es práctico preguntar a cada votante antes de una elección cuáles son sus preferencias de candidato, por lo tanto se encuestará una muestra de votantes y se contará con un estimador, el porcentaje de los votantes encuestados que prefirieron a cada candidato. El valor del estimador se usa para hacer inferencia sobre el parámetro preferencia de todos los votantes por un candidato particular.

Del mismo modo, en algunas formas de prueba de productos manufacturados, en lugar de probar destructivamente todos los productos, solo se prueba una muestra de productos. Tales pruebas recopilan valores de estimadores que respaldan la inferencia de que los productos cumplen con las especificaciones.

<a id="section_parametro_estimador_estimacion"></a> 
## Relación entre Parámetro, Estimador y Estimación

[volver a TOC](#section_toc)


Un parámetro de población es una cantidad que define la distribución de probabilidad de una variable aleatoria, y generalmente no lo conocemos.

Un estimador es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población.

Una estimación es el valor de un estimador (alguna función de los datos de la muestra).


<a id="section_ley_grandes_numeros"></a> 
## Ley de grandes números

[volver a TOC](#section_toc)


¿Por qué tiene sentido estimar la media poblacional (valor esperado) con la media  muestral?

Simplificando los planteos de Kolmogorov:
    
Supongamos que tenemos observaciones $X_1$, $X_2$, .., $X_n$.

Si las $X_i$ son una sucesión de observaciones independientes e idénticamente distribuidas tales que E($X_i$) es igual a una constante $\mu$ finita.

Entonces el promedio de las $X_i$ converge en probabilidad a E($X_i$) cuando $n$ tiende a infinito.

**La LGN nos garantiza que, a medida que el tamaño muestral aumenta, la media muestral se acerca a la media poblacional**.



<a id="section_teorema_central_limite"></a> 
## Teorema Central del Límite

[volver a TOC](#section_toc)


Sea $X_1, X_2, ..., X_n$ un conjunto de variables aleatorias, independientes e identicamente distribuídas de una distribución con media $\mu$ y varianza $\sigma^2 \neq 0$. Entonces si $n$ es suficientemente grande, la variable aleatoria $\hat{X} = \frac{1}{n} \sum _{i=1}^{n}{X_i}$ tiene aproximadamente una distribución normal con $\mu_{\hat{X}} = \mu$ y ${\sigma_{\hat{X}}^2} = {\frac{\sigma^2}{n}}$

### Condiciones del TCL

* Independencia: las observaciones tienen que provenir de un muestreo aleatorio y deben ser independientes. Si el muestreo es sin reemplazo, entonces n < 10% de la población.

* n: si la distribución de una población es muy asimétrica, n deberá ser muy grande (a veces se menciona un n=30 como aproximación, pero en realidad depende de cuán asimétrica es la población). Si la población tiene distribución normal, no hay condiciones sobre n.

### Teorema Central del Límite y muestreo

El TCL define una distribución para la media muestral como estimador de la media poblacional.

El desvío estándar de la distribución muestral se llama error estándar (SE) de la media muestral.

Error estandar: $${\sigma_{\bar{X}}} = {\frac{\sigma}{ \sqrt{n}}}$$

### Aplicación

Tomamos como nuestra **población** los resultados posibles al arrojar una vez un dado tetraedrico (de 4 caras)



In [None]:
import numpy as np
import seaborn as sns
import math
import scipy.stats as stats
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
data_population = np.array([1, 2, 3, 4])
data_population

Calculamos la media poblacional y el desvío estandar

In [None]:
population_mu = data_population.mean()
population_sd = data_population.std()
print(population_mu, population_sd)

Veamos la forma de la distribución de nuestra población, que es **uniforme**

In [None]:
sns.distplot(data_population, kde=False, hist=True, bins=[1,2,3,4,5], hist_kws={'align':'mid'});

El teorema central del límite establece que si calculamos la media de un número grande de muestras independientes, la distribución muestral se aproxima a una distribución normal, sin importar la forma de la distribución subyacente.

Vamos a ilustrarlo tomando muestras de dos tiradas ($n=2$) del dado tetraedrico, y calculando las medias. Los datos originales tienen distribución uniforme.

In [None]:
sample_count = 100
sample_size = 2

random_generator = np.random.default_rng()

means = []

for i in range(sample_count):
    # creo la muestra
    data_sample = random_generator.choice(data_population, size = sample_size,  replace=True)
    media_muestral = data_sample.mean()
    means.append(media_muestral)
    

Grafiquemos la distribución de las medias muestarles. 

Vemos que se acercan a una distribución normal aunque la población proviene de una distribución uniforme y n es chico (2).

In [None]:
sns.distplot(means, kde=False, hist=True, bins=[1,2,3,4,5], hist_kws={'align':'mid'});

Calculemos la media y el desvío estandar de las medias muestrales

In [None]:
means_mean = np.mean(means)
means_sd = np.std(means)
means_mean, means_sd

Calculemos el valor que postula el TCL para el desvío de las medias

In [None]:
means_sd_TCL = population_sd / math.sqrt(sample_size)
means_sd_TCL

In [None]:
print("diferencia entre valor TCL y valor obtenido para la media: ",  population_mu - means_mean)
print("diferencia entre valor TCL y valor obtenido para el desvío: ", means_sd_TCL - means_sd)

### Ejercicio

Definamos una función que dada 
* una población como array, 
* el valor de sample_size,
* el valor de sample_count

Construya sample_count muestras de tamaño sample_size, calcule la media muestral de cada una, y devuelva una tupla con los valores
* diferencia entre valor téorico calculado a partir del TCL para la media y el valor obtenido para la media de medias muestrales
* diferencia entre valor téorico calculado a partir del TCL para el desvío estandar y el valor obtenido para el desvío estandar de las medias muestrales

Evaluemos esa función, que encapsula lo mismo que el ejemplo de aplicación, para distintos valores de `sample_count` (1000, 5000, 10000) y veamos cómo se acercan los resultados obtenidos a los postulados por el TCL.

Después probemos distintos valores para `sample_size` (10, 50, 100) y veamos cómo cambian los resultados.

Interpretemos los resultados e intentemos sacar conclusiones a partir del comportamiento observado.

<a id="section_intervalos_confianza"></a> 
## Intervalos de Confianza

[volver a TOC](#section_toc)

![Image](img/confidence_interval_2.png)

La forma general de un Intervalo de Confianza es

$$\bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt(n)}$$

donde

$\alpha$ es el nivel de confianza

$\sigma$ es el desvío estandar

$n$ es el tamaño de la muestra

EL porcentaje del nivel de confinza más $\alpha$ es igual a 1.

Entonces por ejemplo,

* si el nivel de confianza del intervalo es 95%, entonces el valor de $\alpha$ es 0.05

* si el nivel de confianza del intervalo es 99%, entonces el valor de $\alpha$ es 0.01

Si varianza poblacional es conocida, calculamos el largo del intervalo de confianza para la media como el máximo menos el mínimo y obtenemos

$$tamIC = \bar{x} + z_{\alpha / 2} \frac{\sigma}{\sqrt(n)} - (\bar{x} - z_{\alpha / 2} \frac{\sigma}{\sqrt(n)})$$

$$tamIC = 2 * z_{\alpha / 2} \frac{\sigma}{\sqrt(n)}$$

Vemos que el tamaño del intervalo de confianza depende de 

* la varianza poblacional
* el tamaño muestral
* el nivel de confianza

### ¿Qué pasa cuando no conocemos el desvío estándar poblacional? 

Cuando n es grande, el desvío estándar de la muestra S es una buena aproximación a sigma.

Cuando la muestra es chica, usamos la distribución T-Student. Normalmente, se considera chica una muestra donde n < 30 pero en realidad depende de la distribución muestral.

Esto genera intervalos más anchos para incorporar el hecho de que el desvío estándar muestral es un estimador del poblacional.

Usar la distribución T-Student es más conservador, entonces si sigma es desconocido es recomendable usar esta distribución.

### Observaciones

El intervalo de confianza es siempre función de la muestra que es aleatoria. ¡Entonces los bordes del intervalo también son variables aleatorias! 

En el caso de intervalos de confianza para la media, los límites del intervalo dependen de la media muestral (que cambia con cada muestra).

El intervalo de confianza no puede depender de parámetros que sean desconocidos. 


### Ejemplo

Se desea analizar el  ingreso promedio de los científicos de datos. A partir de una muestra al azar de 100 individuos, cuyo ingreso promedio es de 30 mil dólares  y desvío estándar de aproximadamente 7 mil dólares, se desea construir un intervalo de confianza del 90% para el ingreso promedio poblacional.

Dado que n puede ser considerado "grande", los límites del intervalo de confianza están dados por

$$\bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt(n)}$$

El borde inferior del intervalo resulta 30 - 1.645 * 7 / raíz(100) = 28.85

El borde inferior del intervalo resulta 30 + 1.645 * 7 / raíz(100) = 31.15

Con una confianza del 90%, el intervalo que va de 28.85 a 31.15 contendrá la media poblacional de los ingresos.

¿Cómo calculamos $z_{\alpha / 2}$ ?

Vamos a usar el método `stats.norm.ppf` para distribuciones normales y `stats.t.ppf` para distribución t de la biblioteca `scipy`

In [None]:
alpha = 0.1
z_alfa_sobre_2_norm = stats.norm.ppf(alpha/2)
z_alfa_sobre_2_norm

In [None]:
n = 20 # invento este valor, uso un n chico
alpha = 0.1
grados_libertad = n - 1
z_alfa_sobre_2_t = stats.t.ppf(alpha/2, grados_libertad)
z_alfa_sobre_2_t

### Ejemplo

Siguiendo el ejemplo anterior, generemos una población de tamaño 5000 con distribución normal de media 30.000 y desvío 7.000 que represente los valores de los sueldos.

Tomemos 100 muestras de 50 individuos, y calculemos el intervalo de confianza del 90% para la media de cada muestra.


cuyo ingreso promedio es de 30 mil dólares y desvío estándar de aproximadamente 7 mil dólares, se desea construir un intervalo de confianza del 90% para el ingreso promedio poblacional.

In [None]:
sigma = 7000
media_poblacional = 30000
random_generator = np.random.default_rng()
data_population = random_generator.normal(loc=media_poblacional, scale=sigma, size=5000)
sns.distplot(data_population)

In [None]:
def confidence_interval(sample_data, alpha, sigma):
    sample_mean = np.mean(sample_data)
    z_critico = stats.norm.ppf(alpha/2)
    n = len(sample_data)
    ic_high = sample_mean - z_critico * sigma / math.sqrt(n)
    ic_low = sample_mean + z_critico * sigma / math.sqrt(n)
    result = (ic_low, ic_high)
    return result

sample_count = 100
sample_size = 30

ics = []

for i in range(sample_count):
    # creo la muestra
    sample_data = random_generator.choice(data_population, size = sample_size,  replace=True)
    ic = confidence_interval(sample_data, alpha, sigma)
    ics.append(ic)
    

Queremos contar cuántos intervalos incluyen el valor de la media poblacional (esperamos que sean alrededor del 90%).

Repitamos este ejercicio con la misma población para distintos valores de alfa, sample_count y sample_size

In [None]:
media_poblacional_en_ic = []
for ic in ics:
    low = ic[0]    
    high = ic[1]
    included = media_poblacional >= low and media_poblacional <= high    
    media_poblacional_en_ic.append(included)

sum(media_poblacional_en_ic) / len(media_poblacional_en_ic)    


Grafiquemos los intervamos construídos (ics)

In [None]:
ics_data = pd.DataFrame(ics)
ics_data.head(3)

In [None]:
fig = plt.figure()
ax = plt.axes()

y = ics_data.index.values
xmin = ics_data[0]
xmax = ics_data[1]

ax.hlines(y, xmin, xmax, alpha = 0.6, color = "blue")
ax.vlines(media_poblacional, 0, sample_count, linestyles="dashed", colors = "red");

---


<a id="section_referencias"></a> 
## Referencias 

[volver a TOC](#section_toc)


https://mathworld.wolfram.com/Population.html
    
https://mathworld.wolfram.com/Sample.html    

central limit theorem

https://github.com/leonvanbokhorst/NoteBooks-Statistics-and-MachineLearning/blob/master/0012%20Exploring%20the%20Central%20Limit%20Theorem.ipynb

population parameters

https://www.youtube.com/watch?v=vikkiwjQqfU

confidence intervals

https://www.youtube.com/watch?v=TqOeMYtOc1w