-
Notifications
You must be signed in to change notification settings - Fork 0
/
11-intro inferencia.Rmd
431 lines (322 loc) · 16.2 KB
/
11-intro inferencia.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
---
title: "Introducción a la Inferencia Estadística"
author:
- Lina Buitrago PhD(c), labuitragor@unal.edu.co
- Juan Sosa PhD, jcsosam@unal.edu.co
date: ""
output:
html_document:
highlight: default
number_sections: yes
theme: cosmo
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
# Introducción
En la mayoría de situaciones prácticas **no es posible observar a todos los individuos de una población**. Esto es, **no es posible conocer completamente el proceso generativo de los datos**.
La población corresponde una **distribución probabilística (modelo probabilístico) con parámetros desconocidos**.
La **inferencia estadística (basada en el modelo)** es un **proceso inductivo** que consiste en **estimar (aprender)** las **cantidades desconocidas (parámetros)** de una **población (modelo probabilístico)** a partir de una **muestra aleatoria de la población**.
```{r, eval = TRUE, echo=FALSE, out.width="60%", fig.pos = 'H', fig.align = 'center'}
knitr::include_graphics("11-probability_inference.jpg")
```
## Ejemplo
**Simulación de una muestra aleatoria** de tamaño $n = 100$ de una **población Normal** con media $\mu = 10$ y desviación estándar $\sigma = 1$.
```{r}
# parametros de la poblacion (modelo)
mu <- 10
sigma <- 1
# muestra aleatoria
set.seed(2) # semilla
x <- rnorm(n = 100, mean = mu, sd = sigma)
```
```{r}
# tipo de objeto
class(x)
# inspeccion
head(x)
# tamaño de la muestra
length(x)
# tendencia
summary(x)
# dispersion
sd(x)
```
```{r}
# grafico
# muestra
hist(x, freq = F, xlim = c(6,14), ylim = c(0,0.4), xlab = "x", ylab = "Densidad", main = "", border = "red", col = "mistyrose")
# poblacion
curve(expr = dnorm(x, mean = 10, sd = 1), col = "blue", lty = 4, add = T)
# leyenda
legend("topleft", legend = c("Muestra","Población"), fill = c("red","blue"), bty = "n")
```
## Ejemplo
- Variable de interés: $X =$ opinión ($x=1$: favorable; $x=0$: no favorable) de un estudiante acerca del manejo de la pandemia por parte de las directivas de la Universidad.
- Modelo: $X\sim\textsf{Bernoulli}$.
- Parámetro de interés: $\theta = \pi$, probabilidad de éxito de $X$.
- Población: estudiantes (activos) de pre y posgrado de la sede Bogotá de la Universidad.
## Ejemplo
- Variable de interés: $X =$ peso (en kg) de una persona que se ha sometido a una terapia antiviral.
- Modelo: $X\sim\textsf{Normal}$.
- Parámetro de interés: $\theta = (\mu,\sigma^2)$, media y varianza de $X$.
- Población: todas las personas similares a los voluntarios en todas las características fisiológicas relevantes para la terapia.
## Observaciones
- Los **parámetros de la población** se asumen como **cantidades fijas desconocidas**.
- El **error muestral** (diferencia absoluta entre el estimador y el parámetro; e.g., $|\bar{X}-\mu|$) **no es observable**.
- Hay tres maneras de hacer inferencia estadística: **estimación puntual**, **intervalos de confianza**, **pruebas de hipótesis**.
# Muestras
## Características
- La muestra debe **representar** (ser similar a) a la **no-muestra**, y por ende a **toda la población**, en todos aquellos **aspectos que sean relevantes**.
- Es labor del profesional **definir con precisión cuáles son estos aspectos** y **en qué sentidos son relevantes**.
- La inferencia se hace sobre aquellos elementos que satisfacen tales características de similaridad (e.g., **estudios observacionales**).
## Ventajas
- Se necesita menos tiempo y menos recursos para estudiar la muestra que la población.
- La calidad de los datos suele ser mayor en una muestra que en un censo.
## Retos
- ¿Qué tan grande debe ser la muestra?
- ¿Cómo se debe seleccionar la muestra?
## Tipos
- Muestreo aleatorio **con reemplazo** (MACR).
- Muestreo aleatorio **sin reemplazo** (MASR).
- **MASR provee más información que MACR**, particularmente cuando el **tamaño de la muestra** $n$ es "grande" respecto al **tamaño de la población** $N$.
- Si $n << N$, entonces **MASR y MACR son equivalentes**.
## Inferencia estadística basada en el modelo
Matemáticamente resulta **más conveniente** trabajar con MACR.
En adelante **se asume que el tamaño de la población $N$ es grande respecto al tamaño de la muestra $n$**, por lo que es posible **considerar a $N$ como infinito** para todos los propósitos prácticos.
## Muestra aleatoria
Una **muestra aleatoria** se define como una secuencia de **variables aleatorias** $X_1,\ldots,X_n$ **independientes e idénticamente distribuidas (IID)**. Esto se escribe como
$$
X_1,\ldots,X_n \stackrel{\text{IID}}{\sim} F_X(\theta)
$$
donde $F_X(\theta)$ es una **distribución probabilística** indexada por el **parámetro desconocido** $\theta$.
## Observaciones
- La variable aleatoria $X_i$ representa el **valor hipotético (aun no observado)** de la variable $X$ para el individuo de la muestra $i$, $i=1,\ldots,n$.
- **Independencia**: el valor que pueda asumir una variable particular, **no aporta información** sobre ninguna otra.
- **Idénticamente Distribuidos**: todos los individuos **provienen de la misma población** $F_X(\theta)$.
- Cuando se hace el proceso de observación, cada **$X_i$ asume un valor fijo conocido $x_i$**, y por lo tanto, **$X_i$ ya no es una variable aleatoria**. En este caso, se dice que **$x_1,\ldots,x_n$ es una realización de la muestra aleatoria $X_1,\ldots,X_n$**.
# Estimador
Un **estimador** es **función conocida** de una muestra aleatoria que **no depende de ninguna cantidad desconocida.**
## Estimador puntual de $\mu$
Un **estimador de la media poblacional** $\mu=\textsf{E}(X)$ es la **media muestral** $\widehat\mu=\bar{X}$:
$$
\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i
$$
## Estimador puntual de $\sigma^2$
Un **estimador de la varianza poblacional** $\sigma^2=\textsf{Var}(X)$ es la **varianza muestral** $\widehat{\sigma^2}=S^2$:
$$
S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i-\bar{X})^2
$$
## Observaciones
- **Antes** de recolectar los datos, un **estimador** es una **variable aleatoria** cuyo valor **depende de la muestra** seleccionada.
- Cuando se hace el proceso de observación, es posible obtener el **valor que asumirá el estimador**. Esta cantidad se denomina **estimación (puntual)**.
## Ejemplo
Con el objetivo de estimar la media poblacional de temperatura corporal entre personas sanas, se obtuvieron los siguientes valores:
```{r}
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
```
A partir de esta muestra de $n = 50$ personas, **se estima que** la media y la varianza poblacional son respectivamente
$$
\widehat\mu=\bar{x}= \frac{1}{n}\sum_{i=1}^{n} x_i=36.32 \text{ C}
$$
y
$$
\widehat{\sigma^2} = \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2 = 0.01\text{ C}^2
$$
```{r}
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
# media
round(mean(x), 2)
# varianza
round(var(x), 2)
```
## Errores muestrales
- El **error muestral** es la **diferencia entre el estimador $T$ y el parámetro $\theta$** de interés, esto es, $|T - \theta|$.
- **Surge a causa de observar una muestra** en lugar de la población completa.
- **No se puede cuantificar** directamente. Sin embargo, se puede **controlar** por medio de la **variabilidad del estimador**.
- Disminuye a medida que se aumenta el tamaño de la muestra.
## Errores no muestrales
Los **errores no muestrales** lo componen todos aquellos **errores que se pueden presentar** durante el proceso de la investigación, **distintos del error muestral**.
Al momento del análisis de datos, conducirá a resultados e interpretaciones distorsionadas.
- Error por muestra no representativa de la población.
- Error por fata de calibración de los instrumentos de medición.
- Error por preguntas/mediciones mal formuladas.
# El promedio muestral $\bar{X}$
El **estimador de la media poblacional** $\mu=\textsf{E}(X)$ es la **media muestral** $\widehat\mu=\bar{X}$.
## Propiedades del promedio muestral $\bar{X}$
Si $X_1,\ldots,X_n$ es una muestra aleatoria de tamaño $n$ de una población $F_X$, entonces:
$$
\textsf{E}(\bar{X}) = \mu \qquad\text{y}\qquad \textsf{Var}(\bar{X}) = \frac{\sigma^2}{n}
$$
donde $\mu=\textsf{E}(X)$ es el **promedio poblacional** y $\sigma^2=\textsf{Var}(X)$ es la **varianza poblacional**.
Si el tamaño de la muestra aumenta, entonces la variabilidad del estimador disminuye.
## Ejemplo
**Simulación de una muestra aleatoria** de tamaño $n = 100$ de una **población Normal** con media $\mu = 10$ y desviación estándar $\sigma = 1$.
```{r}
# parametros de la poblacion (modelo)
mu <- 10
sigma <- 1
# numero de simulaciones
M <- 1000000
# objeto para almacenar los promedios
XB <- matrix(data = NA, nrow = M, ncol = 1)
# simulacion
set.seed(1)
for (i in 1:M) {
x <- rnorm(n = 100, mean = mu, sd = sigma)
XB[i] <- mean(x)
}
```
```{r}
# tipo de objeto
class(XB)
# inspeccion
head(XB)
# media teorica
mu
# media empirica
mean(XB)
# varianza teorica
sigma^2/100
# varianza empirica
var(XB)
```
**Simulación de una muestra aleatoria** de tamaño $n = 3$ de una **población Normal** con media $\mu = 10$ y desviación estándar $\sigma = 1$.
```{r}
# parametros de la poblacion (modelo)
mu <- 10
sigma <- 1
# numero de simulaciones
M <- 1000000
# objeto para almacenar los promedios
XB <- matrix(data = NA, nrow = M, ncol = 1)
# simulacion
set.seed(1)
for (i in 1:M) {
x <- rnorm(n = 3, mean = mu, sd = sigma)
XB[i] <- mean(x)
}
```
```{r}
# tipo de objeto
class(XB)
# inspeccion
head(XB)
# media teorica
mu
# media empirica
mean(XB)
# varianza teorica
sigma^2/3
# varianza empirica
var(XB)
```
## Estimador insesgado
Un estimador $T$ del parámetro $\theta$ se llama **estimador insesgado** de $\theta$ si $\textsf{E}(T) = \theta$.
## Ejemplo
El estimador $\bar{X}$ del promedio poblacional $\mu$ es un **estimador insesgado** de $\mu$ ya que $\textsf{E}(\bar{X}) = \mu$.
## Ejemplo
El estimador $S^2$ de la varianza poblacional $\sigma^2$ es un **estimador insesgado** de $\sigma^2$ ya que $\textsf{E}(S^2) = \sigma^2$.
## Error estándar
El **error estándar** de un estimador $T$ del parámetro $\theta$ se define como la **desviación estándar (típica) del estimador**, es decir, $\sigma_T=\textsf{DE}(T)=\sqrt{\textsf{Var}(T)}$.
El error estándar cuantifica la variabilidad (dispersión) de un estimador respecto a su valor esperado.
## Ejemplo
El error estándar del promedio muestral $\bar{X}$ es
$$
\textsf{DE}(\bar{X}) = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}}
$$
donde $n$ es el **tamaño de la muestra** y $\sigma^2=\textsf{Var}(X)$ es la **varianza poblacional**.
## Ejemplo
Calcular el error estándar de $\bar{X}$ en la simulación anterior.
```{r}
# error estandar teorico
sigma/sqrt(3)
# error estandar empirico
sd(XB)
```
## Ejemplo
Calcular el **error estándar estimado** de la estimación puntual del ejemplo de las temperaturas.
En este caso se tiene que
$$
\widehat{\textsf{DE}}(\bar{X}) = \sqrt{\frac{0.01}{50}} = 0.00213
$$
¿Por qué este valor es un error estándar **estimado**?
```{r}
# muestra observada
x <- c(36.24, 36.43, 36.46, 36.35, 36.09, 36.27, 36.33, 36.31, 36.41, 36.29, 36.32,
36.20, 36.21, 36.41, 36.37, 36.44, 36.09, 36.42, 36.33, 36.39, 36.22, 36.34,
36.29, 36.50, 36.35, 36.20, 36.32, 36.27, 36.28, 36.60, 36.38, 36.11, 36.32,
36.31, 36.40, 36.49, 36.42, 36.32, 36.33, 36.34, 36.23, 36.31, 36.22, 36.41,
36.28, 36.28, 36.06, 36.31, 36.33, 36.35)
# tamaño de la muestra
n <- length(x)
# error estandar
round(sd(x)/n, 5)
```
## Estimador consistente
Un estimador insesgado $T$ de $\theta$ es un estimador consistente de $\theta$ si $\lim\limits_{n\to\infty} \textsf{V}(T) = 0$.
## Ejemplo
$\bar{X}$ es un estimador consistente de $\mu$ porque $\lim\limits_{n\to\infty} \textsf{V}(\bar{X}) = \lim\limits_{n\to\infty}\frac{\sigma^2}{n} = 0$.
## Distribución muestral
Se llama distribución muestral a la **distribución probabilística de un estimador**.
## Ley de los grandes números
Si $X_1, X_2,\ldots$ es una sucesión infinita de variables aleatorias independientes que tienen el mismo valor esperado $\mu$ y varianza $\sigma^2$, entonces el promedio $\bar{X}$ **converge en probabilidad a** $\mu$. En otras palabras, para cualquier número positivo $\epsilon$ se tiene que:
$$\lim\limits_{n\to\infty}P\left(|\bar{X}-\mu|<\epsilon\right) = 1$$
## Teorema del Límite Central (TLC)
Sea $X_1, \ldots,X_n$ un conjunto de variables aleatorias independientes e idénticamente distribuidas de una distribución con media $\mu$ y varianza $\sigma^2<\infty$, esto es, $X_1,\ldots,X_n\stackrel{\text{IID}}{\sim}F_X$. **Para $n$ *grande*, se tiene que el promedio muestral $\bar{X}$ aproximadamente (asintóticamente) sigue una distribución Normal.** Esto es:
$$
\bar{X}\sim \textsf{N}\left(\mu,\frac{\sigma^2}{n}\right)
$$
```{r, eval = TRUE, echo=FALSE, out.width="95%", fig.pos = 'H', fig.align = 'center'}
knitr::include_graphics("11-tlc.jpg")
```
## Observaciones
- El TLC solo dice algo sobre la **distribución muestral** de $\bar{X}$, **no sobre la distribución de la población** $F$.
- El TLC dice que la distribución muestral de $\bar{X}$ es aproximadamente Normal cuando $n$ es grande. **¿Cuándo es $n$ grande?** No hay una respuesta universal, depende de la forma de la población: si ésta no es muy diferente de una distribución Normal, no hace falta un tamaño de muestra muy grande para que la aproximación sea satisfactoria. En cambio, si es muy distinta de una distribución Normal, es necesario un tamaño muestral bastante grande.
## Ejemplo
El peso de los habitantes de una ciudad tiene media 80 kg y desviación típica 4 kg. ¿Cuál es la probabilidad de que la media del peso de una muestra aleatoria de 100 personas supere los 79.5 kg?
La población está constituida por el peso (en kg) $X$ de todos los habitantes de una ciudad. En este caso, se sabe que la media y la varianza de la población son respectivamente, $\mu = \textsf{E}(X) = 80$ y que $\sigma^2=\textsf{Var}(X) = 16$. Se pide calcular $\textsf{Pr}(\bar{X} > 79.5)$, donde $\bar{X} = \frac{1}{n}\sum_i^{n} X_i$ con $n = 100$. Así, por la propiedades del promedio muestral $\bar{X}$,
$$
\textsf{E}(\bar{X}) = \mu = 80
$$
y
$$
\textsf{Var}(\bar{X}) = \frac{\sigma^2}{n} = \frac{16}{100}\,.
$$
Por lo tanto, de acuerdo con lo estipulado en el TLC (pues no tenemos evidencia de que la población siga una distribución Normal), dado que el tamaño de la muestra es grande, se tiene que
$$
\bar{X}\sim\textsf{N}\left(80,\frac{16}{100}\right)
$$
y en consecuencia,
$$
\textsf{Pr}(\bar{X} >79.5) = \textsf{Pr}\left(Z > \frac{79.5-80}{4/10}\right) = 0.8943
$$
```{r}
# calculo de la probabilidad
pnorm(q = 79.5, mean = 80, sd = 4/10, lower.tail = F)
# otra manera (estandarizando)
pnorm(q = (79.5-80)/(4/10), lower.tail = F)
```
# Referencias
```{r, eval = TRUE, echo=FALSE, out.width="25%", fig.pos = 'H', fig.align = 'center'}
knitr::include_graphics("01-sosacoverbook.png")
```
```{r, eval = TRUE, echo=FALSE, out.width="25%", fig.pos = 'H', fig.align = 'center'}
knitr::include_graphics("01-devorecoverbook.jpg")
```
```{r, eval = TRUE, echo=FALSE, out.width="25%", fig.pos = 'H', fig.align = 'center'}
knitr::include_graphics("01-navidicoverbook.png")
```
```{r, eval = TRUE, echo=FALSE, out.width="25%", fig.pos = 'H', fig.align = 'center'}
knitr::include_graphics("01-wackerlycoverbook.jpg")
```