# Práctica: Intervalos de confianza

## 1. Repaso de estadística

Trabajamos con un banco de datos reales procedente del registro oficial de Ames, una ciudad del estado americano de Iowa. Estos datos son un registro exhaustivo de las viviendas vendidas en la ciudad entre 2006 y 2015 que incluye diversa información sobre cada venta.

Comenzamos cargando los datos:

In [None]:
!pip install seaborn



In [None]:
import pandas as pd
import seaborn as sb

Nos centraremos en la variable (Gr.Liv.Area) que indica la superficie de las viviendas vendidas en Ames a la que, por sencillez renombraremos como superficie. Aprovechamos también para trabajar con $m^2$ como unidad de superficie y no pies cuadrados, que es la unidad utilizada en los datos originales (1 pie cuadrado= 0.09290304 $m^2$).

Hasta el momento hemos aprendido cómo es la distribución en el muestreo de la variable $\bar{X}$ (quién es su esperanza y quién su varianza). Hemos aprendido cómo estimar con un valor la media poblacional, $\mu$ y la varianza $\sigma^2$, y cómo calcular un intervalo de confianza para $\mu$ con la confianza deseada:

Dada una población con media $\mu$ y desviación típica $\sigma$. Entonces, si la distribución de $\bar{X}$ es normal, siempre podemos calcular el intervalo de confianza al $(1−\alpha)\%$ de confianza para $\mu$ como:

$$
IC^{100(1-\alpha)\%}(\mu) = \left[ \bar{x} - t_{\alpha / 2} \dfrac{s}{\sqrt{n}}, \bar{x} + t_{\alpha / 2} \dfrac{s}{\sqrt{n}} \right]
$$

donde $t_{\alpha / 2}$ denota al percentil $1−\alpha/2$ de una distribución t-Student con $n−1$ grados de libertad.

En el caso improbable de conocer $\sigma$, podríamos calcular el Intervalo sustituyendo en la expresión anterior $s$ por el $\sigma$ y usando la distribución normal para el cálculo de percentiles.

Realizaremos nuestra práctica utilizando los datos de superficie de la base ames y contestando a las preguntas del ejercicio siguiente. Nota que nos hemos dado el lujo de conocer la población, de modo que podemos hacer comprobaciones. Nota también que el banco de datos tiene suficientes datos (2930) para
poder hacer comprobaciones serias.

1. Describimos la población correspondiente a la variable superficie. Aquí, la media ¿es un parámetro o un estadístico? ¿Hay mucha variabilidad entre las viviendas vendidas en Ames entre 2006 y 2015? ¿Podrías proponer una distribución de probabilidad adecuada para superficie?

2. Obtenemos una muestra de tamaño n= 50 de la variable superficie usando el comando sample y la describimos. Proporciona un estimador puntual de $\mu= 139.3258013$ y de $\sigma= 46.9633124$ en base a la muestra.

3. Calculamos un intervalo de confianza al 95 % para $\mu$ ¿Puedes calcular tú uno al 99 % de confianza? ¿qué observas?

4. Vamos a simular M = 1000 muestras de tamaño 50 y vamos a dibujar los intervalos simulados del 95% ¿Te cuadra el % de fallo? ¿A quien corresponde?. Repite varias veces el código antes de contestar

5. Realiza la misma operación pero con M= 10, 25, y 50. ¿puedes decir algo de la proporción la cantidad que obtendrías con la simulación fIC(n=200, M=100, confi=0.90)?

6. ¿Qué sucede con la media y la desviación típica que obtienes para $n=10$, para $n=50$, y para $n=200$?

Vamos a simular M = 5000 muestras de tamaño [10, 25, 50, 200] y vamos a dibujar los intervalos simulados del 95%

## 2. Algunas funciones útiles

### 2.1 Normalidad

Cuando $n$ no es suficientemente grande para poder asumir la normalidad de $\bar{X}$ en virtud del TCL, es decir $n \leq 30$, sólo podremos hacer intervalos de confianza para $\mu$ en el caso en que la variable original ya fuera normal. Nunca conoceremos esa variable para poder comprobarlo de manera definitiva, lo que sí podemos hacer ver si nuestra muestra lo sugiere. Podemos basarnos en su histograma para ello. Pero puede ayudar más el llamado `qqplot`. Esto no es más que representar los percentiles de la muestra frente a los percentiles teóricos que resultarían de la variable normal que tiene la misma media y desviación
típica. Si la muestra se comporta "normalmente" los percentiles debería coincidir y por tanto los puntos caerían en la diagonal de la figura.

Supongamos el caso de que nuestra muestra de la variable superficie, fuera de tamaño $n= 25$. Con este tamaño, no podíamos garantizar la normalidad de $\bar{X}$, exploraríamos la normalidad de $X$ usando nuestra muestra. A veces no es sencillo tomar una decisión en base a este tipo de gráficos, próximamente
introduciremos una herramienta que hace la decisión más fácil (test de Shapiro), aunque tampoco está exenta de limitaciones.

### 2. La función t.test

Como hemos visto en esta práctica, calcular ICs sólo implica unos pocos cálculos, pero incluso esos podemos ahorrarnoslos con el test t de una muestra. Esta función está diseñada para hacer contrastes de hipótesis, y pronto la aprenderemos en detalle para ello. Por ahora basta saber que si la aplicamos a
unos datos en su versión por defecto, nos dará, entre otras cosas, el intervalo de confianza al 95 % para esos datos.

Puedes comprobar que el intervalo coincide exactamente con el que habíamos calculado en la pregunta 4. Si quisieramos calcular el intervalo con otro nivel de confianza, por ejemplo el 99 % podemos hacerlo especificando el nuevo valor de $\alpha$:

# Práctica 2: Base de datos *Seatbelts*

La base *Seatbelts* recoge el número de conductores fallecidos o heridos seriamente en UK entre 1969 y 1984. La obligatoriedad del uso del cinturón de seguridad al volante se reguló en enero de 1983. Los datos están disponibles en el fichero `seatbelts.csv`. Queremos trabajar por separado con los datos de antes y después de la ley por lo que generaremos dos bases de datos a partir de la original:

1. Obtén un intervalo de confianza para el número de accidentes graves (variable DriversKilled) al 90% de confianza antes y después de la implementación de la ley.

2. Obtén un intervalo de confianza para el número de accidentes graves con furgonetas (variable VanKilled) al 90% de confianza antes y después de la implementación de la ley.

3. Obtén un intervalo de confianza para la distancia recorrida (variable kms) al 90% de confianza antes y después de la implementación de la ley.

4. Valora qué intervalos de los calculados en los apartados anteriores podrían no ser válidos.

## Práctica 3: Base de datos *absenteeism*

La base abseenteism recoge datos sobre absentismo escolar en una muestra de niños australianos.

1. Indica si la variable `days_absent`, que cuenta los días en que el niño no ha asistido a la escuela a lo largo del curso, es asumible normal.

2. Proporciona una estimación puntual para el número medio poblacional de días que los niños faltaron al colegio y obtén el intervalo de confianza al 95% para dicha media poblacional

3. ¿Crees que es razonable afirmar que la media poblacional de dias de ausencia fue 12? ¿De qué magnitud es el error que podrías estar cometiendo con tu afirmación?

Idem para los siguientes casos:
1. Para el conjunto de niños aborígenes `(eth== ’A’)`.
2. Para el conjunto de niños más pequeños `(age== ’F0’)`.
3. Para el conjunto de niñas aborígenes `(sex== ’F’ & eth== ’A’)`.