# Activida 4 - Módulo 5 - Inferencia Estadística
### INFERENCIA E INTERVALOS DE CONFIANZA PARA LA MEDIA INFERENCIA ESTADÍSTICA.
#### Autor: Nicolás Núñez

In [109]:
# Librerias requeridas
import scipy.stats as stats
import numpy as np
from statistics import variance
import math

### Ejercicio 1

Para estimar la proporción de habitantes de una ciudad que poseen
ordenador personal se toma una muestra de tamaño $n$. Calcula el valor
mínimo de n para garantizar, con un nivel de confianza del 95 %, que el error
de estimación no supera el 2 %. (Como se desconoce la proporción, se hará
a partir del caso más desfavorable, que será 0,5).

**Respuesta**: Considerando el intervalo de confianza para una proporción dado por la expresión:
$$\hat{p} \pm 1.96\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$$
donde $\hat{p}$ es la proporción muestral y $n$ es el tamaño de la muestra. En nuestro caso queremos que el error no supere el 2% considerando que $\hat{p}=0.5$, esto es
$$1.96\sqrt{\dfrac{0.5(1-0.5)}{n}}\leq0.02$$
de donde, despejando el tamaño de la muestra obtenemos
$$ n = \dfrac{1.96^2*0.5*(1-0.5)}{0.02^2}\leq 2401,$$
con lo que se concluye que el valor mínimo para garantizar lo pedido es de 2401 habitantes.

In [1]:
# Calculos
1.96**2*.5*.5/.02**2

2400.9999999999995

### Ejercicio 2

Un fabricante de electrodomésticos sabe que la vida media de estos sigue
una distribución normal con media 100 meses y desviación típica 12 meses.
Determina el mínimo tamaño muestral que garantiza, con una probabilidad
de 0,98, que la vida media de los electrodomésticos en dicha muestra se
encuentre entre 90 y 100 meses.

**Respuesta**: Primero vemos que se pide un nivel de confianza de 98% = ($1-\alpha$)*100%, es decir, $\alpha/2 = 0.01$, valor el cual posee valor crítico $z_{0.01}\approx2.33$. De esta forma, considerando que error para nuestro caso es de $2E = 100-90 = 10$ meses, entonces la muestra debe cumplir
$$n = \left( z_{0.01}\dfrac{\sigma}{E}\right)^2 = \left(2.33*\dfrac{12}{5}\right)^2\approx 31.172$$
es decir, la muestra es compuesta al menos por 32 electrodomésticos.


In [5]:
(stats.norm.ppf(.01)*12/5)**2

31.172511922873

### Ejercicio 3

Se desea obtener la media de una variable aleatoria que se distribuye
normalmente con una desviación típica de 3,2. Para ello se toma una
muestra de 64 individuos obteniéndose una media de 32,5

1. ¿Con qué nivel de confianza se puede afirmar que la media de la
población está entre 31,5 y 33,5?

**Respuesta**: Considerando los datos como en el enunciado
$$m=32.5,\quad \sigma=3.2,\quad n=64$$
y notando que el error máximo admisible es de $E=1$ para la media poblacional, entonces el valor crítico queda dado por
$$z_{\alpha/2} = \dfrac{E\sqrt{n}}{\sigma}=\dfrac{1*\sqrt{64}}{3.2} \approx 2.5,$$
así, apoyados en la tabla de valores para la distribución normal estandarizada, obtenemos que $(1-\alpha)=0.9876$, con lo que concluimos que el nivel de confianza para la aseveración del enunciado es de 98.76%.

2. Si la desviación típica de la población fuera 3, ¿qué tamaño mínimo
debería tener la muestra con la cual estimamos la media poblacional
si queremos que el nivel de confianza sea del 99 %, y el error admisible
no supere el valor de 0,75?

**Respuesta**: Considerando el mismo procedimiento que en los ejercicios anteriores, es posible realizar los cálculos a través del siguiente script:

In [110]:
# Datos
sigma = 3
ema = .75 # error maximo admisible
conf = .99 # nivel de confianza

# Valor crítico
vc = stats.norm.ppf((1+conf)/2)

# Tamaño de la muestra
n = ((vc*sigma)/ema)**2

print(f"El tamaño mínimo de la muestra para tener un nivel de confianza de {conf*100}% es de {math.ceil(n)} individuos.")

El tamaño mínimo de la muestra para tener un nivel de confianza de 99.0% es de 107 individuos.


### Ejercicio 4

La duración de un cierto tipo de cuenta de crédito en un banco se describe
por una distribución Normal con desviación típica 1500 horas

1. Si en una muestra de clientes de tamaño 100, tomada al azar, se ha
observado que la duración media es de 9900 horas, determine un intervalo,
con el 95 % de confianza, para la duración media de esta clase de cuentas
de crédito.

**Respuesta**: Considerando que el valor crítico para una confiabilidad de 95% es $z_{0.025}=1.96$, entonces el intervalo de confianza para la duración media de la clase es
$$\left[9900-1.96*\dfrac{1500}{\sqrt{100}},9900+1.96*\dfrac{1500}{\sqrt{100}}\right]=[9606,10194].$$

2. Con un nivel de confianza del 99 % se ha construido un intervalo para la
media con un error máximo de 772.5 horas, ¿Cuál es el tamaño de la muestra
que se ha tomado en este caso?

**Respuesta**: Cómo ya se ha realizado en ejercicios anteriores, sabemos que con una confiabilidad de 99% el tamaño mínimo de la muestra queda expresado por
$$n = \left(z_{0.005}\dfrac{\sigma}{E}\right)^2$$
lo cual, haciendo uso de la librería scipy, se calcula a continuación:

In [111]:
# Datos
sigma = 1500
ema = 772.5  # error maximo admisible
conf = .99  # nivel de confianza

# Valor crítico
vc = stats.norm.ppf((1+conf)/2)

# Tamaño de la muestra
n = ((vc*sigma)/ema)**2

print(
    f"El tamaño mínimo de la muestra para tener un nivel de confianza de {conf*100}% es de {math.ceil(n)} clientes.")

El tamaño mínimo de la muestra para tener un nivel de confianza de 99.0% es de 26 clientes.


### Ejercicio 5

El precio de un determinado producto, en los comercios de alimentación de
una ciudad, sigue una distribución normal. Se toma una muestra aleatoria
de 8 comercios y se observa el precio de ese producto, obteniendo las
siguientes observaciones:
$$\begin{array}{|c|c|c|c|c|c|c|c|}
\hline
132&125&130&139&126&138&124&140\\
\hline
\end{array}$$

1. Determine un intervalo de confianza del 95 % para la varianza
poblacional.


**Respuesta**: El intervalo de confianza para la varianza poblacional es:
$$
\left(
\dfrac{(n-1)S^2}{\chi_{n-1,\alpha/2}^2},
\dfrac{(n-1)S^2}{\chi_{n-1,1-\alpha/2}^2}
\right)
$$
lo cual en Python queda implementado como sigue:

In [121]:
# Datos
muestra=[132,125,130,139,126,138,124,140]
n = len(muestra)
S = variance(muestra)

# Confiabilidad
conf = .95
alfa = 1-conf

# Intervalo de confianza
a = stats.chi2.ppf(alfa/2, n-1)
b = stats.chi2.ppf(1-alfa/2, n-1)
inf = (n-1)*S/b
sup = (n-1)*S/a

print(f"El intervalo de confianza al {conf*100}% para la varianza poblacional es:")
print(f"({inf:.4f},{sup:.4f})")

El intervalo de confianza al 95.0% para la varianza poblacional es:
(18.8287,178.4162)


2. Determine un intervalo de confianza del 95 % para la proporción de
productos con precios menores o iguales a 130

**Respuesta**: Primero consideremos que la proporción en los datos de las precios menores o iguales a 130 es $\hat{p} = \frac{4}{8} = 0.5$, considerando además que el intervalo de confianza para la proporción queda dado por 
$$\left(
\hat{p} - z_{\alpha/2}\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}},
\hat{p} + z_{\alpha/2}\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}
\right)$$
entonces es posible implementarlo como sigue:

In [113]:
# Proporcion
p = sum(valor<=130 for valor in muestra)/len(muestra)

# confiabilidad
conf = .95

# Valor critico
vc = stats.norm.ppf((1+conf)/2)

# Extremos intervalo de confianza
inf = p-vc*(p*(1-p)/n)**.5
sup = p+vc*(p*(1-p)/n)**.5

print(f"El intervalo de confianza al {conf*100}% para la proporcion de los precios menores o iguales a 130 es")
print(f"({inf:.4f},{sup:.4f})")

El intervalo de confianza al 95.0% para la proporcion de los precios menores o iguales a 130 es
(0.1535,0.8465)


### Ejercicio 6

Se desea estudiar si es que hay diferencias en las probabilidades de
ocurrencia de accidentes automovilísticos dependiendo del color de los
autos. A 100 propietarios de vehículos de color rojo y a 200 de color blanco,
se les consultó si habían tenido algún accidente durante el tiempo que han
sido dueños de los autos. Se obtuvo como resultado que 45 de los dueños
de autos rojos y 70 de los autos blancos habían tenido al menos un accidente
automovilístico. Construya un intervalo de confianza de 90% para la
diferencia de las probabilidades de que ocurra al menos un accidente
automovilístico.

**Respuesta**: Se realizará el intervalo de confianza para la diferencia de proporciones, la cual posee un error estándar dado por
$$\sqrt{\left(\dfrac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \dfrac{\hat{p}_2(1-\hat{p}_2)}{n_2}\right)}$$
Así, implementando lo anterior con una confiabilidad del 90% tenemos:

In [114]:
# Datos
n_1 = 100 # autos rojos
n_2 = 200 # autos blancos
p_1 = 45/n_1 # proporcion autos rojos
p_2 = 70/n_2 # proporcion autos blancos

# Confiabilidad
conf = .9

# Valor crítico
z = stats.norm.ppf((1+conf)/2)

# Error estandar
se = ((p_1*(1-p_1)/n_1+p_2*(1-p_2)/n_2))**.5

# Extremos intervalos de confianza
inf = p_1-p_2 - z*se
sup = p_1-p_2 + z*se

print(f"El intervalo de confianza al {conf*100}% para la diferencia de de las probabilidades es")
print(f"({inf:.4f},{sup:.4f})")

El intervalo de confianza al 90.0% para la diferencia de de las probabilidades es
(0.0011,0.1989)


De lo anterior, dado que $p_1-p_2$ se estima dentro de un rango contenido en los números positivos, podemos estimar con el 90% de confianza que los autos rojos tienen más accidentes que los blancos.