In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from scipy.stats import t
import math
%matplotlib inline
sns.set(style='whitegrid', rc={"grid.linewidth": 0.1})
sns.set_context("paper")

plt.rc('figure', figsize=(6,3))
plt.rc('figure.subplot', wspace=.33)

##  Problema 16

Las medidas de los diámetros de una muestra al azar de 200 cojinetes de bolas hechos por una determinada
máquina durante una semana dieron un promedio de 0.824 pulgadas y una desviación estándar de 0.042
pulgadas. Hallar los límites de confianza para el diámetro medio de todos los cojinetes al:

a) 95 %; b) 99 %

Rpta.: a) [0.818; 0.8298]; b) [0.816; 0.832]

In [2]:
n = 200
mean_sample = 0.824
sigma_sample = 0.042

El intervalo 

$$
\bar{X} \pm z(\alpha/2) \frac{\sigma}{\sqrt{n}}
$$

Reemplazando

$$
\bar{X} \pm z(0.025) \frac{0.042}{\sqrt{200}}
$$

In [3]:
[mean_sample - norm.ppf(0.025) * sigma_sample / math.sqrt(n),
 mean_sample + norm.ppf(0.025) * sigma_sample / math.sqrt(n)]

[0.82982079606226855, 0.81817920393773136]

Los cojinetes tendran diametro en este rango el 95% de las veces.

In [4]:
[mean_sample - norm.ppf(0.005) * sigma_sample / math.sqrt(n),
 mean_sample + norm.ppf(0.005) * sigma_sample / math.sqrt(n)]

[0.83164982274441746, 0.81635017725558245]

Los cojinetes tendran diametro en este rango el 99% de las veces.

##  Problema 22

Se toma 25 muestras de una población normal con media 100 y desviación estándar 10 ¿cuál es la
probabilidad de que la media muestral se encuentre en el intervalo $\mu - 1.8\sigma$ y $\mu + 1.0\sigma$.

Rpta.: 1.0

In [5]:
n = 25
mean_sample = 100
sigma_sample = 10

La probabilidad de que la media muestral se encuentre en el intervalo

$$
P(100 - 1.8*10 < x < 100 + 1.0*10)
$$

es

In [6]:
p = norm.cdf((100 + 1.0*10 - mean_sample)/(sigma_sample/5)) - norm.cdf((100 - 1.8*10 - mean_sample)/(sigma_sample/5))
p

0.99999971334842808

Se utilizo $z = ((x - \mu)/(\sigma/\sqrt{n}))$ para calcular las probabilidades $P(x < 100 + 1.0*10)$ y $P(x < 100 - 1.8*10)$

##  Problema 26

En un proceso químico se fabrica cierto polímero. Normalmente, se hacen mediciones de viscosidad
después de cada corrida, y la experiencia acumulada indican que la variabilidad del proceso es muy
estable con $\sigma = 20$. Las siguientes son 15 mediciones de viscosidad por corrida:

724; 718; 776; 760; 745; 759; 795; 756; 742; 740; 761; 749; 739; 747; 742.

Encuentre un intervalo de confianza bilateral al 90% para la viscosidad media del polímero.

Rpta.: a) $750.2 \pm 8.495$

In [7]:
data = pd.Series([724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742])
mean_sample = data.mean()
sigma_estable = 20

n = 15

In [8]:
mean_sample

750.20000000000005

In [9]:
norm.ppf(0.05) * sigma_estable / math.sqrt(n)

-8.4939876055092292

La viscocidad media real de la poblacion se encuentra dentro del intervalo $750.2 \pm 8.49$

##  Problema 28

El administrador de un lote de automóviles prueba dos marcas de llantas radiales. Para ello asigna al azar
una llanta de cada marca a las dos ruedas posteriores de ocho automóviles y luego corre los automóviles
hasta que las llantas se desgastan. Los datos obtenidos en kilómetros son :

``
Automóvil Marca 1 Marca 2
1 36925 34318
2 45300 42280
3 36240 35500
4 32100 31950
5 37210 38015
6 48360 47800
7 38200 37810
8 33500 32215
``

¿Qué llanta cree que preferirá el administrador?

Rpta.: [-3164.27; 5151.07]; Ambas rinden igual.

De acuerdo con el libro, se quiere determinar si existe diferencia, en promedio, entre las dos marcas.

El parametro de interes es la diferencia

$$
\mu_D = \mu_1 - \mu_2 = 0
$$

Tamano de la muestra $n < 30$ asi que se utiliza la distribucion t

Se agrega una columna de diferencias

In [10]:
data = pd.read_csv("data/3_28.csv")

In [11]:
def D(dataframe_row):
    return dataframe_row["Marca1"] - dataframe_row["Marca2"]

function = D
data.loc[:,function.__name__] = data.apply(lambda x: function(x), axis=1)

data

Unnamed: 0,Automovil,Marca1,Marca2,D
0,1,36925,34318,2607
1,2,45300,42280,3020
2,3,36240,35500,740
3,4,32100,31950,150
4,5,37210,38015,-805
5,6,48360,47800,560
6,7,38200,37810,390
7,8,33500,32215,1285


**El intervalo de confianza**

$$
\bar{d} - t_{\alpha/2, n -1} \Bigg(\frac{S_d}{\sqrt{n}}\Bigg) \leq \mu_d \leq \bar{d} + t_{\alpha/2, n -1} \Bigg(\frac{S_d}{\sqrt{n}}\Bigg)
$$

Si este intervalo incluye el valor 0, entonces las dos marcas serian iguales con confiabilidad de $100(1 - \alpha)$%

Se considera una confianza de 99%

Es decir $\alpha = 0.01$

In [12]:
n = 8
d_mean = data.D.mean()
print(d_mean)
d_std = data.D.std()
print(d_std)

993.375
1273.77660494


In [13]:
alpha = 0.01
t.ppf(alpha/2, n-1)

-3.4994832973505039

In [14]:
from scipy.stats import t
alpha = 0.01
interval = [d_mean - abs(t.ppf(alpha/2, n-1)) * (d_std/math.sqrt(n)),
 d_mean + abs(t.ppf(alpha/2, n-1) * (d_std/math.sqrt(n)))]
interval

[-582.61043534476858, 2569.3604353447686]

El intervalo contiene 0, entonces no hay diferencia entre las dos marcas con una confiabilidad de 99%. Rinden igual.

##  Problema 31

La desviación estándar de la duración de 10 bombillas fabricadas por una compañía es de 120 horas. Hallar
los límites de confianza para la desviación estándar de todas las bombillas fabricadas por la compañía al:

a) 95 %; b) 99 %.

Resolver este problema si para 25 bombillas se encuentra s = 120 horas.

Rpta.: a) [82.54; 219]; [93.7; 166.38]

In [15]:
n = 25
sigma = 120

**Limite de confianza al 95%**

No se conoce la media, solo $\sigma$

El intervalo de confianza se encuentra calculando

$$
\frac{s\sqrt{n - 1}}{\chi_{1 - \alpha/2, n - 1}} < \sigma < \frac{s\sqrt{n - 1}}{\chi_{\alpha/2, n - 1}}
$$

In [16]:
from scipy.stats import chi2
alpha = 0.05
[sigma*math.sqrt(n-1)/chi2.ppf(1 - alpha/2, n-1), sigma*math.sqrt(n-1)/chi2.ppf(alpha/2, n-1)]

[14.9343661194101, 47.405081622268206]

**Limite al 99%**

In [17]:
alpha = 0.01
[sigma*math.sqrt(n-1)/chi2.ppf(1 - alpha/2, n-1), sigma*math.sqrt(n-1)/chi2.ppf(alpha/2, n-1)]

[12.90379148219237, 59.464257862681045]