# Estándares de emisión

Los vehículos nuevos tienen que pasar los estándares de emisión, que se han ido ajustando constantemente. Su trabajo es tomar el informe de prueba y determinar si el vehículo pasa o no la prueba, y con qué confianza.

Usaremos los últimos requisitos de emisiones de Australia [aquí] (https://infrastructure.gov.au/vehicles/environment/emission/files/Emission_Standards_for_Petrol_Cars.pdf).

Dice que el contenido máximo de CO es de 1,0 g/kg. Las muestras de datos de emisiones se encuentran en `emission_small.txt` y `emission_large.txt`. Analizaremos ambos conjuntos de datos de forma independiente.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm
data_small = np.loadtxt("emission_small.txt")
data_large = np.loadtxt("emission_large.txt")
standard = 1

In [None]:
# Remember, always visualise your data
plt.hist(data_small, bins=200, label="Pequeño")
plt.hist(data_large, bins=20, histtype="step", label="Grandes")
plt.axvline(standard, label="Estandar")
plt.legend(loc=2);

# Usando el Dataset Pequeño

Como se supone que estas observaciones son representativas de un valor verdadero subyacente con incertidumbre, normalmente podemos aproximar la distribución de observables como normal. Sin embargo, debido a que tenemos estadísticas bajas (10 observaciones), deberíamos usar la distribución t de Student con 10 grados de libertad.

In [None]:
mean, std = data_small.mean(), data_small.std() / np.sqrt(data_small.size)
xs = np.linspace(0.5, 1.4, 200)
ps = t.pdf(xs, 10, mean, std)
prob_fail = t.sf(standard, 10, mean, std)
print(f"Hay un {100 * prob_fail:.2f}% psobilidad que el vehículo no pase el test de emisiones")

In [None]:
# Let's visualise again
plt.hist(data_small, bins=200, label="Pequeño")
plt.plot(xs, ps, label="Confianza de media")
plt.axvline(1, ls=":", label="Estandar")
plt.fill_between(xs, ps, 0, where=xs>=standard, alpha=0.2, color='r', label="P(fallar)")
plt.legend(loc=2);

¡Esto no es bueno para la empresa! Por el momento, **no** confiamos en que su nuevo vehículo cumpla con el estándar de emisiones. Deberíamos pedir más datos. Podemos rechazar la hipótesis de que tenemos confianza en que su vehículo pasa el estándar.

### Gran conjunto de datos

Con el conjunto de datos más grande, tenemos suficientes puntos que podemos usar la aproximación normal (a medida que aumentan los grados de libertad, Student-T se acerca a una normal). >30 puntos de datos es una buena estimación.

In [None]:
mean, std = data_large.mean(), data_large.std() / np.sqrt(data_large.size)
xs = np.linspace(0.5, 1.4, 200)
ps = norm.pdf(xs, mean, std)
prob_pass = norm.cdf(standard, mean, std)
print(f"Hay un {100 * prob_pass:.1f}% posibilidade que el vehículo pase el test de emisión")

# Let's visualise again
plt.hist(data_large, bins=15, histtype="step", density=True, label="Grande")
plt.plot(xs, ps, label="Confianza de media")
plt.plot(xs, norm.pdf(xs, mean, data_large.std()), label="Dist de observacion")
plt.axvline(1, ls=":", label="Standar")
plt.fill_between(xs, ps, 0, where=xs>=standard, alpha=0.2, color='r', label="P(fallar)")
plt.legend(loc=2)
plt.xlabel("Emision");