In [5]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

%matplotlib inline

from __future__ import division
from IPython.display import Latex

import numpy as np
import scipy.stats as st
import matplotlib as mpl
import matplotlib.pyplot as plt
import prettyplotlib as ppl
import seaborn as sns

from pylab import *

sns.set(style="ticks", palette="Set2")
sns.despine()

<matplotlib.figure.Figure at 0x1035f3c10>

## PROBLEMA 12
---

12.- Se disena un ascensor **cuyo limite de carga es de 3150** kilogramos. Se indica que su capacidad **maxima es de 40 personas**. Si los pesos de todas las personas que utilizan el ascensor se suponen que estan **distribuidos alrededor de 75 kilogramos** con una **desviacion tipica de 22 kilogramos. **

¿Cual es la **probabilidad** de que un **grupo de 38 personas** exceda el limite de carga del ascensor? (Suponer que se puede aplicar el TCL)

---

### DATOS:
---

- 3150 = kg, Límite de carga
- 40 = personas, carga máxima
- 75 = kg, **media** por persona
- 22 = kg, **desviación típica**

- **Muestra:**
    - 38 = Muestra


### PROBLEMA:
---

#### Prob ( un grupo de 38 personas exceda el límite kg )

##### X: Peso de personas,  X={$x_1, x_2, ..., x_n$}  ~ Desconocido

---

- ES **IMPORTANTE** que se desconozca la distribución, para usar el TCL. 

### CONDICIONES DEL TCL:

##$x \sim N(\mu, \sigma)$

##$D: \{x_1, x_2, ..., x_n\} \\ Media_{Muestral}= \bar{x} = \frac{1}{n}\sum{x_i}$

**Para poder aplicar el TCL se debe cumplir:**

- D, mas, {$x_1, ..., x_n$} son **independientes**.
- $x_i$ Sigue **la misma distribución que la población**.
    - $E(x) = \mu $.
    - $V(x) = \sigma^2 < \infty$.
- n ≥ 30, **muestra grande.**

---
<font size=4 face="sans-serif">Teniendo en cuenta: <br>
$E(\sum{x_i}) = \sum{E(x_i)} = \sum{\bar{x}} = N\bar{x}$<br>
$V(\sum{x_i}) = \sum{V(x_i)} = \sum{\sigma^2} = N\sigma^2$ </font>
# $$ \bar{x} \sim \ N(\mu,\frac{\sigma}{\sqrt{n}}), \sum{x_i} = \ N(n\mu, {\sigma}{\sqrt{n}}) $$
---

   - **EN NUESTRO CASO SE CUMPLE TODAS LAS CONDICIONES:**
        - n > 30 (Grande)
        - Variables independientes (mas).
        - Variables siguen una misma distribución (E(x), V(x)).

---
##### Prob ( un grupo de 38 personas exceda el límite kg )
- **P( Peso Total > Límite ) **
    - $\rightarrow$ P(38 · 75 > 3150)
    - $\rightarrow$ P(2850 > 3150)

NOTA: Tener en cuenta que: $\rightarrow n · E(x) = 38·75 ,\ x:\ V.A.$

---



In [2]:
# datos:

lim_kg = 3150
lim_p = 40
media_p = 75
dt_p = 22
muestra = 38

# tcl: aprox. normal:
# traducimos al lenguaje estradístico:

n = muestra         # n >30
k = lim_kg          # limite
mu = n * media_p    # peso total
sigma = dt_p * np.sqrt(n/(n-1))
p_k = 1 - st.norm.cdf(k, mu, sigma)

# para mostrar datos:
nn = ["n =", "k =", "mu =", "sigma =", "P(x > k) ="]
v = [n, k, mu, sigma, p_k]
nv = zip(nn,v)

print "Datos: \n––––––––"

for n,v in nv:
    print n,v
print p_k

Datos: 
––––––––
n = 38
k = 3150
mu = 2850
sigma = 22.2953152272
P(x > k) = 0.0
0.0


# EJERCICIO 7

7.- Una empresa petrolera informa que **el precio medio** por galón de gasolina normal es** 3,26€ por litro** con una **desviación típica de 0,18€**. Seleccionamos al azar una muestra de **40 estaciones de gasolina **y calculamos el **coste medio de gasolina normal**. Si la distribución de dicho coste es normal, calcular

- a. Probabilidad de que la media de la muestra oscile entre 3,24€ y 3,28€

- b. Probabilidad de que la diferencia entre la media de la muestra y la media poblacional sea inferior a 0,01€

- c. Probabilidad de que la media de la muestra sea superior a 3,34€

### DATOS:
---

X: Precio gasolina ~ N(3.36, 0.18)

D: {$x_1, ..., x_n$}

#### **Precio medio muestral gasolineras:** 


$\bar{x} = \frac{1}{n} \sum_{i=1}^{40}{x_i} \\ P(3.24 ≤ \bar{x} ≤ 3.28) = P(Z ≤ 3.28) - P(Z ≤ 3.24)$

In [20]:
k_inf = 3.24
k_sup = 3.28
n = 40
mu = 3.26
sigma = 0.18 / np.sqrt(n)

p_inf = st.norm.cdf(k_inf, mu, sigma)
p_sup = st.norm.cdf(k_sup, mu, sigma)

Latex(r'''
$Por\ tanto: \\
P(3.24 \leq \bar{x} \leq 3.28) = %s $ 
''' % (p_sup - p_inf))

<IPython.core.display.Latex object>

# EJERCICIO 17

17.- Una tienda se interesa en estimar su volumen de ventas diarias. Supóngase que el valor de la desviación típica es de 50 euros. Si el volumen de ventas se puede modelizar por una distribución normal, ¿cuál debe ser el tamaño de la muestra para que con una confianza del 95% la media muestral se encuentre a no más de 20 euros del verdadero volumen medio de ventas?

---

X: ventas diarias 
$E(x) = \mu$

Ventas de cada día: {$x_1, x_2, x_3, ..., x_n$} 

$\sum\frac{x_i}{n} = \bar{x} \rightarrow aproximación\ a\ \mu$

    ¿Cuantos días (n) cogemos?

### Planteamos:
---

$\bar{x} - \mu \rightarrow min \left |{\bar{x} - \mu} \right |$

- $P \{\ \left | \bar{x} - \mu \right |\ \} < e  = P( \left |\bar{x} - \mu \right | < \frac{e}{\frac{\sigma}{\sqrt{n}}} ) $


- $ P( \left |z \right | < \frac{e}{\frac{\sigma}{\sqrt{n}}} ) = \frac{1 - \alpha}{90\%}$


- $ n = \frac{Z^2_{\frac{\alpha}{2}}\sigma^2}{e^2}$

$\sigma = 50$

$nivel\ de\ confianza\ (1 - \alpha) = 0.95$

In [13]:
sigma = 50
alpha = 0.05 # nivel de significación
error = 20

k_e = st.norm.ppf(1-alpha)
print "Por tanto tenemos que:"
Latex(r"""$x_i = %s$""" % k_e)

Por tanto tenemos que:


<IPython.core.display.Latex object>


Si $\sigma$ es desconocida, por tanto tendemos que estimarla, $(S^2_1)$

### $X \sim Be (p)$ 
$V(x) = P(1-p)$ 
$n = \frac{Z^2_{\frac{\alpha}{2}}\sigma^2}{e^2}$ 

### ESTIMAR P: 

$n = \frac{Z^2_{\frac{\alpha}{2}}\hat{p}(1-\hat{p})}{e^2}$

En X $\sim Be (p)$ no tenemos una aproximación de 'p', por tanto tomamos el peor valor de 'p' (el que tiene mayor varianza).

$n = \frac{Z^2_{\frac{\alpha}{2}}1/4}{e^2}$
### Sea:
$g(p) = p(1-p) = p - p^2 \\ g'(p) = 1-2p = 0 \rightarrow p = \frac{1}{2}$

# EJERCICIO 14

14.- Suponga que se desea precisar el tamaño que ha de tener una muestra tomada **sin reemplazamiento** para **determinar el porcentaje de piezas defectuosas** de una población (en total **10.000 unidades**), supuesta esta proporción **no superior al 5%** y operando con una confianza del 95%. Calcular el **tamaño muestral** necesario si queremos que la proporción no difiera en más del 2% del porcentaje real.


### DATOS:
---

- n = 10000 (!)
- X: numero de piezas defectuosas
- Nivel de confianza: 95%

### INCÓGNICAS
---
D = {$x_1,...,x_n$}

$x_i:$ Piezas defectuosas $\sim Be(p)$

p{ | $\hat{p}$-$p$} | < 0.02} = 0.95

p{ |z| < $\frac{0.02}{\sqrt{\frac{p(1-p)}{n}}}$ } = 0.95

**Suponemos la peor varianza**

