# Introduction to Financial Python
## Tutorial 8 - Confidence Interval and Hypothesis Testing

### Intervalo de confianza


#### Muestra de error


Utilicemos la rentabilidad diaria de Apple desde 2010 hasta 2018 como población.

In [None]:
!pip install quandl # Para instalar el complemento

In [12]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import quandl

# Conseguir los reportes de Apple desde el 2010 hasta el 2018
quandl.ApiConfig.api_key = 'oNgzGNZtVSfJ2eUay5_U'
appl_table = quandl.get('WIKI/AAPL')
appl_total = appl_table.loc['2010':'2018',['Open','Close']]

# Calcular los rendimientos de los registros
appl_log_return = np.log(appl_total.Close).diff().dropna()

print('Media de la población:', np.mean(appl_log_return))
print('Desviación estándar de la población:',np.std(aapl_log_return))

Media de la población: -0.00011601594930817732
Desviación estándar de la población: 0.045348092857999116


Ahora vamos a comprobar la muestra de los últimos 10 días y la muestra de los últimos 1000 días.

In [13]:
print('Devolución de muestras en 10 días:', np.mean(appl_log_return.tail(10)))
print('Desviación estándar de muestras en 10 días::', np.std(appl_log_return.tail(10)))
print('Devolución de muestras en 1000 días:', np.mean(appl_log_return.tail(1000)))
print('Desviación estándar de muestras en 1000 días::', np.std(appl_log_return.tail(1000)))

Devolución de muestras en 10 días: -0.006680442654968121
Desviación estándar de muestras en 10 días:: 0.019948507891523214
Devolución de muestras en 1000 días: -0.001163340140818109
Desviación estándar de muestras en 1000 días:: 0.06269581584713585


Como esperábamos, las dos muestras tienen medias y varianzas diferentes.

#### Intervalo de confianza
Para estimar el rango de la media poblacional, definimos el error estándar de la media como sigue: <br>
$ SE = \frac{\sigma}{\sqrt{n}}$, donde $\sigma$ es la desviación estándar de la muestra y n es el tamaño de la muestra. <br>
Generalmente, si queremos estimar un intervalo de la población para que el 95% de las veces el intervalo contenga la media poblacional, el intervalo se calcula como: <br>
$ (\mu -1.96*SE, \mu +1.96*SE)$, donde $\mu$ es la media de la muestra y SE es el error estándar. <br>
Solemos utilizar 1,96 para calcular un intervalo de confianza del 95% porque suponemos que la media de la muestra sigue una distribución normal.

In [14]:
bottom_1 = np.mean(appl_log_return.tail(10))-1.96*np.std(appl_log_return.tail(10))/(np.sqrt(len((appl_log_return.tail(10)))))
upper_1 = np.mean(appl_log_return.tail(10))+1.96*np.std(appl_log_return.tail(10))/(np.sqrt(len((appl_log_return.tail(10)))))
bottom_2 = np.mean(appl_log_return.tail(1000))-1.96*np.std(appl_log_return.tail(1000))/(np.sqrt(len((appl_log_return.tail(1000)))))
upper_2 = np.mean(appl_log_return.tail(1000))+1.96*np.std(appl_log_return.tail(1000))/(np.sqrt(len((appl_log_return.tail(1000)))))

print('10 días, invervalo de confianza del 95%:', (bottom_1,upper_1))
print('1000 días, invervalo de confianza del 95%:', (bottom_2,upper_2))

10 días, invervalo de confianza del 95%: (-0.01904465594334319, 0.005683770633406946)
1000 días, invervalo de confianza del 95%: (-0.005049267066470905, 0.0027225867848346868)


#### Intervalo de confianza de la distribución normal
La distribución normal se utiliza con tanta frecuencia que deberíamos ser capaces de recordar algunos valores críticos de la misma. En concreto, solemos utilizar el 90%, el 95% y el 99% como nivel de confianza de un intervalo de confianza. Los valores críticos para estos tres niveles de confianza son 1,64, 1,96 y 2,32 respectivamente.

#### Teoría del límite central
Como hemos dicho, si utilizamos la muestra para estimar el intervalo de confianza de la población, el intervalo de confianza del 95% es: <br>
$ (\mu -1.96*SE, \mu +1.96*SE)$ <br>
Este teorema nos dice que, dado un tamaño de muestra suficientemente grande de una población con un nivel finito de varianza, la media de todas las muestras de la misma población será aproximadamente igual a la media de la población, y las medias de las muestras tendrán una distribución aproximadamente normal. 

### Pruebas de hipótesis

La prueba de hipótesis es esencialmente una prueba de inferencia basada en una muestra.<br>
Supongamos que no conocemos la media de esta población. Supongo que la media de esta población es 0. ¿Es correcta mi suposición? Tengo que comprobar esta hipótesis con mi muestra. Empecemos por observar nuestra muestra: 

In [17]:
mean_1000 = np.mean(appl_log_return.tail(1000))
std_1000 = np.std(appl_log_return.tail(1000))
mean_10 = np.mean(appl_log_return.tail(10))
std_10 = np.std(appl_log_return.tail(10))
s = pd.Series([mean_10,std_10,mean_1000,std_1000],index = ['media_10', 'std_10','media_1000','std_1000'])
print(s)

media_10     -0.006680
std_10        0.019949
media_1000   -0.001163
std_1000      0.062696
dtype: float64


Ahora sabemos cómo calcular el intervalo de confianza. Si tuviera razón, es decir, la media de la población es 0, entonces el intervalo de confianza del 90% de la muestra con 1000 observaciones debería ser: 

In [18]:
bottom = 0 - 1.64*std_1000/np.sqrt(1000)
upper = 0 + 1.64*std_1000/np.sqrt(1000)
print((bottom, upper))

(-0.0032514898765666246, 0.0032514898765666246)


Nuestra media de la muestra está dentro del intervalo de confianza del 90%, así que podemos decir que la hipótesis es correcta.

In general, we have null hypothesis H0 and alternative hypothesis. They are usually in the following forms: <br>
$ H_0 : \bar{\mu} = 0 $ <br>
$ H_0 : \bar{\mu} \not= 0 $ <br>
Si el valor analizado está fuera del intervalo de confianza, rechazamos la hipótesis nula o aceptamos la hipótesis alternativa. También podemos invertir el proceso para calcular el valor crítico, o puntuación Z. La puntuación Z se define como: <br>
$ Z = \frac{x-\mu}{\frac{\sigma}{\sqrt{n}}} $

In [19]:
print(np.sqrt(1000)*(mean_1000 - 0)/std_1000)

-0.5867703432484007


En nuestro ejemplo, la puntuación z es -0.5867. Podemos conocer la anchura es el intervalo de confianza refiriéndonos a una tabla de distribución normal. Por supuesto, podemos hacer esto en Python:

In [21]:
import scipy.stats as st
print((1 - st.norm.cdf(-0.58677)))

0.7213209061543833


Este número calculado se llama valor p. <br>
Ahora vamos a probar la hipótesis de que la media de la población = 0 de nuevo con una muestra grande, que tiene 1200 observaciones:

In [22]:
mean_1200 = np.mean(appl_log_return.tail(1200))
std_1200 = np.std(appl_log_return.tail(1200))
z_score = np.sqrt(1200)*(mean_1200 - 0)/std_1200
print('z-score = ',z_score)
p_value = (1 - st.norm.cdf(z_score))
print('p_value = ',p_value)

z-score =  -0.4723030820553394
p_value =  0.6816447646119563
