# Hypothesis testing

## The null and the alternative hypotheses

Uno de los más importantes métodos en la estadística inferencial es el contraste de hipótesis o hypothesis testing. En el contraste de hipótesis, nosotros intentamos determinar si una cierta hipótesis o cuestión es cierta o no, y en que grado.

El objetivo del contraste de hipótesis es responder a la pregunta: *Dada una muestra y un efecto aparente, ¿Cuál es la probabilidad de ver tal efecto por azar?*
The goal of classical hypothesis testing is to answer the question, “Given a sample and
an apparent effect, what is the probability of seeing such an effect by chance?” Here’s
how we answer that question:

1. El primer paso es cuantificar el tamaño del *efecto aparente* eligiendo un test estadístico.
2. Definimos la hipótesis nula, la cual es un modelo del sistema que asume que el efecto aparente no es real.
3. Calculamos el valor **p**, el cual es la probabilidad de ver el efecto si la hipótesis nula es cierta.
4. Interpretamos los resultados. Si el valor **p** es bajo, el efecto es estadísticamente significante, lo cual significa que tal efecto no ocurre por azar. En el caso de inferir el efecto es más probable que aparezca en una muestra mayor.

* $H_{0}$: Hipótesis nula
* $H_{1}$: Hipótesis alternativa

La hipótesis nula es el valor histórico o valor promedio, mientras que la hipótesis alternativa es aquella que contradice a la hipótesis nula, es decir, aquella que queremos probar si es verdadera o falsa.

Por ejemplo:

La edad promedio en Barcelona es inferior a 38 años (hipótesis nula), pero realizando un muestreo, nuestro valor promedio es 42 años. Entonces la pregunta sería si la edad promedio en la ciudad de Barcelona a aumentado o si por el contrario nuestro valor promedio es erróneo. Este es un ejemplo de contraste unilateral.

### Contraste bilateral
$$
H_{0} : \mu = \mu_{0} \\
H_{1} : \mu \neq \mu_{0}
$$

### Contraste unilateral

$$
H_{0}: \mu \leq \mu_{0} \\
H_{1}: \mu > \mu_{0}
$$
$$
H_{0}: \mu \geq \mu_{0} \\
H_{1}: \mu < \mu_{0}
$$

In [2]:
# import libraries
import pandas as pd
import numpy as np
import scipy.stats as ss
import seaborn as sns
import matplotlib.pyplot as plt

# set seaborn style
sns.set()

In [2]:
"""Funciones especiales"""

# Importamos la biblioteca necesaria para enlazar con el archivo requerido
import sys
sys.path.insert(0, '../statistics')

# importamos la función que necesitamos
#from DataManipulation import SampleRows
import DataManipulation as dm
from functions import ecdf
from functions_corr import cov, correlation

## Contraste unilateral

In [70]:
# Carga de datos a través de la función open
def open_file(filename, sep, skiprows=None):    
    """
    Cuando la carga de datos es muy grande, pandas puede que no nos sirva ya que intenta cargar toda la información de golpe, por lo que podemos tener problemas de falta de memoria.

    open_file, va a leer la información línea a línea facilitando el procesado
    """
    data = open(filename, 'r')
    
    if skiprows is None:

        #strip: elimina espacios en blanco tanto al final como al principio de la línea
        # columnas
        cols = data.readline().split(sep)
    
        # número de columnas
        n_cols = len(cols)

        # contador
        counter = 0

        # diccionario que nos dará el dataset
        main_dict = {}

        # Realizamos un bucle sobre las columnas
        for col in cols:
            main_dict[col] = []

        # Ahora leemos los datos
        for line in data:
            values = line.split(sep)
            for i in range(len(cols)):
                main_dict[cols[i]].append(values[i])
            counter += 1
    
        # obtenemos el dataframe
        df = pd.DataFrame(main_dict)

        # imprimimos información
        print("El data set tiene %d filas y %d columnas"%(counter, n_cols))
    
    else:
        #saltamos el número de filas especificado
        for idx in range(skiprows):
            data.readline()
        
        # columnas en raw
        cols = data.readline().strip().split(sep)
        
        # desechamos los valores vacíos
        cols = list(filter(None, cols))
        
        # número de columnas
        n_cols = len(cols)

        # contador
        counter = 0

        # diccionario que nos dará el dataset
        main_dict = {}

        # Realizamos un bucle sobre las columnas
        for col in cols:
            main_dict[col] = []

        # Ahora leemos los datos
        for line in data:
            values = line.strip().split(sep)
            
            # filtramos los valores vacíos
            values = list(filter(None, values))
            
            for i in range(len(cols)):
                main_dict[cols[i]].append(values[i])
            counter += 1
    
        # obtenemos el dataframe
        df = pd.DataFrame(main_dict)

        # imprimimos información
        print("El data set tiene %d filas y %d columnas"%(counter, n_cols))        

    return df

In [71]:
df_0 = open_file('data/sheffield_weather_station.csv', skiprows=8, sep=" ")
# data


# columnas
df_0.head()

El data set tiene 1602 filas y 7 columnas


Unnamed: 0,af,mm,rain,sun,tmax,tmin,yyyy
0,6,1,122.1,---,6.3,1.7,1883
1,2,2,69.8,---,8.0,2.8,1883
2,23,3,29.6,---,4.8,-1.6,1883
3,2,4,74.0,---,12.2,3.8,1883
4,0,5,31.2,---,14.7,6.2,1883


In [6]:
# data
df_0 = pd.read_csv('data/TSheightweight.csv', header = 0, index_col = 0)
df_0.head(10)

Unnamed: 0,age,sex,wtyrago,finalwt,wtkg2,htm3
0,82.0,2,76.363636,185.870345,70.91,157.0
1,65.0,2,72.727273,126.603027,72.73,163.0
2,48.0,2,,181.06321,,165.0
3,61.0,1,73.636364,517.926275,73.64,170.0
4,26.0,1,88.636364,1252.62463,88.64,185.0
5,42.0,1,118.181818,415.161314,109.09,183.0
6,40.0,2,50.0,422.810541,50.0,157.0
7,24.0,2,131.818182,1280.58598,122.73,178.0
8,37.0,1,87.727273,1245.06044,90.0,178.0
9,65.0,1,77.272727,382.738158,77.27,173.0


In [16]:
# Estadística descriptiva
df_0['age'].describe()

count    410856.000000
mean         54.862180
std          16.737702
min          18.000000
25%          43.000000
50%          55.000000
75%          67.000000
max          99.000000
Name: age, dtype: float64

Vemos que la media de edad de este conjunto de datos es *55* años. ¿Es esta media significativa? Para responder a esta pregunta vamos a escoger una muestra de esta población y vamos a comprar dicho valor. 

In [4]:
# Data
df = pd.read_csv('data/female_literacy_fertility.csv', header=0, index_col=0)
df.head(10)

Unnamed: 0_level_0,Continent,female literacy,fertility,population
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chine,ASI,90.5,1.769,1324655000
Inde,ASI,50.8,2.682,1139964932
USA,NAM,99.0,2.077,304060000
Indonésie,ASI,88.8,2.132,227345082
Brésil,LAT,90.2,1.827,191971506
Pakistan,ASI,40.0,3.872,166111487
Bangladesh,ASI,49.8,2.288,160000128
Nigéria,AF,48.8,5.173,151212254
Fédération de Russie,EUR,99.4,1.393,141950000
Japan,ASI,99.0,1.262,127704000


Analizamos la posible correlación entre dos variables. En este caso hemos elegido un *dataset* en el cual existen dos variables interesantes: **fertilidad** y **analfabetismo**. A continuación vamos a realizar un análisis exploratorio de estas variables. Como podemos observar, los datos no nos dan el índice de analfabetismo sino el índice de alfabetización en cada país. Para obtener el índice de analfabetismo simplemente realizamos una *inversión* o diferencia.

In [None]:
# Exploratory analysis of female literacy and fertility
plt.scatter(dataset['female illiteracy'], dataset['fertility'], marker='.')
plt.xlabel('Female illiteracy')
plt.ylabel('Fertility')
plt.show()