# Contrastes de hipótesis en Python
Librerias que vamos a utilziar 

In [None]:
import statsmodels.api as sm
import numpy as np
import matplotlib.pyplot as plt
import statistics as st
import pandas as pd
import os.path
##Incluir la ruta donde teneis los fichero
ruta= "./Datos/"

## Contrastes para la proporción poblacional $p$

### Contrastes de una muestra

$$
\left\{
\begin{array}{ll}
H_0: & p = 0.52 \\
H_1: & p > 0.52
\end{array}
\right.
$$

- 1018 personas encuestadas
- 570 personas que creen que el problema de insomnio de sus hijos son las redes sociales y uso de dispositivos electrónicos

In [None]:
n = 1018
x = 570
p_null = 0.52
p_hat = x/n
print("p_hat = {ph}".format(ph=p_hat))


Para hacer un contraste de una proporción, se utiliza de `sm.stats`

In [None]:
ht = sm.stats.proportions_ztest(x, n, p_null, alternative = 'larger')
print("El estadístico de contraste es {ec} y su p-valor es {pv}".format(ec=ht[0], pv=ht[1]))


### Contrastes de dos muestras

$$
\left\{
\begin{array}{ll}
H_0: & p_1 - p_2 = 0 \\
H_1: & p_1 - p_2 \neq 0
\end{array}
\right.
$$
donde $p_1$ es la proporción de analistas que prefieren R y $p_2$ proporción de analistas que prefieren Python.

- 247 analistas, 36.8% prefieren R
- 308 analistas, 38.9% prefieren Python

In [None]:
n1 = 247
p1 = .368

n2 = 308
p2 = .389


population1 = np.random.binomial(1, p1, n1)
population2 = np.random.binomial(1, p2, n2)

print(population1)
print(population2)

In [None]:
from scipy import stats
t_test, p_value =stats.ttest_ind(population1, population2)
if p_value < 0.05:
    print("Rechazamos la hipótesis nula")
else:
    print("Se acepta la hipótesis nula")

## Contrastes para la media poblacional $\mu$

### Contrastes de una muestra
#### Ejemplo 1

In [None]:
data = [80.57, 98.96, 85.28, 83.83, 69.94, 89.59, 91.09, 66.25, 91.21, 82.7 , 73.54, 81.99, 54.01, 82.89, 75.88, 98.32, 107.2 , 85.53, 79.08, 84.3 , 89.32, 86.35, 78.98, 92.26, 87.01]

$$
\left\{
\begin{array}{ll}
H_0: & \mu = 80 \\
H_1: & \mu > 80
\end{array}
\right.
$$
donde $\mu$ representa la media de los saltos de la competición.

In [None]:
n = len(data)
x_bar = st.mean(data)
s_tilde = st.stdev(data)
print("El tamaño de la muestra es {n}, la media muestral es {x_bar} y la desviación muestral {s_tilde}".format(n=n, x_bar = x_bar, s_tilde = s_tilde))
if n>30:
    sm.stats.ztest(data, value = 80, alternative= "larger")
else:
    stat, p_valor=stats.ttest_1samp(a= data,               # Muestra
                 popmean= 80,alternative="greater")  # Media de la poblacion
    print(p_valor)

#### Ejemplo 2

In [None]:
fichero = os.path.join(ruta,"edades.csv")
edad = pd.read_csv(fichero)
print(edad)

In [None]:
edad_media = np.mean(edad["Edad"])
edad_s_muestral = np.std(edad["Edad"])
print("La edad media es {a} y la desviación típica es {b}".format(a=edad_media, b=edad_s_muestral))

$$
\left\{
\begin{array}{ll}
H_0: & \mu = 30 \\
H_1: & \mu \neq 30
\end{array}
\right.
$$

In [None]:
from scipy.stats import ttest_1samp
ttest, pval = ttest_1samp(edad, 30)
print("El p valor del contraste es ", pval)

if pval < 0.05:
    print("Rechazamos la hipótesis nula")
else:
    print("Se acepta la hipótesis nula")

### Contrastes de dos muestras


El contraste que queremos llevar a cabo es

$$
\left\{
\begin{array}{ll}
H_0: & \mu_1 = \mu_2 \\
H_1: & \mu_1 \neq \mu_2
\end{array}
\right.
$$

#### Ejemplo 1

In [None]:
fichero = os.path.join(ruta,"nhanes_2015_2016.csv")
data = pd.read_csv(fichero)
data.head()

In [None]:
mujeres = data[data["RIAGENDR"]==2]
hombres = data[data["RIAGENDR"]==1]

print("El número de mujeres de la muestra son: {mujeres_n} y el número de hombres es: {hombres_n}".format(mujeres_n = len(mujeres), hombres_n=len(hombres)))

In [None]:
data.describe()

Escogemos una columna
Por si acaso eliminaremos los NAs de nuestros datos:
   

In [None]:
mujeres_BMXWT = mujeres["BMXWT"].dropna()
hombres_BMXWT = hombres["BMXWT"].dropna()
print("El número de mujeres de la muestra son: {mujeres_n} y el número de hombres es: {hombres_n}".format(mujeres_n = len(mujeres_BMXWT), hombres_n=len(hombres_BMXWT)))
sm.stats.ztest(mujeres_BMXWT, hombres_BMXWT, alternative = "two-sided")

$$
\left\{
\begin{array}{ll}
H_0: & \mu_1 = \mu_2 \\
H_1: & \mu_1 \neq \mu_2
\end{array}
\right.
$$

In [None]:
mujeres_BMXWT.mean()

In [None]:
hombres_BMXWT.mean()

$$
\left\{
\begin{array}{ll}
H_0: & \mu_M \leq \mu_H \\
H_1: & \mu_M > \mu_H
\end{array}
\right.
$$

In [None]:
sm.stats.ztest(mujeres_BMXWT,hombres_BMXWT, alternative = "larger")

##### Paso 1
Dividir el dataset

In [None]:
Mayores = data[data["RIDAGEYR"]>48]
Menores = data[(data["RIDAGEYR"]<49) & (data["RIDAGEYR"]>17)]

In [None]:
print(Menores["RIDAGEYR"].max(),Menores["RIDAGEYR"].min())
print(Mayores["RIDAGEYR"].max(),Mayores["RIDAGEYR"].min())

#### Paso 2 y  Paso 3
* Escogemos una de las variables
* Vemos si tiene NA si fuera así, lo imputaremos a un valor que será la media o a la mediana

In [None]:
print(Menores[Menores.columns[-2]].isnull().sum())
print(Mayores[Mayores.columns[-2]].isnull().sum())

In [None]:
Menores[Menores.columns[-2]]=Menores[Menores.columns[-2]].fillna(Menores[Menores.columns[-2]].mean())
Mayores[Mayores.columns[-2]]=Mayores[Mayores.columns[-2]].fillna(Mayores[Mayores.columns[-2]].mean())

#### Paso 4
Hacemos el test bilateral  y extraemos el p valor

In [None]:
len(Menores)

In [None]:
len(Mayores)

In [None]:
_,p=sm.stats.ztest(Menores[Menores.columns[-2]], Mayores[Mayores.columns[-2]], alternative = "two-sided")

### Paso 5
Si el p valor es menor a 0.05 entonces hacemos uno unilateral

In [None]:
_,p1=sm.stats.ztest(Menores[Menores.columns[-2]], Mayores[Mayores.columns[-2]], alternative = "larger")

In [None]:
p1

In [None]:
Mayores = data[data["RIDAGEYR"]>48]
Menores = data[(data["RIDAGEYR"]<49) & (data["RIDAGEYR"]>17)]
for i in range(2,9):
    Menores[Menores.columns[-i]]=Menores[Menores.columns[-i]].fillna(Menores[Menores.columns[-i]].mean())
    Mayores[Mayores.columns[-i]]=Mayores[Mayores.columns[-i]].fillna(Mayores[Mayores.columns[-i]].mean())
    print("="*30)
    print(Menores[Menores.columns[-2]].isnull().sum())
    print(Mayores[Mayores.columns[-2]].isnull().sum())
    _,p=sm.stats.ztest(Menores[Menores.columns[-i]], Mayores[Mayores.columns[-i]], alternative = "two-sided")
    print("="*20)
    print(p)
    if p<0.05:
        _,p1=sm.stats.ztest(Menores[Menores.columns[-i]], Mayores[Mayores.columns[-i]], alternative = "larger")
        if p1<0.05:
            print("El valor de la columna {X} es mayor en los mayores de 49".format(X=Menores.columns[-i]))
        else:
            print("El valor de la columna {X} es menor en los mayores de 49".format(X=Menores.columns[-i]))
    else:
        print("El valor de la columna {X} es igual para ambas edades".format(X=Menores.columns[-i]))


#### Ejemplo 2

Comparamos dos medias de dos muestras independiendtes

$$
\left\{
\begin{array}{ll}
H_0: & \mu_1 = \mu_2 \\
H_1: & \mu_1 \neq \mu_2
\end{array}
\right.
$$

In [None]:
fichero_semana1 = os.path.join(ruta,"semana1.csv")
fichero_semana2 = os.path.join(ruta,"semana2.csv")
Semana1 = pd.read_csv(fichero_semana1)
Semana2 = pd.read_csv(fichero_semana2)

In [None]:
Semana1.head()

In [None]:
Semana2.head()

In [None]:
print("Media de la semana 1: ", np.mean(Semana1["time"]))
print("Media de la semana 2: ", np.mean(Semana2["time"]))
print("Desviación típica de la semana 1: ", np.std(Semana1["time"]))
print("Desviación típica de la semana 2: ", np.std(Semana2["time"]))

In [None]:
from scipy.stats import ttest_ind
t_test, p_value = ttest_ind(Semana1, Semana2)
print("El p-valor del contraste es",p_value)

if p_value < 0.05:
    print("Rechazamos la hipótesis nula")
else:
    print("Se acepta la hipótesis nula")

#### Ejemplo 3
Comparamos dos muestras pareadas.
En la utilización de un medicamento. 

$$
\left\{
\begin{array}{ll}
H_0: & \mu_1 = \mu_2 \\
H_1: & \mu_1 \neq \mu_2
\end{array}
\right.
$$

In [None]:
from scipy.stats import ttest_rel
t_test, p_value = ttest_rel(Semana1, Semana2)
print("El p-valor del contraste es",p_value)

if p_value < 0.05:
    print("Rechazamos la hipótesis nula")
else:
    print("Se acepta la hipótesis nula")

## Comparando la Varianza y la media de dos poblaciones (varianzas iguales)

In [None]:
import numpy as np
from math import sqrt
import pandas as pd 
from scipy import stats
from scipy.stats import f 
import statsmodels.api as sm
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt
%matplotlib inline

Comparacion de la varianza de las notas de varones y mujeres

In [None]:
notas=[50,75,80,68,95,84,78,87,56,61,75,89,80,70,83]
genero=['m','m','m','m','m','m','m','m','h','h','h','h','h','h','h']
a=pd.DataFrame({'notas' : notas,'genero' : genero})

In [None]:
a.boxplot(column='notas',by='genero')

In [None]:
## Manera poco eficiente
mujeres=[50,75,80,68,95,84,78,87]
varones=[56,61,75,89,80,70,83]

In [None]:

def Ftest(grupo1,grupo2):
    a1 = 1.0*np.array(grupo1)
    n1 = len(a1)
    a2 = 1.0*np.array(grupo2)
    n2 = len(a2)
    s1, s2 = np.std(a1,ddof=1), np.std(a2,ddof=1)
    test=(s1/s2)**2
    p_valor=2*min(f.cdf(test,n1-1,n2-1),1-f.cdf(test,n1-1,n2-1))
    print ("El F experimenta es:",test,"El p-valor es:", p_valor)

### Comparando las varianzas

$$
\left\{
\begin{array}{ll}
H_0: & \sigma_1^2=\sigma_2^2 \\
H_1: & \sigma_1^2\neq\sigma_2^2
\end{array}
\right.
$$

#### Prueba Estadistica:
## $$F=\frac{s{_1}^2}{s{_2}^2}$$

In [None]:
Ftest(mujeres,varones)

In [None]:
# Manera eficiente
#Extrayendo los dos grupos de un dataframe 
grupo1=a.query('genero=="m"')['notas']
grupo2=a.query('genero=="h"')['notas']
Ftest(grupo1,grupo2)

In [None]:
stats.ttest_ind(grupo1, grupo2, equal_var = True)

#### Ejemplo para comparar los scores en aprovechamiento matematico de estudiante de escueal publica y privada

In [None]:
#
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
iris = sns.load_dataset("iris")

In [None]:
iris.sample()

In [None]:
#Extrayendo los dos grupos
grupo1=iris.query('species=="versicolor"')['petal_width']
grupo2=iris.query('species=="setosa"')['petal_width']

In [None]:
grupo1.var()

In [None]:
grupo2.var()

In [None]:
Ftest(grupo1,grupo2)

In [None]:
iris.boxplot(column='petal_width',by='species')

### Probando igualdad de dos medias asumiendo igual varianza
$$
\left\{
\begin{array}{ll}
H_0: & \mu_1 = \mu_2 \\
H_1: & \mu_1 \neq \mu_2
\end{array}
\right.
$$

In [None]:
stats.ttest_ind(grupo1, grupo2, equal_var = True)

Probando igualdad de dos medias asumiendo desigual varianza

In [None]:
stats.ttest_ind(grupo1, grupo2, equal_var = False)