# Pruebas de hipótesis

Vamos a analizar los tamaños de los cerebros en las personas


In [1]:
from scipy import stats
import pandas

Leer el archivo

In [2]:
data = pandas.read_csv('7. brain_size.csv', sep=';', na_values=".")
print(data.size)
print(data.shape)
data.head(5)

320
(40, 8)


Unnamed: 0,ID,Gender,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
0,1,Female,133,132,124,118.0,64.5,816932
1,2,Male,140,150,124,,72.5,1001121
2,3,Male,139,123,150,143.0,73.3,1038437
3,4,Male,133,129,128,172.0,68.8,965353
4,5,Female,137,132,134,147.0,65.0,951545


In [3]:
data.describe()

Unnamed: 0,ID,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
count,40.0,40.0,40.0,40.0,38.0,39.0,40.0
mean,20.5,113.45,112.35,111.025,151.052632,68.525641,908755.0
std,11.690452,24.082071,23.616107,22.47105,23.478509,3.994649,72282.05
min,1.0,77.0,71.0,72.0,106.0,62.0,790619.0
25%,10.75,89.75,90.0,88.25,135.25,66.0,855918.5
50%,20.5,116.5,113.0,115.0,146.5,68.0,905399.0
75%,30.25,135.5,129.75,128.0,172.0,70.5,950078.0
max,40.0,144.0,150.0,150.0,192.0,77.0,1079549.0


**¿Qué nos permite identificar una primera exploración de los datos?**

Vamos a comparar los promedios de uno de los atributos que definen el tamaño del cerebro ("VIQ") para las muestra de hombres y mujeres.

In [3]:
prom_mujeres = data[data['Gender'] == 'Female']['VIQ'].mean()
prom_hombres = data[data['Gender'] == 'Male']['VIQ'].mean()
print("prom_mujeres=", prom_mujeres)
print("prom_hombres=", prom_hombres)

prom_mujeres= 109.45
prom_hombres= 115.25


Esto también se puede hacer utilizando **groupby** de pandas, que realiza operaciones de agregación para cada atributo del dataframe particionado por los atributos específicados:

In [4]:
agg_genero = data.groupby('Gender')
agg_genero.describe().transpose()

Unnamed: 0,Gender,Female,Male
FSIQ,count,20.0,20.0
FSIQ,mean,111.9,115.0
FSIQ,std,23.686327,24.98631
FSIQ,min,77.0,80.0
FSIQ,25%,90.25,89.75
FSIQ,50%,115.5,118.0
FSIQ,75%,133.0,139.25
FSIQ,max,140.0,144.0
Height,count,20.0,19.0
Height,mean,65.765,71.43158


Se pueden obtener los datos específicos a un operador de agregación como el promedio:

In [6]:
agg_genero.mean()

Unnamed: 0_level_0,ID,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Female,19.65,111.9,109.45,110.45,137.2,65.765,862654.6
Male,21.35,115.0,115.25,111.6,166.444444,71.431579,954855.4


In [5]:
agg_genero.boxplot(column=['FSIQ', 'VIQ', 'PIQ'])

Female         AxesSubplot(0.1,0.15;0.363636x0.75)
Male      AxesSubplot(0.536364,0.15;0.363636x0.75)
dtype: object

# Prueba de 1 media

Se hicieron medidas del VIQ en el pasado y se obtuvo un promedio de 110 para los hombres y 99 para las mujeres.
Se tomaron muestras actuales y al parecer los valores promedios de VIQ indicarían a primera vista que hay cambios en los valores del VIQ.

In [8]:
print("Hombres(VIQ):", data[data['Gender'] == 'Male']['VIQ'].mean())
print("Mujeres(VIQ):", data[data['Gender'] == 'Female']['VIQ'].mean())

Hombres(VIQ): 115.25
Mujeres(VIQ): 109.45


Queremos analizar estadísticamente si estas medidas han cambiado o siguen iguales a partir del análisis de las muestras de las que disponemos.

1. **Establezca la prueba a realizar (hipótesis nula, alternativa, tipo de prueba, confianza, significancia, posibles conclusiones)**
2. **Utilice scipy.stats para ejecutar la prueba**

## Prueba para los hombres

**H0**: los hombres siguen teniendo un valor de VIQ de 110. $\mu_{Hombres}=110$

**Ha**: los hombres ya no tienen un valor de VIQ de 110. $\mu_{Hombres}\neq 110$

Se va a realizar una prueba T de 1 medial, con un nivel de confianza del 95%, por lo que la significancia (alpha) sera del 5%.

Las posibles conclusiones son:
* Si el valor-p < alpha: se rechaza la hipótesis nula en favor de la hipótesis alternativa, por lo que se puede decir, con un nivel de confianza del 95%, que los hombres ya no tienen un valor de VIQ de 110.
* Si el valor-p > alpha: no se puede rechazar la hipótesis nula, puede que no haya suficiente información para hacerlo, por lo que no se puede decir, con un nivel de confianza del 95%, si los hombres siguen teniendo un VIQ de 110 o no.

In [9]:
from scipy import stats

In [10]:
stats.ttest_1samp(data[data['Gender'] == 'Male']['VIQ'], 110)

Ttest_1sampResult(statistic=0.9156709994481053, pvalue=0.3713154747160655)

Como tenemos que el valor-P es de 37.13%, superior al nivel de significancia de 5%, no podemos rechazar la hipótesis nula, y no podemos decir si el valor del VIQ de los hombres ha cambiado o no.

## Prueba para las mujeres

**H0**: las mujeres siguen teniendo un valor de VIQ de 99. $\mu_{Mujeres}=99$

**Ha**: las mujeres ya no tienen un valor de VIQ de 99. $\mu_{Mujeres}\neq 99$

Se va a realizar una prueba T de 1 medial, con un nivel de confianza del 95%, por lo que la significancia (alpha) sera del 5%.

Las posibles conclusiones son:
* Si el valor-p < alpha: se rechaza la hipótesis nula en favor de la hipótesis alternativa, por lo que se puede decir, con un nivel de confianza del 95%, que las mujeres ya no tienen un valor de VIQ de 99.
* Si el valor-p > alpha: no se puede rechazar la hipótesis nula, puede que no haya suficiente información para hacerlo, por lo que no se puede decir, con un nivel de confianza del 95%, si las mujeres siguen teniendo un VIQ de 99 o no.

In [11]:
stats.ttest_1samp(data[data['Gender'] == 'Female']['VIQ'], 99)

Ttest_1sampResult(statistic=2.15652183137645, pvalue=0.04406616069561085)

Como tenemos que el valor-P es de 4.41%, inferior al nivel de significancia de 5%, podemos rechazar la hipótesis nula en favor de la hipótesis alternativa, y concluir que el valor del VIQ de las mujeres ya no es de 99.

# Prueba de diferencia de medias

Ahora queremos comparar los valores actuales del VIQ de los hombres y las mujeres para establecer si son iguales o no.

1. **Establezca la prueba a realizar (hipótesis nula, alternativa, tipo de prueba, confianza, significancia, posibles conclusiones)**
2. **Utilice scipy.stats para ejecutar la prueba**

**H0**: los hombres y las mujeres tienen cerebros (medida VIQ) del mismo tamaño

**Ha**: los hombres y las mujeres tienen cerebros (medida VIQ) de tamaño diferente

Se va a realizar una prueba T de muestras independientes, con un nivel de confianza del 95%, por lo que la significancia (alpha) sera del 5%.

Las posibles conclusiones son:
* Si el valor-p < alpha: se rechaza la hipótesis nula en favor de la hipótesis alternativa, por lo que se puede decir, con un nivel de confianza del 95%, que los cerebros de los hombres son diferentes a los de las mujeres.
* Si el valor-p > alpha: no se puede rechazar la hipótesis nula, puede que no haya suficiente información para hacerlo, por lo que no se puede decir, con un nivel de confianza del 95%, si los cerebros de los hombres son diferentes a los de las mujeres o no.


In [12]:
stats.ttest_ind(data[data['Gender'] == 'Male']['VIQ'], data[data['Gender'] == 'Female']['VIQ'])

Ttest_indResult(statistic=0.7726161723275011, pvalue=0.44452876778583217)

Como tenemos que el valor-P es de 44.45%, superior al nivel de significancia de 5%, no podemos rechazar la hipótesis nula, y no podemos decir si el valor del VIQ de los hombres es diferente al de las mujeres.

<font color='red'>Realice las pruebas comparando los valores de los atributos PIQ y FSIQ para hombre y mujeres y concluya.</font>

### PIQ

Ahora queremos comparar los valores actuales del PIQ de los hombres y las mujeres para establecer si son iguales o no.

**H0:** los hombres y las mujeres tienen medida PIQ igual  

**Ha:** los hombres y las mujeres tienen medida PIQ diferente

Se va a realizar una prueba T de muestras independientes, con un nivel de confianza del 95%, por lo que la significancia (alpha) sera del 5%.
Las posibles conclusiones son: 

* Si el valor-p < alpha: se rechaza la hipótesis nula en favor de la hipótesis alternativa, por lo que se puede decir, con un nivel de confianza del 95%, que la medida PIQ de los hombres es diferente a la de las mujeres.
* Si el valor-p > alpha: no se puede rechazar la hipótesis nula, puede que no haya suficiente información para hacerlo, por lo que no se puede decir, con un nivel de confianza del 95%, si la medida PIQ de los hombres es diferente a la de las mujeres o no.

In [6]:
stats.ttest_ind(data[data['Gender'] == 'Male']['PIQ'], data[data['Gender'] == 'Female']['PIQ'])

Ttest_indResult(statistic=0.15980113150762698, pvalue=0.8738841403250049)

Como el valor-P es de 87,3%, seuperior al nivel de significancia de 5%, no podemos rechazar la hipótesis nula, y no podemos decir si el valos PIQ de los hombres es diferente al de las muejeres.

### FISQ

Ahora queremos comparar los valores actuales del FISQ de los hombres y las mujeres para establecer si son iguales o no.

**H0:** los hombres y las mujeres tienen medida FISQ igual  

**Ha:** los hombres y las mujeres tienen medida FISQ diferente

Se va a realizar una prueba T de muestras independientes, con un nivel de confianza del 95%, por lo que la significancia (alpha) sera del 5%.
Las posibles conclusiones son: 

* Si el valor-p < alpha: se rechaza la hipótesis nula en favor de la hipótesis alternativa, por lo que se puede decir, con un nivel de confianza del 95%, que la medida FISQ de los hombres es diferente a la de las mujeres.
* Si el valor-p > alpha: no se puede rechazar la hipótesis nula, puede que no haya suficiente información para hacerlo, por lo que no se puede decir, con un nivel de confianza del 95%, si la medida FISQ de los hombres es diferente a la de las mujeres o no.

In [8]:
stats.ttest_ind(data[data['Gender'] == 'Male']['FSIQ'], data[data['Gender'] == 'Female']['FSIQ'])

Ttest_indResult(statistic=0.4026724743703011, pvalue=0.6894456253897778)

Como el valor-P es de 68,9%, seuperior al nivel de significancia de 5%, no podemos rechazar la hipótesis nula, y no podemos decir si el valos PIQ de los hombres es diferente al de las muejeres.

