<a href="https://colab.research.google.com/github/mirhughes/diplo/blob/main/05_Test_de_Hip%C3%B3tesis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Test de Hipótesis**
# Ejemplos

Evaluación de la hipótesis
1. Definir H0, H1
2. Identificar prueba para validar H0
3. Decide alfa
4. Calcular el valor p
5. Si p < alfa entonces rechaza H0, viceversa

## Ejemplo 1
Una investigadora en botánica quiere saber si la áltura promedio de cierta especia de planta es igual a 38 cm (hipótesis nula)

Para esto colecta una muestra aleatoria de 12 plantas y registra su altura:

In [None]:
import numpy as np
import scipy.stats

mu = 38.

alpha = 0.05
data = ([35.56, 35.56, 40.64, 33.02, 30.48, 43.18, 38.1 , 35.56, 38.1 ,
       33.02, 38.1 , 35.56])
data

[35.56,
 35.56,
 40.64,
 33.02,
 30.48,
 43.18,
 38.1,
 35.56,
 38.1,
 33.02,
 38.1,
 35.56]

Para realizar un t-test de una muestra con scipy utilizamos

In [None]:
result = scipy.stats.ttest_1samp(data, mu, alternative='two-sided')
result

TtestResult(statistic=np.float64(-1.5853482351389023), pvalue=np.float64(0.1411941997029352), df=np.int64(11))

donde

In [None]:
if result.pvalue < alpha:
    print("Rechazamos la hipótesis nula. Hay evidencia suficiente para rechazar la hipótesis nula")

else:
    print("No podemos rechazar la hipótesis nula debido a la falta de evidencia")

No podemos rechazar la hipótesis nula debido a la falta de evidencia


## Ejemplo 2
Un gerente de alimentos y bebidas quiere determinar si existe alguna diferencia significativa en el diámetro de la costeleta entre dos proveedores. ¿Se recolectó y midió una muestra de costeleta seleccionada al azar de ambos proveedores?

Analice los datos y saque inferencias con un nivel de significancia del 5%. Indique los supuestos y las pruebas que llevó a cabo para comprobar la validez de los supuestos.



In [None]:
import pandas as pd
import numpy as np
import scipy.stats as stats

In [None]:
url = 'https://raw.githubusercontent.com/DiploDatos/AnalisisyVisualizacion/master/Cutlets.csv'
df = pd.read_csv(url)
df.head()

Unnamed: 0,Unit A,Unit B
0,6.809,6.7703
1,6.4376,7.5093
2,6.9157,6.73
3,7.3012,6.7878
4,7.4488,7.1522


H0= No hay diferencia significativa en el tamaño promedio de la costeleta

H1= diferencia significativa en el tamaño promedio de la costeleta

 Prueba t de dos colas y 2 muestras

Para un intervalo de confianza del 95% de dos colas, el nivel de significancia es del 5% y el alfa

1. Elemento de lista
2. Elemento de lista

el valor es 0.025

In [None]:
unitA= pd.Series(df["Unit A"])
unitB=pd.Series(df["Unit B"])

In [None]:
stats.ttest_ind(unitA , unitB)

TtestResult(statistic=np.float64(0.7228688704678063), pvalue=np.float64(0.4722394724599501), df=np.float64(68.0))

Scipy.stats.ttest proporciona un valor p de prueba de dos colas, así que acéptelo como está como valor p (0,47) > alfa (0,025) -> **No podemos rechazar la hipótesis nula** debido a la *falta de evidencia*-> No hay diferencias significativas en los tamaños de la costeleta


In [None]:
if stats.ttest_ind(unitA , unitB)[1] < 0.025 :
    print("Rechazamos la hipótesis nula. Hay evidencia suficiente para rechazar la hipótesis nula")

else:
    print("No podemos rechazar la hipótesis nula debido a la falta de evidencia, \nPor lo tanto, no hay una diferencia significativa en el tamaño promedio de las costeletas.")


No podemos rechazar la hipótesis nula debido a la falta de evidencia, 
Por lo tanto, no hay una diferencia significativa en el tamaño promedio de las costeletas.


## Ejemplo 3
Un hospital quiere determinar si existe alguna diferencia en el tiempo de respuesta promedio (TAT) de los informes de los laboratorios en su lista preferida. Recolectaron una muestra aleatoria y registraron TAT para los informes de 4 laboratorios. TAT se define como muestra recolectada para informar el envío. Analice los datos y determine si existe alguna diferencia en el TAT promedio entre los diferentes laboratorios con un nivel de significancia del 5%.

In [None]:
url = 'https://raw.githubusercontent.com/DiploDatos/AnalisisyVisualizacion/master/LabTAT.csv'
df1 = pd.read_csv(url)
df1.head()


Unnamed: 0,Laboratorio 1,Laboratorio 2,Laboratorio 3,Laboratorio 4
0,185.35,165.53,176.7,166.13
1,170.49,185.91,198.45,160.79
2,192.77,194.92,201.23,185.18
3,177.33,183.0,199.61,176.42
4,193.41,169.57,204.63,152.6



***H0***= No hay diferencia significativa en el TAT promedio de los informes de estos 4 laboratorios

***H1***= Al menos uno de estos 4 laboratorios tiene un TAT promedio de informes significativamente diferente al de los demás.


Prueba ANOVA en 4 muestras.

Para un intervalo de confianza del 95% de dos colas, el nivel de significancia es del 5% y el valor alfa es 0,025

In [None]:
stats.f_oneway(df1.iloc[:,0], df1.iloc[:,1],df1.iloc[:,2],df1.iloc[:,3])

F_onewayResult(statistic=np.float64(118.70421654401437), pvalue=np.float64(2.1156708949992414e-57))

In [None]:
if stats.f_oneway(df1.iloc[:,0], df1.iloc[:,1],df1.iloc[:,2],df1.iloc[:,3])[1] > 0.025 :
    print("No pudimos rechazar la hipótesis nula debido a la falta de evidencia. \n No hay diferencias significativas en el TAT promedio de los informes de estos 4 laboratorios. ")

else:
    print("Rechazamos la hipótesis nula. \nAl menos uno de estos 4 laboratorios tiene un TAT promedio de informes significativamente diferente al de los demás.")

Rechazamos la hipótesis nula. 
Al menos uno de estos 4 laboratorios tiene un TAT promedio de informes significativamente diferente al de los demás.


## Ejemplo 4
Se tabulan las ventas de productos en cuatro regiones diferentes para hombres y mujeres. Encuentre si las raciones de compradores masculinos y femeninos son similares en todas las regiones.
* Este: Hombres=50, Mujeres=550;
* Oeste: Hombres=142, Mujeres=351;
* Sur: Hombres=70, Mujeres=350;
* Norte: Hombres=131, Mujeres=480

In [None]:
url = 'https://raw.githubusercontent.com/DiploDatos/AnalisisyVisualizacion/master/BuyerRatio.csv'
df2 = pd.read_csv(url, index_col=0)
df2.head()


Unnamed: 0_level_0,East,West,North,South
Observed Values,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Males,50,142,131,70
Females,435,1523,1356,750


***H0***: las proporciones de compradores entre hombres y mujeres son similares en todas las regiones

***H1***: las proporciones de compradores entre hombres y mujeres tienen diferencias significativas entre regiones

**Prueba de chi-cuadrado**

Para un intervalo de confianza del 95% de dos colas, el nivel de significancia es del 5% y el valor alfa es 0,025

In [None]:
stats.chi2_contingency(df2)

Chi2ContingencyResult(statistic=np.float64(1.595945538661058), pvalue=np.float64(0.6603094907091882), dof=3, expected_freq=array([[  42.76531299,  146.81287862,  131.11756787,   72.30424052],
       [ 442.23468701, 1518.18712138, 1355.88243213,  747.69575948]]))

In [None]:
if stats.chi2_contingency(df2)[1] > 0.025:
    print("No logramos rechazar la hipótesis nula debido a la falta de evidencia. \nNo hay diferencias significativas en las proporciones de compradores entre hombres y mujeres entre regiones.")
else:
     print("Rechazamos la hipótesis nula \nAlmenos una de estas 4 regiones tiene proporciones de compradores entre hombres y mujeres significativamente diferentes")

No logramos rechazar la hipótesis nula debido a la falta de evidencia. 
No hay diferencias significativas en las proporciones de compradores entre hombres y mujeres entre regiones.


## Ejemplo 5
TeleCall utiliza 4 centros en todo el mundo para procesar los formularios de pedido de los clientes. Auditan un determinado porcentaje de los formularios de pedido de los clientes. Cualquier error en el formulario de pedido lo convierte en defectuoso y debe corregirse antes de procesarlo. El responsable quiere comprobar si el % de defectuosos varía según el centro. Analice los datos con un nivel de significancia del 5% y ayude al gerente a sacar las inferencias apropiadas.

In [None]:
url = 'https://raw.githubusercontent.com/DiploDatos/AnalisisyVisualizacion/master/Customer+OrderForm.csv'
df3 = pd.read_csv(url)
df3.head()


Unnamed: 0,Phillippines,Indonesia,Malta,India
0,Error Free,Error Free,Defective,Error Free
1,Error Free,Error Free,Error Free,Defective
2,Error Free,Defective,Defective,Error Free
3,Error Free,Error Free,Error Free,Error Free
4,Error Free,Error Free,Defective,Error Free


In [None]:
country=[]
error=[]

for i in range (0,4):
    for j in range (0,300):
        if df3.iloc[j,i] == "Error Free":
            error.append("Error Free")
            country.append(df3.columns[i])
        elif df3.iloc[j,i]=="Defective":
             error.append("Defective")
             country.append(df3.columns[i])


In [None]:
df4=pd.DataFrame()
df4['country']=country
df4["Error"]=error

In [None]:
defect=pd.crosstab(df4.Error, df4.country)
defect

country,India,Indonesia,Malta,Phillippines
Error,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Defective,20,33,31,29
Error Free,280,267,269,271



H0= No hay diferencia significativa en % de defectuosos entre 4 centros.

H1= diferencia significativa en % de defectuosos entre 4 centros.


Prueba de chi-cuadrado


Para un intervalo de confianza del 95% de dos colas, el nivel de significancia es del 5% y el valor alfa es 0,025

In [None]:
stats.chi2_contingency(defect)

Chi2ContingencyResult(statistic=np.float64(3.858960685820355), pvalue=np.float64(0.2771020991233135), dof=3, expected_freq=array([[ 28.25,  28.25,  28.25,  28.25],
       [271.75, 271.75, 271.75, 271.75]]))

In [None]:
if stats.chi2_contingency(defect)[1] > 0.025:
    print("No logramos rechazar la hipótesis nula debido a la falta de evidencia. \n No hay diferencias significativas en el % de defectos entre 4 centros.")
else:
     print("Rechazamos la hipótesis nula \nAl menos uno de estos 4 centros tiene un % de defectos significativamente diferente ")

No logramos rechazar la hipótesis nula debido a la falta de evidencia. 
 No hay diferencias significativas en el % de defectos entre 4 centros.
