In [41]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import mannwhitneyu
from scipy.stats import kruskal

Los datos son sobre un estudio de drogas en el que comparamos las clasificaciones de dolor en cuatro grupos de dosificación diferentes. 

*   Valor 1: 100mg
*   Valor 2: 250mg
*   Valor 3: 500mg
*   Valor 4: 1000mg

A los 38 participantes de este estudio se le administra la droga en alguna de esas cantidades y luego se pide que califique su dolor en una escala del uno al siete donde 1 es poco dolor y 7 es mucho dolor. 


In [2]:
df=pd.read_csv('/content/drugstudy.csv')

In [3]:
df.head()

Unnamed: 0,dose,rating
0,1.0,6.0
1,1.0,4.0
2,1.0,6.0
3,1.0,5.0
4,1.0,4.0


In [4]:
group1=df[df.dose==1.0]
group2=df[df.dose==2.0]
group3=df[df.dose==3.0]
group4=df[df.dose==4.0]

# Comparando los 4 grupos con la prueba Kruskal-Wallis

In [44]:
group1.rating

0     6.0
1     4.0
2     6.0
3     5.0
4     4.0
5     3.0
6     7.0
7     7.0
8     6.0
9     4.0
10    4.0
Name: rating, dtype: float64

In [6]:
stat, p = kruskal(group1, group2, group3, group4)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# Interpretación
alpha = 0.05
if p > alpha:
	print('No rechazamos H0: No hay diferencias significativas entre los grupos.')
else:
	print('Rechazamos H0: Hay diferencias significativas entre los grupos.')

Statistics=298.284, p=0.000
Rechazamos H0: Hay diferencias significativas entre los grupos.


# Comparando los pares de grupos con la prueba Mann-Whitney

Lo que esperamos que pase es que mientras más alta sea la dosis menor dolor tendrá el paciente, así por ejemplo muy probablemente el grupo 4 (que tiene la mayor dosis) tendrá en la variable "rating" valores más pequeños porque los pacientes posiblemente reportarán menor dolor al haber recibido la mayor dosis del medicamento. Pero en las diferentes combinaciones entre estos 4 grupos ( 6 combinaciones) no sabemos muy bien lo que puede pasar, entonces lo que vamos a investigar es si hay diferencia significativa sin importar si se reporta menor o mayor dolor, es decir, que pondremos como hipótesis alternatica "two-sided" que significa que estamos considerando ambas posibilidades pero que al fin y al cabo el que se cumpla cualquiera de ellas quiere decir que hay diferencia significativa que es lo que nos interesa saber. 

In [14]:
# Bonferroni: 6 comparaciones
alpha_new=0.05/6
alpha_new

0.008333333333333333

In [88]:
stat, p = mannwhitneyu(group1.rating, group2.rating,alternative='two-sided')
print('p-value:', p)
if p > alpha_new:
	print('No rechazamos H0: No hay diferencias significativas entre los grupos 1 y 2.')
else:
	print('Rechazamos H0: Hay diferencias significativas entre los grupos 1 y 2.')

p-value: 0.009911377465815045
No rechazamos H0: No hay diferencias significativas entre los grupos 1 y 2.


In [80]:
stat, p = mannwhitneyu(group1.rating, group3.rating,alternative='two-sided')
print('p-value:', p)
if p > alpha_new:
	print('No rechazamos H0: No hay diferencias significativas entre los grupos 1 y 3.')
else:
	print('Rechazamos H0: Hay diferencias significativas entre los grupos 1 y 3.')

p-value: 0.00039457325940790667
Rechazamos H0: Hay diferencias significativas entre los grupos 1 y 3.


In [79]:
stat, p = mannwhitneyu(group1.rating, group4.rating,alternative='two-sided')
print('p-value:', p)
if p > alpha_new:
	print('No rechazamos H0: No hay diferencias significativas entre los grupos 1 y 4.')
else:
	print('Rechazamos H0: Hay diferencias significativas entre los grupos 1 y 4.')

p-value: 0.0010607936166658369
Rechazamos H0: Hay diferencias significativas entre los grupos 1 y 4.


In [78]:
stat, p = mannwhitneyu(group2.rating, group3.rating,alternative='two-sided')
print('p-value:', p)
if p > alpha_new:
	print('No rechazamos H0: No hay diferencias significativas entre los grupos 2 y 3.')
else:
	print('Rechazamos H0: Hay diferencias significativas entre los grupos 2 y 3.')

p-value: 0.07441228142144751
No rechazamos H0: No hay diferencias significativas entre los grupos 2 y 3.


In [77]:
stat, p = mannwhitneyu(group2.rating, group4.rating,alternative='two-sided')
print('p-value:', p)
if p > alpha_new:
	print('No rechazamos H0: No hay diferencias significativas entre los grupos 2 y 4.')
else:
	print('Rechazamos H0: Hay diferencias significativas entre los grupos 2 y 4.')

p-value: 0.09993509549720665
No rechazamos H0: No hay diferencias significativas entre los grupos 2 y 4.


In [76]:
stat, p = mannwhitneyu(group3.rating, group4.rating,alternative='two-sided')
print('p-value:', p)
if p > alpha_new:
	print('No rechazamos H0: No hay diferencias significativas entre los grupos 3 y 4.')
else:
	print('Rechazamos H0: Hay diferencias significativas entre los grupos 3 y 4.')

p-value: 1.0
No rechazamos H0: No hay diferencias significativas entre los grupos 3 y 4.


# Conclusión
Según la prueba de Kruskal-Wallis de comparación de grupos independientes existen diferencias significativas entre los valores reportados de dolor de acuerdo a la dosis recibida del medicamento.

Según las pruebas Mann-Whitney de pares de grupos hay diferencias significativas entre los grupos:


*   1 y 3 (100mg vs 500mg)
*   1 y 4 (100mg vs 1000mg)

El dolor reportado por los pacientes no difiere significativamente entre los grupos que tomaron dosis de 250mg, 500mg y 1000mg.
