In [2]:
import pandas as pd
import numpy as np
import scipy.stats as ss
import statsmodels.stats.power as smp
from statsmodels.stats.power import TTestIndPower
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
def lista_a_coldf (lista, df, col):
    """Esta funcion toma una lista y la agrega como una nueva columna a un datafram
    lista debe ser lista
    df debe ser dataframe
    col debe ser un string con el nombre de la nueva columna"""
    #Genera columna vacía en el df
    df[col]=0
    #Agrega los valores de la lista en la columna
    for i, valor in enumerate(lista):
        df[col][i]= str(valor)

In [4]:
def hist_groupby_save (df, col, lista_grupos, opc_name=""):
    """ Esta funcion genera un grafico histograma
    utiliza como variable la columna del dataframe, agrupado por la lista de grupos
    df=dataframe
    col=string nombre de columna a usar como variable
    lista grupos= lista con nombres de columnas segun los que se hace el ggroupby
    opc_name: argumento opcional, se agrega al nombre del archivo
    Útil cuando un mismo dataframe es filtrado bajo diferentess condiciones
    y se groupby por los mismos grupos"""
    lista_str=""
    for grupo in lista_grupos:
        lista_str += " "+str(grupo)
    titulo="Histograma FR según" + lista_str
    df.groupby(lista_grupos, as_index=False)[col].plot.hist(alpha=0.7)
    plt.title(titulo)
    plt.xlabel(col)
    plt.legend()
    titulo=titulo.replace(" ","_")
    if opc_name== False:
        plt.savefig(titulo+".png")
    else:
        plt.savefig(titulo+str(opc_name)+".png")
    plt.clf()

In [5]:
#IMPORTO ARCHIVO

path=r'D:/documentos/Beca Doctoral/Cursos/Curso Herramientas de estadistica/15-5-23_20MP6vs20MP6-15-4S_2.xlsx'

fit=pd.read_excel(path,sheet_name="Hoja1")

In [6]:
# Obtengo los factores (correspondientes a las diluciones) utilizados en las condiciones inicial y final

# Para ello creo un dataframe de cada una de las condiciones
# Elijo un ATB y una Réplica al azar. En este paso no analizo los recuentos. Solo obtengo los valores de los factores.

df_Sm_i=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="inicial") & (fit["Replica"]==0)]

df_Sm_f_r1=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==1)]

#Creo listas de los factores utilizados en las condiciones iniciales y finales

lista_fact_i=df_Sm_i["Factor"].unique()
lista_fact_f=df_Sm_f_r1["Factor"].unique()

#print(lista_fact_i,lista_fact_f)

In [7]:
# El paso siguiente es eliminar los outliers dentro de cada uno de los 40 grupos
# 40 grupos = 2 ATB * 4 Diluciones * (1 réplica en condición inicial + 4 réplicas biológicas en condición final)

# Cada grupo contiene las 10 gotas = réplicas técnicas realizadas para esa condición.

# En el momento inicial solo tengo una muestra. La plaqueo en 2 ATB para contar 2 Bacterias distintas.
# La muestra se divide en 4 y se la deja crecer = 4 réplicas biologicas finales.

# Las réplicas biológicas las analizo por separado.

In [8]:
#grupos: ATB, MOMENTO, REPLICA Y DILUCION

#Sm inicial 4 diluciones
df_Sm_i_d0=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[0])]
df_Sm_i_d1=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[1])]
df_Sm_i_d2=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[2])]
df_Sm_i_d3=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[3])]

#Nm inicial 4 diluciones
df_Nm_i_d0=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[0])]
df_Nm_i_d1=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[1])]
df_Nm_i_d2=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[2])]
df_Nm_i_d3=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="inicial") & (fit["Replica"]==0) & (fit["Factor"]==lista_fact_i[3])]

#Sm final réplica bio1 4 diluciones
df_Sm_f_r1_d0=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[0])]
df_Sm_f_r1_d1=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[1])]
df_Sm_f_r1_d2=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[2])]
df_Sm_f_r1_d3=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[3])]

#Sm final réplica bio2 4 diluciones
df_Sm_f_r2_d0=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[0])]
df_Sm_f_r2_d1=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[1])]
df_Sm_f_r2_d2=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[2])]
df_Sm_f_r2_d3=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[3])]

#Sm final réplica bio3 4 diluciones
df_Sm_f_r3_d0=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[0])]
df_Sm_f_r3_d1=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[1])]
df_Sm_f_r3_d2=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[2])]
df_Sm_f_r3_d3=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[3])]

#Sm final réplica bio4 4 diluciones
df_Sm_f_r4_d0=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[0])]
df_Sm_f_r4_d1=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[1])]
df_Sm_f_r4_d2=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[2])]
df_Sm_f_r4_d3=fit[(fit["ATB"]=="Sm400") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[3])]

#Nm final réplica bio1 4 diluciones
df_Nm_f_r1_d0=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[0])]
df_Nm_f_r1_d1=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[1])]
df_Nm_f_r1_d2=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[2])]
df_Nm_f_r1_d3=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==1) & (fit["Factor"]==lista_fact_f[3])]

#Nm final réplica bio2 4 diluciones
df_Nm_f_r2_d0=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[0])]
df_Nm_f_r2_d1=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[1])]
df_Nm_f_r2_d2=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[2])]
df_Nm_f_r2_d3=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==2) & (fit["Factor"]==lista_fact_f[3])]

#Nm final réplica bio3 4 diluciones
df_Nm_f_r3_d0=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[0])]
df_Nm_f_r3_d1=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[1])]
df_Nm_f_r3_d2=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[2])]
df_Nm_f_r3_d3=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==3) & (fit["Factor"]==lista_fact_f[3])]

#Nm final réplica bio1 4 diluciones
df_Nm_f_r4_d0=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[0])]
df_Nm_f_r4_d1=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[1])]
df_Nm_f_r4_d2=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[2])]
df_Nm_f_r4_d3=fit[(fit["ATB"]=="Nm100") & (fit["Momento"]=="final") & (fit["Replica"]==4) & (fit["Factor"]==lista_fact_f[3])]

In [9]:
#Genero una lista con todos los grupos: lista_df
lista_df_Sm_i=[df_Sm_i_d0,df_Sm_i_d1,df_Sm_i_d2,df_Sm_i_d3]
lista_df_Nm_i=[df_Nm_i_d0,df_Nm_i_d1,df_Nm_i_d2,df_Nm_i_d3]

lista_df_Sm_f_r1=[df_Sm_f_r1_d0,df_Sm_f_r1_d1,df_Sm_f_r1_d2,df_Sm_f_r1_d3]
lista_df_Sm_f_r2=[df_Sm_f_r2_d0,df_Sm_f_r2_d1,df_Sm_f_r2_d2,df_Sm_f_r2_d3]
lista_df_Sm_f_r3=[df_Sm_f_r3_d0,df_Sm_f_r3_d1,df_Sm_f_r3_d2,df_Sm_f_r3_d3]
lista_df_Sm_f_r4=[df_Sm_f_r4_d0,df_Sm_f_r4_d1,df_Sm_f_r4_d2,df_Sm_f_r4_d3]

lista_df_Nm_f_r1=[df_Nm_f_r1_d0,df_Nm_f_r1_d1,df_Nm_f_r1_d2,df_Nm_f_r1_d3]
lista_df_Nm_f_r2=[df_Nm_f_r2_d0,df_Nm_f_r2_d1,df_Nm_f_r2_d2,df_Nm_f_r2_d3]
lista_df_Nm_f_r3=[df_Nm_f_r3_d0,df_Nm_f_r3_d1,df_Nm_f_r3_d2,df_Nm_f_r3_d3]
lista_df_Nm_f_r4=[df_Nm_f_r4_d0,df_Nm_f_r4_d1,df_Nm_f_r4_d2,df_Nm_f_r4_d3]

lista_df_i = lista_df_Sm_i + lista_df_Nm_i
lista_df_Sm_f = lista_df_Sm_f_r1 + lista_df_Sm_f_r2 + lista_df_Sm_f_r3 + lista_df_Sm_f_r4
lista_df_Nm_f = lista_df_Nm_f_r1 + lista_df_Nm_f_r2 + lista_df_Nm_f_r3 + lista_df_Nm_f_r4

lista_df= lista_df_i + lista_df_Sm_f + lista_df_Nm_f

In [10]:
#Chequeo largo del df antes de dropear los NaN
len(fit)

400

In [11]:
#Elimino las gotas sin recuento
fit=fit.dropna()

In [12]:
#Chequeo largo del df después de dropear los NaN
len(fit)

358

In [13]:
#Devuelve posiciones de los outliers

# for grupo in lista_df_i:
#     z = np.abs(ss.zscore(grupo["Recuento"]))
#     threshold = 1.9
#     print(np.where(z > threshold))

# for grupo in lista_df_Sm_f:
#     z = np.abs(ss.zscore(grupo["Recuento"]))
#     threshold = 1.9
#     print(np.where(z > threshold))

# for grupo in lista_df_Nm_f:
#     z = np.abs(ss.zscore(grupo["Recuento"]))
#     threshold = 1.9
#     print(np.where(z > threshold))

In [14]:
#Genero Dataframe sin outliers

fit_no_outliers=pd.DataFrame()

for grupo in lista_df:
    z = np.abs(ss.zscore(grupo["Recuento"]))
    threshold = 1.9
    grupo = grupo[(z < threshold)]
    fit_no_outliers=fit_no_outliers.append(grupo)
    
print(len(fit),len(fit_no_outliers))
#Chequeo el largo del df con y sin outliers

358 331


In [15]:
#Genero columna FR (Factor*Recuento) o concentración, este es el dato de interés

fit_no_outliers["FR"]=fit_no_outliers["Factor"]*fit_no_outliers["Recuento"]

#fit_no_outliers.head()

In [16]:
#Genero df_resumen
#Contiene una linea por grupo

#Evaluacion de parametros de centralizacion

#Promedio FR

df_resumen=fit_no_outliers.groupby(["Bacteria","Momento","ATB","Replica","Dilucion","Factor"], as_index=False)["FR"].mean().rename(columns={"FR":"FR Promedio"})

df_resumen=df_resumen.sort_values(["Momento","ATB","Replica","Factor"],ascending=[False,False,True,True]).reset_index(drop = True)
#df_resumen

In [17]:
#Mediana
df_resumen["FR Mediana"]=fit_no_outliers.groupby(["Bacteria","Momento","ATB","Replica","Dilucion","Factor"], as_index=False)["FR"].median().rename(columns={"FR":"FR Mediana"}).sort_values(["Momento","ATB","Replica","Factor"],ascending=[False,False,True,True]).reset_index(drop = True)["FR Mediana"]

In [18]:
#Evaluacion de parametros de dispersion
# Desviación
df_resumen["FR Desviación"]=fit_no_outliers.groupby(["Bacteria","Momento","ATB","Replica","Dilucion","Factor"], as_index=False)["FR"].std().rename(columns={"FR":"FR Desviación"}).sort_values(["Momento","ATB","Replica","Factor"],ascending=[False,False,True,True]).reset_index(drop = True)["FR Desviación"]

In [19]:
#Varianza
df_resumen["FR Varianza"]=fit_no_outliers.groupby(["Bacteria","Momento","ATB","Replica","Dilucion","Factor"], as_index=False)["FR"].var().rename(columns={"FR":"FR Varianza"}).sort_values(["Momento","ATB","Replica","Factor"],ascending=[False,False,True,True]).reset_index(drop = True)["FR Varianza"]

In [20]:
#Rango de valores
#Quantil 75
df_resumen["FR 0.75"]=fit_no_outliers.groupby(["Bacteria","Momento","ATB","Replica","Dilucion","Factor"], as_index=False)["FR"].quantile(0.75).rename(columns={"FR":"FR 0.75"}).sort_values(["Momento","ATB","Replica","Factor"],ascending=[False,False,True,True]).reset_index(drop = True)["FR 0.75"]

#Quantil 25
df_resumen["FR 0.25"]=fit_no_outliers.groupby(["Bacteria","Momento","ATB","Replica","Dilucion","Factor"], as_index=False)["FR"].quantile(0.25).rename(columns={"FR":"FR 0.25"}).sort_values(["Momento","ATB","Replica","Factor"],ascending=[False,False,True,True]).reset_index(drop = True)["FR 0.25"]

#RI
df_resumen["RI"]=df_resumen["FR 0.75"]-df_resumen["FR 0.25"]

In [21]:
# Elimino columnas Quantil 75 y 25, me quedo solo con el rango
df_resumen=df_resumen.drop(["FR 0.75","FR 0.25"], axis=1)

In [22]:
df_resumen["FR Skewness"]=fit_no_outliers.groupby(["Bacteria","Momento","ATB","Replica","Dilucion","Factor"], as_index=False)["FR"].skew().rename(columns={"FR":"FR Skewness"}).sort_values(["Momento","ATB","Replica","Factor"],ascending=[False,False,True,True]).reset_index(drop = True)["FR Skewness"]

In [23]:
#df_resumen

In [24]:
#Grafico FR según ATB y momento
hist_groupby_save (fit_no_outliers, "FR", ["ATB","Momento"])

<Figure size 640x480 with 0 Axes>

In [25]:
#Plot ATB=Nm momento=final, según réplica
hist_groupby_save (fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final")], "FR", ["Bacteria","Momento","ATB","Replica"], opc_name="Nm")

<Figure size 640x480 with 0 Axes>

In [26]:
#Plot ATB=Sm momento=final, según réplica
hist_groupby_save (fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final")], "FR", ["Bacteria","Momento","ATB","Replica"], opc_name="Sm")

<Figure size 640x480 with 0 Axes>

In [27]:
#Plot, momento = incial, según cada ATB
hist_groupby_save (fit_no_outliers[(fit_no_outliers["Momento"]=="inicial")], "FR", ["Bacteria","Momento","ATB","Replica"])

<Figure size 640x480 with 0 Axes>

In [28]:
#Graficos momento =final, segun ATB, para cada réplica
for i in range(4):
    hist_groupby_save(fit_no_outliers[(fit_no_outliers["Replica"]==i+1) & (fit_no_outliers["Momento"]=="final")], "FR", ["Bacteria","Momento","ATB","Replica"], opc_name=i+1)

<Figure size 640x480 with 0 Axes>

In [29]:
#Estimar los intervalos de confianza.

In [30]:
#Grupos basados en tabla sin outliers

#Sm inicial 4 diluciones
df_Sm_i_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[0])]
df_Sm_i_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[1])]
df_Sm_i_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[2])]
df_Sm_i_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[3])]

#Nm inicial 4 diluciones
df_Nm_i_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[0])]
df_Nm_i_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[1])]
df_Nm_i_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[2])]
df_Nm_i_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="inicial") & (fit_no_outliers["Replica"]==0) & (fit_no_outliers["Factor"]==lista_fact_i[3])]

#Sm final répilica1 4 diluciones
df_Sm_f_r1_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Sm_f_r1_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Sm_f_r1_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Sm_f_r1_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

#Sm final répilica2 4 diluciones
df_Sm_f_r2_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Sm_f_r2_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Sm_f_r2_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Sm_f_r2_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

#Sm final répilica3 4 diluciones
df_Sm_f_r3_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Sm_f_r3_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Sm_f_r3_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Sm_f_r3_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

#Sm final répilica4 4 diluciones
df_Sm_f_r4_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Sm_f_r4_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Sm_f_r4_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Sm_f_r4_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Sm400") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

#Nm final répilica1 4 diluciones
df_Nm_f_r1_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Nm_f_r1_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Nm_f_r1_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Nm_f_r1_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==1) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

#Nm final répilica2 4 diluciones
df_Nm_f_r2_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Nm_f_r2_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Nm_f_r2_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Nm_f_r2_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==2) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

#Nm final répilica3 4 diluciones
df_Nm_f_r3_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Nm_f_r3_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Nm_f_r3_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Nm_f_r3_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==3) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

#Nm final répilica1 4 diluciones
df_Nm_f_r4_d0=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[0])]
df_Nm_f_r4_d1=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[1])]
df_Nm_f_r4_d2=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[2])]
df_Nm_f_r4_d3=fit_no_outliers[(fit_no_outliers["ATB"]=="Nm100") & (fit_no_outliers["Momento"]=="final") & (fit_no_outliers["Replica"]==4) & (fit_no_outliers["Factor"]==lista_fact_f[3])]

In [31]:
#Listas basadas en tabla sin outliers
lista_df_Sm_i=[df_Sm_i_d0,df_Sm_i_d1,df_Sm_i_d2,df_Sm_i_d3]
lista_df_Nm_i=[df_Nm_i_d0,df_Nm_i_d1,df_Nm_i_d2,df_Nm_i_d3]

lista_df_Sm_f_r1=[df_Sm_f_r1_d0,df_Sm_f_r1_d1,df_Sm_f_r1_d2,df_Sm_f_r1_d3]
lista_df_Sm_f_r2=[df_Sm_f_r2_d0,df_Sm_f_r2_d1,df_Sm_f_r2_d2,df_Sm_f_r2_d3]
lista_df_Sm_f_r3=[df_Sm_f_r3_d0,df_Sm_f_r3_d1,df_Sm_f_r3_d2,df_Sm_f_r3_d3]
lista_df_Sm_f_r4=[df_Sm_f_r4_d0,df_Sm_f_r4_d1,df_Sm_f_r4_d2,df_Sm_f_r4_d3]

lista_df_Nm_f_r1=[df_Nm_f_r1_d0,df_Nm_f_r1_d1,df_Nm_f_r1_d2,df_Nm_f_r1_d3]
lista_df_Nm_f_r2=[df_Nm_f_r2_d0,df_Nm_f_r2_d1,df_Nm_f_r2_d2,df_Nm_f_r2_d3]
lista_df_Nm_f_r3=[df_Nm_f_r3_d0,df_Nm_f_r3_d1,df_Nm_f_r3_d2,df_Nm_f_r3_d3]
lista_df_Nm_f_r4=[df_Nm_f_r4_d0,df_Nm_f_r4_d1,df_Nm_f_r4_d2,df_Nm_f_r4_d3]

lista_df_i = lista_df_Sm_i + lista_df_Nm_i
lista_df_Sm_f = lista_df_Sm_f_r1 + lista_df_Sm_f_r2 + lista_df_Sm_f_r3 + lista_df_Sm_f_r4
lista_df_Nm_f = lista_df_Nm_f_r1 + lista_df_Nm_f_r2 + lista_df_Nm_f_r3 + lista_df_Nm_f_r4

lista_df= lista_df_i + lista_df_Sm_f + lista_df_Nm_f

In [32]:
# IC 95
#Genero una lista con cada uno de los IC 95 para cada grupo
lista_IC=[]
for grupo in lista_df:
    #Solo grupos con datos
    if len(grupo) > 0:
        lista_IC.append(ss.t.interval(alpha= 0.95, df= len(grupo["FR"]) -1, loc=np.mean(grupo["FR"]), scale=ss.sem(grupo["FR"])))


In [33]:
#Agrego IC95 al df_resumen
lista_a_coldf (lista_IC, df_resumen, "IC 95")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col][i]= str(valor)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [34]:
#Evalúo el tamaño de muestra/cant de gotas necesario dentro de cada gota
#Me quedo con el mayor valor
tam_muest=0
for grupo in lista_df:
    #Solo grupos con datos
    if len(grupo) > 0 :
        effect_size = abs((grupo["FR"].max()-grupo["FR"].min())/grupo["FR"].std())   # diferencia de medias esperada
        alpha = 0.05      # nivel de significancia
        power = 0.8       # potencia
        ratio = 1         # relación entre los tamaños de las muestras
        n = smp.tt_ind_solve_power(effect_size=effect_size, alpha=alpha, power=power, ratio=ratio)
        if n > tam_muest:
            tam_muest = n
print("El tamaño muestral/cantidad de gotas necesaria por grupo es:", round(tam_muest))

El tamaño muestral/cantidad de gotas necesaria por grupo es: 4


In [35]:
# Test de distribución
# En este paso cuento cuántas distribuciones me dan normales y cuantas no
# Al evaluarlo por el normaltest y el shapiro test
cant_normal_nt=0
cant_nonormal_nt=0

cant_normal_st=0
cant_nonormal_st=0

for grupo in lista_df:
    #Solo grupos con datos
    if len(grupo) > 0 :
        if ss.normaltest(grupo["FR"], axis=0, nan_policy='propagate')[1] > 0.05 :
            cant_normal_nt += 1
        if ss.normaltest(grupo["FR"], axis=0, nan_policy='propagate')[1] < 0.05 :
            cant_nonormal_nt += 1
        if ss.shapiro(grupo["FR"])[1] > 0.05 :
             cant_normal_st += 1
        if ss.shapiro(grupo["FR"])[1] < 0.05 :
             cant_nonormal_st += 1
print ("Resultados Normaltest, cant normal: ",cant_normal_nt, "cant no normal:", cant_nonormal_nt)
print ("Resultados Shapirotest, cant normal: ",cant_normal_st, "cant no normal:", cant_nonormal_st)

#Veo que la mayoría de las distribuciones son normales
# Porque pvalue > 0.05 y no rechazo h0



Resultados Normaltest, cant normal:  34 cant no normal: 1
Resultados Shapirotest, cant normal:  32 cant no normal: 3


In [36]:
# Test de distribución
# Genero una lista con los valores del pvalue del normaltest

lista_pvalue_norm=[]

for grupo in lista_df:
    #Solo grupos con datos
    if len(grupo) > 0 :
        lista_pvalue_norm.append(ss.normaltest(grupo["FR"], axis=0, nan_policy='propagate')[1])

In [37]:
#Agrego una columna con los valores del pvalue del test de normalidad al df_resumen
lista_a_coldf (lista_pvalue_norm, df_resumen, "pvalue normalidad")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col][i]= str(valor)


In [38]:
#Exporto el df_resumen como un excel
df_resumen.to_excel("df_resumen.xlsx")

In [39]:
#Genero dataframes para cada una de las réplicas

df_Sm_f_r1=df_Sm_f_r1_d0.append(df_Sm_f_r1_d1.append(df_Sm_f_r1_d2.append(df_Sm_f_r1_d3)))
df_Sm_f_r2=df_Sm_f_r2_d0.append(df_Sm_f_r2_d1.append(df_Sm_f_r2_d2.append(df_Sm_f_r2_d3)))
df_Sm_f_r3=df_Sm_f_r3_d0.append(df_Sm_f_r3_d1.append(df_Sm_f_r3_d2.append(df_Sm_f_r3_d3)))
df_Sm_f_r4=df_Sm_f_r4_d0.append(df_Sm_f_r4_d1.append(df_Sm_f_r4_d2.append(df_Sm_f_r4_d3)))

df_Nm_f_r1=df_Nm_f_r1_d0.append(df_Nm_f_r1_d1.append(df_Nm_f_r1_d2.append(df_Nm_f_r1_d3)))
df_Nm_f_r2=df_Nm_f_r2_d0.append(df_Nm_f_r2_d1.append(df_Nm_f_r2_d2.append(df_Nm_f_r2_d3)))
df_Nm_f_r3=df_Nm_f_r3_d0.append(df_Nm_f_r3_d1.append(df_Nm_f_r3_d2.append(df_Nm_f_r3_d3)))
df_Nm_f_r4=df_Nm_f_r4_d0.append(df_Nm_f_r4_d1.append(df_Nm_f_r4_d2))
# Excluyo f_Nm_f_r4_d3 porque no tiene distribución normal

#Genero listas de los dataframes para cada ATB en el momento final
lista_Sm_f=[df_Sm_f_r1,df_Sm_f_r2,df_Sm_f_r3,df_Sm_f_r4]
lista_Nm_f=[df_Nm_f_r1,df_Nm_f_r2,df_Nm_f_r3,df_Nm_f_r4]

In [40]:
#Este dataframe tendrá los resultados de los tests siguientes

df_hip=pd.DataFrame()

df_hip["Replica"]=[1,2,3,4]

In [41]:
#Levene para evaluar similitud de varianzas

lista_levene_pvalue=[]
#Comparo para réplica a réplica, los 2 ATB
for i in range(4):
    lista_levene_pvalue.append(ss.levene(lista_Sm_f[i]["FR"], lista_Nm_f[i]["FR"], center='median', proportiontocut=0.05)[1])

#Pvalue<0.05, rechazo h0, las varianzas son distinas

In [42]:
lista_a_coldf (lista_levene_pvalue, df_hip, "Levene pvalue")

In [43]:
# Prueba de Welch para comparar medias entre ATB
# Welch es como t-test solo que equal_var=False

lista_welch_pvalue_ATB=[]
#Comparo para réplica a réplica, los 2 ATB
for i in range(4):
    lista_welch_pvalue_ATB.append(ss.ttest_ind(lista_Sm_f[i]["FR"], lista_Nm_f[i]["FR"], axis=0, equal_var=False, nan_policy='propagate')[1])
#Pvalue<0.05, no rechazo h0, las medias son iguales

In [44]:
lista_a_coldf (lista_welch_pvalue_ATB, df_hip, "Welch ATB pvalue")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col][i]= str(valor)


In [45]:
# Prueba de Welch para comparar medias entre Bacterias
# 20MP6= Sm(total)-Nm(plasmido)
# plásmido=Nm
lista_welch_pvalue=[]
#Comparo para réplica a réplica, las 2 Bacterias
for i in range(4):
    mean_Sm = lista_Sm_f[i]["FR"].mean()
    std_Sm = lista_Sm_f[i]["FR"].std()
    count_Sm = lista_Sm_f[i]["FR"].count()
    mean_dif = lista_Nm_f[i]["FR"].mean() - lista_Sm_f[i]["FR"].mean()
    std_dif =  lista_Nm_f[i]["FR"].std() + lista_Sm_f[i]["FR"].std()
    count_dif = lista_Nm_f[i]["FR"].count()
    lista_welch_pvalue.append(ss.ttest_ind_from_stats(mean_Sm, std_Sm, count_Sm, mean_dif, std_dif, count_dif, equal_var=False)[1])

#Pvalue<0.05, rechazo h0, las medias son iguales

In [46]:
lista_a_coldf (lista_welch_pvalue, df_hip, "Welch Bact pvalue")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col][i]= str(valor)


In [47]:
#Evaluar el ajuste de una recta de regresión e interpretar el coeficiente de correlación

In [48]:
# Coeficiente de correlación de Pearson
# Las variables deben tener el mismo largo
# Genero un sampleo de la más grande del tamaño de la más chica
lista_pearson_pvalue=[]
lista_pearson_stat=[]
#Comparo para réplica a réplica, los 2 ATB
for i in range(4):
    n_corto=0
    if len(lista_Sm_f[i]["FR"]) > len(lista_Nm_f[i]["FR"]):
        # Genero un sampleo de la más grande del tamaño de la más chica
        n_corto = len(lista_Nm_f[i]["FR"])
        lista_Sm_f_sample=lista_Sm_f[i].sample(n_corto)
        lista_pearson_pvalue.append(ss.pearsonr(lista_Sm_f_sample["FR"], lista_Nm_f[i]["FR"])[1])
        lista_pearson_stat.append(ss.pearsonr(lista_Sm_f_sample["FR"], lista_Nm_f[i]["FR"])[0])
    else:
    #    len(lista_Sm_f[i]["FR"]) < len(lista_Nm_f[i]["FR"])
        # Genero un sampleo de la más grande del tamaño de la más chica
        n_corto = len(lista_Sm_f[i]["FR"])
        lista_Nm_f_sample=lista_Nm_f[i].sample(n_corto)
        lista_pearson_pvalue.append(ss.pearsonr(lista_Sm_f[i]["FR"], lista_Nm_f_sample["FR"])[1])
        lista_pearson_stat.append(ss.pearsonr(lista_Sm_f[i]["FR"], lista_Nm_f_sample["FR"])[0])
#H0= No correlacionados
#pvalue>0.05 = no rechazo h0 = no correlacionados

In [49]:
lista_a_coldf (lista_pearson_stat, df_hip, "Pearson stat")
lista_a_coldf (lista_pearson_pvalue, df_hip, "Pearson pvalue")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col][i]= str(valor)


In [50]:
df_hip.to_excel("df_hip.xlsx")

In [51]:
#Plot
# Las variables deben tener el mismo largo
# Genero un sampleo de la más grande del tamaño de la más chica
#Comparo para réplica a réplica, los 2 ATB
for i in range(4):
    n_corto=0
    if len(lista_Sm_f[i]["FR"]) > len(lista_Nm_f[i]["FR"]):
        # Genero un sampleo de la más grande del tamaño de la más chica
        n_corto = len(lista_Nm_f[i]["FR"])
        lista_Sm_f_sample=lista_Sm_f[i].sample(n_corto)
        sns.regplot(lista_Sm_f_sample["FR"],lista_Nm_f[i]["FR"])
        plt.title("Replica "+str(i+1))
        plt.savefig("Regresion_lineal_Replica_"+str(i+1)+".png")
        plt.clf()
    else:
    #    len(lista_Sm_f[i]["FR"]) < len(lista_Nm_f[i]["FR"])
        # Genero un sampleo de la más grande del tamaño de la más chica
        n_corto = len(lista_Sm_f[i]["FR"])
        lista_Nm_f_sample=lista_Nm_f[i].sample(n_corto)
        sns.regplot(lista_Sm_f[i]["FR"], lista_Nm_f_sample["FR"])
        plt.title("Replica "+str(i+1))
        plt.savefig("Regresion_lineal_Replica_"+str(i+1)+".png")
        plt.clf()



<Figure size 640x480 with 0 Axes>

In [52]:
### Transformación a datos categóricos

In [53]:
fit_categorico=fit_no_outliers.reset_index()

In [54]:
# Tengo en cuenta el grupo que había dejado afuera pq no tenía distribución normal
df_Nm_f_r4=df_Nm_f_r4_d0.append(df_Nm_f_r4_d1.append(df_Nm_f_r4_d2.append(df_Nm_f_r4_d3)))

#Genero listas de los dataframes para cada ATB en el momento final
lista_Nm_f=[df_Nm_f_r1,df_Nm_f_r2,df_Nm_f_r3,df_Nm_f_r4]

In [55]:
#Genero un dataframe para cada uno de los ATB en el momento inicial
df_Sm_i=df_Sm_i_d0.append(df_Sm_i_d1.append(df_Sm_i_d2.append(df_Sm_i_d3)))
df_Nm_i=df_Nm_i_d0.append(df_Nm_i_d1.append(df_Nm_i_d2.append(df_Nm_i_d3)))

#Genero una lista en la que cada elemento es un dataframe correspondiente a una réplica
# Momento, ATB y réplica determinada (todas las diluciones juntas)
lista_df2=[df_Sm_i,df_Nm_i]+lista_Sm_f+lista_Nm_f

#len(lista_df2)

In [56]:
#Genero una lista con los valores de la nueva variable categorica
lista_cat=[]
for replica in lista_df2:
    for valor in replica["FR"]:
        if valor > replica["FR"].mean():
            lista_cat.append("Alto")
        else:
            lista_cat.append("Bajo")
len(lista_cat)

331

In [57]:
#Agrego los valores de la variable "Categorico" como una columna del df
lista_a_coldf (lista_cat, fit_categorico, "Categorico")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col][i]= str(valor)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [58]:
#fit_categorico.to_excel("df_PRUEBA.xlsx")

In [None]:
# Análisis de dependencia de variables categóricas

In [68]:
cuenta_cat=fit_categorico["Categorico"].value_counts()
sns.barplot(cuenta_cat.index, cuenta_cat.values)
plt.title("Distribución de la variable categórica")
plt.ylabel("Cantidad de ocurrencias")
plt.xlabel("Valor")
plt.savefig("Distribución de la variable categórica.png")
plt.clf()




<Figure size 640x480 with 0 Axes>

In [69]:
cuenta_ATB=fit_categorico["ATB"].value_counts()
sns.barplot(cuenta_ATB.index, cuenta_ATB.values)
plt.title("Distribución de la variable ATB")
plt.ylabel("Cantidad de ocurrencias")
plt.xlabel("Valor")
plt.savefig("Distribución de la variable ATB.png")
plt.clf()



<Figure size 640x480 with 0 Axes>

In [70]:
df_contig = fit_categorico ["Categorico"] + fit_categorico ["ATB"]

In [72]:
a = fit_categorico ["Categorico"] == "Alto"
b = fit_categorico ["ATB"] == "Sm400"

In [73]:
#comparamos los datos en una tabla de contingencia
groups = df_contig.groupby([a,b]).count() 
print (groups)

Categorico  ATB  
False       False    76
            True     97
True        False    75
            True     83
dtype: int64


In [76]:
#Test de comparación de datos cualitativos
print(ss.chisquare(groups, ddof=0, axis=0))

Power_divergenceResult(statistic=3.7311178247734142, pvalue=0.2920005877736896)


In [None]:
#Ho=Sí hay independencia entre las variables (p>0,05)
#H1=No hay independencia entre las variables (p<0,05), o bien las variables son dependientes.

#pvalue=0.3 < 0.05 = H1= las variables son dependientes