In [28]:
import pandas as pd
import numpy as np
from statsmodels.stats.multicomp import MultiComparison
import matplotlib.pyplot as plt

In [29]:
df = pd.read_excel("../data/dados.xlsx")
df.shape

(176, 7)

In [30]:
# Define variáveis categóricas
cat_vars = ['Já conhecia/conhece nossas lives?',
            'Quantas vezes participou?',
            'Já compartilhou meu conteúdo com amigos?']

num_vars = ['Nota que você daria para nossa iniciativa?',
            'Qual a sua idade? (em anos e apenas números)']

# Cria dummies para análise
df_dummy = pd.get_dummies( df[cat_vars] )
dummy_cols = df_dummy.columns.tolist()

# Cria df com variáveis dummies a originais
df_full = pd.concat( [df,df_dummy], axis=1)

In [33]:
df_full['Qual a sua idade? (em anos e apenas números)'] = ( df_full['Qual a sua idade? (em anos e apenas números)']
                                                            .replace('Bom Jesus dos Perdões ', 27)
                                                            .apply(lambda x: int(x) if not np.isnan(x) else x)
)

In [34]:
df_full

Unnamed: 0,Carimbo de data/hora,Canal que recebeu esse link,Já conhecia/conhece nossas lives?,Quantas vezes participou?,Já compartilhou meu conteúdo com amigos?,Nota que você daria para nossa iniciativa?,Qual a sua idade? (em anos e apenas números),Já conhecia/conhece nossas lives?_Não,Já conhecia/conhece nossas lives?_Sim,Quantas vezes participou?_0,Quantas vezes participou?_1 a 5 (inclusive),Quantas vezes participou?_6 a 10 (inclusive),Quantas vezes participou?_Mais de 10,Já compartilhou meu conteúdo com amigos?_Não,Já compartilhou meu conteúdo com amigos?_Sim
0,2020-11-10 21:06:35.896,Twitch,Sim,Mais de 10,Não,10.0,32.0,0,1,0,0,0,1,1,0
1,2020-11-10 21:06:39.767,Twitch,Sim,Mais de 10,Não,10.0,13.0,0,1,0,0,0,1,1,0
2,2020-11-10 21:06:41.275,Twitch,Sim,Mais de 10,Sim,10.0,55.0,0,1,0,0,0,1,0,1
3,2020-11-10 21:06:43.475,Twitch,Sim,Mais de 10,Sim,10.0,30.0,0,1,0,0,0,1,0,1
4,2020-11-10 21:06:43.721,Twitch,Sim,Mais de 10,Sim,10.0,31.0,0,1,0,0,0,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
171,2020-11-12 02:05:11.419,LinkedIn,Sim,1 a 5 (inclusive),Sim,10.0,27.0,0,1,0,1,0,0,0,1
172,2020-11-12 09:31:56.017,LinkedIn,Não,0,Não,10.0,29.0,1,0,1,0,0,0,1,0
173,2020-11-12 11:00:50.168,Twitter,Sim,6 a 10 (inclusive),Não,10.0,29.0,0,1,0,0,1,0,1,0
174,2020-11-12 15:43:12.359,LinkedIn,Sim,1 a 5 (inclusive),Não,10.0,20.0,0,1,0,1,0,0,1,0


In [49]:
stats_conhece = df_full.groupby(['Canal que recebeu esse link'])['Já conhecia/conhece nossas lives?_Sim'].mean()
print(stats_conhece, "\n\n")

comparacao = MultiComparison(df_full['Já conhecia/conhece nossas lives?_Sim'],
                             df_full['Canal que recebeu esse link'])

tukey = comparacao.tukeyhsd(alpha=0.1)
print(tukey.summary())

Canal que recebeu esse link
Facebook    0.600000
LinkedIn    0.853333
Twitch      0.947368
Twitter     0.888889
WhatsApp    0.862069
Name: Já conhecia/conhece nossas lives?_Sim, dtype: float64 


  Multiple Comparison of Means - Tukey HSD, FWER=0.10  
 group1   group2  meandiff p-adj   lower  upper  reject
-------------------------------------------------------
Facebook LinkedIn   0.2533 0.0923  0.0034 0.5033   True
Facebook   Twitch   0.3474  0.042  0.0421 0.6526   True
Facebook  Twitter   0.2889 0.3095 -0.0838 0.6615  False
Facebook WhatsApp   0.2621 0.0872  0.0061 0.5181   True
LinkedIn   Twitch    0.094 0.8221  -0.133  0.321  False
LinkedIn  Twitter   0.0356    0.9 -0.2762 0.3473  False
LinkedIn WhatsApp   0.0087    0.9 -0.1458 0.1633  False
  Twitch  Twitter  -0.0585    0.9 -0.4161 0.2992  False
  Twitch WhatsApp  -0.0853 0.8908 -0.3189 0.1483  False
 Twitter WhatsApp  -0.0268    0.9 -0.3435 0.2898  False
-------------------------------------------------------


In [50]:
stats_conhece = df_full.groupby(['Canal que recebeu esse link'])['Já compartilhou meu conteúdo com amigos?_Sim'].mean()
print(stats_conhece, "\n\n")

comparacao = MultiComparison(df_full['Já compartilhou meu conteúdo com amigos?_Sim'],
                             df_full['Canal que recebeu esse link'])

tukey = comparacao.tukeyhsd(alpha=0.1)
print(tukey.summary())

Canal que recebeu esse link
Facebook    0.533333
LinkedIn    0.600000
Twitch      0.578947
Twitter     0.555556
WhatsApp    0.741379
Name: Já compartilhou meu conteúdo com amigos?_Sim, dtype: float64 


  Multiple Comparison of Means - Tukey HSD, FWER=0.10  
 group1   group2  meandiff p-adj   lower  upper  reject
-------------------------------------------------------
Facebook LinkedIn   0.0667    0.9 -0.2713 0.4047  False
Facebook   Twitch   0.0456    0.9 -0.3671 0.4584  False
Facebook  Twitter   0.0222    0.9 -0.4816 0.5261  False
Facebook WhatsApp    0.208 0.5609 -0.1381 0.5542  False
LinkedIn   Twitch  -0.0211    0.9  -0.328 0.2859  False
LinkedIn  Twitter  -0.0444    0.9  -0.466 0.3771  False
LinkedIn WhatsApp   0.1414 0.4518 -0.0676 0.3503  False
  Twitch  Twitter  -0.0234    0.9  -0.507 0.4602  False
  Twitch WhatsApp   0.1624 0.6823 -0.1535 0.4783  False
 Twitter WhatsApp   0.1858 0.7944 -0.2423  0.614  False
-------------------------------------------------------


In [51]:
stats_conhece = df_full.groupby(['Canal que recebeu esse link'])['Quantas vezes participou?_Mais de 10'].mean()
print(stats_conhece, "\n\n")

comparacao = MultiComparison(df_full['Quantas vezes participou?_Mais de 10'],
                             df_full['Canal que recebeu esse link'])

tukey = comparacao.tukeyhsd(alpha=0.1)
print(tukey.summary())

Canal que recebeu esse link
Facebook    0.133333
LinkedIn    0.106667
Twitch      0.526316
Twitter     0.333333
WhatsApp    0.051724
Name: Quantas vezes participou?_Mais de 10, dtype: float64 


  Multiple Comparison of Means - Tukey HSD, FWER=0.10   
 group1   group2  meandiff p-adj   lower   upper  reject
--------------------------------------------------------
Facebook LinkedIn  -0.0267    0.9 -0.2571  0.2038  False
Facebook   Twitch    0.393  0.006  0.1115  0.6744   True
Facebook  Twitter      0.2 0.5873 -0.1436  0.5436  False
Facebook WhatsApp  -0.0816    0.9 -0.3176  0.1544  False
LinkedIn   Twitch   0.4196  0.001  0.2104  0.6289   True
LinkedIn  Twitter   0.2267 0.2925 -0.0608  0.5141  False
LinkedIn WhatsApp  -0.0549 0.8621 -0.1974  0.0875  False
  Twitch  Twitter   -0.193 0.5829 -0.5227  0.1367  False
  Twitch WhatsApp  -0.4746  0.001   -0.69 -0.2592   True
 Twitter WhatsApp  -0.2816 0.1226 -0.5735  0.0103  False
--------------------------------------------------------


In [53]:
stats_conhece = df_full.groupby(['Canal que recebeu esse link'])['Nota que você daria para nossa iniciativa?'].mean()
print(stats_conhece, "\n\n")

data = df_full[ ~df_full['Nota que você daria para nossa iniciativa?'].isna()]

comparacao = MultiComparison(data['Nota que você daria para nossa iniciativa?'],
                             data['Canal que recebeu esse link'])

tukey = comparacao.tukeyhsd(alpha=0.1)
print(tukey.summary())

Canal que recebeu esse link
Facebook    9.000000
LinkedIn    9.746667
Twitch      9.736842
Twitter     9.777778
WhatsApp    9.586207
Name: Nota que você daria para nossa iniciativa?, dtype: float64 


  Multiple Comparison of Means - Tukey HSD, FWER=0.10  
 group1   group2  meandiff p-adj   lower  upper  reject
-------------------------------------------------------
Facebook LinkedIn   0.7467 0.1229 -0.0276  1.521  False
Facebook   Twitch   0.7368 0.2949 -0.1999 1.6736  False
Facebook  Twitter   0.7778 0.4398 -0.3585 1.9141  False
Facebook WhatsApp   0.5862 0.3571 -0.2057 1.3781  False
LinkedIn   Twitch  -0.0098    0.9 -0.6929 0.6732  False
LinkedIn  Twitter   0.0311    0.9 -0.9071 0.9693  False
LinkedIn WhatsApp  -0.1605    0.9 -0.6255 0.3046  False
  Twitch  Twitter   0.0409    0.9 -1.0352 1.1171  False
  Twitch WhatsApp  -0.1506    0.9 -0.8536 0.5524  False
 Twitter WhatsApp  -0.1916    0.9 -1.1444 0.7612  False
-------------------------------------------------------


In [55]:
stats_conhece = df_full.groupby(['Canal que recebeu esse link'])['Qual a sua idade? (em anos e apenas números)'].mean()
print(stats_conhece, "\n\n")

data = df_full[~df_full['Qual a sua idade? (em anos e apenas números)'].isna()]

comparacao = MultiComparison(data['Qual a sua idade? (em anos e apenas números)'],
                             data['Canal que recebeu esse link'])

tukey = comparacao.tukeyhsd(alpha=0.1)
print(tukey.summary())

Canal que recebeu esse link
Facebook    30.142857
LinkedIn    34.800000
Twitch      29.105263
Twitter     26.666667
WhatsApp    32.789474
Name: Qual a sua idade? (em anos e apenas números), dtype: float64 


   Multiple Comparison of Means - Tukey HSD, FWER=0.10   
 group1   group2  meandiff p-adj   lower    upper  reject
---------------------------------------------------------
Facebook LinkedIn   4.6571 0.8981  -8.2851 17.5994  False
Facebook   Twitch  -1.0376    0.9 -16.6952 14.6201  False
Facebook  Twitter  -3.4762    0.9  -22.469 15.5166  False
Facebook WhatsApp   2.6466    0.9 -10.6132 15.9064  False
LinkedIn   Twitch  -5.6947 0.7038 -17.1121  5.7227  False
LinkedIn  Twitter  -8.1333  0.676 -23.8152  7.5485  False
LinkedIn WhatsApp  -2.0105    0.9  -9.8219  5.8009  False
  Twitch  Twitter  -2.4386    0.9 -20.4269 15.5498  False
  Twitch WhatsApp   3.6842    0.9  -8.0919 15.4603  False
 Twitter WhatsApp   6.1228 0.8643  -9.8222 22.0678  False
--------------------------------------