<a href="https://colab.research.google.com/github/Rogerio-mack/IMT_CD_2024/blob/main/IMT_ex_Htestes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="ITM">
</head>

<img src="https://maua.br/images/selo-60-anos-maua.svg" width=300, align="right">
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->


# Escolha os testes mais adequados aqui

### **Testes de normalidade**

* Pressupostos: não há
* Foco: Normalidade

> * **Shapiro-Wild**, `shapiro(a)`, *H0 = Normal*

> * **Levene**, `levene(a,b)`, *H0 = Variâncias Iguais*

### **Testes paramétricos**

* Pressupostos: normalidade, continuidade, homocedasticidade
* Foco: Comparação de Médias

> * **ttest**, `ttest_ind(a,b,alternative="two-sided"|"greater"|"less")`, *distribuição t-Student, amostras*

> * **ztest**, `ztest(a,b,alternative="two-sided"|"greater"|"less")`, *distribuição normal, população*

> * **ttest_1samp**, `ttest_1samp(a,valor,alternative="two-sided"|"greater"|"less")`, *uma única amostra*

> * **ttest_rel**, `ttest_rel(a,b,alternative="two-sided"|"greater"|"less")`, *amostras pareadas*

> * **t de Welch**, `ttest_ind(a,b,equal_var=False)`, *variâncias ou amostras de tamanho diferente*


### **Testes não paramétricos**

* Pressupostos: não pressupõe nenhuma distribuição dos dados
* Foco: Comparação de Medianas e Distribuições iguais

> * **Wilcoxon**, `wilcoxon(a,b,alternative="two-sided"|"greater"|"less")`, * amostras têm medianas iguais? amostras de mesmo tamanho.*

> * **Mann-Whitney U**, `mannwhitneyu(a,b,alternative="two-sided"|"greater"|"less")`, *amostras de tamanho diferente, amostras têm distribuições iguais?*

### **Teste $\chi^2$**

* Pressupostos: variáveis categóricas
* Foco: variáveis independentes? (H0)

> * **chisquare**, `chi2_contingency(contingency_table)`, *empregue `pd.crosstab()` para gerar tabelas de contigência. $M \times N$-classes podem ser empregadas.*

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
path = 'https://github.com/Rogerio-mack/IMT_CD_2024/raw/main/data/'


In [None]:
#@markdown gera_df_stats_latex
from IPython.display import display, Latex, HTML
import warnings

def gera_df_stats_latex(df_stats, titulo):

  warnings.filterwarnings('ignore')
  # latex_table = df_stats.style.to_latex(hrules=True)
  latex_table = df_stats.to_latex(index=None)
  # display(Latex(latex_table))

  latex_table = latex_table.replace('tabular','array')
  latex_table = latex_table.replace('toprule','hline')
  latex_table = latex_table.replace('midrule','hline')
  latex_table = latex_table.replace('bottomrule','hline')

  latex_table = '\\textbf{' + titulo + '} \\\\' + latex_table

  warnings.filterwarnings('default')
  return latex_table

# **CASE: Treinamento**

Você está interessado em saber se um treinamento realizado com os funcionários da sua companhia será de fato efetivo para diminuir o tempo de realização de uma determinada tarefa realizada pelos funcionários. Você então coleta 30 amostras do tempo dessa tarefa para os funcionários, antes e depois do treinamento.



In [None]:
df = pd.read_csv(path + 'task_before_after.csv',index_col=0)
df.head()

Unnamed: 0,1,2,3,4,5,6,7,8,9,10,...,21,22,23,24,25,26,27,28,29,30
After Hours,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,...,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0
Before Hours,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,...,0.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0
After Min,14.64,58.02,56.29,3.17,40.72,51.09,48.63,58.78,9.89,29.93,...,5.57,4.28,35.91,51.02,53.69,47.79,53.19,46.22,17.76,13.23
Before Min,13.42,44.2,56.2,6.38,14.6,17.13,21.64,3.23,10.58,51.1,...,56.87,25.22,0.73,4.8,8.86,3.78,45.53,51.1,11.56,21.42


# Q0.

Antes de tudo verifique os pressupostos dos testes paramétricos. Faça gráficos de distribuição e o `qqplot`.

Qual a conclusão dos testes? Que testes devemos **idealmente** aplicar? Paramétricos ou não paramétricos.



# Q1.

Selecione o teste adequado e verifique se o treinamento.

a. Altera o tempo para realização da tarefa

b. De fato, reduz o tempo para realização da tarefa



# Q2.

Verifique as mesmas hipóteses acima, no caso de:

a. O tempo após o treinamento ser apenas 3% maior. As conclusões são as mesmas?

b. Se a amostra não fosse pareada, mas de 30 funcionários quaisquer. Ainda assim teríamos a mesma conclusão? Você pode concluir que o teste não pareado pode concluir que os tempos são menores quando o teste pareado não?

c. As médias antes ou depois têm média estatisticamente iguais a 60min?



# **CASE: Game Analysis**

Um pesquisador está investigando a experiência de usuários em um jogo com diferentes dispositivos. Para isso ele selecionou alguns alunos da Universidade para testar os jogos. Cada jogador responde um questionário prévio com informações do seu perfil, realiza uma ou até 3 jogadas com os dispositivos *Skate*, *Joystick* e *Teclado*. Após as jogadas com cada dispositivo ele responde um questionário padrão de experiência do usuário cujo o resultado já se encontra aqui pré-processado.

In [None]:
df_games = pd.read_csv(path + 'df_games.csv')
df_post_games_Q = pd.read_csv(path + 'df_post_games_Q.csv')
df_pre_games_Q = pd.read_csv(path + 'df_pre_games_Q.csv')

display(df_games.head())
display(df_post_games_Q.head())
display(df_pre_games_Q.head())

Unnamed: 0,RA,pontuacao,tempo_obstaculo,tempo_total,device
0,21505616,2,12.44,12.44,skate
1,21505616,13,42.01,54.45,skate
2,21505616,26,49.09,103.54,skate
3,32143621,0,5.45,5.45,skate
4,32143621,3,13.99,19.44,skate


Unnamed: 0,RA,device,Positive_Experience,Negative_Experience,Tiredness,Returning_to_Reality
0,21505616,joystick,5.0,1.333333,1.0,2.333333
1,21505616,keyboard,4.666667,2.0,1.0,2.333333
2,21505616,skate,3.166667,2.833333,1.0,1.666667
3,23513365,joystick,5.0,1.0,1.0,2.333333
4,23513365,keyboard,5.0,1.0,1.0,2.333333


Unnamed: 0,Carimbo de data/hora,RA,Data de nascimento,Gênero,Frequência que anda de skate,Frequência que usa jogos de computador,Frequência que usa jogos de console (Xbox / Playstation / Wii),Frequência que usa jogos em dispositivos móveis (smartphone e/ou tablet),Gênero de jogo preferido
0,2023-08-21 16:47:52.279,42118816,2003-06-07,Feminino,Nunca,Regularmente (algumas vezes por semana),Regularmente (algumas vezes por semana),Nunca,"Ação e aventura, RPG, Simulação, Corrida, Estr..."
1,2023-08-22 13:49:56.703,42145333,2000-11-26,Masculino,Raramente (algumas vezes por ano),Regularmente (algumas vezes por semana),Raramente (algumas vezes por ano),Regularmente (algumas vezes por semana),"Ação e aventura, RPG, Estratégia"
2,2023-08-22 14:15:17.455,42326321,2004-11-29,Masculino,Nunca,Ocasionalmente (algumas vezes por mês),Raramente (algumas vezes por ano),Raramente (algumas vezes por ano),Esporte
3,2023-08-22 14:40:49.151,32339623,2004-07-13,Masculino,Nunca,Frequente (todos os dias),Regularmente (algumas vezes por semana),Raramente (algumas vezes por ano),"Ação e aventura, RPG, Estratégia, MOBA"
4,2023-08-22 15:08:53.471,42305535,2005-09-09,Masculino,Nunca,Ocasionalmente (algumas vezes por mês),Nunca,Ocasionalmente (algumas vezes por mês),RPG


# Q3.

**Há diferença de pontuação entre homens e mulheres?**

1. Escolha e execute 1 teste paramétrico e 1 não paramétrico mais adequado, selecionando o mais adequado de cada categoria.
2. Produza uma tabela como abaixo, com a análise da pontuação de homes e mulheres para todos e por dispositivos.

### **Há diferença de pontuação entre os devices?**

Por que não posso responder ao mesmo tipo de pergunta para homens e mulheres, para os devices?




<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

# Q4.

**Há diferença na 1a preferência ou na maior de percepção de desafio entre homens e mulheres ao experimentaram o jogo?**

Os usuários, após a experiência com o jogo, também foram convidados a dar a sua preferência e percepção de desafio ao jogo classificando cada dispositivo de 1 (maior preferência e desafio) a 3 (menores).







In [None]:
df_pos_games_Q2 = pd.read_csv(path + 'df_pos_games_Q2.csv')
df_pos_games_Q2.head()

  and should_run_async(code)


Unnamed: 0,date_time,RA,joystick_p,keyboard_p,skate_p,joystick_d,keyboard_d,skate_d
0,2023-08-22 14:12:44.482,42145333,3,2,1,3,3,1
1,2023-08-22 15:05:52.265,32339623,3,2,1,2,3,1
2,2023-08-22 15:26:46.963,42305535,1,2,3,2,1,3
3,2023-08-22 15:47:32.495,42308720,2,3,1,2,3,1
4,2023-09-04 11:45:23.579,32229011,2,1,3,2,3,1


<IPython.core.display.Latex object>