In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from scipy.stats import ttest_ind
import scipy.stats as stats
from statsmodels.stats import proportion
from scipy.stats import norm

### Questão 1
Testes AB são muitos usados para verificar qual de duas versões (A ou B) é melhor, de acordo com algum parâmetro escolhido. O dataset 'website_ab_test.csv' coletou dados de uso de duas versões de uma aplicação (Light Theme e Dark Theme). \
Neste exercício usaremos os seguintes parâmentros:
- Conversion Rate: número de usuários que realizaram uma compra em relação ao número total de usuários da página;
- Click Through Rate: número de cliques recebido divido pelo número de exibições da página.

### Parte A
Realize um teste de hipótese que verifique se a Conversion Rate é a mesma para os dois temas. Faça o teste com confiança de 95%.

H0: μLight = μDark \
Ha: μLight ≠ μDark

In [2]:
df = pd.read_csv('website_ab_test.csv')
df.head()

Unnamed: 0,Theme,Click Through Rate,Conversion Rate,Bounce Rate,Scroll_Depth,Age,Location,Session_Duration,Purchases,Added_to_Cart
0,Light Theme,0.05492,0.282367,0.405085,72.489458,25,Chennai,1535,No,Yes
1,Light Theme,0.113932,0.032973,0.732759,61.858568,19,Pune,303,No,Yes
2,Dark Theme,0.323352,0.178763,0.296543,45.737376,47,Chennai,563,Yes,Yes
3,Light Theme,0.485836,0.325225,0.245001,76.305298,58,Pune,385,Yes,No
4,Light Theme,0.034783,0.196766,0.7651,48.927407,25,New Delhi,1437,No,No


In [3]:
df_light = df[df['Theme'] == 'Light Theme']['Conversion Rate']
df_dark = df[df['Theme'] == 'Dark Theme']['Conversion Rate']

In [None]:
ttest_ind(df_light, df_dark, equal_var=True)

Ttest_indResult(statistic=0.4748494462782632, pvalue=0.6349982678451778)

Como pValue > 0.05, falhamos em rejeitar a hipótese nula. A taxa de conversão é a mesma nos dois temas.

### Parte B
Realize um teste de hipótese que verifique se a Click Through Rate é a mesma para os dois temas. Faça o teste com confiança de 95%.

H0: μLight = μDark \
Ha: μLight ≠ μDark

In [5]:
df_light = df[df['Theme'] == 'Light Theme']['Click Through Rate']
df_dark = df[df['Theme'] == 'Dark Theme']['Click Through Rate']

In [6]:
ttest_ind(df_light, df_dark, equal_var=False)

Ttest_indResult(statistic=-1.9781708664172253, pvalue=0.04818435371010704)

Como pValue < 0.05, portanto rejeitamos a hipótese nula. A Click Through Rate não é mesma para os dois temas.

### Questão 2
Uma pesquisa nacional realizada em 2020 nos EUA apontava que apenas 13% dos postos de trabalho com salário maior ou igual a US$ 100.000 eram ocupados por negros ou afro americanos (Black or African American). Uma amostra dos dados de 174 empregados da empresa Pandora Inc. está disponível no arquivo 'salary.csv'. Utilizando esses dados, realize um teste de hipótese para verificar se a taxa de negros ou afro americanos na empresa Pandora Inc com salário maior ou igual a US$ 100.000 é a mesma da taxa nacional. Faça o teste com 95% de confiança.

H0: p = p0 \
HA: p ≠ p0

In [7]:
df = pd.read_csv('salary.csv')
df.head()

Unnamed: 0,Surname,Name,Age,Gender,Country,Ethnicity,Start_date,Department,Position,Salary
0,Bold,Caroline,63,Female,United States,White,2012-07-02,Executive Office,President & CEO,166400.0
1,Zamora,Jennifer,38,Female,United States,White,2010-04-10,IT/IS,CIO,135200.0
2,Houlihan,Debra,51,Female,United States,White,2014-05-05,Sales,Director of Sales,124800.0
3,Bramante,Elisa,34,Female,United States,Black or African American,2009-01-05,Production,Director of Operations,124800.0
4,Del Bosque,Keyla,38,Female,United States,Black or African American,2012-01-09,Software Engineering,Software Engineer,118809.6


In [8]:
df[(df['Salary']>=100000) & (df['Ethnicity']=='Black or African American')].count()

Surname       12
Name          12
Age           12
Gender        12
Country       12
Ethnicity     12
Start_date    12
Department    12
Position      12
Salary        12
dtype: int64

In [9]:
df[df['Salary']>=100000].count()

Surname       50
Name          50
Age           50
Gender        50
Country       50
Ethnicity     50
Start_date    50
Department    50
Position      50
Salary        50
dtype: int64

In [10]:
stats.binomtest(12, 50, p=0.13, alternative='two-sided')

BinomTestResult(k=12, n=50, alternative='two-sided', statistic=0.24, pvalue=0.03220381682914201)

Resposta: \
Com pValue < 0.05, rejeitamos a hipótese nula. A taxa de empregados da empresa Pandora Inc. não é igual à taxa nacional.

### Questão 3
Uma pediatra quer ver o efeito do consumo de fórmula (leite em pó) no ganho médio de peso mensal (em gramas) dos bebês. Por esse motivo, ela coletou dados de três grupos diferentes. O primeiro grupo é composto por crianças amamentadas exclusivamente (recebe apenas leite materno), o segundo grupo é composto por crianças que são alimentadas apenas com fórmula e o último grupo é composto por crianças amamentadas e com fórmula. Esses dados são os seguintes.

leite_materno = [794.1, 716.9, 993. , 724.7, 760.9, 908.2, 659.3 , 690.8, 768.7, 717.3 , 630.7, 729.5, 714.1, 810.3, 583.5, 679.9, 865.1]

formula = [ 898.8, 881.2, 940.2, 966.2, 957.5, 1061.7, 1046.2, 980.4, 895.6, 919.7, 1074.1, 952.5, 796.3, 859.6, 871.1 , 1047.5, 919.1 , 1160.5, 996.9]

ambos = [976.4, 656.4, 861.2, 706.8, 718.5, 717.1, 759.8, 894.6, 867.6, 805.6, 765.4, 800.3, 789.9, 875.3, 740. , 799.4, 790.3, 795.2 , 823.6, 818.7, 926.8, 791.7, 948.3]

Realize um teste de hipótese e informe se há diferença no peso médio das crianças desses 3 grupos. Nível de cofiança de 95%.

H0: μleite_materno = μformula = μambos \
Ha: Médias não são iguais

In [11]:
leite_materno = [794.1, 716.9, 993. , 724.7, 760.9, 908.2, 659.3 , 690.8, 768.7, 717.3 , 630.7, 729.5, 714.1, 810.3, 583.5, 679.9, 865.1]
formula = [ 898.8, 881.2, 940.2, 966.2, 957.5, 1061.7, 1046.2, 980.4, 895.6, 919.7, 1074.1, 952.5, 796.3, 859.6, 871.1 , 1047.5, 919.1 , 1160.5, 996.9]
ambos = [976.4, 656.4, 861.2, 706.8, 718.5, 717.1, 759.8, 894.6, 867.6, 805.6, 765.4, 800.3, 789.9, 875.3, 740. , 799.4, 790.3, 795.2 , 823.6, 818.7, 926.8, 791.7, 948.3]

In [12]:
stats.f_oneway(leite_materno, formula, ambos)

F_onewayResult(statistic=26.701251857537958, pvalue=7.18623550288582e-09)

Como pValue < 0.05, rejeitamos a hipótese nula. Portanto, há diferença no peso médio das crianças dos 3 grupos.

### Questão 4
Um professor quer usar dois exames em suas aulas no ano que vem. Este ano, ele aplicou os dois exames aos alunos. Ele quer saber se os exames são igualmente difíceis e quer verificar isso observando as diferenças entre as pontuações. Se a diferença média entre as pontuações dos alunos for "próxima o suficiente" de zero, ele chegará a uma conclusão prática de que os exames são igualmente difíceis. As notas dos alunos estão no dataset 'notas.csv'. Assuma que as notas são normalmente distribuídas e realize um teste de hipótese com confianção de 95% que seja capaz de informar ao professor se as provas são igualmente difíceis.

H0: μnota1 = μnota2 \
Ha : μnota1 ≠ μnota2

In [13]:
df = pd.read_csv('notas.csv')
df.head()

Unnamed: 0,Nome,Nota1,Nota2
0,Rui,63,69
1,Nina,65,65
2,Theo,56,62
3,Kate,100,91
4,Pedro,88,78


In [14]:
stats.ttest_rel(df['Nota1'], df['Nota2'])

TtestResult(statistic=-0.7497768853141169, pvalue=0.4649871003972206, df=15)

Como pValue > 0.05, falhamos em rejeitar a hipótese nula. Logo, as médias das duas provas são as mesmas. Portanto, pode-se dizer que as provas são igualmente difíceis.

### Questão 5
Um estudo do ano 2000 encontrou 132 casos de miopia em 400 pessoas examinadas, escolhidas ao acaso. Outro estudo de 2015 encontrou 228 casos em 600 pessoas examinadas. Com base nesses estudos, é correto afirmar que os casos de miopia aumentaram entre 2000 e 2015? Realize o teste com confiança de 95%.

H0: p1 >= p2 \
Ha: p1 < p2

In [15]:
proportion.test_proportions_2indep(132, 400, 228, 600, method='score', alternative='smaller')

<class 'statsmodels.stats.base.HolderTuple'>
statistic = -1.612935987570492
pvalue = 0.053379207816790133
compare = 'diff'
method = 'score'
variance = 0.000960960960960961
alternative = 'smaller'
prop1_null = 0.36
prop2_null = 0.36
tuple = (-1.612935987570492, 0.053379207816790133)
diff = -0.04999999999999999
ratio = 0.868421052631579
odds_ratio = 0.8036135113904164
value = 0

Como pValue > 0.05, falhamos em rejeitar a hipótese nula. Portanto, não podemos afirmar que os casos de miopia aumentaram entre 2000 e 2015.

Veja resolução detalhada em: https://www.khanacademy.org/math/ap-statistics/xfb5d8e68:inference-categorical-proportions/two-sample-z-test-proportions/v/hypothesis-test-for-difference-in-proportions-example

### Questão 6

Uma empresa de desenvolveu um medicamento que supostamente aumenta o QI. É conhecido que o desvio padrão do QI na população em geral é 15 e o valor do QI tem distribuição normal. A empresa testa seu medicamento em 36 pacientes e obtém um QI médio de 97,65. Usando um valor alfa de 0.05, pode-se dizer que este valor de QI é significativamente diferente da média populacional, cujo valor é 100?

H0: μ = 100 \
Ha: μ ≠ 100

In [16]:
z_calc = (97.65 - 100) / (15/np.sqrt(36))
z_calc

-0.9399999999999977

In [17]:
norm.ppf(0.025)

-1.9599639845400545

In [18]:
norm.isf(0.025)

1.9599639845400545

z_calc = -0.94 está entre os valores críticos -1.96 e 1.96. Portanto, falhamos em rejeitar a hipótese nula. O QI médio da amostra é igual ao QI médio da população, portanto o medicamento não altera o valor do QI.