## Teste de uma proporção

Taxa de fumantes em uma cidade era 21%. Uma amostra de 100 habitantes encontrou 14 fumantes. A proporção de fumantes da cidade mudou (nível de confiança = 95%)?

In [38]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as stats

H0: p = p0 \
HA: p ≠ p0

In [39]:
stats.binomtest(14, 100, p=0.21, alternative='two-sided')

BinomTestResult(k=14, n=100, alternative='two-sided', statistic=0.14, pvalue=0.10920815720825927)

Conclusão:
Como pValue < 0.05, falhamos em rejeitar a hipótese nula. Portanto, a proporção de fumantes **não** mudou.

Taxa de fumantes em uma cidade era 21%. Uma amostra de 100 habitantes encontrou 14 fumantes. A proporção de fumantes da cidade reduziu? (uma cauda – nível de confiança = 95%).

H0: p >= p0 \
HA: p < p0

In [40]:
stats.binomtest(14, 100, p=0.21, alternative='less')

BinomTestResult(k=14, n=100, alternative='less', statistic=0.14, pvalue=0.05042460221552124)

Conclusão:

Exercício 1 \
Uma empresa realizou uma campanha anti-tabagismo visando diminuir a proporção de seus trabalhadores que são fumantes. Sabe-se que antes da campanha 21% dos trabalhadores se declaravam fumantes. Para verificar se essa porcentagem mudou após a campanha, a empresa coletou informações de 100 funcionários e armazenou o resultado no arquivo Smokers.csv. Realize um teste de hipótese e informe se a proporção de fumantes continua a mesma ou mudou.

In [41]:
df = pd.read_csv('Smokers.csv')
df.head()

Unnamed: 0,Name,Smokers
0,Person 1,No
1,Person 2,No
2,Person 3,No
3,Person 4,Yes
4,Person 5,No


In [42]:
smokers = df.groupby('Smokers').count()
smokers

Unnamed: 0_level_0,Name
Smokers,Unnamed: 1_level_1
No,83
Yes,17


In [43]:
smokersQty = smokers.loc['Yes'].values[0]
smokersQty

17

In [44]:
stats.binomtest(smokersQty, 100, p=0.21)

BinomTestResult(k=17, n=100, alternative='two-sided', statistic=0.17, pvalue=0.3900816892191663)

Conclusão:
Como pValue > 0.05, falhamos em rejeitar a hipótese nula. Portanto, a proporção de fumantes continua a mesma.

Exercício 2 \
Uma estimativa feita por um instituto de pesquisa apontou que 25% das mulheres que frequentam restaurantes numa dada cidade são fumantes. O dono de um restaurante decidiu testar uma amostra de suas clientes para verificar se esta estimativa é correta. Realize o teste de uma proporção com os dados contidos em 'tips.csv' e informe se a estimativa está correta (nível de confiança = 95%).

In [45]:
df = sns.load_dataset('tips')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [46]:
df2 = df[df['sex'] == 'Female']
df2 = df2[['sex', 'smoker']]
df2

Unnamed: 0,sex,smoker
0,Female,No
4,Female,No
11,Female,No
14,Female,No
16,Female,No
...,...,...
226,Female,Yes
229,Female,Yes
238,Female,No
240,Female,Yes


In [47]:
smokers = df2.groupby('smoker').count()
smokers

  smokers = df2.groupby('smoker').count()


Unnamed: 0_level_0,sex
smoker,Unnamed: 1_level_1
Yes,33
No,54


In [48]:
smokersQty = smokers.loc['Yes'].values[0]
smokersQty

33

In [None]:
stats.binomtest(smokersQty, 87, p=0.25) # 87 = total qty

BinomTestResult(k=33, n=87, alternative='two-sided', statistic=0.3793103448275862, pvalue=0.008747732318429487)

Conclusão:

H0 > MF != 25% \
Ha > MF == 25% 

Como pValue < 0.05, rejeitamos a hipotese nula. Portanto, a proporção é diferente de 25%.

Exercício 3 \
Uma empresa afirma que 70% dos seus clientes estão satisfeitos. Pesquisamos 100 clientes e descobrimos que 65 estão satisfeitos. Queremos testar se a verdadeira proporção de clientes satisfeitos é significativamente diferente de 70%. Confiança: 95%.

Apresente a solução: \
a) Em python; \
b) Utilizando a curva normal.

In [50]:
stats.binomtest(65, 100, p=0.7)

BinomTestResult(k=65, n=100, alternative='two-sided', statistic=0.65, pvalue=0.2764284700759687)

Conclusão:

H0: p = p0 \
HA: p ≠ p0

H0 = CS == 70% \
HA = CS ≠ 70%

Como pValue > 0.05, falhamos em rejeitar a hipótese nula. Portanto, a verdadeira proporção de CS **NÃO É** significativamente diferente de 70%.