Um fabricante de cosméticos afirma que a adição de um novo composto químico em sua linha de shampoos consegue promover em mais de 2 centímetros o crescimento dos fios de cabelo em um período de 60 dias. Duas amostras de pessoas foram selecionadas e testadas, uma utilizando o shampoo novo (com o composto) e a outra com o shampoo antigo (sem o composto).

Os resultados (crescimento dos fios de cabelo em centímetros) podem ser verificados na tabela abaixo:

In [3]:
import pandas as pd
import numpy as np

In [4]:
shampoo_Novo = pd.Series([3.4, 4.9, 2.8, 5.5, 3.7, 2.5, 4.3, 4.6, 3.7, 3.4])
shampoo_Antigo = pd.Series([0.3, 1.2, 1.2, 1.7, 1.1, 0.6, 1.2, 1.5, 0.5, 0.7])

Assumindo um nível de confiança de 95% e considerando que as populações se distribuem como uma normal, podemos acreditar na afirmação do fabricante do shampoo? Assinale a alternativa que apresenta a estatística de teste e a decisão correta do teste.

Um pouco mais de teoria: como se trata de um problema um pouco diferente do apresentado em nossa aula, vamos esclarecer alguns pontos para ajudar na solução:

1) Em testes entre duas amostras, quando realizamos a escolha da distribuição amostral adequada (passo 2) e perguntamos se n ≥ 30, temos que considerar que n = n1 + n2, onde n1 é o tamanho da primeira amostra e n2 o tamanho da segunda;

2) Quando n1 + n2 ≥ 30, utilizamos z (normal), e quando n1 + n2 < 30, σ não for conhecido e as populações forem normalmente distribuídas, utilizamos t (t-Student);

3) Quando utilizamos a tabela t de Student, em teste de duas amostras, os graus de liberdade são obtidos da seguinte forma: n1 + n2 - 2;

4) Quando o problema nos pergunta se podemos acreditar na afirmação do fabricante, está nos indicando o que devemos testar, ou seja, a nossa hipótese alternativa (H1), que no caso é:



Onde:

μ1 = Crescimento médio dos cabelos com o uso do novo shampoo
μ2 = Crescimento médio dos cabelos com o uso do shampoo antigo.

In [6]:
media_amostra_NOVO = shampoo_Novo.mean()
media_amostra_NOVO

3.8800000000000003

In [7]:
desvio_padrao_NOVO = shampoo_Novo.std()
desvio_padrao_NOVO

0.9402127418834526

In [8]:
media_amostra_ANTIGO = shampoo_Antigo.mean()
media_amostra_ANTIGO

1.0

In [9]:
desvio_padrao_ANTIGO = shampoo_Antigo.std()
desvio_padrao_ANTIGO

0.4546060565661952

In [17]:
significancia = 0.05
confianca = 1 - significancia
n_NOVO = shampoo_Novo.count()
n_ANTIGO = shampoo_Antigo.count()
corte = 2.0  

In [12]:
# H0 : cresce <= 2 centímetros
# H1 : cresce > 2 centímetros

In [13]:
probabilidade = confianca      # não é bicaldal
probabilidade

0.95

In [22]:
from scipy.stats import t as t_student

In [24]:
graus_de_liberdade = n_NOVO + n_ANTIGO - 2
t_alpha = t_student.ppf(confianca, graus_de_liberdade)
t_alpha.round(4)

1.7341

In [25]:
numerador = (media_amostra_NOVO - media_amostra_ANTIGO) - corte
denominador = np.sqrt((desvio_padrao_NOVO ** 2 / n_NOVO) + (desvio_padrao_ANTIGO ** 2 / n_ANTIGO))
t = numerador / denominador
t

2.6646283978779315

In [26]:
t >= t_alpha    # True, rejeita H0 neste caso   (aceitamos H1)

True

### Conclusão: sim, cresce mais de 2 centímetros.

# OUTRA FORMA

In [27]:
from statsmodels.stats.weightstats import DescrStatsW

shampoo_Novo = pd.Series([3.4, 4.9, 2.8, 5.5, 3.7, 2.5, 4.3, 4.6, 3.7, 3.4])
shampoo_Antigo = pd.Series([0.3, 1.2, 1.2, 1.7, 1.1, 0.6, 1.2, 1.5, 0.5, 0.7])

significancia = 0.05

test_A = DescrStatsW(shampoo_Novo)
test_B = DescrStatsW(shampoo_Antigo)
test = test_A.get_compare(test_B)

t, p_valor, df = test.ttest_ind(alternative='larger', value=2)

print('t =', round(t, 4))
print('p-valor =', round(p_valor, 4))
print('graus de liberdade =', df)

if(p_valor <= significancia):
    print('Rejeitar H0')
else:
    print('Aceitar H0')

t = 2.6646
p-valor = 0.0079
graus de liberdade = 18.0
Rejeitar H0


  import pandas.util.testing as tm
