In [1]:
import pandas as pd 
import numpy as np 

from scipy.stats import normaltest
from scipy.stats import norm
from scipy.stats import t as t_student
from scipy.stats import chi
from scipy.stats import wilcoxon
from scipy.stats import mannwhitneyu

from statsmodels.stats.weightstats import ztest
from statsmodels.stats.weightstats import DescrStatsW
from statsmodels.stats.weightstats import CompareMeans

# Teste de hipótese nula Ztest

Um fabricante de farinha afirma que a quantidade média de farinha nas embalagens de seu principal produto é de 500 g. 

Um teste de pesagem em 30 embalagens amostradas ao acaso mostrou um peso médio igual à 485 g. 

Estudos anteriores afirmam que a distribuição dos pesos segue uma normal e que o desvio padrão populacional é igual a 20 g.

 Considerando um nível de significância igual a 5%, responda as seguintes questões:

1) Qual a hipótese nula a ser testada?

2) Qual o valor da estatística de teste?

3) Qual a conclusão do teste?

4) Teste a hipótese nula de que a média do processo é igual a 500 g e marque a alternativa que indica o p-valor do teste aplicado

In [2]:
media = 500
numero_amostras = 30
media_amostra = 485
desvio_padrao_populacional = 20
significancia = 0.05

In [3]:
confianca = 1 - significancia
probabilidade = (0.5 + confianca) / 2
probabilidade

0.725

In [4]:
z_alfa_2 = norm.ppf(probabilidade)
z_alfa_2.round(2)

0.6

In [5]:
zezao = (media_amostra - 500) / (desvio_padrao_populacional/ np.sqrt(numero_amostras))
zezao.round(2)

-4.11

In [6]:
if(zezao <= z_alfa_2):
    print('Reijeitada Hipótese Nula')
else:
    print('Hipótese Nula')

Reijeitada Hipótese Nula


In [7]:
# O valor de Z é absoluto por o seu cálculo tem resultado NEGATIVO
p_valor = 2 * (1 - norm.cdf(abs(zezao)))
p_valor

3.992397476904053e-05

In [8]:
p_valor = 2 * (norm.sf(abs(zezao)))
p_valor

3.992397476901338e-05

In [9]:
if(p_valor <= significancia):
    print('Reijeitada Hipótese Nula')
else:
    print('Hipótese Nula')

Reijeitada Hipótese Nula


<hr>

# Teste de hipótese de Tstudent - distribuição normal

A empresa Limpa Esgoto garante ser capaz de realizar o tratamento de esgoto e obter, no máximo, 150 g de impurezas para cada mil litros de esgoto tratado.

 Vinte amostras de mil litros de esgoto apresentaram, em média, 230 g de impurezas e desvio padrão amostral igual a 90 g.

Assumindo alfa igual a 5% e população normalmente distribuída: 

Seria possível discordar da empresa Limpa Esgoto? 

In [10]:
media = 150
media_amostra = 230
desvio_padrao_amostral = 90
numero_amostras = 20
significancia = 0.05
confianca = 1 - significancia
graus_liberdade = numero_amostras - 1

In [11]:
t_alfa = t_student.ppf(confianca, graus_liberdade)
t_alfa

1.729132811521367

In [12]:
tezao = (media_amostra - media) / (desvio_padrao_amostral / np.sqrt(numero_amostras))
tezao

3.9752319599996264

In [13]:
if(tezao >=  t_alfa):
    print('Rejeitar hipótese nula')
    print('A empresa não obtem no máximo 150g')
else:
    print('Hipótese nula')

Rejeitar hipótese nula
A empresa não obtem no máximo 150g


<hr>

# Teste para duas amostras

A pizzaria Muito Queijo alega que a quantidade de queijo em suas pizzas tamanho família é de, no mínimo, 350 g.

Uma amostra de 35 pizzas tamanho família revelou uma média de 330 g de queijo por pizza. 

O desvio padrão amostral foi de 80 g.

Assumindo alfa igual a 5% e população normalmente distribuída, seria possível discordar da alegação da pizzaria? 

In [14]:
media = 350
numero_amostras = 35
media_amostra = 330
desvio_padrao_amostral = 80
significancia = 0.05
confianca = 1 - significancia
graus_liberdade = numero_amostras - 1

In [15]:
z_alfa = norm.ppf(confianca)
z_alfa.round(3)

1.645

In [16]:
zezao = (media_amostra - media) / (desvio_padrao_amostral / np.sqrt(numero_amostras))
zezao

-1.479019945774904

In [17]:
p_valor = t_student.sf(zezao, numero_amostras)
p_valor

0.9259601676927445

In [18]:
if(zezao >=  z_alfa):
    print('Rejeitar hipótese nula')
else:
    print('Hipótese nula')

Hipótese nula


In [19]:
if(p_valor <= significancia):
    print('Rejeitar hipótese nula')
else:
    print('Hipótese nula')

Hipótese nula


<hr>

# Teste de Chi-quadrado

Um fabricante de cosméticos afirma que:

### Diferença das médias
A adição de um novo composto químico em sua linha de shampoos consegue promover em mais de 2 centímetros o crescimento dos fios de cabelo em um período de 60 dias. 

Duas amostras de pessoas foram selecionadas e testadas, uma utilizando o shampoo novo (com o composto) e a outra com o shampoo antigo (sem o composto).

Os resultados (crescimento dos fios de cabelo em centímetros) podem ser verificados na tabela abaixo.

Assumindo um nível de confiança de 95% e considerando que as populações se distribuem como uma normal, podemos acreditar na afirmação do fabricante do shampoo?

In [20]:
shampoo_novo = pd.Series([3.4, 4.9, 2.8, 5.5, 3.7, 2.5, 4.3, 4.6, 3.7, 3.4])
shampoo_antigo = pd.Series([0.3, 1.2, 1.2, 1.7, 1.1, 0.6, 1.2, 1.5, 0.5, 0.7])

In [21]:
media_novo = shampoo_novo.mean()
media_antigo = shampoo_antigo.mean()
diferencia_medias = 2

desvio_novo = shampoo_novo.std()
desvio_antigo = shampoo_antigo.std()

significancia = 0.05
confiancia = 1 - significancia

amostra_nova = len(shampoo_novo)
amostra_antigo = len(shampoo_antigo)
graus_liberdade = amostra_nova - amostra_antigo - 2

In [22]:
z_alfa = norm.ppf(confianca)
z_alfa.round(4)

1.6449

In [23]:
numerador = media_novo - media_antigo - diferencia_medias
denominador = np.sqrt( (np.square(desvio_novo)/amostra_nova) + (np.square(desvio_antigo)/amostra_antigo) )
zezao = numerador / denominador
zezao.round(4)

2.6646

In [24]:
if(zezao >= z_alfa):
    print('Rejeita-se hipotese nula')
    print('O fabricante tem afirmação verdadeira')
else:
    print('Hipótese nula')

Rejeita-se hipotese nula
O fabricante tem afirmação verdadeira


<hr>

A realização de um teste não paramétrico Qui-quadrado, com apenas 5 graus de liberdade, obteve-se a estatística de teste no valor de 7,45.

Qual seria o p-valor para este teste?


In [25]:
chi_quadrado = 7.45
raiz_chi = np.sqrt(chi_quadrado)
p_valor = chi.sf(raiz_chi, df = 5)
print('p_valor = ' + str(p_valor.round(4)))

p_valor = 0.1893


<hr>

# Teste de Wilcoxon

Desconfiado da eficiência dos cursos e materiais de estudo online da Alura, um professor resolveu realizar um teste com um grupo de 14 alunos de sua classe. 

Para isto, ele submeteu estes alunos a duas etapas distintas e logo depois de cada etapa, aplicou uma avaliação.

Na etapa inicial, foram oferecidas aulas normais, sem a utilização do material de apoio da Alura. 
 
Na segunda etapa, foram também oferecidas aulas normais, mas com a utilização do material de apoio da Alura. 
 
As notas obtidas pelos alunos estão na tabela abaixo:

Assinale a alternativa que apresenta o resultado do teste, não paramétrico de Wilcoxon, aplicado pelo professor (estatística de teste T e decisão do teste). 

Considere um nível de significância de 10%.

In [26]:
alunos = {  'Antes': [7,8,6,6,10,4,2,5,9,2,4,9,1,10],
            'Depois': [10,10,9,9,9,7,5,8,10,6,3,7,4,8]
        }
alunos = pd.DataFrame(alunos)
significancia = 0.1
confiancia = 1 - significancia
amostras = 14

In [27]:
probablidade = 0.5 + (confianca / 2)
z_alfa_2 = norm.ppf(confianca)
z_alfa_2.round(2)

1.64

In [28]:
tezao, p_valor = wilcoxon(alunos.Antes,alunos.Depois)
print(tezao)
print(p_valor)

14.0
0.013427734375


In [29]:
mu_tezao = (amostras * (amostras + 1)) / 4
mu_tezao

52.5

In [30]:
numerador = amostras * (amostras + 1)*(2 * amostras + 1)
denominador = 24
sigma_tezao = np.sqrt(numerador / denominador)
sigma_tezao

15.92953232207399

In [31]:
z_teste = (tezao - mu_tezao) / sigma_tezao
z_teste.round(4)

-2.4169

In [32]:
if (z_teste <= -z_alfa_2):
    print('Rejeita-se hipótese nula')
else:
    print('Hipótese nula')

Rejeita-se hipótese nula


<hr>

# Teste de Mann Whitney

Um professor acredita que alunos que praticam exercícios físicos têm uma performance média escolar superior àquela obtida por alunos que não praticam. 

Para provar sua teoria, selecionou duas amostras aleatórias, uma com 9 alunos que não praticam exercícios físicos e outra com 10 alunos que cultivam o hábito de se exercitar.

A tabela abaixo mostra as notas dos alunos no último ano:

Teste a hipótese da média das notas dos alunos que praticam exercícios ser maior que a média das notas dos alunos que não praticam.
 
Assinale a alternativa que apresenta o resultado do teste (estatística de teste u e decisão do teste).
  
Considere um nível de significância de 10%.

### A ordem aqui faz diferença 
hipótese nula = não há diferença entre as médias

hipotese alternativa = media CE > media SE

In [33]:
alunos = {
    'Sem Exercicio': [7,6,7,8,6,8,6,9,5],
    'Com Exercicio': [8,7,6,6,8,6,10,6,7,8]
}

In [34]:
n_1 = len(alunos['Sem Exercicio'])
n_2 = len(alunos['Com Exercicio'])
significancia = 0.1
confianca = 1 - significancia
graus_liberdade = n_1 + n_2 - 2

In [35]:
t_alfa = t_student.ppf(significancia,graus_liberdade)
t_alfa.round(4)

-1.3334

In [36]:
# Atenção a ordem dos parâmetros
uzao,p_valor = mannwhitneyu(alunos['Com Exercicio'], alunos['Sem Exercicio'], alternative = 'greater')
print(uzao)
print(p_valor)

50.0
0.35118642828565927


In [37]:
if (p_valor <= significancia):
    print('Rejeita-se hipótese nula')
else:
    print('Hipótese nula')

Hipótese nula


<hr>

# Exercício Final

Você é um pesquisador que estuda o mercado de trabalho brasileiro e resolve estudar as diferenças salariais dos trabalhadores dos estados do Rio de Janeiro e de São Paulo. 

Durante sua pesquisa você verifica que, aparentemente, os rendimentos dos trabalhadores no estado do Rio de Janeiro são mais baixos que os rendimentos dos trabalhadores no estado de São Paulo.

Para confirmar esta conclusão realize um teste de hipótese de comparação de médias em cima de duas amostras de trabalhadores dos dois estados.

Siga as seguintes etapas:

- Selecione duas amostras de **500 trabalhadores** para cada um dos dois estados (variável UF) para realizar o teste. Utilize o **parâmetro random_state=101**.
- Considere o **nível de significância de 5%**.
- Teste a hipótese de que a **renda média dos trabalhadores do Rio de Janeiro é menor que a renda média dos trabalhadores de São Paulo**.
<hr>

Código das UFs: 

Rio de Janeiro = 33

São Paulo = 35

In [38]:
dados = pd.read_csv('dados.csv')
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [39]:
cariocas    = dados.query('UF == 33').sample(n = 500, random_state = 101).Renda
paulistas   = dados.query('UF == 35').sample(n = 500, random_state = 101).Renda

In [40]:
significancia = 0.05
confiancia = 1 - significancia
graus_liberdade = len(cariocas) + len(paulistas) - 2

In [41]:
z_alfa = norm.ppf(confianca)
z_alfa.round(4)

1.2816

In [42]:
teste_cariocas = DescrStatsW(cariocas)
teste_paulistas = DescrStatsW(paulistas)
teste = teste_cariocas.get_compare(teste_paulistas)

In [43]:
zezao,p_valor = teste.ztest_ind(alternative = 'smaller', value = 0)
print(zezao)
print(p_valor)

-2.2553182736085575
0.012056679215693415


In [44]:
if(abs(zezao) >= z_alfa):
    print('Rejeita-se hipótese nula')
    print('Há diferença entre as médias')
else:
    print('Hipótese nula')

Rejeita-se hipótese nula
Há diferença entre as médias


In [45]:
teste = CompareMeans(teste_cariocas,teste_paulistas)
zezao,p_valor = teste.ztest_ind(alternative = 'smaller', value = 0)

In [46]:
if(abs(zezao) >= z_alfa):
    print('Rejeita-se hipótese nula')
    print('Há diferença entre as médias')
else:
    print('Hipótese nula')

Rejeita-se hipótese nula
Há diferença entre as médias


In [47]:
if (p_valor <= z_alfa):
    print('Rejeita-se hipótese nula')
    print('Há diferença entre as médias')
else:
    print('Hipótese nula')    

Rejeita-se hipótese nula
Há diferença entre as médias
