# Teste de Hipótese 


## Imports

In [1]:
import numpy as np
import scipy.stats as st

## Funções

In [28]:
######################################
def calculo_z(x_barra, u, std, n):
    return (x_barra - u) / (std / (n**0.5))

######################################
def calculo_t(x_barra, u, s, n):
    return (x_barra - u) /( s / (n**0.5))

######################################
def margem_de_erro(z_value, std, n):

    margem_erro = z_value * (std / (n ** 0.5))

    return margem_erro

######################################
def margem_de_erro_t(t, std_amostral, n):
    """ 
    Trata-se da mesma fórmula de margem de erro, mas com notações diferentes.
    """

    margem_erro = t * (std_amostral / (n ** 0.5))

    return margem_erro

######################################
def intervalo_confianca(x, margem_de_erro):
    return round(x - margem_de_erro, 2), round(x + margem_de_erro, 2)

######################################
def func_teste_de_hipoteses(n, u, x, std, confianca, tipo_hipotese, teste):
    """
    tipo_hipotese => ['bilateral', '>', '<']
    teste => 't ou 'z'
    """

    if teste == 't':
        s = std

    # Defina H0 e H1
    H0 = 'H0: u = ' + str(u)
    if tipo_hipotese == 'bilateral':
        H1 = 'H1: u != '+ str(u)
    else:
        H1 = f'H1: u {tipo_hipotese} '+ str(u)

    print('Definindo Hipoteses:')
    print(H0)
    print(H1)

    if tipo_hipotese == 'bilateral':
        alpha = 1 - confianca
        alpha = alpha / 2
        confianca = 1 - alpha
    else:
        alpha = 1 - confianca
    print(f'Confiança: {confianca}')
    print(f'Alpha: {alpha}')


    # Encontrando estatística do teste
    if teste == 't':
        t = calculo_t(x, u, s, n)
        print(f'\nValor de t de teste: {round(t, 2)}')
    else:
        z = calculo_z(x, u, std, n)
        print(f'\nValor de Z de teste: {round(z, 2)}')


    print('_____________')

    ##############################
    ## Decisão pela região crítica
    ##############################

    print('\n>>> Decisão pela região crítica\n')

    if teste == 't':
        graus_de_liberdade = n - 1
        t0 = st.t.ppf(confianca, graus_de_liberdade)
        print('T0 com confiança de', round(confianca, 2),'->', round(t0, 2))
    else:
        # Inputa a probabilidade e ele mostra o Z
        z0 = st.norm.ppf(confianca)
        print('Z0 com confiança de', round(confianca, 2),'->', round(z0, 2))

    # if tipo_hipotese == 'bilateral':
    #   if teste == 't':
    #     if t0 > abs(t):
    #       print(f't0={t0}\nt={t}\nCaiu na região crítica')
    #     else:
    #       print(f't0={t0}\nt={t}\nNão caiu na região crítica')
    #   else:
    #     if abs(z0) > abs(z):
    #       print(f'z0={z0}\nz={z}\nCaiu na região crítica')
    #     else:
    #       print(f'z0={z0}\nz={z}\nNão caiu na região crítica')

    # elif tipo_hipotese == '>':
    #   if teste == 't':
    #     if t0 > t:
    #       print(f't0={t0}\nt={t}\nCaiu na região crítica')
    #     else:
    #       print(f't0={t0}\nt={t}\nNão caiu na região crítica')
    #   else:
    #     if z0 > z:
    #       print(f'z0={z0}\nz={z}\nCaiu na região crítica')
    #     else:
    #       print(f'z0={z0}\nz={z}\nNão caiu na região crítica')

    # elif tipo_hipotese == '<':
    #   if teste == 't':
    #     if t0 < t:
    #       print(f't0={t0}\nt={t}\nCaiu na região crítica')
    #     else:
    #       print(f't0={t0}\nt={t}\nNão caiu na região crítica')
    #   else:
    #     if z0 < z:
    #       print(f'z0={z0}\nz={z}\nCaiu na região crítica')
    #     else:
    #       print(f'z0={z0}\nz={z}\nNão caiu na região crítica')

    print('_____________')


    #######################
    ## Decisão pelo p-valor
    #######################

    print('\n>>> Decisão pelo p-valor\n')

    if teste == 't':
        if t > 0:
            p_value = st.t.sf(t, graus_de_liberdade)
        else:
            p_value = st.t.sf(t * (-1), graus_de_liberdade)
    else:
        if z > 0:
            p_value = st.norm.sf(z)
        else:
            p_value = st.norm.sf(z * (-1))

    if tipo_hipotese == 'bilateral':
        p_value *= 2
        alpha *= 2

    print(f'P Valor do Teste: {round(p_value, 2)}')
    print(f'Valor Alpha: {round(alpha, 2)}')
    print('_____________')

    #########################
    ## Intervalo de Confiânça
    #########################

    print('\n>>> Intervalo de Confiânça\n')

    if teste == 't':
        margem = margem_de_erro_t(t0, s, n)
    else:
        margem = margem_de_erro(z0, std, n)

    #Calculando intervalo de confiança
    intervalo = intervalo_confianca(x, margem)
    print(f'Intervalo de Confiança: {intervalo}')
    print('_____________')

######################################
def func_hipotese_proporcao(p, p_barra, n):
    """
    p é a proporção populacional
    p_barra é a proporção amostral
    n é o tamanho da amostra
    """

    numerador = (p_barra - p)
    denominador = (p*(1-p)) / n

    return numerador / (denominador ** 0.5)

######################################
def func_margem_de_erro_prop(z, p_barra, n):
    temp = (p_barra* (1- p_barra)) / n
    me = z * (temp ** 0.5)
    return me

######################################
def func_intervalo_confianca_prop(p_barra, me):
    return round(p_barra - me, 2), round(p_barra + me, 2)

######################################
def func_teste_de_hipoteses_prop(p, p_barra, n, confianca, tipo_hipotese):
    """
    tipo_hipotese => ['bilateral', '>', '<']
    """

    # Defina H0 e H1
    H0 = 'H0: p = ' + str(p)
    if tipo_hipotese == 'bilateral':
        H1 = 'H1: p != '+ str(p)
    else:
        H1 = f'H1: p {tipo_hipotese} '+ str(p)

    print('Definindo Hipoteses:')
    print(H0)
    print(H1)

    if tipo_hipotese == 'bilateral':
        alpha = 1 - confianca
        alpha = alpha / 2
        confianca = 1 - alpha
    else:
        alpha = 1 - confianca
    print(f'Confiança: {round(confianca, 2)}')
    print(f'Alpha: {round(alpha, 2)}')


    # Encontrando estatística do teste
    z = func_hipotese_proporcao(p, p_barra, n)
    print(f'\nValor de Z de teste: {round(z, 2)}')
    print('_____________')

    ##############################
    ## Decisão pela região crítica
    ##############################

    print('\n>>> Decisão pela região crítica\n')


    # Inputa a probabilidade e ele mostra o Z
    z0 = st.norm.ppf(confianca)
    print('Z0 com confiança de', round(confianca, 2),'->', round(z0, 2))

    print('_____________')

    #######################
    ## Decisão pelo p-valor
    #######################

    print('\n>>> Decisão pelo p-valor\n')

    if z > 0:
        p_value = st.norm.sf(z)
    else:
        p_value = st.norm.sf(z * (-1))

    if tipo_hipotese == 'bilateral':
        p_value *= 2
        alpha *= 2

    print(f'P Valor do Teste: {round(p_value, 2)}')
    print(f'Valor Alpha: {round(alpha, 2)}')
    print('_____________')

    #########################
    ## Intervalo de Confiânça
    #########################

    print('\n>>> Intervalo de Confiânça\n')

    margem = func_margem_de_erro_prop(z0, p_barra, n)

    #Calculando intervalo de confiança
    intervalo = func_intervalo_confianca_prop(p_barra, margem)
    print(f'Intervalo de Confiança: {intervalo}')
    print('_____________')

In [29]:
# def definicao_pela_regiao_critica(x_0, x, teste, tipo_hipotese):
#     if x_0 > x

Tabela T: http://www.epi.uff.br/wp-content/uploads/2015/05/Tabela-T.pdf

Tabela Z: https://ptdocz.com/doc/964070/tabela-da-distribui%C3%A7%C3%A3o-normal-padr%C3%A3o-unicaudal-p-0-%E2%89%A4-z0-%E2%89%A4-z-

## Exercício: Investimento

Um gerente de investimentos deseja saber se os valores de investimento para PF do segmento Top Tier é em média R$50.000.

Para se testar a hipótese de interesse, retirou-se uma amostra de 100 clientes e obteve-se uma **média de R\$50.800** com um **desvio padrão de R\$8.500.**

Com **98% de confiança**, qual o valor investido para os clientes Top Tier?

Em **média pode-se dizer que os clientes investem R$50.000?**

Construa as hipóteses estatísticas e construa a região de aceitação da $H_0$.
 

$H_0 \Rightarrow \mu = R\$ 50.000,00$
<br>
$H_1 \Rightarrow \mu \neq R\$ 50.000,00$
<br>
$n = 100$
<br>
$\bar x = R\$ 50.800,00$
<br>
$\sigma =R\$ 8.500,00$
<br>
$\alpha = 98\% = 0.098$

In [30]:
x_barra = 50800
u = 50000
std = 8500
n = 100
confianca = 0.98

In [31]:
z_value = calculo_z(x_barra=x_barra, u=u, std=std, n=n)
print(f'Estatística de teste: {round(z_value, 2)}')

Estatística de teste: 0.94


In [32]:
func_teste_de_hipoteses(n=n, u=u, x=x_barra, std=std, confianca=confianca, tipo_hipotese='bilateral', teste='z')

Definindo Hipoteses:
H0: u = 50000
H1: u != 50000
Confiança: 0.99
Alpha: 0.010000000000000009

Valor de Z de teste: 0.94
_____________

>>> Decisão pela região crítica

Z0 com confiança de 0.99 -> 2.33
_____________

>>> Decisão pelo p-valor

P Valor do Teste: 0.35
Valor Alpha: 0.02
_____________

>>> Intervalo de Confiânça

Intervalo de Confiança: (48822.6, 52777.4)
_____________


## Exercício extra:

Um processo deveria produzir bancadas com 0,85m. Um engenheiro desconfia que as bancadas são diferentes do especificado. Uma amostra de 8 valores foi coletada e sua média amostral de 0,87m. Sabendo-se que o desvio padrão é de 0,010, teste a hipótese do engenheiro usando um nível de significância de 0,05.

In [33]:
x_barra = 0.87
u = 0.85
std = 0.01
n = 8
confianca = 0.95

func_teste_de_hipoteses(n=n, u=u, x=x_barra, std=std, confianca=confianca, tipo_hipotese='bilateral', teste='z')

Definindo Hipoteses:
H0: u = 0.85
H1: u != 0.85
Confiança: 0.975
Alpha: 0.025000000000000022

Valor de Z de teste: 5.66
_____________

>>> Decisão pela região crítica

Z0 com confiança de 0.97 -> 1.96
_____________

>>> Decisão pelo p-valor

P Valor do Teste: 0.0
Valor Alpha: 0.05
_____________

>>> Intervalo de Confiânça

Intervalo de Confiança: (0.86, 0.88)
_____________


## Outro exercício extra:

Um fabricante afirma que seus suplementos não contém mais do que 30mg de sódio. Uma ammostra de 35 potes possui, em média, 31,4mg de sódio e desvio padrão de 3mg. Sendo  o nível de significância de 5%, os dados refutam ou não a afirmação?

In [34]:
x_barra = 31.4
u = 30
std = 3
n = 10
confianca = 0.95

func_teste_de_hipoteses(n=n, u=u, x=x_barra, std=std, confianca=confianca, tipo_hipotese='>', teste='t')

Definindo Hipoteses:
H0: u = 30
H1: u > 30
Confiança: 0.95
Alpha: 0.050000000000000044

Valor de t de teste: 1.48
_____________

>>> Decisão pela região crítica

T0 com confiança de 0.95 -> 1.83
_____________

>>> Decisão pelo p-valor

P Valor do Teste: 0.09
Valor Alpha: 0.05
_____________

>>> Intervalo de Confiânça

Intervalo de Confiança: (29.66, 33.14)
_____________


## E mais um extra:

A empresa XYZ afirma que a porcentagem de aparelhos defeituosos que ela produz não excede 5%. Uma amostra com 100 aparelhos apresentou 7 com defeitos. Teste a hipótese da empresa usando um nível de significância de 0,01.

In [35]:
p_barra = 0.07
p = 0.05
n = 100
confianca = 0.99

func_teste_de_hipoteses_prop(p=p, p_barra=p_barra, n=n, confianca=confianca, tipo_hipotese='>')

Definindo Hipoteses:
H0: p = 0.05
H1: p > 0.05
Confiança: 0.99
Alpha: 0.01

Valor de Z de teste: 0.92
_____________

>>> Decisão pela região crítica

Z0 com confiança de 0.99 -> 2.33
_____________

>>> Decisão pelo p-valor

P Valor do Teste: 0.18
Valor Alpha: 0.01
_____________

>>> Intervalo de Confiânça

Intervalo de Confiança: (0.01, 0.13)
_____________


## Exercício: Reclamações

Uma empresa deseja saber se o **número médio mensal de reclamações é 8.500 ou inferior a 8.500.** Sabe-se que o **desvio padrão populacional é de 600 reclamações**.

Considere uma **amostra de 350 clientes**.

Na **amostra**, obteve-se um **número médio** mensal de reclamações de **8.400**.

Com confiança de 95%, há evidências de que o número de reclamações é inferior a 8.500?

**Respostas**

(a) Construa as hipóteses do teste.

(b) Identifique o nível de significância do teste.


(c) Calcule o valor da estatística do teste.

(d) Realize a tomada de decisão do teste pela regra do p-valor.

(e) Realize a tomada de decisão pela regra da região crítica.

(f) Realize a tomada de decisão pelo intervalo de confiança.

(g) Com confiança de 95%, há evidências de que o número de reclamações é inferior a 8.500?

##### a)

$H_0: \mu \leq 8500$

$H_1: \mu > 8500$

##### b)

In [36]:
x_barra = 8400
u = 8500
std = 600
n = 350
confianca = 0.95
tipo_hipotese = '>'
teste = 'z'

alpha = 1 - confianca
round(alpha, 2)

0.05

<img src="https://github.com/ViniViniAntunes/capacitacao_DS_2022/blob/main/imagens/escolha_da_distribuicao_amostral.png?raw=true" width="700">

##### c)

In [37]:
z = (x_barra - u) / (std / n**(1/2))
round(z, 2)

-3.12

##### d)

In [38]:
print('\n>>> Decisão pelo p-valor\n')

if z > 0:
    p_value = st.norm.sf(z)
else:
    p_value = st.norm.sf(z * (-1))

if tipo_hipotese == 'bilateral':
    p_value *= 2
    alpha *= 2

print(f'P Valor do Teste: {round(p_value, 2)}')
print(f'Valor Alpha: {round(alpha, 2)}')


>>> Decisão pelo p-valor

P Valor do Teste: 0.0
Valor Alpha: 0.05


##### e)



In [39]:
print('\n>>> Decisão pela região crítica\n')

if teste == 't':
    graus_de_liberdade = n - 1
    t0 = st.t.ppf(confianca, graus_de_liberdade)
    print('T0 com confiança de', round(confianca, 2),'->', round(t0, 2))
    
else:
    # Inputa a probabilidade e ele mostra o Z
    z0 = st.norm.ppf(confianca)
    print('Z0 com confiança de', round(confianca, 2),'->', round(z0, 2))
    
    


>>> Decisão pela região crítica

Z0 com confiança de 0.95 -> 1.64


##### f)

In [40]:
print('\n>>> Intervalo de Confiânça\n')

if teste == 't':
    s = std
    margem = margem_de_erro_t(t0, s, n)
else:
    margem = margem_de_erro(z0, std, n)

#Calculando intervalo de confiança
intervalo = intervalo_confianca(x_barra, margem)
print(f'Intervalo de Confiança: {intervalo}')


>>> Intervalo de Confiânça

Intervalo de Confiança: (8347.25, 8452.75)


##### g)

Não há evidência para rejeitarmos a hipótese nula.

## Exercício: People Analytics

Um gerente de RH que deseja testar se a proporção de funcionários insatisfeitos na empresa é de 12% ou inferior a 12%.

Para se testar a hipótese de interesse, entrevistou-se 50 funcionários e obteve-se uma proporção amostral de 9%. Considerar 99% de confiança.

**Respostas**

(a) Construa as hipóteses do teste.


(b) Calcule o valor da estatística do teste.

(c) Realize a tomada de decisão do teste pela regra do p-valor.

(d) Realize a tomada de decisão pela regra da região crítica.


##### a)

$H_0: p \leq 12\%$

$H_1: p > 12\%$

##### b)

# $$z = \dfrac{\bar p - p}{\sqrt{\frac{p . (1-p)}{n}}}$$

In [41]:
p = 0.12
p_barra = 0.09
n = 50
confianca = 0.99
tipo_hipotese = '<'
# Encontrando estatística do teste
z = func_hipotese_proporcao(p=p, p_barra=p_barra, n=n)
print(f'\nValor de Z de teste: {round(z, 2)}')


Valor de Z de teste: -0.65


##### c)

In [42]:
print('\n>>> Decisão pelo p-valor\n')

if tipo_hipotese == 'bilateral':
    alpha = 1 - confianca
    alpha = alpha / 2
    confianca = 1 - alpha
else:
    alpha = 1 - confianca

print(f'Confiança: {round(confianca, 2)}')
print(f'Alpha: {round(alpha, 2)}')
    
if z > 0:
    p_value = st.norm.sf(z)
else:
    p_value = st.norm.sf(z * (-1))

if tipo_hipotese == 'bilateral':
    p_value *= 2
    alpha *= 2

print(f'P_Valor = {round(p_value, 2)}')


>>> Decisão pelo p-valor

Confiança: 0.99
Alpha: 0.01
P_Valor = 0.26


##### d)

In [43]:
print('\n>>> Decisão pela região crítica\n')

# Inputa a probabilidade e ele mostra o Z
z0 = st.norm.ppf(confianca)
print('Z0 com confiança de', round(confianca, 2),'->', round(z0, 2))


>>> Decisão pela região crítica

Z0 com confiança de 0.99 -> 2.33


## Exercício: Indústria de laticínios

Uma indústria de alimentos gostaria de fazer o lançamento de um novo sabor
de iogurte e gostaria de testar a preferência entre dois sabores. Para isso, a
empresa contou com o apoio de **2.400 voluntários** e chegou-se ao seguinte
resultado: **51,8% dos voluntários preferem o sabor A**, enquanto **48,2% preferem o sabor B.** Considere **95% de confiança.**

Baseado nos valores obtidos, podemos considerar que realmente existe
uma preferência pelo produto A em detrimento do produto B?

**Resposta:** 


$H_0: A \Rightarrow p = 51,8\%$

$H_1: A \Rightarrow  p \neq 51,8\%$

$n = 2400$

$confianca = 95\%$

$\alpha = 1 - confianca$

$\alpha = 0.05$

In [44]:
p = 0.5
p_barra = 0.518
n = 2400
confianca = 0.95
tipo_hipotese = 'bilateral'

func_teste_de_hipoteses_prop(p=p, p_barra=p_barra, n=n, confianca=confianca, tipo_hipotese=tipo_hipotese)

Definindo Hipoteses:
H0: p = 0.5
H1: p != 0.5
Confiança: 0.97
Alpha: 0.03

Valor de Z de teste: 1.76
_____________

>>> Decisão pela região crítica

Z0 com confiança de 0.97 -> 1.96
_____________

>>> Decisão pelo p-valor

P Valor do Teste: 0.08
Valor Alpha: 0.05
_____________

>>> Intervalo de Confiânça

Intervalo de Confiança: (0.5, 0.54)
_____________
