In [2]:
import numpy as np
import os
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from scipy.stats import norm #distribuição normal
from numpy import sqrt #função que calcula a raiz quadrada de cada elemento em uma matriz (array)

import warnings
warnings.filterwarnings('ignore')

#### Etapas de hipoteses
###### Existem dois tipos

- H0 = hipotese nula
- H1 = alternativa

- Se aceitar H1 automaticamente recusa H0
- Também há o Valor P, quanto menos for o valor P mais chances de recusar o H0


### Análise de Controle de Qualidade da Empresa Suco Bom

A empresa Suco Bom produz sucos de frutas em embalagens de 500 ml. A produção é quase toda automatizada, mas a máquina de preenchimento pode apresentar desajustes, resultando em embalagens com mais ou menos conteúdo do que o especificado. Volumes abaixo de 500 ml podem levar a perda de vendas e problemas com órgãos fiscalizadores, enquanto volumes acima de 500 ml podem resultar em prejuízos.

O setor de controle de qualidade extrai periodicamente amostras de 50 embalagens para monitorar o processo. Para cada amostra, é realizado um teste de hipóteses com um nível de significância de 5% para avaliar possíveis desajustes no maquinário.

#### Dados da Amostra

- **Tamanho da amostra**: 50 embalagens
- **Média amostral observada**: 503,24 ml
- **Desvio padrão**: 4,48

#### Pergunta

O valor da média amostral é suficientemente maior que 500 ml para rejeitar a hipótese de que a média do processo é de 500 ml ao nível de significância de 5%?


In [3]:
#Hipotese de ser igual, significa um bicaudal com h0 da medias serem iguais
#𝐻0:𝜇=500 igual a 500
#𝐻1:𝜇≠500 diferente de 500
# media pode ser 500 ou diferente
  
u=500 #variavel com valor 500, leve em consideração que é 500Ml de uma garrafa de refrigerante
n =50 #amostra (parte de população)
sig=0.05 # nivel de significancia 5%
        

In [4]:
#calculos estatisticos para hipotese
z_sig_sob2 = norm.ppf(sig/2) # decobrindo valor Z pelo valor de significancia, usando distribuição normal
print(z_sig_sob2)
x=503.24 #media geral da amostra
s=4.48 # desvio padrão
z=(x-u)/(s/sqrt(n)) #usando calculo da normal
z

-1.9599639845400545


5.113897256795581

In [5]:
#tabelas
area=norm.cdf(z)
#area sob a curva
print(area)#printando area
pvalor=2*(1-area) #pvalor para identificar pra ver se rejeita ou não a hipotese nula
print(pvalor)
if (pvalor <= sig):
    print('Rejeita h0')
else:
    print('Aceita h0')

#Rejeitar  𝐻0  se o valor  𝑝≤𝛼
#aceita a hipotese que as embalagens estão diferentes de 500ml

0.9999998422104751
3.155790497810784e-07
Rejeita h0


In [6]:
# Configuração de seed para reprodutibilidade
np.random.seed(42)

In [15]:
# Gerando dados de dados
n = 10000
x = np.random.normal(0, 1, (n,2))
c = 1+3*x[:,0]
y = np.random.binomial(1, 1/(1+np.exp(-c)), n)


In [16]:
# Criação e treinamento do modelo de regressão logística
model = LogisticRegression(solver='lbfgs', n_jobs=os.cpu_count())
model.fit(x, y)

In [17]:
# Geração de dados de teste
x_test = np.random.normal(0, 1, (n, 2))
c_test = 1 + 3 * x_test[:, 0]
p_test = 1 / (1 + np.exp(-c_test))
y_test = np.random.binomial(1, p_test, n)


In [18]:
# Avaliando do modelo no conjunto de treinamento
y_pred_train = model.predict(x)
print("Acuracia do treino:", accuracy_score(y_pred_train, y))

Acuracia do treino: 0.8449


In [19]:
# Avaliação do modelo no conjunto de teste
y_pred_test = model.predict(x_test)
print("Acuracia do teste:", accuracy_score(y_pred_test, y_test))


Acuracia do teste: 0.8383


In [20]:
# Matriz de confusão
cm = confusion_matrix(y_test, y_pred_test)
print("Confusion matrix:")
print(cm)
tn, fp, fn, tp = cm.ravel()
print("Rate do erro I: {:.5f}".format(fp / (fp + tn)))
print("Rate do erro II: {:.5f}".format(fn / (fn + tp)))

Confusion matrix:
[[2974  909]
 [ 708 5409]]
Rate do erro I: 0.23410
Rate do erro II: 0.11574
