# Atividade 1 - Teste de Hipótese para uma amostra

Fazer o teste de Hipótese para o problema abaixo

A quantidade de calorias de um produto (v.a. X) é tal que $X \sim N(\mu, \sigma^2)$
).<br>Onde: <br>
$\mu$ = média populacional e <br>
$\sigma^2$ = variância populacional.<br>
Para a indústria, $\mu = 31$, mas para a Agência Reguladora $\mu \neq 31$. Para avaliar quem está com a razão foi tirada uma amostra de tamanho $25$ desse produto, cujos valores são apresentados no arquivo ```Amostras-Industria.csv``` (publicado no classroom).


1. Formule as Hipótese $H_0$:  e $H_1$:
2. Defina o nível de significância $\alpha = 1 - \text{IC}$, onde $\text{IC}$ é o intervalo de confiança. (Ex.: para um intervalo de confiança de $95\%$, $\alpha = 5\% = 0.05$.
3. Realize o procedimento abaixo e tire sua conclusão.

## 1.1 Formulação da hipótese nula e da hipótese alternativa

$H_0: \mu = 31$ \
$H_1: \mu \neq 31$

Portanto, estamos interessados no teste t de Students, para uma amostra, bicaudal

## 1.2 Importando os módulos necessários

In [39]:
import pandas as pd
import math
from scipy import stats as st

## 1.3 Definindo a função para o cálculo do teste t

$$
t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
$$\
onde\
$\bar{x}$ é a média amostral\
$\mu_0$ é a média populacional\
$s$ é o desvio padrão\
$n$ e o número de observações

In [28]:
def t_test(mu_0, n, xbar, sd):
    return (xbar - mu_0) / (sd / math.sqrt(n))

## 1.4 Carregando os dados

In [29]:
df=pd.read_csv("../dados/dados_brutos/Amostras-Industria.csv", usecols=['Cal'])

In [30]:
df.head(3)

Unnamed: 0,Cal
0,30.55
1,29.88
2,28.95


## 1.5 Definindo as variáveis

$t_c = 2.064$, t crítico, obtido na tabela para $\alpha = 0.05$ e $\text{df} = n - 1 = 25 - 1 = 24$, considerando a tabela para duas caudas.

In [31]:
mu_0 = 31 # Média de calorias alegada pela industria
n = len(df['Cal']) # nº de observações
t_critico = 2.064 # t crítico bicaudal obtido na tabela t de student para
                    # alfa = 0.05 = 5%
xbar = df['Cal'].mean() # média da amostra [g]
sd = df['Cal'].std() # desvio padrão [g]

## 1.6 Cálculo do valor de t

In [32]:
t = t_test( mu_0, n, xbar, sd)

print(f"Valor de t: {t}")

Valor de t: 2.6999430318030373


## 1.7 Discutindo os resultados

Como $ t > t_c$ ou $t < -tc$, está fora do intervalo de aceitação de $H_0$, rejeitamos a hipótese nula. Portanto, a média das calorias é diferente de 31

# Atividade 2 - Repita o proceimento anterior para o problema abaixo:

Segundo os jornais, no Brasil  o número médio de linhas de celular por habitante  é  dois ($\mu=2$). Você gostaria de verificar se essa média  se repete na comunidade escolar de uma universidade com 5000 estudantes. Para isso vc fez um experimento. Coletou informações sobre o número de linhas   de uma amostra com 30 estudante. Agora vc deseja saber com, sigficância de 2%

## 2.1 Criando o Data Set

Com a biblioteca Pandas



In [40]:
# Criando o DataSet da comunidade Universitária
Estudantes=pd.DataFrame({"X":st.binom.rvs(4, 0.5, size=5000)})
Estudantes.head(10)

Unnamed: 0,X
0,1
1,3
2,2
3,1
4,2
5,3
6,1
7,3
8,3
9,1


## 2.2 Selecionando uma amostra

Amostra com 30 indivíduos e seleção sem reposição

In [43]:
# extraíndo uma amostra aleatória simples
amostra=Estudantes.sample(30,replace=False,)
amostra.head(3)

Unnamed: 0,X
28,3
2311,1
3746,2


In [50]:
amostra.to_csv('../dados/amostra_universitarios.csv', index=False)

## 2.3 Executando o teste de Hipotese

Fazer o teste de Hipótese para a significância solicitada (2%)

### Definindo a hipótese nula e a hipótese alternativa
$H_0: \mu = 2$ \
$H_1: \mu \neq 2$

Portanto, estamos interessados no teste t de Students, para uma amostra, bicaudal


### Definições dos valores

In [44]:
mu_0 = 2 # Média do número de celulares da população
n = len(amostra['X']) # nº de observações
t_critico = 2.462 # t crítico bicaudal obtido na tabela t de student para
                    # alfa = 0.02 = 2%
xbar = amostra['X'].mean() # média da amostra [g]
sd = amostra['X'].std() # desvio padrão [g]

### Cálculo do teste t

In [49]:
t = t_test(mu_0, n, xbar, sd)
print(f"Valor de t: {t}")

Valor de t: -1.5108933892962941


In [52]:
max(t,-t_critico)

-1.5108933892962941

## 2.4 Qual foi sua conclusão?

A média da comunidade universitária  é igual à brasileira?

### Discussão
Como o valor de $t > -t_c$, aceitamos a hipótese nula e, portanto, a média da comunidade universitária é igual a média da comunidade brasileira

# Atividade 3

Teste de hipótese  A/B

Controle/Tratamento

##3.1 Carregar o Data Set

Fazer Upload do Arquivo: BaseTeste_A_B.csv

## 3.2 Criar Data Frame com as duas Variáveis

Controle e teste

In [None]:
grupos=pd.read_csv("Baseteste_A_B.csv")
grupos.head(10)

## 3.3 Aplicando o teste de hipótese

Controle e teste são os dois grupos a serem comparados

In [None]:
res= st.ttest_ind(grupos["Controle"],grupos["teste"])



## 3.4 Tirando as conclusões
Houve diferença entre os dois grupos??

Controle e teste