In [143]:
# imports
import pandas as pd
import numpy as np
import scipy.stats as stats

In [144]:
# helpers
def print_statistic_values(statistic, p_value, round_by=4):
    print("Valor estatistica de teste", round(statistic, round_by))
    print("Valor de prova", round(p_value, round_by))

## 1

In [145]:
# 1. Data
sample = [30, 30, 30, 30, 31, 32, 32, 32, 32, 33, 33, 34, 34, 34, 35]
mu = 32.5
alfa = 0.05

In [146]:
# Estatistica para normal
# 1. Hard way
n = len(sample)  # sample size
xbar = np.mean(sample)  # media da amostra
sbar = np.std(sample, ddof=1)  # desvio padrao da amostra
to = (xbar - mu) / (sbar / np.sqrt(n))
print("Statistic value", round(to, 4))

Statistic value -0.843


In [147]:
# 1. Easy way
statistic, p_value = stats.ttest_1samp(sample, popmean=mu, alternative='two-sided')
print_statistic_values(statistic, p_value)
# print("Valor estatistica de teste", round(statistic, 4))
# print("Valor de prova", round(p_value, 4))

# Como valor de prova é maior que o nivel de significancia (alfa = 0.05) não rejeitamos H0

Valor estatistica de teste -0.843
Valor de prova 0.4134


## 2

In [148]:
# 2. Data
sample = [5, 4, 4, 5, 5, 5, 6, 5, 4, 4, 3, 4, 4, 5, 5, 7, 6, 5, 6, 4, 6, 5, 5, 6, 6, 6, 4, 4, 5, 5, 5, 3, 6, 3, 6, 5]
alfa = 1  # 0.01
mu = 5

In [149]:
# a)
# Tete unilateral a direita
# H0 : u = 5 vs H1 : u > 5

In [150]:
# b)
n = len(sample)
t0 = (np.mean(sample) - mu) / (np.std(sample, ddof=1) / np.sqrt(n))
print("Valor estatistica teste ", round(t0, 5))

Valor estatistica teste  -0.68086


In [151]:
# c)
statistic, p_value = stats.ttest_1samp(sample, popmean=mu, alternative='greater')
print_statistic_values(statistic, p_value, 5)
# print("Valor da estatistica de teste: ", round(statistic, 5))
# print("Valor da prova: ", round(p_value, 5))

# O p-value é maior que o nivel de significancia (a=0.01) logo nao ha motivos para se rejeitar H=. Ou seja, nao ha evidencia
# estatiscia com um nivel de significancia de 1%, que o tempo media de entrega foi superior a 5 dias.

Valor estatistica de teste -0.68086
Valor de prova 0.74978


## 3

In [152]:
# 3. Data
com_fio = [2300, 2000, 1800, 2000, 2400, 2200, 2000, 1800, 1900, 2100, 2200, 2400]
sem_fio = [2400, 2200, 1800, 1900, 1800, 1900, 2100, 2050, 2200, 2000, 1900, 2000]

In [153]:
# a) as amostras sao independentes

In [154]:
# b) 
_, p_value = stats.levene(com_fio, sem_fio)
print("P value ", round(p_value, 5))

# O valor de prova é superior ao indice de significancia consiserando 0.01 logo nao se deve rejeitar a hipotese nula do teste de levene. Ou seja, devemos considerar que as viriancias sao iguais.

P value  0.42271


In [155]:
_, p_value = stats.ttest_ind(com_fio, sem_fio, equal_var=True)
print("P value ", round(p_value, 5))

# Conclusao
# O valor de Prova (0.38597) é superior ao nivel de significancia (0.01), logo nao se rejeita a hipotese nula. Ou seja, nao ha evidencia estatistica, com nivel de significancia de 0.01 de que as velocidade media dos ratos sem fios sejam diferentes das velocidade media dos ratos com fios.

P value  0.38597


## 4

In [156]:
# 4. Data
sample = [263, 254, 261, 236, 228, 253, 249, 262, 250, 252, 257, 258]

In [157]:
# 4. a)
_, p_value = stats.ttest_1samp(sample, popmean=255, alternative='greater')
print("Valor de prova", round(p_value, 5))

# O valor de prova é superior ao nivel (0.05) de significancia, nao se rejeita a hipotese nula.

Valor de prova 0.83454


In [158]:
# b)
mean = 255
std_amostral = np.std(sample, ddof=1)
prob = 1 - 0.95
xr = stats.norm.ppf(prob, loc=mean, scale=std_amostral)
print("Valor caracteristico da tensao de rotura ", round(xr, 4))

Valor caracteristico da tensao de rotura  237.7279


## 5

In [168]:
# .5 
df = pd.read_csv("Data_C.csv")
placebo_sample = df["DO"]
new_med_sample = df["D60"]
# maybe tolist() will be needed
# placebo_sample = df["DO"].tolist()
# new_med_sample = df["D60"].tolist()

_, p_value = stats.ttest_rel(new_med_sample, placebo_sample, alternative='greater')
print("P value ", round(p_value, 4))
print("Como valor de prova inferior ao nivel de significancia, rejeitamos a hipotese nula, ha evidencia estatistica que o novo medicamento melhora a atencao das crianças")

P value  0.0019
Como valor de prova inferior ao nivel de significancia, rejeitamos a hipotese nula, ha evidencia estatistica que o novo medicamento melhora a atencao das crianças


In [173]:
# .6
df = pd.read_csv("Data_A.csv")
group_1 = df["Grupo_1"]
group_2 = df["Grupo_2"]

_, p_value = stats.levene(group_1, group_2)
print("P value ", round(p_value, 5))

print("Como valor de prova > 0.05, assumimos variancias iguais\n")

_, p_value = stats.ttest_ind(group_1, group_2, alternative='less', equal_var=True)
print("P value ", round(p_value, 5))
# Valor de prova é superior ao nivel de significancia escolhido (0.05), logo nao se rejeita a hipotese nula. Ou seja, nao ha evidencia estatistica com nivel de significancia de 0.05 de que o segundo metodo de estudo é melhor.

P value  0.73943
Como valor de prova > 0.05, assumimos variancias iguais

P value  0.45265
