## PCC103 Métodos Científicos - Exercício Teste T de Student
Aluno: Marco Aurélio Moura Suriani

In [1]:
# Bibliotecas
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats, special

## 0) Dados para testes

Serão criadas duas variáveis:
1. **Variável x1:** tipo contínua com distribuição normal, $\mu$ = 10.0, $\sigma$ = 2.0, e n = 15 amostras
 * `random.seed(1)` permite que sempre retorne os mesmos resultados
 
2. **Variável x2:** tipo contínua com distribuição normal, $\mu$ = 8.0, $\sigma$ = 2.0, e n = 12 amostras
 * `random.seed(2)` permite que sempre retorne os mesmos resultados

In [2]:
np.random.seed(1)
x1 = np.random.normal(10.0, 2.0, 15)

print("x1:")
print(x1)

np.random.seed(2)
x2 = np.random.normal(8.0, 2.0, 12)

print("\nx2:")
print(x2)

x1:
[13.24869073  8.77648717  8.9436565   7.85406276 11.73081526  5.39692261
 13.48962353  8.4775862  10.63807819  9.50125925 12.92421587  5.87971858
  9.35516559  9.23189129 12.26753888]

x2:
[ 7.16648431  7.88746635  3.72760781 11.28054162  4.41312883  6.31650527
  9.00576283  5.50942383  5.88409556  6.18198477  9.10290809 12.58441603]


## 1) Funções de Média, Desvio Padrão e da Distribuição t-Student

* Funções estatísticas: `my_mean`, `my_variance` e `my_std_dev`
* Funções t-Student: `my_t_distribution_pdf`, `my_t_distribution_cdf` e `my_t_distribution_cdf2`
* Funções reaproveitadas dos exercícios anteriores

In [3]:
def my_mean(data):
    return sum(data)/len(data)

def my_variance(data):
    xb = sum(data)/len(data)
    return sum([(xi - xb)**2 for xi in data])/(len(data)-1) 

def my_std_dev(data):
    xb = sum(data)/len(data)
    return np.sqrt( sum([(xi - xb)**2 for xi in data])/(len(data)-1) )

def my_t_distribution_pdf(x, v):    
    return pow(1 + (x**2/v), (v+1)/(-2)) * special.gamma((v+1)/2) / (np.sqrt(np.pi * v) * special.gamma(v/2) )

def my_t_distribution_cdf(x, v): 
    aux = special.hyp2f1(0.5, (v+1)/2, 1.5, x**2/(-v)) / (np.sqrt(np.pi * v) * special.gamma(v/2) )
    return 0.5 + x*special.gamma((v+1)/2) * aux

def my_t_distribution_cdf2(x1, x2, v): 
    return my_t_distribution_cdf(x2, v) - my_t_distribution_cdf(x1, v)

## 2) Teste t-Student

* Função `my_t_distribution_test`
* Calcula o o valor de teste T e o valor p para diferença entre amostras
* Usa função prévias como auxílio: `my_mean`, `my_variance` e `my_t_distribution_cdf`

In [4]:
def my_t_distribution_test(x1, x2): 
    xb1, s21 = my_mean(x1), my_variance(x1)
    xb2, s22 = my_mean(x2), my_variance(x2)
    n = len(x1) + len(x2) - 2
    
    T = (xb1 - xb2)/np.sqrt((s21 + s22)/n)
    
    return T, my_t_distribution_cdf(-T, n) + (1 - my_t_distribution_cdf(T, n))

In [5]:
# Pequeno teste
T, p = my_t_distribution_test(x1, x2)

print("x1: \u03BC = 10 e \u03C3 = 2 (15 amostras) \nx2: \u03BC =  8 e \u03C3 = 2 (12 amostras)\n")
print("Teste T = %.6f" %T)
if (p > 1e-6): print("p-value = %.6f" %p)
else: print("p-value < 1e-6")

x1: μ = 10 e σ = 2 (15 amostras) 
x2: μ =  8 e σ = 2 (12 amostras)

Teste T = 3.305589
p-value = 0.002865


In [6]:
# Outro teste: muito longe
np.random.seed(1)
x3 = np.random.normal(16.0, 2.0, 15)

np.random.seed(2)
x4 = np.random.normal(8.0, 2.0, 12)

T, p = my_t_distribution_test(x3, x4)

print("x3: \u03BC = 16 e \u03C3 = 2 (15 amostras) \nx4: \u03BC =  8 e \u03C3 = 2 (12 amostras)\n")
print("Teste T = %.6f" %T)
if (p > 1e-6): print("p-value = %.6f" %p)
else: print("p-value < 1e-6")

x3: μ = 16 e σ = 2 (15 amostras) 
x4: μ =  8 e σ = 2 (12 amostras)

Teste T = 11.480925
p-value < 1e-6


In [7]:
# Outro teste: muito perto
np.random.seed(1)
x5 = np.random.normal(10.0, 3.0, 15)

np.random.seed(2)
x6 = np.random.normal(9.0, 3.0, 12)

T, p = my_t_distribution_test(x5, x6)

print("x5: \u03BC = 10 e \u03C3 = 3 (15 amostras) \nx6: \u03BC =  9 e \u03C3 = 3 (12 amostras)\n")
print("Teste T = %.6f" %T)
if (p > 1e-6): print("p-value = %.6f" %p)
else: print("p-value < 1e-6")

x5: μ = 10 e σ = 3 (15 amostras) 
x6: μ =  9 e σ = 3 (12 amostras)

Teste T = 1.488847
p-value = 0.149035
