<a href="https://colab.research.google.com/github/tatianaesc/estatisticadatascience/blob/master/EstatisticaParaDataScience_Cap8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Capítulo 8 - Experimentação Contínua

In [2]:
# Habilita a execução de R no Google Colab
%load_ext rpy2.ipython

## Teste de Kolmogorov-Smirnov (K-S)

In [19]:
from scipy import stats
import numpy as np

# Amostra de dados que queremos testar (50 elementos: note que este teste
# é recomendado para amostras grandes, com pelo menos 30 elementos)
amostra = [0.81, 0.85, 0.76, 0.91, 0.94, 0.90, 0.70, 0.83, 0.92, 0.84, 0.72,
           0.85, 0.70, 0.75, 0.93, 0.86, 0.94, 0.82, 0.77, 0.83, 0.88, 0.83,
           0.93, 0.80, 0.80, 0.77, 0.67, 0.80, 0.85, 0.83, 0.88, 0.81, 0.83,
           0.82, 0.78, 0.79, 0.87, 0.83, 0.84, 0.85, 0.84, 0.77, 0.67, 0.87,
           0.94, 0.80, 0.70, 0.75, 0.71, 0.78]

# Realizando o Teste de Kolmogorov-Smirnov
ks_statistic, p_value = stats.kstest(amostra, 'norm')

print(f"Estatística do teste KS: {ks_statistic}")
print(f"p-valor: {p_value}")

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_value > alpha:
    print("A distribuição é normal, pois de acordo com o teste, não há evidências suficientes para rejeitar a hipótese de normalidade.")
else:
    print("A distribuição não pode ser considerada normal, pois de acordo com o teste, rejeita-se a hipótese de normalidade.")

Estatística do teste KS: 0.7485711049046899
p-valor: 1.8167127952549e-29
A distribuição não pode ser considerada normal, pois de acordo com o teste, rejeita-se a hipótese de normalidade.


## Teste de Shapiro-Wilk

In [20]:
from scipy import stats
import numpy as np

# Amostra de dados que queremos testar (30 elementos: note que este teste
# é recomendado para amostras menores, com menos de 50 elementos)
amostra = [0.71, 0.84, 0.89, 0.67, 0.90, 0.79, 0.71, 0.74, 0.71, 0.78,
           0.75, 0.77, 0.80, 0.92, 0.72, 0.69, 0.66, 0.75, 0.86, 0.76,
           0.68, 0.78, 0.87, 0.86, 0.82, 0.74, 0.87, 0.81, 0.95, 0.69]

# Realizando o Teste de Shapiro-Wilk
shapiro_statistic, p_value = stats.shapiro(amostra)

print(f"Estatística do teste de Shapiro-Wilk (S-W): {shapiro_statistic}")
print(f"p-valor: {p_value}")

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_value > alpha:
    print("A distribuição é normal, pois de acordo com o teste, não há evidências suficientes para rejeitar a hipótese de normalidade.")
else:
    print("A distribuição não pode ser considerada normal, pois de acordo com o teste, rejeita-se a hipótese de normalidade.")

Estatística do teste de Shapiro-Wilk (S-W): 0.9606984257698059
p-valor: 0.32273441553115845
A distribuição é normal, pois de acordo com o teste, não há evidências suficientes para rejeitar a hipótese de normalidade.


## Teste de Levene

In [21]:
from scipy.stats import levene
import numpy as np

# Acurácias simuladas do Modelo A e Modelo B
acuracias_modelo_a = np.array([0.82, 0.81, 0.83, 0.84, 0.82, 0.80, 0.81, 0.83, 0.85, 0.82])
acuracias_modelo_b = np.array([0.76, 0.77, 0.75, 0.78, 0.76, 0.79, 0.75, 0.77, 0.74, 0.76])

# Realizando o Teste de Levene para avaliar a homocedasticidade
statistic, p_value = levene(acuracias_modelo_a, acuracias_modelo_b)

print(f"Estatística do teste: {statistic}")
print(f"p-valor: {p_value}")

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_value > alpha:
    print("As variâncias são homogêneas. Não há evidências suficientes para rejeitar a hipótese nula.")
else:
    print("As variâncias não são homogêneas. Rejeita-se a hipótese nula, indicando diferenças significativas nas variâncias entre os grupos.")

Estatística do teste: 5.507970293902395e-29
p-valor: 1.0
As variâncias são homogêneas. Não há evidências suficientes para rejeitar a hipótese nula.


## Teste t de Student (ou Student-t)

In [6]:
from scipy import stats

# Acurácias de dois modelos de Machine Learning em uma tarefa específica
acuracias_modelo_1 = [0.82, 0.80, 0.81, 0.79, 0.83]
acuracias_modelo_2 = [0.76, 0.75, 0.77, 0.74, 0.78]

# Aplicando o teste t de Student
t_statistic, p_value = stats.ttest_ind(acuracias_modelo_1, acuracias_modelo_2)

# Exibindo os resultados do teste
print("Estatística de teste:", t_statistic)
print("p-valor:", p_value)

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_value < alpha:
    print("Rejeita a hipótese nula: as acurácias são estatisticamente diferentes")
else:
    print("Não há evidência suficiente para rejeitar a hipótese nula: as acurácias são estatisticamente iguais")

Estatística de teste: 4.999999999999986
p-valor: 0.0010528257933665572
Rejeita a hipótese nula: as acurácias são estatisticamente diferentes


## Teste de Análise de Variância (ANOVA)

In [7]:
from scipy import stats

# Acurácias de três modelos de Machine Learning
acuracias_modelo_a = [0.82, 0.81, 0.83, 0.84, 0.82]
acuracias_modelo_b = [0.75, 0.77, 0.76, 0.74, 0.75]
acuracias_modelo_c = [0.89, 0.90, 0.91, 0.88, 0.87]

# Aplicando ANOVA
f_statistic, p_value = stats.f_oneway(acuracias_modelo_a, acuracias_modelo_b, acuracias_modelo_c)

# Exibindo os resultados do teste
print("Estatística de teste:", f_statistic)
print("p-valor:", p_value)

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_value < alpha:
    print("Rejeita a hipótese nula: as acurácias são estatisticamente diferentes")
else:
    print("Não há evidência suficiente para rejeitar a hipótese nula: as acurácias são estatisticamente iguais")


Estatística de teste: 136.03921568627453
p-valor: 5.6814332556353306e-09
Rejeita a hipótese nula: as acurácias são estatisticamente diferentes


## Teste de Tukey

In [23]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import numpy as np

# Acurácias de três modelos de Machine Learning e seus respectivos grupos
acuracias = np.array([0.82, 0.81, 0.83, 0.84, 0.82, 0.75, 0.77, 0.76, 0.74, 0.75, 0.89, 0.90, 0.91, 0.88, 0.87])
# Rótulos para identificar as acurácias de cada modelo
grupos = ['Modelo A'] * 5 + ['Modelo B'] * 5 + ['Modelo C'] * 5

# Aplicando o teste de Tukey
tukey_resultados = pairwise_tukeyhsd(acuracias, grupos)

# Exibindo os resultados do teste
print(tukey_resultados)

 Multiple Comparison of Means - Tukey HSD, FWER=0.05 
 group1   group2  meandiff p-adj lower  upper  reject
-----------------------------------------------------
Modelo A Modelo B    -0.07   0.0 -0.092 -0.048   True
Modelo A Modelo C    0.066   0.0  0.044  0.088   True
Modelo B Modelo C    0.136   0.0  0.114  0.158   True
-----------------------------------------------------


In [24]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import numpy as np

# Acurácias de três modelos de Machine Learning com diferenças não significativas
# Simulando dados onde as acurácias dos modelos são mais próximas entre si
acuracias_similares = np.array([0.82, 0.83, 0.81, 0.82, 0.83, 0.81, 0.82, 0.83, 0.81, 0.82,
                                0.82, 0.83, 0.81, 0.82, 0.83])
# Rótulos para identificar as acurácias de cada modelo
grupos_similares = ['Modelo X'] * 5 + ['Modelo Y'] * 5 + ['Modelo Z'] * 5

# Aplicando o teste de Tukey
tukey_resultados_similares = pairwise_tukeyhsd(acuracias_similares, grupos_similares)

print(tukey_resultados_similares)

  Multiple Comparison of Means - Tukey HSD, FWER=0.05  
 group1   group2  meandiff p-adj   lower  upper  reject
-------------------------------------------------------
Modelo X Modelo Y   -0.004 0.7359 -0.0181 0.0101  False
Modelo X Modelo Z      0.0    1.0 -0.0141 0.0141  False
Modelo Y Modelo Z    0.004 0.7359 -0.0101 0.0181  False
-------------------------------------------------------


## Teste de Mann-Whitney

In [10]:
from scipy.stats import mannwhitneyu
import numpy as np

# Acurácias simuladas do Modelo 1 e Modelo 2
acuracias_modelo_1 = np.random.beta(a=2.5, b=5, size=30) * 100  # Multiplicado por 100 para representar porcentagem
acuracias_modelo_2 = np.random.beta(a=2, b=5, size=30) * 100  # Multiplicado por 100 para representar porcentagem

# Aplicando o teste de Mann-Whitney
u_statistic, p_value = mannwhitneyu(acuracias_modelo_1, acuracias_modelo_2, alternative='two-sided')

# Exibindo os resultados do teste
print("Estatística de teste:", u_statistic)
print("p-valor:", p_value)

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_value < alpha:
    print("Rejeita a hipótese nula: as acurácias são estatisticamente diferentes")
else:
    print("Não há evidência suficiente para rejeitar a hipótese nula: as acurácias são estatisticamente iguais")

Estatística de teste: 571.0
p-valor: 0.07482700800490434
Não há evidência suficiente para rejeitar a hipótese nula: as acurácias são estatisticamente iguais


## Teste de Kruskal-Wallis

In [11]:
from scipy.stats import kruskal
import numpy as np

# Acurácias simuladas dos Modelos A, B e C
acuracias_modelo_a = [0.82, 0.93, 0.77, 0.76, 0.77, 0.75, 0.71, 0.78, 0.84, 0.79,
                      0.81, 0.81, 0.66, 0.94, 0.88, 0.94, 0.94, 0.9, 0.81, 0.65,
                      0.73, 0.67, 0.91, 0.89, 0.74, 0.82, 0.7, 0.83, 0.92, 0.84,
                      0.83, 0.87, 0.88, 0.84, 0.84, 0.94, 0.78, 0.75, 0.88, 0.89]
acuracias_modelo_b = [0.73, 0.69, 0.72, 0.79, 0.84, 0.73, 0.72, 0.68, 0.92, 0.75,
                      0.68, 0.73, 0.87, 0.67, 0.9, 0.94, 0.88, 0.88, 0.92, 0.8,
                      0.82, 0.87, 0.8, 0.87, 0.89, 0.72, 0.68, 0.82, 0.72, 0.68,
                      0.73, 0.83, 0.73, 0.88, 0.89, 0.94, 0.71, 0.9, 0.74, 0.9]
acuracias_modelo_c = [0.7, 0.87, 0.78, 0.84, 0.73, 0.78, 0.89, 0.93, 0.86, 0.85,
                      0.92, 0.85, 0.68, 0.93, 0.94, 0.74, 0.82, 0.81, 0.72, 0.84,
                      0.85, 0.8, 0.71, 0.86, 0.9, 0.7, 0.65, 0.93, 0.8, 0.73,
                      0.73, 0.76, 0.93, 0.7, 0.79, 0.87, 0.87, 0.86, 0.83, 0.91]

# Aplicando o teste de Kruskal-Wallis para avaliar diferenças entre as acurácias dos modelos
h_statistic, p_value = kruskal(acuracias_modelo_a, acuracias_modelo_b, acuracias_modelo_c)

# Exibindo os resultados do teste
print("Estatística de teste:", h_statistic)
print("p-valor:", p_value)

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_value < alpha:
    print("Rejeita a hipótese nula: as acurácias são estatisticamente diferentes")
else:
    print("Não há evidência suficiente para rejeitar a hipótese nula: as acurácias são estatisticamente iguais")

Estatística de teste: 1.3169266267289885
p-valor: 0.5176461835905364
Não há evidência suficiente para rejeitar a hipótese nula: as acurácias são estatisticamente iguais


## Effect Size

In [12]:
import numpy as np
from scipy import stats

# Acurácias dos modelos A e B
modelo_A = np.array([0.78, 0.82, 0.85, 0.79, 0.81])
modelo_B = np.array([0.88, 0.92, 0.90, 0.89, 0.91])

# Calculando as médias e os desvios padrão das pontuações
media_A = np.mean(modelo_A)
media_B = np.mean(modelo_B)
desvio_padrao_A = np.std(modelo_A, ddof=1)  # Usando ddof=1 para calcular o desvio padrão amostral
desvio_padrao_B = np.std(modelo_B, ddof=1)

# Calculando a diferença nas médias
diferenca_medias = media_B - media_A

# Calculando o Effect Size usando Cohen's d
effect_size = diferenca_medias / np.sqrt((desvio_padrao_A ** 2 + desvio_padrao_B ** 2) / 2)

# Realizando um teste de hipótese para determinar a significância estatística
t_stat, p_valor = stats.ttest_ind(modelo_A, modelo_B)

# Imprimindo os resultados
print(f'Média do Modelo A: {media_A:.2f}')
print(f'Média do Modelo B: {media_B:.2f}')
print(f'Diferença nas Médias: {diferenca_medias:.2f}')
print(f'Effect Size (Cohen\'s d): {effect_size:.2f}')
print(f'p-valor: {p_valor:.4f}')

# Interpretando o resultado
alpha = 0.05  # Nível de significância escolhido
if p_valor < alpha:
    print("Rejeita a hipótese nula: as acurácias são estatisticamente diferentes")
else:
    print("Não há evidência suficiente para rejeitar a hipótese nula: as acurácias são estatisticamente iguais")

Média do Modelo A: 0.81
Média do Modelo B: 0.90
Diferença nas Médias: 0.09
Effect Size (Cohen's d): 4.02
p-valor: 0.0002
Rejeita a hipótese nula: as acurácias são estatisticamente diferentes
