# 04-Fundamentos da Estatística Inferencial para Análise de Dados

## Teste Z para uma Amostra

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

In [None]:
colegiox = enem_sp.loc[enem_sp.CO_ESCOLA == 35017632.0]

In [None]:
colegiox.shape

### 1. Analisar a classificação das variáveis

In [None]:
colegiox.dtypes

### 2. Analisar valores missing

In [None]:
colegiox.isnull().sum()

### 3. Analisar outliers

In [None]:
import plotly.express as px

In [None]:
grafico = px.box(colegiox, y='NOTA_REDACAO')
grafico.show()

### 4. Analisar Normalidade

In [None]:
import seaborn as sns

In [None]:
sns.histplot(colegiox, x='NOTA_REDACAO', bins=10, color='orange', kde=True, stat='probability')

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(colegiox.NOTA_REDACAO, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(colegiox.NOTA_REDACAO)

In [None]:
# p valor > 0,05 -> indica que a distribuição é normal

### Teste Z

Média das notas do colégio X, comparada a média do estado de São Paulo.

H0 = média é igual a de São Paulo: p > 0.05

Ha = média é diferente da de São Paulo: p <= 0.05

In [None]:
from statsmodels.stats.weightstats import ztest

In [None]:
enem_sp.NOTA_REDACAO.describe()

In [None]:
# a média da nota de redação de são paulo é 593.018322

In [None]:
stat, p = ztest(colegiox.NOTA_REDACAO, value = 593.018322)
print('Estatística do teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p))

#### Conclusão:

Hipótese alternativa é verdadeira. A média do colégio X é diferente do estado de São Paulo, com intervalo de confiança de 95%.

## Teste T para uma Amostra

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

In [None]:
colegioy = enem_sp.loc[enem_sp.CO_ESCOLA == 35151506.0]

In [None]:
colegioy.shape

In [None]:
colegioy.dtypes

In [None]:
colegioy.isnull().sum()

In [None]:
grafico = px.box(colegioy, y='NOTA_REDACAO')
grafico.show()

In [None]:
sns.histplot(colegioy, x='NOTA_REDACAO', bins=10, color='orange', kde=True, stat='probability')

In [None]:
stats.probplot(colegioy.NOTA_REDACAO, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(colegioy.NOTA_REDACAO)

In [None]:
# Teste Lilliefors
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

statsmodels.stats.diagnostic.lilliefors(colegioy.NOTA_REDACAO, dist='norm')

In [None]:
# Teste Anderson-Darling
stats.anderson(colegioy.NOTA_REDACAO, 'norm')

### Teste t

Média das notas do colégio Y, comparada a média do Estado de São Paulo

H0 = média é igual a de São Paulo: p > 0.05

Ha = média é diferente da de São Paulo: p <= 0.05

In [None]:
enem_sp.NOTA_REDACAO.describe()

In [None]:
# Média nota redação SP -> mean        593.018322

In [None]:
import scipy.stats as stats

stat, p = stats.ttest_1samp(colegioy.NOTA_REDACAO, popmean = 593.018)
print('Estatística do teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p))

#### Interpretação:

Teste estatístico: t = 7.18

p-valor = 6.72e-08

Conclusão: Estatisticamente, a média de redação do colégio y é diferente da média do estado de São Paulo, com intervalo de confiança de 95%.

## Correlação Linear

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

In [None]:
colegiox = enem_sp.loc[enem_sp.CO_ESCOLA == 35017632.0]
colegiox.shape

In [None]:
# Lista com nota final
nota_final = ['NOTA_CN', 'NOTA_CH', 'NOTA_MT', 'NOTA_LC', 'NOTA_REDACAO']

In [None]:
colegiox['nota_final'] = (colegiox[nota_final].mean(axis=1))

In [None]:
colegiox.head()

In [None]:
notas_colegiox = colegiox[['NOTA_CN', 'NOTA_CH', 'NOTA_MT', 'NOTA_LC', 'NOTA_REDACAO', 'nota_final']]

In [None]:
notas_colegiox

### Gráfico Correlação

In [None]:
import seaborn as sns
sns.pairplot(notas_colegiox)

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(notas_colegiox.NOTA_REDACAO, notas_colegiox.nota_final)
plt.title('Correlação')
plt.xlabel('Nota Redação')
plt.ylabel('Nota final')
plt.grid(True)
plt.show()

In [None]:
correlacoes = notas_colegiox.corr(method='pearson')
correlacoes

In [None]:
correlacoes2 = notas_colegiox.corr(method='spearman')
correlacoes2

In [None]:
plt.figure()
sns.heatmap(correlacoes, annot=False);

### Análise da Normalidade

In [None]:
# Teste Shapiro-Wilk
# H0 = distribuição normal: p > 0.05
# Ha = distribuição != normal: p <= 0.05

In [None]:
import scipy.stats as stats

In [None]:
# Nota Redação -> normal
stats.shapiro(notas_colegiox.NOTA_REDACAO)

In [None]:
# Nota Final -> normal
stats.shapiro(notas_colegiox.nota_final)

In [None]:
# Nota Matemática -> não normal
stats.shapiro(notas_colegiox.NOTA_MT)

In [None]:
# Nota Ciências da Natureza -> não normal
stats.shapiro(notas_colegiox.NOTA_CN)

In [None]:
# Nota Linguagens e Códigos -> não normal
stats.shapiro(notas_colegiox.NOTA_LC)

In [None]:
# Nota Ciências Humanas -> não normal
stats.shapiro(notas_colegiox.NOTA_CH)

In [None]:
stats.probplot(notas_colegiox.NOTA_REDACAO, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

### Análise Outliers

In [None]:
import plotly.express as px

In [None]:
grafico = px.box(notas_colegiox, y='NOTA_REDACAO')
grafico.show()

In [None]:
grafico = px.box(notas_colegiox, y='NOTA_MT')
grafico.show()

In [None]:
grafico = px.box(notas_colegiox, y='NOTA_CN')
grafico.show()

In [None]:
grafico = px.box(notas_colegiox, y='NOTA_CH')
grafico.show()

In [None]:
grafico = px.box(notas_colegiox, y='NOTA_LC')
grafico.show()

In [None]:
grafico = px.box(notas_colegiox, y='nota_final')
grafico.show()

## Regressão Linear

### Regressão Linear com Statsmodels

In [None]:
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

In [None]:
regressao = smf.ols('nota_final ~ NOTA_REDACAO', data=notas_colegiox).fit()
print(regressao.summary())

In [None]:
coefs = pd.DataFrame(regressao.params)
coefs.columns = ['Coeficientes']
print(coefs)

#### Equação:
Nota final = 251,678855 + 0,362749xNotaRedação

In [None]:
notas_colegiox.head()

In [None]:
regressao.predict()

In [None]:
residuos = regressao.resid
residuos # resíduo é a distância que o ponto está da reta ajustada

In [None]:
plt.scatter(y=notas_colegiox.nota_final, x=notas_colegiox.NOTA_REDACAO, color='blue', s=50, alpha=.3) # s=tamanho do ponto, alpha=intensidade da cor
X_plot = np.linspace(min(notas_colegiox.NOTA_REDACAO), max(notas_colegiox.NOTA_REDACAO), len(notas_colegiox.NOTA_REDACAO))
# X_plot = np.linspace(0, 1000)
plt.plot(X_plot, X_plot*regressao.params[1] + regressao.params[0], color='r') # equação
plt.title('Reta de Regressão')
plt.ylabel('Nota Final')
plt.xlabel('Nota Redação')
plt.show()

#### Teste de Normalidade dos resíduos

In [None]:
# Vamos validar a regressão

In [None]:
# Resíduos da nota redação -> os resíduos têm uma distribuição normal
stats.shapiro(residuos)

In [None]:
stats.probplot(residuos, dist='norm', plot=plt)
plt.title('Normal QQPlot - Resíduos')
plt.show()

#### Análise da Homocedasticidade dos resíduos
(resíduos com variação constante)

In [None]:
plt.scatter(y=residuos, x=regressao.predict(), color='red')
plt.hlines(y=0, xmin=320, xmax=530, color='orange')
plt.ylabel('Residuos')
plt.xlabel('Valores Preditos')
plt.show()

In [None]:
# Tanto a Normalidade quanto a Homocedasticidade dos resíduos servem para validar a equação de regressão

### Regressão com ScikitLearn

In [None]:
x = notas_colegiox.iloc[:, 4].values
y = notas_colegiox.iloc[:, 5].values # 4 e 5 são os índices 4 = NOTA_REDACAO, 5 = nota_final

In [None]:
correlacao_sk = np.corrcoef(x,y)
correlacao_sk

In [None]:
x = x.reshape(-1, 1) # transformando em matriz

In [None]:
from sklearn.linear_model import LinearRegression
regressao2 = LinearRegression()
regressao2.fit(x,y)

In [None]:
regressao2.intercept_

In [None]:
regressao2.coef_

In [None]:
# Coeficiente de Determinação
regressao2.score(x,y)

In [None]:
previsoes = regressao2.predict(x)
previsoes

In [None]:
previsao = regressao2.predict([[960]])
previsao

## Teste t Student (duas amostras independentes)

- Amostras pequenas (menor que 30)
- Amostras Aleatórias e Independentes
- Não necessita conhecimento do desvio padrão

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

Objetivo: analisar a diferença entra as médias de dois componentes de redação do colégio y.

In [None]:
colegioy = enem_sp.loc[enem_sp.CO_ESCOLA == 35151506.0 ]

In [None]:
colegioy.shape

### 1. Analisar a classificação das variáveis

In [None]:
colegioy.dtypes

### 2. Analisar valores missing

In [None]:
colegioy.isnull().sum()

### 3. Analisar outliers

In [None]:
import plotly.express as px

In [None]:
grafico = px.box(colegioy, y='COMP3')
grafico.show()

In [None]:
grafico = px.box(colegioy, y='COMP5')
grafico.show()

### 4. Analisar Normalidade

In [None]:
import scipy.stats as stats

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(colegioy.COMP5) # -> indica distribuição normal

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(colegioy.COMP3) # -> não indica distribuição normal
# para o exemplo vamos considerar que a distribuição seja normal

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
# Teste Lilliefors
statsmodels.stats.diagnostic.lilliefors(colegioy.COMP5, dist='norm')

In [None]:
import seaborn as sns
sns.histplot(colegioy, x='COMP5', bins=6, color='red', kde=True, stat='probability')

In [None]:
sns.histplot(colegioy, x='COMP3', bins=6, color='green', kde=True, stat='probability')

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(colegioy.COMP5, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

### 5. Homogenidade das Variâncias (Homecedasticidade)

Variabilidade dos erros constantes.

H0 = variâncias homogêneas: p > 0.05

Ha = variâncias não homogêneas: p <= 0.05

In [None]:
# Teste de Levene
from scipy.stats import levene

In [None]:
stat, p = levene(colegioy.COMP3, colegioy.COMP5, center='mean')
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

### Teste t-Student

Comparação das médias das notas dos componentes 3 e 5 das redação do colégio y.

H0 = não há diferença entre as médias dos componentes: p > 0.05

Ha = há diferença entre as médias dos componentes: p <= 0.05

In [None]:
import scipy.stats as stats

In [None]:
stat, p = stats.ttest_ind(colegioy.COMP3, colegioy.COMP5)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
colegioy.COMP3.describe()

In [None]:
colegioy.COMP5.describe()

#### Interpretação:
Teste estatístico: - 0.38

P-valor: 0,707

Conclusão: Estatisticamente, com intervalo de confiança de 95%, a média do componente 3 não é diferente da média do componente 5 em relação ao colégio y.

## Teste Z para duas amostras independetes

- Número de amostras maior ou igual a 30.
- Amostras Aleatórias e Independentes
- Necessita conhecimento do desvio padrão

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

Objetivo: analisar a diferença entre as médias de mulheres e homens para a nota de um dos componentes de redação do colégio X.

In [None]:
colegiox = enem_sp.loc[enem_sp.CO_ESCOLA == 35017632.0]

In [None]:
colegiox.shape

In [None]:
colegiox_mulher = colegiox.loc[colegiox.SEXO == 'F']
colegiox_mulher.shape

In [None]:
colegiox_homem = colegiox.loc[colegiox.SEXO == 'M']
colegiox_homem.shape

### 1. Analisar a classificação das variáveis

In [None]:
colegiox.dtypes

### 2. Analisar valores missing

In [None]:
colegiox.isnull().sum()

### 3. Analisar outliers

In [None]:
import plotly.express as px

In [None]:
grafico = px.box(colegiox_mulher, y='COMP5')
grafico.show()

In [None]:
grafico = px.box(colegiox_homem, y='COMP5')
grafico.show()

### 4. Analisar Normalidade

In [None]:
import scipy.stats as stats

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(colegiox_mulher.COMP5)

In [None]:
stats.shapiro(colegiox_homem.COMP5)

In [None]:
# Ambos indicam normalidade

In [None]:
import seaborn as sns
sns.histplot(colegiox_mulher, x='COMP5', bins=6, color='red', kde=True, stat='probability')

In [None]:
sns.histplot(colegiox_homem, x='COMP5', bins=6, color='green', kde=True, stat='probability')

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(colegiox_mulher.COMP5, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

In [None]:
stats.probplot(colegiox_homem.COMP5, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

### 5. Homocedasticidade

In [None]:
# Teste de Levene
from scipy.stats import levene

In [None]:
stat, p = levene(colegiox_mulher.COMP5, colegiox_homem.COMP5, center='mean')
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

### Teste Z para duas amostras independentes

Comparação das médias das notas do componente 5 da redação entre homens e mulheres do colégio y.

H0 = não há diferença entre as médias entre homens e mulheres: p > 0.05

Ha = há diferença entre as médias entre homens e mulheres: p <= 0.05

In [None]:
from statsmodels.stats.weightstats import ztest

In [None]:
stat, p = ztest(colegiox_mulher.COMP5, colegiox_homem.COMP5)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
colegiox_mulher.COMP5.describe()

In [None]:
colegiox_homem.COMP5.describe()

#### Interpretação: 

Teste estatístico: 0.96
p-valor: o.339

Conclusão: Estatisticamente, com intervalo de confiança de 95%, não se pode concluir que a média do componente 5 de redação do colégio X seja diferente entre homens e mulheres.

## Teste Mann Whitney (soma de postos de Wilcoxon)

Teste NÃO Paramétrico

Duas amostras independentes

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

Objetivo: Analisar a diferença entre as MEDIANAS de mulheres e homens para a nota de um dos componentes de redação do colégio x.

In [None]:
colegiox = enem_sp.loc[enem_sp.CO_ESCOLA == 35017632.0]
colegiox.shape

In [None]:
colegiox_mulher = colegiox.loc[colegiox.SEXO == 'F']
colegiox_mulher.shape

In [None]:
colegiox_homem = colegiox.loc[colegiox.SEXO == 'M']
colegiox_homem.shape

### 1. Analisar a classificação das variáveis

In [None]:
colegiox.dtypes

### 2. Analisar valores missing

In [None]:
colegiox.isnull().sum()

### 3. Analisar Normalidade

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(colegiox_mulher.NOTA_MT)

In [None]:
stats.probplot(colegiox_mulher.NOTA_MT, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(colegiox_homem.NOTA_MT)

In [None]:
stats.probplot(colegiox_homem.NOTA_MT, dist='norm', plot=plt)
plt.title('Normal QQPlot')
plt.show()

### Teste Mann Whitney

Comparação das medianas das notas homens e mulheres do colégiox X.

H0 = não há diferença entre as médias entre homens e mulheres: p > 0.05

Ha = há diferença entre as médias entre homens e mulheres: p <= 0.05

In [None]:
import scipy.stats as stats

In [None]:
stat, p = stats.mannwhitneyu(colegiox_mulher.NOTA_MT, colegiox_homem.NOTA_MT)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
stat, p = stats.mannwhitneyu(colegiox_mulher.NOTA_CN, colegiox_homem.NOTA_CN)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
colegiox_mulher.NOTA_MT.describe()

In [None]:
colegiox_mulher.NOTA_CN.describe()

In [None]:
colegiox_homem.NOTA_MT.describe()

In [None]:
colegiox_homem.NOTA_CN.describe()

In [None]:
import plotly.express as px

In [None]:
grafico = px.box(colegiox, x='SEXO', y='NOTA_MT')
grafico.show()

In [None]:
grafico = px.box(colegiox, x='SEXO', y='NOTA_CN')
grafico.show()

#### Conclusão: 
Estatisticamente, com intervalo de confiança de 95%, não se pode concluir que a mediana das notas de Matemática e Ciências da Natureza do colégio X sejam diferentes entre homens e mulheres.

## Teste t pareado (duas amostras dependentes)

Teste paramétrico

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

Objetivo: Analisar a diferença da média da nota de redação com relação aos seus componentes.

OBS: amostras independentes = analisa a diferença nas médias

amostras dependentes = analisa diferença média

In [None]:
colegioy = enem_sp.loc[enem_sp.CO_ESCOLA == 35151506.0]
colegioy.shape

### 1. Analisar a classificação das variáveis

In [None]:
colegioy.dtypes

### 2. Analisar valores missing

In [None]:
colegioy.isnull().sum()

### 3. Analisar Outliers

In [None]:
import plotly.express as px

In [None]:
grafico = px.box(colegioy, y='COMP1')
grafico.show()

### 4. Analisar Normalidade

In [None]:
import scipy.stats as stats

In [None]:
diferenca1 = colegioy.NOTA_REDACAO - colegioy.COMP1
diferenca2 = colegioy.NOTA_REDACAO - colegioy.COMP2
diferenca3 = colegioy.NOTA_REDACAO - colegioy.COMP3
diferenca4 = colegioy.NOTA_REDACAO - colegioy.COMP4
diferenca5 = colegioy.NOTA_REDACAO - colegioy.COMP5

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(diferenca2) # apenas a diferença 2 possui uma distribuição normal

### Teste t 

Comparação das diferenças das médias das notas de redação e de seus componentes que passaram no teste de normalidade

H0 = não há diferença entre as diferenças das médias da redação com os seus componentes: p > 0.05

Ha = há diferença entre as diferenças das médias da redação com os seus componentes: p <= 0.05

In [None]:
import scipy.stats as stats

In [None]:
stat, p = stats.ttest_rel(diferenca1, diferenca2)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
diferenca1.mean()

In [None]:
diferenca2.mean()

#### Interpretação:

Teste estatístico: 0.17

P-valor: 0.869

Conclusão: Estatisticamente, com intervalo de confiança de 95%, não há evidências para afirmar que existe diferença na diferença da média entre a redação e os seus componentes 1 e 2 do colegio y.

## Teste Wilcoxon (não paramétrico)

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

Objetivo: Analisa a diferença mediana da nota de redação com relação aos seus componentes.

Obs: amostras independentes = analisa diferença nas medianas.

amostras dependentes = analisa a mediana das diferenças.

In [None]:
colegioy = enem_sp.loc[enem_sp.CO_ESCOLA == 35151506.0]
colegioy.shape

### Passos 1, 2, 3 são iguais ao anterior.

### 4. Analisar Normalidade

In [None]:
diferenca1 = colegioy.NOTA_REDACAO - colegioy.COMP1
diferenca2 = colegioy.NOTA_REDACAO - colegioy.COMP2
diferenca3 = colegioy.NOTA_REDACAO - colegioy.COMP3
diferenca4 = colegioy.NOTA_REDACAO - colegioy.COMP4
diferenca5 = colegioy.NOTA_REDACAO - colegioy.COMP5

In [None]:
# Teste Shapiro-Wilk
stats.shapiro(diferenca2) # apenas a diferença 2 possui uma distribuição normal

### Teste Wilcoxon

Comparação das medianas das diferenças que não passaram no teste de normalidade

H0 = não há diferença entre as diferenças das medianas: p > 0.05

Ha = há diferença entre as diferenças das medianas: p <= 0.05

In [None]:
import scipy.stats as stats

In [None]:
stat, p = stats.wilcoxon(diferenca1, diferenca3)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
diferenca1.median()

In [None]:
diferenca3.median()

In [None]:
stat, p = stats.wilcoxon(diferenca1, diferenca4)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
diferenca4.median()

In [None]:
stat, p = stats.wilcoxon(diferenca1, diferenca5)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
diferenca5.median()

In [None]:
stat, p = stats.wilcoxon(diferenca3, diferenca4)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
stat, p = stats.wilcoxon(diferenca3, diferenca5)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

In [None]:
stat, p = stats.wilcoxon(diferenca4, diferenca5)
print('Estatítica de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

Conclusão: Estatisticamente, com intervalo de confiança de 95%, não há evidências para afirrmar que existe diferença na diferença das medianas analisadas.