# 1. Teste Wilcoxon (duas amostras dependentes)

- Teste não paramétrico.

#### Objetivo: analisar a diferença mediana da nota de redação com relação aos seus componentes.

In [7]:
import pandas as pd
import numpy as np

import scipy.stats as stats

In [2]:
enem_sp = pd.read_csv(r'C:\Users\herna\OneDrive\Análise de Dados com Python\enem_2019_tratado.csv',sep=',',encoding='iso-8859-1')

In [3]:
colegioy = enem_sp.loc[enem_sp['CO_ESCOLA']==35151506.0]

In [4]:
colegioy.shape

(30, 28)

## 2. Analisando a classificação das variáveis

In [5]:
colegioy.dtypes

NU_INSCRICAO                object
NO_MUNICIPIO_RESIDENCIA     object
IDADE                        int64
SEXO                        object
TP_ESTADO_CIVIL              int64
RACA                        object
TP_NACIONALIDADE             int64
TP_ST_CONCLUSAO              int64
ESCOLA                      object
CO_ESCOLA                  float64
NO_MUNICIPIO_ESC            object
TP_PRESENCA_CN               int64
TP_PRESENCA_CH               int64
TP_PRESENCA_LC               int64
TP_PRESENCA_MT               int64
NOTA_CN                    float64
NOTA_CH                    float64
NOTA_LC                    float64
NOTA_MT                    float64
TP_LINGUA                   object
TP_STATUS_REDACAO          float64
COMP1                      float64
COMP2                      float64
COMP3                      float64
COMP4                      float64
COMP5                      float64
NOTA_REDACAO               float64
INTERNET                    object
dtype: object

## 3. Analisando valores faltantes

In [6]:
colegioy.isnull().sum()

NU_INSCRICAO               0
NO_MUNICIPIO_RESIDENCIA    0
IDADE                      0
SEXO                       0
TP_ESTADO_CIVIL            0
RACA                       0
TP_NACIONALIDADE           0
TP_ST_CONCLUSAO            0
ESCOLA                     0
CO_ESCOLA                  0
NO_MUNICIPIO_ESC           0
TP_PRESENCA_CN             0
TP_PRESENCA_CH             0
TP_PRESENCA_LC             0
TP_PRESENCA_MT             0
NOTA_CN                    0
NOTA_CH                    0
NOTA_LC                    0
NOTA_MT                    0
TP_LINGUA                  0
TP_STATUS_REDACAO          0
COMP1                      0
COMP2                      0
COMP3                      0
COMP4                      0
COMP5                      0
NOTA_REDACAO               0
INTERNET                   0
dtype: int64

## 4. Analisando a normalidade

A diferença entre as variáveis deve ser normal.

- Nível de signifiância de 0,05 ou 5%;
- Quando p > 0,05, distribuição normal.

In [8]:
diferenca1 = colegioy['NOTA_REDACAO'] - colegioy['COMP1']

diferenca2 = colegioy['NOTA_REDACAO'] - colegioy['COMP2']

diferenca3 = colegioy['NOTA_REDACAO'] - colegioy['COMP3']

diferenca4 = colegioy['NOTA_REDACAO'] - colegioy['COMP4']

diferenca5 = colegioy['NOTA_REDACAO'] - colegioy['COMP5']

#### Teste Shapiro-Wilk

In [9]:
stats.shapiro(diferenca1)

ShapiroResult(statistic=0.9205223917961121, pvalue=0.027671540156006813)

In [10]:
stats.shapiro(diferenca2)

ShapiroResult(statistic=0.9494084715843201, pvalue=0.1629994660615921)

In [11]:
stats.shapiro(diferenca3)

ShapiroResult(statistic=0.9186267256736755, pvalue=0.024712208658456802)

In [12]:
stats.shapiro(diferenca4)

ShapiroResult(statistic=0.9099218845367432, pvalue=0.014813005924224854)

In [13]:
stats.shapiro(diferenca5)

ShapiroResult(statistic=0.918871283531189, pvalue=0.025074632838368416)

## 5. Aplicando o teste de Wilcoxon

Comparação das medianas das diferenãs que não passaram no teste de normalidade.

- Ho = Não há diferença entre as diferenças das medianas: p > 0.05;
- Ha = Há diferença entre as difereças das medianas: p <= 0.05.

In [14]:
stat, p = stats.wilcoxon(diferenca1, diferenca3)
print('Estatística de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

Estatística de teste: 30.5
p-valor: 0.8127423726


In [15]:
stat, p = stats.wilcoxon(diferenca1, diferenca4)
print('Estatística de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

Estatística de teste: 59.5
p-valor: 0.2162656891


In [16]:
stat, p = stats.wilcoxon(diferenca1, diferenca5)
print('Estatística de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

Estatística de teste: 142.0
p-valor: 0.8136637158


In [17]:
stat, p = stats.wilcoxon(diferenca3, diferenca4)
print('Estatística de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

Estatística de teste: 15.0
p-valor: 0.0880815117


In [18]:
stat, p = stats.wilcoxon(diferenca3, diferenca5)
print('Estatística de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

Estatística de teste: 113.0
p-valor: 0.6545435529


In [19]:
stat, p = stats.wilcoxon(diferenca4, diferenca5)
print('Estatística de teste: {}'.format(stat.round(2)))
print('p-valor: {}'.format(p.round(10)))

Estatística de teste: 94.5
p-valor: 0.6892233017
