# Imports

In [20]:
import numpy as np
import scipy.stats as stats
import pandas as pd
from math import sqrt

# Datasets

In [2]:
bp_df = pd.read_csv('./datasets/bp.csv')
paired_df = pd.read_csv('./datasets/paired.csv')

# Q1

### 1 - Reporte o p-valor da comparação entre a pressão sangüínea de pessoas diabéticas ou não.

In [3]:
diabetics = bp_df[bp_df['type'] == 'Yes']['bp']
non_diabetics = bp_df[bp_df['type'] == 'No']['bp']

In [4]:
print("Student T-Test")
stats.ttest_ind(diabetics, non_diabetics)

Student T-Test


Ttest_indResult(statistic=3.001495202122035, pvalue=0.0030323591864622732)

In [5]:
print("Teste de Wilcoxon rank sum")
stats.ranksums(diabetics, non_diabetics)

Teste de Wilcoxon rank sum


RanksumsResult(statistic=3.045797809294312, pvalue=0.0023206383267846886)

#### R: O p-valor é 0.003 no teste t e 0.002 no teste de wilcoxon.

### 2 - Qual tem a maior pressão média? E maior pressão mediana?

In [6]:
print(f"Diabéticos: Média = {diabetics.mean()} Mediana = {diabetics.median()}")
print(f"Não diabéticos: Média = {non_diabetics.mean()} Mediana = {non_diabetics.median()}")

Diabéticos: Média = 74.58823529411765 Mediana = 76.0
Não diabéticos: Média = 69.54545454545455 Mediana = 70.0


#### R: O grupo de diabéticos tem a maior média e a maior mediana de pressão.

### 3 - A diferença é significativa?

#### R: Sim. Ambos os testes informaram p-valor menor que 0.05.

### 4 - Discuta a diferença dos p-valores. Quais dos 2 testes você acha mais apropriado nesse caso?

#### R: O teste de Wilcoxon rank sum. Porque não sabemos os parâmetros da distribuição dos dados.

# Q2

### 1 - Qual o mês com maior média e maior mediana?

In [7]:
print(f"Agosto: Média = {paired_df['August'].mean()} Mediana = {paired_df['August'].median()}")
print(f"Novembro: Média = {paired_df['November'].mean()} Mediana = {paired_df['November'].median()}")

Agosto: Média = 11.423076923076925 Mediana = 10.0
Novembro: Média = 16.323076923076922 Mediana = 15.3


#### R: Novembro.

### 2 - A diferença é significativa?

In [8]:
print("Student T-Test pareado")
stats.ttest_rel(paired_df['August'], paired_df['November'])

Student T-Test pareado


Ttest_relResult(statistic=-2.3088956550760438, pvalue=0.03955525086687241)

In [9]:
print("Teste de Wilcoxon signed rank")
stats.wilcoxon(paired_df['August'], paired_df['November'])

Teste de Wilcoxon signed rank


WilcoxonResult(statistic=16.0, pvalue=0.039794921875)

#### R: Sim. Ambos os testes informaram p-valor menor que 0.05.

### 3 - Discuta a diferença dos p-valores. Quais dos 2 testes você acha mais apropriado nesse caso?

#### R: A diferença foi mínima entre os dois testes, em décimo de milésimo. Novamente, os não paramétricos (Wilcoxon). Pois, não sei qual é a distribuição geradora dos dados.

# Q3

Use os dados (não pareados) do dataset bp.csv.
- Gere o intervalo de confiança para a pressão sangüínea dos pacientes com diabetes e sem diabetes (intervalo de 95% de confiança) usando o método de bootstrap

In [15]:
bp_diabetics = (diabetics,)
bootstrap_ci = stats.bootstrap(bp_diabetics, np.mean, confidence_level=0.95, random_state=1, method='BCa')
print(f"IC da pressão dos diabéticos:{bootstrap_ci.confidence_interval}.")
bp_non_diabetics = (non_diabetics,)
bootstrap_ci = stats.bootstrap(bp_non_diabetics, np.mean, confidence_level=0.95, random_state=1, method='BCa')
print(f"IC da pressão dos não diabéticos:{bootstrap_ci.confidence_interval}.")

IC da pressão dos diabéticos:ConfidenceInterval(low=71.77941176470588, high=77.29411764705883).
IC da pressão dos não diabéticos:ConfidenceInterval(low=67.6590909090909, high=71.47727272727273).


# Q4 - Teste Visual

 ### Há intersecção entre os intervalos de confiança dos 2 conjuntos de dados acima (com diabetes e sem diabetes)?

Não há interseção.

### Isso está de acordo com o teste de diferença significativa entre eles feito na questão 1?

O resultado está em acordo com os testes de diferença de significativa, já que os intervalos de confiança não apresentam interseção.

# Q5

### Calcule o Cohen D com o pooled standard deviation para a diferença entre a pressão sangüínea de pacientes com e sem diabetes.

In [21]:
def cohend(d1, d2):
	# calculate the size of samples
	n1, n2 = len(d1), len(d2)
	# calculate the variance of the samples
	s1, s2 = np.var(d1, ddof=1), np.var(d2, ddof=1)
	# calculate the pooled standard deviation
	s = sqrt(((n1 - 1) * s1 + (n2 - 1) * s2) / (n1 + n2 - 2))
	# calculate the means of the samples
	u1, u2 = np.mean(d1), np.mean(d2)
	# calculate the effect size
	return (u1 - u2) / s

In [25]:
d = cohend(diabetics, non_diabetics)
print(f"Cohens'd: {d:.3f}")

Cohens'd: 0.448


# Q6

### Com base nos testes, intervalos de confiança, etc realizados acima sobre o dataset bp.csv, qual a sua conclusão sobre pressão arterial em pacientes com ou sem diabetes?

Que a diabetes causa aumento da pressão arterial.