# Análise estatística

## Questão 1

Com base no arquivo bp.csv, avalie:
- Teste t
- Wilcoxon rank sum

E reporte:
1. O p-valor da comparação entre a pressão sanguínea de pessoas diabéticas ou não
2. Qual tem a maior pressão média? E maior pressão mediana?
3. A diferença é significativa?

In [1]:
import pandas as pd

bp = pd.read_csv('./data/bp.csv')
bp

Unnamed: 0,bp,type
0,68,No
1,70,Yes
2,82,No
3,76,No
4,60,No
...,...,...
195,58,No
196,68,Yes
197,70,No
198,58,No


## Dividindo as populações

Tendo os dados que foram coletados, iremos agora dividí-los em duas populações. Considero que `type=yes` significa que a pessoa possui diabetes

In [24]:
pop_diabetes = bp.loc[bp['type'] == 'Yes']['bp']
pop_no_diabetes = bp.loc[bp['type'] == 'No']['bp']

In [25]:
pop_diabetes

1       70
5       76
9       78
10      40
12      60
      ... 
187     62
189    102
192     48
196     68
199     62
Name: bp, Length: 68, dtype: int64

In [26]:
pop_no_diabetes

0      68
2      82
3      76
4      60
6      58
       ..
193    68
194    74
195    58
197    70
198    58
Name: bp, Length: 132, dtype: int64

### Teste T

Considerando os dados, irei agora executar o Teste T nas duas populações:

In [30]:
import scipy.stats as stats

stats.ttest_ind(pop_diabetes, pop_no_diabetes)

Ttest_indResult(statistic=3.001495202122035, pvalue=0.0030323591864622732)

### Wilcoxon Rank Sums

In [28]:
stat, p = stats.ranksums(pop_diabetes,pop_no_diabetes)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
	print('Probably the same distribution')
else:
	print('Probably different distributions')

stat=3.046, p=0.002
Probably different distributions


## Comparando os p-valores

Como é possível ver nos dois testes reportados acima, vejos que considerando o Teste T, $p-value = 0.003$, enquanto para o teste Wilcoxon Rank Sums (não-paramétrico) $p-value = 0.002$. Ambos são bem próximos.

## Avaliando médias e medianas

In [33]:
avg_diabetes = pop_diabetes.mean()
avg_no_diabetes = pop_no_diabetes.mean()

print(f'Média diabetes: {avg_diabetes}')
print(f'Média sem diabetes: {avg_no_diabetes}')

Média diabetes: 74.58823529411765
Média sem diabetes: 69.54545454545455


In [34]:
median_diabetes = pop_diabetes.median()
median_no_diabetes = pop_no_diabetes.median()

print(f'Mediana diabetes: {median_diabetes}')
print(f'Mediana sem diabetes: {median_no_diabetes}')

Mediana diabetes: 76.0
Mediana sem diabetes: 70.0


## Conclusão

Com base nessa análise, vemos que há sim uma diferência de pressão sanguínea entre as duas populações. Vemos também que, com base no p-valor que encontramos, os dados **são estatísticamente significantes** e podemos considerar que eles representam distribuições diferentes. Por fim, temos uma redução considerável tanto na média quanto na mediana, podendo assim afirmar que de fato **pacientes sem diabetes tem uma pressão sanguínea inferior**.