

---

---
# Medidas Estatísticas

Este notebook apresenta cálculos de medidas estatísticas (de posição e de dispersão) utilizando diferentes funções (bibliotecas):

* Módulo de estatística do Python ([statistics](https://docs.python.org/3/library/statistics.html#module-statistics))
* Módulo de estatística da biblioteca Numpy ([statistics](https://numpy.org/doc/stable/reference/routines.statistics.html?highlight=statistics))
* Módulo de estatística da biblioteca Scipy ([stats](https://docs.scipy.org/doc/scipy/reference/stats.html?highlight=stats#module-scipy.stats))

Os cálculos são feitos em:

1. Array de dados
2. Dataframes



---

---









---
## 1. Array de dados
---




In [2]:
import statistics # módulo de estatística do Python
import math # módulo de matemática do Python
import numpy as np # biblioteca numpy
from scipy import stats # módulo de estatística da biblioteca scipy

dados = np.array([24, 23, 22, 28, 35, 21, 23, 33, 34, 24, 21, 25, 36, 26, 22,
                  30, 32, 25, 26, 33, 34, 21, 31, 25, 31, 26, 25, 35, 33, 31])

##Média

In [3]:
dados.sum() / len(dados)

27.833333333333332

In [4]:
dados.mean()

27.833333333333332

In [5]:
np.mean(dados)

27.833333333333332

In [6]:
statistics.mean(dados.astype(float))

27.833333333333332

##Mediana

In [7]:
np.median(dados)

26.0

In [8]:
statistics.median(dados)

26.0

##Moda

In [9]:
statistics.mode(dados)

25

In [10]:
stats.mode(dados)

ModeResult(mode=25, count=4)

##Quartis

In [11]:
np.quantile(dados,0.25) # 1o. quartil

24.0

In [12]:
np.quantile(dados,0.50) # 2o. quartil

26.0

In [13]:
np.quantile(dados,0.75) # 3o. quartil

32.75

##Percentis

In [14]:
np.percentile(dados,18) # percentil 18

23.0

## Variância

In [15]:
dados.var()

23.47222222222222

In [16]:
np.var(dados)

23.47222222222222

In [17]:
statistics.variance(dados)

24

##Desvio-padrão

In [18]:
dados.std()

4.844813951249544

In [19]:
np.std(dados)

4.844813951249544

In [20]:
statistics.stdev(dados)

4.898979485566356



---
##2. Dataframes
---





## Conjunto de dados

- Fonte: https://www.kaggle.com/uciml/pima-indians-diabetes-database
- Proprietários originais: National Institute of Diabetes and Digestive and Kidney Diseases
- Doadores da base de dados: Vincent Sigillito (vgs@aplcen.apl.jhu.edu),
Research Center, RMI Group Leader, Applied Physics Laboratory, The Johns Hopkins University (1990)

Detalhes sobre o conjunto de dados:

1. Número de instâncias: 768

2. Número de atributos: 8 (mais classe target)

3. Atributos: (todos com valor numérico)
   1. Número de vezes que engravidou (*Pregnancies*)
   2. Concentração de glicose plasmática a 2 horas em um teste de tolerância à glicose oral (*Glucose*)
   3. Pressão arterial diastólica (mm Hg) (*BloodPressure*)
   4. Espessura da dobra da pele do tríceps (mm) (*SkinThickness*)
   5. Insulina sérica de 2 horas (mu U / ml) (*Insulin*)
   6. Índice de massa corporal (peso em kg / (altura em m) ^ 2) (*BMI*)
   7. Função de pedigree de diabetes (*DiabetesPedigreeFunction*)
   8. Idade (anos) (*Age*)
   
4. Variável target (classe): 0 ou 1 (valor de classe 1 é interpretado como "teste positivo para diabetes")

   Classe Valor Número de instâncias
   - 500 => 0
   - 268 => 1



## Leitura dos dados

Vamos começar importando o arquivo CSV "bruto" usando o Pandas.

In [24]:
import pandas as pd
# lê arquivo de dados, atribue NaN para dados faltantes
diabetes = pd.read_csv('DSBD/Datasets/Indians_Diabetes/diabetes.csv', na_values=['?'])
# imprime as 10 primeiras linhas do dataframe
diabetes # mostra as 5 primeiras linhas e as 5 últimas do dataframe

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


## Estatística descritiva
Função describe() mostra um conjutonto de medidas estatísticas descritivas dos dados.

In [26]:
diabetes.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


## Média

In [27]:
diabetes['Age'].mean()

33.240885416666664

##Mediana

In [28]:
diabetes['Age'].median()

29.0

##Quartil

In [29]:
diabetes['Age'].quantile(0.25)

24.0

##Desvio-padrão

In [30]:
diabetes['Age'].std()

11.760231540678685