# Estatística Descritiva (Parte 1)




```
(*) Inspirado em material preparado pelo Prof. Ronaldo Prati 
```


A Estatística é um ramo da Matemática voltado à análise dados. Ela se encontra na base do método científico, pois os dados obtidos em experimentos científicos devem ser analisados rigorosamente através de métodos da Estatística.

A estatística descritiva, tem por objetivo sintetizar, ou seja, resumir uma série de valores de mesma natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores. A estatística descritiva organiza e descreve os dados de três maneiras: por meio de tabelas, de gráficos e de
medidas descritivas. 

Como **medidas descritivas** podemos citar as medidas de tendência central, as  medidas de dispersão e as medidas de distribuição.


## Base de dados de Pacientes

Antes de conhecer as funções da linguagem python para obtenção das medidas descritivas precisamos carregar e explorar a base de dados que vamos utilizar para os cálculos.

As instruções a seguir carregam uma base de dados de PACIENTES contendo informações como Identificação, Altura, Peso, Pulsação (batimentos por minuto), Pressão sistólica e diastólica, taxa de colesterol e Índice de Massa Corporal (IMC).

In [1]:
import pandas as pd 
#https://drive.google.com/file/d/1foZsAIE3sSoFf53ENs9QCQ29ZqcMOxac/view?usp=sharing
codigo = "1foZsAIE3sSoFf53ENs9QCQ29ZqcMOxac"
file = "https://drive.google.com/u/3/uc?id=" + codigo + "&export=download"
# Base de Dados de Pacientes
# Note a especificação de SEPARADOR (ponto e vírgula)
# Note a especificação de VÍRGULA DECIMAL
pacientes = pd.read_csv(file, sep = ";",decimal=",")
#df = pd.read_csv(file)
pacientes.head()

Unnamed: 0,Ident,Idade,Altura,Peso,Pulsacao,Sistolica,Diastolica,Colesterol,IMC
0,1,58,1.8,76.1,68,125,78,522,23.5
1,2,22,1.68,64.9,64,107,54,127,23.0
2,3,32,1.82,80.7,88,126,81,740,24.3
3,4,31,1.74,79.1,72,110,68,49,26.0
4,5,28,1.72,68.7,64,110,66,230,23.3


In [None]:
# Note a coluna Dtype que mostra os tipos de dados (int64 - inteiro; float64 - real)
pacientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Ident       21 non-null     int64  
 1   Idade       21 non-null     int64  
 2   Altura      21 non-null     float64
 3   Peso        21 non-null     float64
 4   Pulsacao    21 non-null     int64  
 5   Sistolica   21 non-null     int64  
 6   Diastolica  21 non-null     int64  
 7   Colesterol  21 non-null     int64  
 8   IMC         21 non-null     float64
dtypes: float64(3), int64(6)
memory usage: 1.6 KB


## Medidas de Tendência Central
A partir dos dados dos pacientes podemos querer saber como vai a saúde deste grupo. Se a lista for muito grande, torna-se complicado analisar um a um. Um primeiro passo é analisar informações que sumarizam (resumem) os dados e então verificar se é possível tirar conclusões. Em geral, podemos ter uma boa ideia dessa analisando a tendência central.

Uma **tendência central** (ou, normalmente, uma medida de tendência central) é um valor central ou valor típico para um certo atributo. As medidas  de tendência central mais comuns são:

- **Média aritmética** (ou simplesmente, média) - obtida pela soma de todas as medições divididas pelo número de observações no conjunto de dados.
- **Mediana** - obtida a partir dos dados ordenados, encontrando-se o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana. 
- **Moda** -  valor que aparece com maior frequência no conjunto de dados.

O Pandas tem funções pré-definidas que calculam essas medidas de tendência central:

### Média

Por exemplo, para calcular a média das avaliações, podemos usar a função `mean`, que calcula a média de cada coluna da base de dados.

In [None]:
##  média aritimética
pacientes.mean()

Ident          11.000000
Idade          36.476190
Altura          1.731905
Peso           77.904762
Pulsacao       72.761905
Sistolica     119.952381
Diastolica     73.428571
Colesterol    338.285714
IMC            25.976190
dtype: float64

A instrução acima, aplicada ao `dataframe` mostra a média de todas os atributos. Mas por exemplo, não faz sentido calcular a média do atributo "Ident" (código do paciente). 

Além disso, normalmente queremos analisar a média de um determinado atributo que queremos investigar. 



#### Média especificando o atributo

Para calcular a média de um atributo específico, como a pressão sistólica, devemos especificar o nome do atributo. 

Pode-se usar essa notação a seguir, com o atributo entre colchetes: **`[Sistolica]`**

In [None]:
#média da pressão sistólica
pacientes["Sistolica"].mean()


119.95238095238095

Outra notação, um pouco mais simples é usar o nome do atributo direto (se os colchetes, mas com um ponto extra): **`.Sistolica`**

In [None]:
# Outra possibilidade de obtenção da média de um determinado atributo
pacientes.Sistolica.mean()

119.95238095238095

O Python nos permite restringir o número de casas decimais, usando o print com formatação. Veja o exemplo a seguir. Note que existe um espaço em 

In [None]:
# imprimindo com 2 casas decimais: .2
print("%.2f" % pacientes.Sistolica.mean()) 

119.95


Outra possibilidade é atribuir o resultado para uma variável (por exemplo, media) antes de mostrar na tela (com o `print`)

In [None]:
# atribuindo a média para uma variável
media = pacientes.Sistolica.mean()
# imprimindo com 2 casas decimais: .2
print("%.2f" % media) 

119.95


Para tentar analisar o significado dessa média, podemos verificar os valores extremos de `Sistolica `(maior e menor).

In [None]:
# Maior Valor de Pressão Sistólica
pacientes.Sistolica.max()

153

In [None]:
# Menor Valor de Pressão Sistólica
pacientes.Sistolica.min()

107

Nota-se uma variação razoável entre a média `mean()` (119.95) , a maior `max()`pressão sistólica (153) e a menor `min()` pressão sistólica (107). Poderemos entender melhor esta variação, mais adiante, com as medidas de dispersão. Mas antes disso, vamos ver as outras medidas de tendência central.

### Mediana

A mediana pode ser calculada usando a função `median`:

In [None]:
# mediana
pacientes.median()

Ident          11.00
Idade          32.00
Altura          1.73
Peso           76.10
Pulsacao       72.00
Sistolica     119.00
Diastolica     76.00
Colesterol    265.00
IMC            26.00
dtype: float64

#### Mediana especificando o atributo
Calculando a mediana somente do atributo `Idade`

In [None]:
pacientes.Sistolica.median()

119.0

Nesse caso, os valores da média e da mediana não diferem muito (respectivamente 119.95 e 119), e ambos poderiam ser usados como um representante da tendência central do atributo `Sistólica`.  Vale lembrar, que mesmo havendo valores extremos de `Sistolica` (mínimo = 107 e máximo = 153) razoavelmente distantes da Média (119.95), ainda assim a Média e Mediana são valores próximos.

Na presença de valores extremos, a mediana pode ser uma medida **menos sensível** a presença desses valores. 



### Moda

A moda representa o valor que mais ocorre na base de dados. A moda pode não existir o não ser única.

Uma maneira de obter esse valor seria calcular a frequência de cada valor, agrupando os dados.

Por exemplo, para contar a frequência de cada valor de **pressão Sistólica** poderíamos usar a seguinte instrução:

In [None]:
# Agrupando por Sistolica e contando pelo atributo Sistolica
pacientes.groupby("Sistolica")["Sistolica"].count()

Sistolica
107    2
109    1
110    3
112    2
113    2
119    1
121    2
125    2
126    2
131    1
132    1
137    1
153    1
Name: Sistolica, dtype: int64

Note (acima) que, Sistolica = 110 é o valor que ocorre mais vezes (3 vezes). Então, neste caso a moda é 110.

Mas o Pandas, possui a função `mode` para calcular a moda:

In [None]:
# moda
pacientes.mode()

Unnamed: 0,Ident,Idade,Altura,Peso,Pulsacao,Sistolica,Diastolica,Colesterol,IMC
0,1,20.0,1.73,60.8,64.0,110.0,81.0,265.0,24.3
1,2,,,61.8,72.0,,,,32.8
2,3,,,62.6,,,,,
3,4,,,64.9,,,,,
4,5,,,68.1,,,,,
5,6,,,68.7,,,,,
6,7,,,70.3,,,,,
7,8,,,73.9,,,,,
8,9,,,74.7,,,,,
9,10,,,75.1,,,,,


A instrução acima, mostrou a moda de todos os atributos. A moda de cada atributo, quando é única, aparece na `linha [0]` (linha zero). Note que para alguns atributos, como `Peso` por exemplo, aparece valor de moda em mais de uma linha. Isso ocorre porque todos os valores de Peso são diferentes. **Neste caso dizemos que a moda não existe.**

A instrução a seguir mostra a frequência do atributo `Peso`. Note que a frequência é igual a 1 para todos os pesos.


In [None]:
# Agrupando por Peso e contando pelo atributo Peso
pacientes.groupby("Peso")["Peso"].count()

Peso
60.8     1
61.8     1
62.6     1
64.9     1
68.1     1
68.7     1
70.3     1
73.9     1
74.7     1
75.1     1
76.1     1
78.8     1
79.1     1
79.5     1
80.7     1
84.0     1
86.0     1
90.7     1
94.2     1
99.3     1
106.7    1
Name: Peso, dtype: int64

Uma forma de listar apena a **"primeira moda"** é conforme abaixo, usando a notação `loc[0]`.

In [None]:
# loc[0] - Exibe a linha 0 da moda
pacientes.mode().loc[0]

Ident           1.00
Idade          20.00
Altura          1.73
Peso           60.80
Pulsacao       64.00
Sistolica     110.00
Diastolica     81.00
Colesterol    265.00
IMC            24.30
Name: 0, dtype: float64

#### Moda especificando o atributo

Para listar a moda de um único atributo utiliza-se o nome do atributo, conforme abaixo, seguido de `mode()`. Por exemplo, a moda de `Sistolica`.

In [None]:
pacientes.Sistolica.mode()

0    110
dtype: int64

Caso haja mais de uma moda, todos os valores serão exibidos. Veja o caso de Pulsacao.

In [None]:
pacientes.Pulsacao.mode()

0    64
1    72
dtype: int64

Para conferir, vamos listar a frequência de `Pulsacao`.

In [None]:
# Agrupando por Pulsacao e contando pelo atributo Pulsacao
pacientes.groupby("Pulsacao")["Pulsacao"].count()

Pulsacao
56    1
60    3
64    4
68    1
72    4
76    2
84    2
88    3
96    1
Name: Pulsacao, dtype: int64

Note que Pulsacao = 64 e Pulsacao = 72 possuem as maiores frequências. Neste caso, dizemos que a frequência é bimodal (dois valores), ou seja, a moda de Pulsacao é igual a 64 e 72.

## Exibindo Média, Mediana e Moda com print

Veja a seguir que podemos usar o print para exibir uma mensagem com um RÓTULO, indicando o que significa o valor exibido.

In [None]:
print("Média :", pacientes.Sistolica.mean())
print("Mediana: ", pacientes.Sistolica.median())
print("Moda: ", pacientes.Sistolica.mode())

Média : 119.95238095238095
Mediana:  119.0
Moda:  0    110
dtype: int64


## Exercícios

### Exercícios 01 - Média

In [None]:
# Exibir a média do atributo Idade
# Digite sua resposta aqui
pacientes.Idade.mean()

36.476190476190474

### Exercícios 02 - Mediana

In [None]:
# Exibir a mediana do atributo Idade
# Digite sua resposta aqui
pacientes.Idade.median()

32.0

### Exercícios 03 - Mediana

In [None]:
# Exibir a moda do atributo Idade
# Digite sua resposta aqui
pacientes.Idade.mode()

0    20
dtype: int64

### Exercício 04 - Média, Mediana e Moda 

In [None]:
# Exibir as três medidas de tendência central de Idade (média, mediana e moda) com os rótulos que idenfiquem cada medida.
# Use um print para cada medida
# Digite sua resposta aqui
print("Média: ", pacientes.Idade.mean())
print("Mediana: ", pacientes.Idade.median())
print("Mode: ", pacientes.Idade.mode())

Média:  36.476190476190474
Mediana:  32.0
Mode:  0    20
dtype: int64


## Extra

### Exibindo a maior moda (quando há mais de uma)

Note que existem dois valores de moda para `Pulsacao`

In [None]:
moda = pacientes.Pulsacao.mode()
moda

0    64
1    72
dtype: int64

In [None]:
pacientes.Pulsacao.mode().max()

72

A função `max()` retorna o maior valor de uma variável, conforme instrução a seguir.

In [None]:
moda.max()

72

### Entrada de Dados [1]

Podemos perguntar ao usuário qual o nome da coluna devemos usar para, por exemplo, calcular a média (ou qualquer outro valor). 

Isto se chama "solicitar uma entrada de dados". Chamamos de **`Entrada de Dados`** pois "entra" (via teclado) uma informação na "memória do computador". Vamos explorar isso melhor mais adiante. 

Em python, a função `input()` é usada para a realizar a entrada de dados. Vide exemplo a seguir.

In [None]:
coluna = input()

Idade


Note que a instrução a seguir calcula a média dos valores usando a **"`coluna`"** (atributo) informada pelo usuário. 



In [None]:
media = pacientes[[coluna]].mean()
print("Média da ", coluna, " = ", media)

Média da  Idade  =  Idade    36.47619
dtype: float64


[ATENÇÃO]: No "input" é possível enviar uma "mensagem" para informar o que deve ser digitado.

In [None]:
coluna = input("Digite o título da coluna para exibir a média:")
media = pacientes[[coluna]].mean()
print("Média da ", coluna, " = ", media)


Digite o título da coluna para exibir a média:Diastolica
Média da  Diastolica  =  Diastolica    73.428571
dtype: float64


Execute novamente a célula acima, digitando outro valor para "coluna", e veja o resultado. As instruções funcionam para qualquer valor de "coluna" informado (desde que o nome a coluna conste na tabela).