Estatística descritiva
======================



## Introdução



O Censo nacional é realizado a cada 10 anos (aproximadamente). Trata-se de uma coleta de diversos dados sobre a população brasileira com o intuito de entender a situação do povo brasileiro e guiar políticas públicas.

O Censo 2022 identificou um total de 203.062.512 pessoas que moram no território brasileiro. É impraticável analisar cada um dos dados coletados individualmente&#x2026; precisamos de alguma ferramenta para extrair informações úteis destes dados!

É neste contexto que entramos em uma das grandes áreas da estatística, chamada de `estatística descritiva`. Segundo Magalhães e Lima [1], estatística descritiva &ldquo;pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito de características de interesse&rdquo;.

Sempre que resumimos um conjunto de dados em um ou mais valores (através do uso de cálculos de estatística descritiva) nós inevitavelmente perdemos informação. Não tem como resumir algo sem perder informação. Um exemplo: eu posso te fornecer todas as estatísticas de um jogo de futebol (número de gols, tempo de posse de bola, número de faltas&#x2026;) e ainda sim isso não substitui assistir o jogo em si.



## Tipos de dados



Existem dois grandes tipos de dados: `dados quantitativos` e `dados qualitativos`. Cada um destes tipos de dados se subdivide em dois subgrupos. Temos então um total de 4 tipos diferentes de dados como objetos de estudo da estatística.



### Dados quantitativos



Dados quantitativos ou numéricos são dados que armazenam quantidades numéricas. Altura, idade e número de irmãos são exemplos de dados quantitativos. Dados quantitativos são divididos em:

-   **Contínuos**: dados que podem assumir qualquer valor dentro de um intervalo numérico;

-   **Discretos**: dados que podem assumir apenas alguns valores específicos dentro de um intervalo numérico.

Altura é um exemplo de um dado numérico contínuo. Quantidade de irmãos é um exemplo de um dado numérico discreto.



### Dados qualitativos



Dados qualitativos ou categóricos são dados que armazenam rótulos, atributos ou qualidades. Cor favorita é um exemplo de dado qualitativo. Dados qualitativos são divididos em:

-   **Ordinais**: dados categóricos onde é possível ordenar os rótulos.

-   **Nominais**: dados categóricos onde não é possível ordenar os rótulos.

Animal favorito é um exemplo de um dado categórico nominal pois não é possível atribuir ordem no momento de comparar animais. Respostas para perguntas na escala Likert são dados qualitativos ordinais. Estas respostas costumam ser na forma de {&ldquo;Discordo totalmente&rdquo;, &ldquo;Discordo parcialmente&rdquo;, &ldquo;Não concordo nem discordo&rdquo;, &ldquo;Concordo parcialmente&rdquo; e &ldquo;Concordo totalmente&rdquo;}, e neste caso podemos atribuir uma ordem às respostas possíveis.



## Algumas estatísticas descritivas



Vamos importar o módulo de estatística do Python.



In [1]:
import statistics as st

$X$ é um conjunto de variáveis aleatórias.



In [2]:
X = [2, 7, 6, 5, 8, 5, 3, 6, 8, 8, 6, 4, 4, 2, 6]
print(X)

[2, 7, 6, 5, 8, 5, 3, 6, 8, 8, 6, 4, 4, 2, 6]


### Mínimo



In [3]:
minimo = min(X)

print(f"O valor mínimo é {minimo}")

O valor mínimo é 2


### Máximo



In [4]:
maximo = max(X)

print(f"O valor máximo é {maximo}")

O valor máximo é 8


### Média



$$
\mu = \frac{1}{N} \sum_{i=1}^{N} X_i
$$



In [5]:
media = st.mean(X)

print(f"O valor médio é {media}")

O valor médio é 5.333333333333333


### Mediana



In [6]:
print(sorted(X))

mediana = st.median(X)

print(f"O valor da mediana é {mediana}")

[2, 2, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 8, 8, 8]
O valor da mediana é 6


### Moda



In [7]:
moda = st.mode(X)

print(f"O valor da moda é {moda}")

O valor da moda é 6


### Variância



$$
\sigma^2 = \mathrm{Var}(X) = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2
$$



In [8]:
variancia = st.pvariance(X)

print(f"O valor da variância é {variancia}")

O valor da variância é 3.8222222222222224


**Nota**: este valor calculado é a variância da população. Veremos no futuro o que significa isso.



### Desvio padrão



$$
\sigma = \sqrt{\mathrm{Var(X)}} =  \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2}
$$



In [9]:
desvpadr = st.pstdev(X)

print(f"O valor do desvio padrão é {desvpadr}")

O valor do desvio padrão é 1.9550504398153574


**Nota**: este valor calculado é o desvio padrão da população. Veremos no futuro o que significa isso.



### Quartis



In [10]:
quartis = st.quantiles(X, n=4)

primeiro_quartil = quartis[0]
segundo_quartil = quartis[1]
terceiro_quartil = quartis[2]

print(f"O valor do primeiro quartil é {primeiro_quartil}")
print(f"O valor do segundo quartil é {segundo_quartil}")
print(f"O valor do terceiro quartil é {terceiro_quartil}")

O valor do primeiro quartil é 4.0
O valor do segundo quartil é 6.0
O valor do terceiro quartil é 7.0


## Computadores, precisão e pontos flutuantes



Você já deve ter percebido que algumas contas feitas em Python usando números reais (pontos flutuantes) não retornam o valor que você esperaria&#x2026; parece que o Python erra por muito muito pouco lá em uma casa decimal bem distante. Qual o motivo disso?



In [11]:
print(3.14 + 0.2)

3.3400000000000003


O motivo é bem simples.

A primeira pergunta que você deve responder é: quantos números reais existem? Mesmo entre um intervalo restrito de [0,1] existem infinitos números reais.

A segunda pergunta que você deve responder é: quanta memória tem seu computador? Independente do valor correto eu posso te dizer com certeza que sua memória é um número finito.

Como você faria para representar uma quantidade infinita de pontos usando uma máquina com memória finita? Não é possível! O que conseguimos fazer é aproximar! Para todos os fins, variáveis tipo `float` de Python (ou de qualquer outra linguagem) são dados quantitativos discretos, não contínuos! Por isso, nem sempre conseguimos um resultado perfeito em operações entre `floats`.



## XKCD relevante



![img](https://imgs.xkcd.com/comics/statistics.png)

`Imagem: Statistics (XKCD) disponível em https://xkcd.com/2400`



## Referências



1.  M.N. Magalhães, M. N., Lima, A. C. P. Noções de Probabilidade e Estatística, Edusp, (2011).

2.  [https://censo2022.ibge.gov.br/panorama/](https://censo2022.ibge.gov.br/panorama/)

