# Tipos de variáveis

- Quantitativas: Váriaveis que representam números resultantes de mensuração ou contagem, como: Número de filhos, salário ou idade.

    - Discretas: Números finito e enumeráveis, geralmente são valores de contagem como o número de filhos;
    - Contínuas: Valores pertencem a um intervalo de número reais e geralmente vem de mensuração, como a altura de uma pessoa.
    
- Qualitativas: Váriaveis que representam um atributo do indivíduo pesquisado, como: Estado civil, sexo ou educação.

    - Nominal: Váriaveis que não apresentam nenhuma ordenação, como o sexo (masc ou fem, nenhum dos dois é maior ou menor que o outro)
    - Ordinal: Que apresenta uma ordenação dos atributos, como grau de educação (sabemos por exemplo, que o ensino médio é um grau maior que o ensino fundamental, pois existe uma ordem neste atributo).

# Medidas resumo

São medidas utilizadas para resumir os dados e apresentar uma característica dos mesmos. Cada técnica apresenta uma característica dos valores analisados, e na prática são utilizadas algumas medidas resumo juntas para apresentar os dados.

# Medidas de posição

Geralmente são usadas quando se quer um resumo drástico dos dados em um único valor que apresenta uma característica geral do conjunto analisado, as medidas utilizadas costumam ser:

- Moda: É a realização mais frequente de um conjunto de valores.

In [29]:
# Moda
import numpy as np
import statistics
vec_exemple = np.array([1,2,3,3,4,5,6,7])

# A moda é 3, pois é o número que mais se repete
print(statistics.mode(vec_exemple))


3


- Mediana: Realização que ocupa a posição central em um conjunto de valores ordenados (do maior para o menor ou vice-versa). Se o conjunto de valores tiver um número par de valores, usa-se a media aritmética dos dois valores centrais.

In [30]:
# Mediana
# A mediana é 3.5 ((3+4)/2)
print(statistics.median(vec_exemple))

3.5


- Média aritmética: Soma das observações dívidida pelo número de observações, tem a seguinte fórmula:

$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$

*Note que a media aritmética é a medida mais comum mas pode ser viesada em diversas situações, a mediana é geralmente mais recomendada*

In [31]:
# Média aritmética
media = statistics.mean(vec_exemple)
print(media)

3


# Medidas de dispersão

Usadas em conjunto com as medidas de posição para apresentar a variabilidade do conjunto analisado. O uso isolado das medidas de posição mascara toda a variabilidade dos dados, como no exemplo abaixo:

In [36]:
# Os dois conjuntos são diferentes mas apresentam mesma média
A = np.array([3,4,5,6,7])
B = np.array([1,3,5,7,9])
print(statistics.mean(A))
print(statistics.mean(B))

5
5


Os critérios utilizados para medir a dispersão e nos permitir comparar conjuntos diferentes de dados são o desvio padrão e a variância.

As fórmulas são as apresentadas a seguir:

$V(x) = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}$

$DP(x) =  \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}} = \sqrt{var(x)}$

*Note que mais para frente a fórmula utilizada será de (n-1) no denominador (a explicação virá mais a frente), mas para grandes conjuntos de dados as duas fórmulas convergem para o mesmo resultado.

A variância é a medida que nos mostra o quão distante cada valor está da média, assim quanto maior a variância mais os valores estão distante da média.

O desvio padrão nos mostra a dispersão dos dados da média da mesma forma, porém sua interpretação e de que quanto mais próximos de 0 o seu valor, menos distantes da média os dados estão (são mais homogêneos).

# Quantis

Um problema comum é que as medidas enviesem a análise devido a presença de valores extremos ou não nos de idéia da distribuição dos dados. Para melhorar nossa análise, podemos adicionar outras medidas como os quantis.

Os quantis tem a forma $q(p)$ onde p tem um valor entre 0 e 1. 

Dessa forma o quantil de ordem p nos indica que $100p%$ das observações são menores que o valor calculado de $q(p)$.

Os quantis mais usados são os seguintes:

q(0,25) = 1º Quartil
q(0,75) = 3º Quartil
q(0,40) = 4º Decil
q(0,95) = 95º Percentil
