# Fundamentos de Matemática

## O que é Estatística?

Basicamente, a estatística é um braço da matématica que trabalha com dados para a geração de conhecimento e tomada de decisões.

É um tema grandioso que pode ser dividido em duas grandes áreas: 

1. item Análise Exploratória de Dados
2. item Análise Confirmatória de Dados (Inferência Estatística).


Vamos começar nossa jornada do mais simples, a abordagem 1.

Na análise exploratória de dados, como o nome sugere, o interesse é a familiarização com os dados. Queremos conhecê-los, entender sua estrutura, sua grandeza. Dessa forma, saberemos que metodologia aplicar para fazermos nossas análises de forma correta.

Neste vasto compo de análise inicial dos dados, temos como principais ferramentas as medidas-resumo (média, mediana, variância...), também conhecidas como medidas de posição e variabilidade, e as técnicas gráficas cuja entrega de valor para o leitor (estudante...) é mais rápida e fácil, dado que as pessoas têm maior familiaridade com imagens, gráficos, do que com tabelas.

Dado este contexto, o melhor cenário na construção de uma boa análise exploratória se dá pela combinação entre \textbf{medidas de posição e variabilidade} e \textbf{técnicas gráficas}.

Show!!! mas antes de sair jogando um monte de fórmulas nos dados precisamos entender o conceito de variável e seus tipos:

### Variáveis e Seus Tipos

**Variável** é o termo utilizado para se referir a alguma característica dos dados que se está analisando. Para ficar mais claro, vamos utilizar um exemplo. Suponha o conjunto de dados abaixo:

**Pessoas aleatórias**

Id | Nome    | Idade (Anos) | Peso (Kg) | Grau de Instrução  
---|---------|--------------|-----------|------------------                           
1  | Thiago  | 31           | 80        | Superior    
2  | Natália | 43           | 53        | Superior    
3  | Augusto | 60           | 74,5      | Médio       
4  | Aline   | 27           | 63        | Fundamental 
5  | Joaquim | 80           | 63        | Médio       

Antes de qualquer coisa, vamos tentar entender esse conjunto de dados. Sabemos pelo título da tabela que os dados se referem a pessoas e suas características. Temos 5 variáveis, ou seja, 5 características que definem essas pessoas. Portanto, cada característica, cada variável é uma coluna da tabela. 

Vamos começar nossa análise coluna-por-coluna. De imediato percebemos que 3 das 5 variáveis são numéricas e as demais caracteres.

Com relação às variáveis numéricas, a primeira delas **Id**, é apenas uma variável identificadora. Neste momento não é uma variável útil para nossa análise.

A segunda variável numérica é **Idade** (em anos). Se refere a dados de contagem de tempo em números inteiros de anos. Portanto, esta variável é do tipo quantitativa discreta. Gostaria de acrescentar que essa variável poderia também ser classificada como uma variável quantitativa contínua, se assumíssemos que seus valores pudessem ser frações de ano, e não apenas números inteiros.

A terceira variável numérica é **Peso** (em Kg). É uma variável que admite valores fracionados, pertencentes ao conjunto dos números reais. Portanto, trata-se de uma variável quantitativa contínua.

Com relação às variáveis não numéricas (Nome e Grau de Instrução), podemos classificá-las de duas formas: As variáveis podem ser qualitativas nominais ou qualitativas ordinais.

As nominais tratam de categorias sem uma ordem pre-definida entre elas. É o caso da variável **Nome**, que expressa uma característica das pessoas que estão relacionadas na tabela, mas não ordena estas de nenhuma forma. Não há uma relação entre os nomes.

Já as variáveis qualitativas ordinais são aquelas onde pode-se observar uma relação entre seus valores. É o caso da variável **Grau de Instrução**, onde temos valores que seguem uma ordem entre si. É de conhecimento geral que primeiro vem o ensino fundamental, depois o ensino médio e depois o superior. A ordem é esta!

Bem, agora podemos iniciar nossos trabalhos na análise exploratória desses dados e, para isso, vamos conhecer algumas medidas-resumo:



### Medidas de Posição e Variabilidade

#### Média

Vamos começar pela mais famosa das medidas de posição: a média. Esta é uma estatística, uma medida, que resume os dados em um apenas um único valor, e é definida como a soma das observações de uma série dividida pela quantidade de elementos dessa série. Confira a expressão:

\begin{equation}
	\bar{X} = \frac{\sum_{i=1}^{n} x_i}{n}
\end{equation}

Pra ficar mais claro, vamos calcular a média das variáveis númericas (idade e peso) que temos na tabela 1.

In [20]:
media_idade = (31 + 43 + 60 + 27 + 80)/5
media_peso = (80 + 53 + 74.5 + 63 + 63)/5
print ("As médias de Idade e Peso são, respectivamente: ",media_idade, "anos e", media_peso,"Kg")

As médias de Idade e Peso são, respectivamente:  48.2 anos e 66.7 Kg


Portanto, temos que, em média, os indivíduos da tabela 1 têm 48,2 anos de idade e pesam, em média, 66,7Kg. Veja que esses dois números resumem essas duas séries de dados. Vale ressaltar aqui que a média é uma medida altamente influenciada por valores extremos, ou seja, valores discrepantes influenciam no cálculo da média e, dessa forma, as vezes a média pode não ser uma boa alternativa, mas deixemos essa discussão para o futuro. Em breve vamos entrar nesse assunto novamente.

#### Mediana

A segunda medida de posição que vamos utilizar é a mediana. Trata-se da observação central de uma série de dados **ordenada**. Perceba que a mediana somente será exatamente o termo central de uma série de dados quando essa série tiver um número ímpar de elementos. Quando a série de dados tiver um número par, a mediana será definida como a média entre os dois termos centrais. Ou seja:




\begin{array}{cc}
x_{(\frac{n+1}{2})}, \ \ \ se \ n \ impar \\
\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2}, \ \ \ se \ n \ par.
\end{array}





In [1]:
#Entrando com os dados de Idade e Peso:
idade=[31,43,60,27,80]
peso=[80,53,74.5,63,63]

#Calculando a mediana para a variável Idade:
idade_ord=sorted(idade)
n_i=len(idade_ord)
centro_i=n_i//2
if(n_i%2 == 1):
    mediana_idade=idade_ord[centro_i]
else:
    mediana_idade=(idade_ord[centro_i-1]+idade_ord[centro_i])/2

#Calculando a mediana para a variável Idade:
peso_ord=sorted(peso)
n_p=len(peso_ord)
centro_p=n_p//2
if(n_p%2 == 1):
    mediana_peso=peso_ord[centro_p]
else:
    mediana_peso=(peso_ord[centro_p-1]+peso_ord[centro_p])/2
print("As medianas das variáveis Idade e Peso são, respectivamente ",mediana_idade,mediana_peso)

As medianas das variáveis Idade e Peso são, respectivamente  43 63


Dado o método de cálculo da mediana, que leva em conta apenas os termos centrais, temos que essa medida, diferentemente da média, é robusta com relação à valores extremos, isto é, estes não influenciam em seu cálculo. Para clarificar o conceito de mediana, vamos calcular a mediana das variáveis Idade e Peso, da tabela 1.


 Idade (ordenada): 27, 31, **43**, 60, 80

 Peso (ordenado): 53, 63, **63**, 74.5, 80

Conforme destacado nas séries acima, os termos centrais das séries Idade e Peso são, respectivamente 43 e 63. Portantos, estes são os valores das medianas dessas duas variáveis.

#### Moda

Outra medida resumo (de posição) que temos é a Moda. Como o próprio nome já diz, ela busca o(s) elemento(s) que está(ão) na moda, ou seja, os elementos que mais se repetem, que aparecem com maior frequencia numa série de dados. Vamos ver como essa medida funciona por meio de um exemplo. Devemos encontrar as modas das variáveis Idade e Peso, da tabela 1.

Para a variável idade, observe que na tabela abaixo as frequências de todos os elementos da série são iguais a 1. Portanto, não temos uma moda nessa série, dado que todos aparecem com a mesma frequência.

**Variável Idade**

Elementos | Frequência 
----------|-----------                               
31        | 1 
43        | 1 
60        | 1 
27        | 1 
80        | 1 

Para a variável Peso, temos uma situação diferente. Podemos observar pela tabela abaixo que o valor **63** aparece com uma frequencia superior aos demais elementos. É o único que aparece duas vezes na série, e isso o diferencia dos demais elementos. Portanto, a seria de dados relativa ao Peso tem moda e o valor dela é 63.

**Variável Peso**

Elementos | Frequência 
----------|-----------                               
80        | 1  
53        | 1  
74,5      | 1  
63        | 2  


### Medidas de Dispersão

Agora podemos dar início ao estudo das medidas de dispersão (ou variabilidade). 

As vezes apenas as medidas de posição (média, moda e mediana) não são suficientes para entendermos minimamente um conjunto de dados numa análise exploratória. Portanto, temos que utilizar as medidas de dispersão para entender melhor.

Suponha as seguintes séries de dados:

**Séries de dados diferentes, mas com valores iguais para a média**

Série | Elementos          | Média
------|--------------------|------
A     | 9, 10, 11, 12, 13  | 11
B     | 7, 9, 11, 13, 15   | 11
C     | 11, 11, 11, 11, 11 | 11
D     | 9, 11, 11, 13      | 11


Perceba que apesar de serem séries diferentes de dados, as médias são iguais. Portanto, uma maneira de aumentar o conhecimento sobre esses dados, ou seja, de obter mais informações é conhecendo sua variabilidade e isso pode ser feito de várias maneiras, dentre as mais comuns temos as medidas de dispersão variância e desvio-padrão.

#### Variância

Por definição, a variância corresponde à relação entre o somatório dos quadrados das diferenças entre os elementos da série e sua média, e o número de observações da série. Para ficar mais didático, vamos à sua expressão:



\begin{equation}
Var(X) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}
\end{equation}



Vamos aplicar essa expressão da variância às séries de dados da tabela 3. Abaixo trago o cálculo para a série A.



In [11]:
print("A variância da série A é igual a ",((9-11)**2+(10-11)**2+(11-11)**2+(12-11)**2+(13-11)**2)/5)




A variância da série A é igual a  2.0


##### Faça você mesmo!

Replique a aplicação da fórmula para as demais séries da tabela 3. Verifique que a variância da série **D** é zero e explique porque isso acontece. Responda: existe variância negativa? pq?

#### Desvio-Padrão

Apesar de a variância ser uma boa medida de dispersão dos dados, o seu resultado apresenta sempre o quadrado de sua dimensão, isto é, de sua unidade de medida. Por exemplo, se a variância for calculada sobre uma séries de dados de peso de pessoas, o resultado será acompanhado da unidade $Kg^2$ e isso pode gerar um pouco de dificuldade de interpretação dos resultados e de possíveis comparações. 

Para contornar essa situação, podemos utilizar outra medida de dispersão, o **desvio-padrão**, que é exatamente a raiz quadrada da variância. Dessa forma, o problema da dimensão fica resolvido. Segue a expressão do desvio-padrão:



\begin{eqnarray}
Dp(X) &=& \sqrt{Var(X)} \nonumber \\
      &=& \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}}
\end{eqnarray}



##### Faça você mesmo!

Calcule os desvios-padrão das séries contidas na tabela 3.

#### Coeficiente de Variação

Além de todas essas medidas, temos outra que combina duas das que já vimos aqui e que nos permite fazer comparações entre séries distintas, haja vista que está livre de qualquer unidade/dimensão. Trata-se de uma medida absoluta, o **coeficiente de variação**, que é definido da seguinte maneira:



\begin{equation}
	CV = \frac{dp(X)}{\bar{X}}
\end{equation}




Ou seja, o coeficiente de variação (CV) corresponde à razão entre o desvio-padrão e a média. E porque é uma medida absoluta?

Imagine uma série de dados sobre o peso (Kg) de alguns indivíduos. Suponha que dessa série temos uma média $\bar{X}=85 kg$ e um desvio-padrão $dp(X)=5 kg$. Calculando o CV, temos:



In [13]:
print("O coeficiente de variação da variavel peso é igual a ",85./5)



O coeficiente de variação da variavel peso é igual a  17.0


Perceba que na expressão acima, havia a unidade Kg tanto no numerador quanto no denominador. Se as duas grandezas tinham essa mesma unidade, ao final da divisão o resultado se apresenta de forma adimensional. 

##### Faça você mesmo!

Calcule os CV's das séries de dados da tabela 3
