# Análise de Dados - Medidas
Como sugere o título, esse guia contextualizará a análise de dados através das **medidas** e como podemos fazer isso de um jeito simples.

Hoje, a internet gera uma quantidade enorme de dados a cada instante. Saiba que são feitas aproximadamente dois milhões de buscas no Google por minuto, e ele é apenas mais um dos mecanismos. 

Para analisar esses dados, é possível utilizar diversas técnicas e ferramentas (todas baseadas em teorias), porém **a mais básica de todas é o entendimento das medidas simples**, que são medidas estatísticas.
<a name="intro"></a>
### Sumário

1. [Tipos de dados](#git1)
2. [Escala de dados](#git2)
3. [Vamos descrever os dados!](#git3)
    1. [Medida de frequência](#git3.1)
    2. [Medidas centrais](#git3.2)
        1. [Moda](#git3.2.1)
        2. [Média](#git3.2.2)
        3. [Mediana](#git3.2.3)
        4. [Quando utilizar a Média e a Mediana](#git3.2.4)
        5. [Quartil e percentil](#git3.2.5)
        6. [Boxplot](#git3.2.6)
    3. [Medidas de dispersão](#git3.3)
        1. [Variância](#git3.3.1)
        2. [Desvio padrão](#git3.3.2)
        3. [IQR](#git3.3.3)
4. [Mensagem de conforto + aplicação em um código pequeno](#git4)

### 1. Tipos de dados <a name="git1"></a> [🠡](#intro)
Antes de entrarmos no mérito de analisar dados, precisamos entender o que são eles e quais os tipos de dados. Os números **não são** a maior parte deles, porém hoje em dia **os dados são transformados em números para que o computador possa interpretá-los**.

Os **dados não estruturados** são aqueles que não possuem uma estrutura concreta, existindo uma enorme variabilidade:
1. Textos - qualquer tipo de texto encontrado na internet;
1. Áudios, Vídeos e Imagens;
1. Grafos (são redes, nós, como a rede de amigos do Facebook, que te indica os amigos em comum, etc);
1. Webpages (código fonte das páginas);
1. Séries temporais (são dados do mesmo objeto que variam com o tempo);

Se pegarmos o Facebook ou a Wikipedia, podemos encontrar todos os tipos de **dados não estruturados** acima. Consegue pensar em mais alguma plataforma que também contenha tudo isso?

Como dito antes, esses dados são transformados para que o computador possa interpretá-los. Também são transformados para que **nós humanos** possamos analisá-los. Sendo assim, transformamos os **dados não estruturados** em **dados estruturados**, possuindo atributos/valores.

Os dados são estruturados em matrizes, onde a coluna diz respeito aos objetos (uma imagem por exemplo) e a linha diz respeito aos atributos (o que aquela imagem representa). No exemplo abaixo, uma tabela analisa o objeto **tipos de carro** e possui atributos **motor**, **quantos kilomestros roda por litro** e **ano de fabricação**.

Objeto   | Motor | Gasto de combustível (Km/L) | Ano
--------- | ------ | ---- | -------
Carro 1 | x | 10,3 | 2007
Carro 2 | y |  8,7 | 2012
... | ... | ... | ...
Carro n | z | 9,0 | 2020

Os dados **não precisam ser numéricos**. Vamos ver alguns tipos de variáveis:
1. Qualitativas:
    1. Nominais (sem significado matemático, exemplo: **motor x, y, z**);
    2. Ordinais (também não são números, porém representam uma ordem, exemplo: **pouco, médio, muito** ou **baixo, médio, alto**).
2. Quantitativas:
    1. Discretas (valores contáveis, exemplo: **ano = 2007**);
    2. Contínuas (valores reais, exemplo: **gasto de combustível = 10,3**, **peso**, **distância**, etc).
    
Na tabela fictícia abaixo em que podemos analisar as relações entre as diversas variáveis de uma pessoa para entender o porquê de uma _Nota final_.
    
 Código | Nome | Idade | Sexo | Região | Escolaridade | Nota final 
--- | --- | --- | --- | --- | --- | ---
1 | Mário | 20 | Masculino | Sudeste | Ensino Médio | 70
2 | Julia | 19 | Feminino | Centro-oeste | Ensino Médio | 73
3 | Clebson | 32 | Masculino | Nordeste | Ensino Superior | 85
... | ... | ... | ... | ... | ... | ...
77 | Roberta | 26 | Feminino | Norte | Ensino Superior | 83

    
    
Apesar de as colunas **Nome** e **Código** representarem o **Objeto**, elas podem ser entendidas como dados do tipo **qualitativo nominal**. A coluna Código possui valores numéricos, mas o número é apenas um símbolo indicando uma pessoa. As colunas **Região** e **Sexo** também possuem dados qualitativos nominais.

A coluna **Escolaridade** também possui dados qualitativos, porém diferentemente dos anteriores, eses são **qualitativos ordinais**, pois o nível de escolaridade pode ser interpretado como sendo **baixo**, **médio** e **alto**, e até mesmo transformado em numerais, como **1**, **2** e **3**.

A coluna **Idade** diz respeito a um dado **quantitativo discreto**, pois é um número que podemos contar facilmente. 

Já a coluna **Nota final** possui dados **quantitativos contínuos**, pois apesar de ser numérico, é um número que possui suas próprias variáveis (por exemplo o peso de questões em uma prova, a média de todas elas, nota de uma redação, etc).


### 2. Escala de dados  <a name="git2"></a> [🠡](#intro)
A **escala de dados** diz respeito a quais operações lógicas podem ser realizadas nos valores dos atributos. Vamos entender melhor descrevendo com os tipos de dados e as operações possíveis. 

1. Qualitativas:
    1. Nominais: **=** e **≠**. Exemplo: Sudeste **=** Sudeste; Norte ≠ Nordeste;
    2. Ordinais: **=**, **≠**, **<**, **>**, **≤**, **≥**. Essas outras operações são possíveis pois os dados qualitativos ordinais são **contáveis**. **Escolaridade baixa < alta**.
2. Quantitativas:
    1. Intervalares: **=, ≠, <, >, ≤, ≥, +** e **-**: datas, temperatura, distância, etc. Esse tipo de valor não pode ser contabilizado como um numeral comum. 20 celsius não é o dobro de 10 celsius, pois é uma escala baseada em Kelvin. O ano 2000 também não pode ser o dobro do ano 1000, pois o calendário é baseado em datas abstratas. Alguns anos são maiores do que os outros, por exemplo.
    2. Racionais: **=, ≠, <, >, ≤, ≥, +, -, *** e **/** diferente dos intervalares, os valores numéricos racionais possuem um **significado absoluto**. Uma grande diferença entre números intervalares e números racionais é que o último pode conter o número zero absoluto. Exemplo: a própria escala Kelvin, que possui um zero absoluto, além de salário, número de objetos e pessoas, saldo em conta. Aqui podemos **multiplicar e dividir**. Metade de um valor é obtido através da divisão por dois.
    
    
Consulte a tabela abaixo para ver o que cada símbolo significa e uma exemplificação mais gráfica!

Símbolo | Operação | Qualitativo nominal | Qualitativo Ordinal | Quantitativo Intervalar | Quantitativo Racional
--| ---       | ---               | ---           | --| ---
= | Igual     | Sudeste = Sudeste | Baixo = Baixo  | 32º F = 32º F | 9,807 m/s² = 9,807 m/s² (gravidade da terra)
≠ | Diferente | Norte ≠ Nordeste  | Muito ≠ Pouco | 32º F ≠ -32º F  | 1.000 N ≠ 3.000 N (força do soco de um boxeador)
< | Menor |    | Baixo < Alto | 10ºC < 20ºC | 20 centavos < 21 centavos
> | Maior |    | Alto > Baixo | 10ºC > 20ºC | 20,10 reais > 20,01 reais
≤ | Menor ou igual |    | Alto ≤ Alto | ano 200 a.C. ≤ 400 d.C. | 200K ≤ 300K
≥ | Maior ou igual |    | Alto ≥ Alto | ano 200 a.C. ≥ 200 a.C. | 4 laranjas ≥ 4 laranjas
+ | Positivo | | | 20ºC  | + 200 reais de saldo
- | Negativo | | | -20ºC | - 200 reais de saldo
/ | Divisão | | | | 800K / 2 = 400K
* | Multiplicação | | | | 400 reais * 2 = 800 reais


### 3. Vamos descrever os dados!  <a name="git3"></a> [🠡](#intro)
Vimos até aqui:
1. quais são os diferentes tipos de atributos
2. como classificamos os valores
3. quais operações podemos realizar

Agora podemos **descrever os dados** através de métodos da **Estatística Descritiva**. As medidas que analisaremos são as seguintes:
1. Medida de frequência;
2. Medidas centrais;
3. Medidas de dispersão.

Vamos ampliar a tabela que utilizamos anteriormente para exemplificar cada uma das medidas! Consideraremos somente as 10 primeiras linhas da matriz.

 Código | Nome | Idade | Sexo | Região | Escolaridade | Nota final 
--- | --- | --- | --- | --- | --- | ---
1 | Mário | 20 | Masculino | Sudeste | Ensino Médio | 70
2 | Julia | 19 | Feminino | Centro-oeste | Ensino Médio | 73
3 | Clebson | 32 | Masculino | Nordeste | Ensino Superior | 85
4 |  Kelly|   43  |Feminino  | Sudeste | Ensino Médio | 75
5 | Salviano | 77 | Masculino | Norte | Ensino Médio | 34
6 |Pietro  | 17 | Masculino | Sul | Ensino Superior  | 43
7 | Jade |   24 | Feminino | Sul | Ensino Superior | 62
8 |Gabrielly  | 17 | Feminino | Nordeste | Ensino Médio | 16
9 |  Joesley  | 56 | Masculino | Centro-oeste | Ensino Médio | 64
10 | Paulo   | 24 | Masculino | Sudeste | Ensino Superior | 94
... | ... | ... | ... | ... | ... | ...


#### 3.1 Medida de frequência  <a name="git3.1"></a> [🠡](#intro)
A **medida de frequência** é a mais conhecida! Ela diz respeito à frequência de aparição de um certo valor. Vamos pegar a variante **Sexo**. O valor **Masculino** aparece 6 vezes e o **Feminino** aparece 4 vezes. Intuitivamente, 60% são Masculinos e 40% são Femininos.

Para o cálculo da frequência **x**, a _regrinha de três_ pode ser utilizada. Podemos definir a fórmula como **Número de linhas * x = Número de Elementos * 100**. O número de elementos diz respeito a quantas vezes apareceu o elemento nas linhas selecionadas.

Para medir a frequência **x** de pessoas masculinas:
10 * x = 6 * 100
10x = 600
x = 600/10
x = 60%

#### 3.2 Medidas centrais  <a name="git3.2"></a> [🠡](#intro)
##### Moda  <a name="git3.2.1"></a> [🠡](#intro)
As medidas centrais são também chamadas de **Moda**. Com elas, costumamos medir dados **nominais** (porém é possível medir qualquer tipo de dado estruturado) com o objetivo de **retornar o valor mais comum**.

Vamos medir a **Moda da variente Região** nas 10 primeiras linhas da matriz. Para isso, contamos o número de ocorrências de cada valor e identificamos qual deles aparece mais:

Região | Número de aparições 
--- | ---
Sul | 2
Sudeste | 3
Centro-oeste | 2
Norte | 1
Nordeste | 2

Podemos constatar nesse rápido exemplo que **a Moda da variante Região é Sudeste**.

Caso queira representar a medida de Frequência e a medida de Moda em **gráfico**, opte por representá-la através do gráfico de pizza. A ordenação dos valores em um gráfico de barras poderá dar uma falsa sugestão de que algo está crescendo ou decrescendo, e isso deve ser evitado pois não diz respeito à análise que queremos representar.

##### Média  <a name="git3.2.2"></a> [🠡](#intro)
Para determinar a medida central de **variáveis quantitativas**, nós calculamos o valor da **Média**. Para isso, **somamos** os valores e **dividimos** pelo número total de observações (linhas calculadas).

Para calcular a Média da variante **Idade**, somamos todos os valores da coluna e dividimos pelo número de linhas (ou número de elementos somados).

![image.png](attachment:image.png)

In [58]:
media_idade = (20 + 19 + 32 + 43 + 77 + 17 + 24 + 17 + 56 + 24) / 10
print("A Média da variável Idade é:", media_idade)

A Média da variável Idade é: 32.9


#### Mediana  <a name="git3.2.3"></a> [🠡](#intro)
**Não confunda Média com Mediana**. Essa última diz respeito ao **valor central**. Vamos exemplificar com o cálculo da Mediana da variável fictícia **peso**:

Jorge | Matheus | Fernanda | Samanta | Carla
-- | -- | -- | -- | --
54.3 kg | 76.2 kg | 97.7 kg | 55.0 kg | 69.6 kg

Para chegarmos ao valor central, precisamos:
1. Ordenar os valores (pode ser crescente ou decrescente);

Jorge | Samanta | Carla | Matheus | Fernanda
-- | -- | -- | -- | --
54.3 kg | 55.0 kg | 69.6 kg | 76.2 kg | 97.7 kg

2. Saber se o número de elementos do conjunto de valores a ser calculado é um número **ímpar** ou **par**.
    1. Ímpar: a **Mediana** é o valor do meio, ou seja, **69.6 kg**;
    2. Par: a **Mediana** é a soma dos dois valores do meio / 2.

Vamos adicionar mais um valor para calcular a Mediana de um conjunto par:

Jorge | Samanta | Carla | Matheus | Fernanda | Roberto
-- | -- | -- | -- | -- | --
54.3 kg | 55.0 kg | 69.6 kg | 76.2 kg | 97.7 kg | 101.2 kg

Como agora o número total de elementos do conjunto é de número **par**, a **Mediana** é a soma dos dois valores centrais dividido por dois.

In [59]:
Carla = 69.6
Matheus = 76.2
mediana_par = (Carla + Matheus) / 2

print("A mediana do conjunto é:", mediana_par)

A mediana do conjunto é: 72.9


#### Quando utilizar a Média e a Mediana?  <a name="git3.2.4"></a> [🠡](#intro)
O cálculo da Média e da Mediana geralmente possui os mesmos objetivos, porém em alguns casos a **Mediana** é melhor e mais confiável. Isso acontece pois algumas distribuições de valores são muito desiguais! Imagine se quisermos calcular a Média de **Altura** de uma equipe de basquete.

 Camisa | Nome | Altura
--- | --- | ---
1 | Miguel | 204cm 
2 | Joel | 192cm
3 | Manoel | 198cm
4 | Daniel | 202cm 
5 | Natanael | 189cm 
6 | Leonel | 195cm
7 | Tafarel | 196cm
8 | Josiel | 198cm
9 | Rafael | 202cm
10 | Gabriel | 199cm
11 | Uliel | 192cm
12 | Pedro | 1 cm

Se calcularmos a **Média** da variável **Altura** de toda a equipe, obteremos:

In [60]:
media_altura = (204 + 192 + 198 + 202 + 189 + 195 + 196 + 198 + 202 + 199 + 192 + 1) / 12
print("A Média da altura do time de basquete é:", media_altura, "centímetros")

A Média da altura do time de basquete é: 180.66666666666666 centímetros


Já se calcularmos a **Mediana**, obteremos:

In [61]:
mediana_altura = (195 + 196) / 2
print("A Mediana da altura do time de basquete é:", mediana_altura, "centímetros")

A Mediana da altura do time de basquete é: 195.5 centímetros


Nesse caso, a **Média** não pode ser confiável, por conta de um **outlier**. Esse outlier é **Pedro**, uma formiga. Por ser muito pequeno, ele desestabilizou o cálculo da Média!

A culpa não é do Pedro, ele faz parte do time de basquete e TEM QUE SER CONTADO no cálculo, é um direito dele!

Para que a presença desse **outlier** não afete tanto nossa análise, **optaremos pela Mediana**. Quanto mais diferente do conjunto for o outlier, mais será a distância entre o resultado da Média e da Mediana.

**Agora que você já sabe como fazer o cálculo, pode utilizar uma biblioteca pra tornar o processo mais rápido**!

In [62]:
import numpy as np

time_basquete = [204, 192, 198, 202, 189, 195, 196, 198, 202, 199, 192, 1]

média_time_basquete = np.mean(time_basquete)
print("Média:", média_time_basquete)

mediana_time_basquete = np.median(time_basquete)
print("Mediana:", mediana_time_basquete)

Média: 180.66666666666666
Mediana: 197.0


#### Quartil e percentil  <a name="git3.2.5"></a> [🠡](#intro)
Calculada a Mediana, podemos ainda realizar o cálculo do **Quartil** e do **Percentil**.

No **Quartil**, dividimos o conjunto em quatro partes e a mediana é agora o 2º quartil, ou 50%. Ele é maior do que 50% das observações:
1. O 1º quartil será o valor que tem **25%** dos demais valores abaixo dele;
1. O 2º quartil será o valor que tem **50%** dos demais valores abaixo dele;
1. O 3º quartil será o valor que tem **75%** dos demais valores abaixo dele.

1 | 2 | 3 | 4 |5 | 6 | 7 
 -| -| - |- | - | - | - 
 | 1º |  | 2º |  | 3º |  


Ao identificar o valor da **mediana de todos os três quartis**, **podemos realizar uma análise mais acurada de todo o conjunto de dados**. Principalmente em se tratando de um conjunto com a presença de outliers!


A diferença do Quartil para o **Percentil** é que no último, ao invés de ser 25%, 50% e 75%, **podem ser utilizados quaisquer valores**.

#### Boxplot  <a name="git3.2.6"></a> [🠡](#intro)
O tipo de gráfico para representar o cálculo de quartis e percentis é o **Boxplot**. Observe a imagem abaixo onde:
1. O quadrado vermelho é a **distância entre o primeiro e o terceiro quartil**;
2. A linha amarela é o valor da mediana do conjunto;
3. Os traços mais marginais são definidos arbitrariamente. Eles servem para excluir da representação quaisquer dados **outliers** que venham a prejudicar a análise gráfica.

<img src="images/boxplot example.png" width=50%>

#### 3.3 Medidas de dispersão  <a name="git3.3"></a> [🠡](#intro)
São o último tipo de medidas que estudaremos aqui nesse guia. As **medidas de dispersão** servem para casos em que os conjuntos de dados **diferentes** possuem **a mesma Média**, como no exemplo abaixo.

In [63]:
X = [5, 6, 1, 4]
Y = [2, 6, 0, 8]
Z = [4, 4, 4, 4]

média_X = np.mean(X)
média_Y = np.mean(Y)
média_Z = np.mean(Z)
print("X:", média_X, "Y:", média_Y, "Z:", média_Z)

X: 4.0 Y: 4.0 Z: 4.0


O objetivo das medidas de dispersão é medir a **dispersão**/espalhamento de um conjunto de valores. A pergunta a se fazer é **como os valores estão espalhados em relação à Média?**

Para obter essa resposta, podemos utilizar várias medidas de dispersão diferentes, porém as três mais comuns são:
1. Variância;
2. Desvio padrão;
3. IQR (Intervalo Interquartil ou _Interquartile range_).

#### Variância  <a name="git3.3.1"></a> [🠡](#intro)
Para obter a variância é necessário calcular a **Esperança de X menos a Esperança de X ao quadrado**

 E[(X - E(X))²]

A variância é igual **a distância quadrática média em relação à média**.


#### Desvio padrão  <a name="git3.3.2"></a> [🠡](#intro)
O **desvio padrão** é uma mudança no cálculo da variância visto acima, utilizado quando em nossos dados possuímos apenas uma **amostragem**, ou seja, apenas parte de todos os dados possíveis. Exemplo: um curso possui 800 alunos matriculados, porém os dados de apenas 100 deles foram colhidos. **O desvio padrão amostral** será considerado. 

A diferença da fórmula da Variância para a fórmula com o Desvio Padrão é que o último subtrai 1 (um) de N (N - 1).

"N" significa o número total da **população**/número de elementos de um conjunto. 

Nos últimos conjuntos vistos por nós (X, Y e Z), o **N** é igual a **4** e o cálculo considerando o desvio padrão amostral incluirá **N - 1 = 3**.

#### IQR  <a name="git3.3.3"></a> [🠡](#intro)
O **IQR** ou intervalo interquartil é outra medida de dispersão muito importante. Ao ler "interquartil", você deve ter se lembrado dos quartis e do gráfico Boxsplot. Eles são utilizados quando uma análise é sensível a **outliers** e o mesmo acontece aqui, com o **IQR**. 

**Se a média é afetada pelos outliers, a variância também será**.

Calculamos a distância interquartil do **terceiro** quartil **menos** o **primeiro** quartil:

IQR = Q3 - Q1



### 4. Mensagem de conforto + aplicação em um código pequeno  <a name="git4"></a> [🠡](#intro)
Assim como eu, pode ser que você tenha ficado muito desconfortável com essas últimas medidas de dispersão, pois a complexidade é **sim** grande, por mais que tenha encontrado pessoas falando na maior naturalidade. **Fique tranquilo**, basta compreender **quando** você utilizará esses cálculos e **por que resultou daquilo** após calcular.

Hoje em dia, existem várias linguagens de programações, que possuem boas bibliotecas especialmente construídas para realizar todos esses cálculos com uma simples linha de código! O Python é a linguagem mais utilizada hoje em dia para realizarmos Data Sciente e Machine Learning, e você está no caminho certo. 

Pra encerrar, vou rodar aqui embaixo o cálculo da variância considerando o **intervalo interquartil**. Para isso, utilizarei a biblioteca **numpy** para calcular a **Média** e a biblioteca **scipy**, para calcular o **IQR**.

In [64]:
from scipy.stats import iqr

def variancia(conjunto): # função para calcular variância do conjunto
    media = np.mean(conjunto) # vamos calcular a Média do conjunto
    N = len(conjunto) # como vimos, N é o número de amostragem/de elementos do conjunto 
    variancia = 0 # vazia mas será preenchida abaixo
    for i in np.arange(0, len(conjunto)): # para cada elemento "i" no "arange" de 0 até o comprimento do conjunto 
        variancia = variancia + (conjunto[i]-media)**2 # calcular "i" menos média ao quadrado
    variancia = variancia/(N-1)
    return variancia

def print_variancia(conjunto):
    print("Média de", conjunto, " =", np.mean(conjunto))
    print("Variância de", conjunto, " =", variancia(conjunto))
    print("IQR de", conjunto, " =", iqr(conjunto))
    print("Amplitude de", conjunto, " =", np.max(conjunto)-np.min(conjunto))
    print("")

X = [5, 6, 1, 4]
Y = [2, 6, 0, 8]
Z = [4, 4, 4, 4]
QUALQUEROUTRA = [0, 0, 1, 1, 18]

print_variancia(X)
print_variancia(Y)
print_variancia(Z)
print_variancia(QUALQUEROUTRA)

Média de [5, 6, 1, 4]  = 4.0
Variância de [5, 6, 1, 4]  = 4.666666666666667
IQR de [5, 6, 1, 4]  = 2.0
Amplitude de [5, 6, 1, 4]  = 5

Média de [2, 6, 0, 8]  = 4.0
Variância de [2, 6, 0, 8]  = 13.333333333333334
IQR de [2, 6, 0, 8]  = 5.0
Amplitude de [2, 6, 0, 8]  = 8

Média de [4, 4, 4, 4]  = 4.0
Variância de [4, 4, 4, 4]  = 0.0
IQR de [4, 4, 4, 4]  = 0.0
Amplitude de [4, 4, 4, 4]  = 0

Média de [0, 0, 1, 1, 18]  = 4.0
Variância de [0, 0, 1, 1, 18]  = 61.5
IQR de [0, 0, 1, 1, 18]  = 1.0
Amplitude de [0, 0, 1, 1, 18]  = 18

