# Análise de Dados - Medidas
Como sugere o título, esse guia contextualizará a análise de dados através das **medidas** e como podemos fazer isso de um jeito simples.

Hoje, a internet gera uma quantidade enorme de dados a cada instante. Saiba que são feitas aproximadamente dois milhões de buscas no Google por minuto, e ele é apenas mais um dos mecanismos. 

Para analisar esses dados, é possível utilizar diversas técnicas e ferramentas (todas baseadas em teorias), porém **a mais básica de todas é o entendimento das medidas simples**, que são medidas estatísticas.

### Sumário

### 1. Tipos de dados
Antes de entrarmos no mérito de analisar dados, precisamos entender o que são eles e quais os tipos de dados. Os números **não são** a maior parte deles, porém hoje em dia **os dados são transformados em números para que o computador possa interpretá-los**.

Os **dados não estruturados** são aqueles que não possuem uma estrutura concreta, existindo uma enorme variabilidade:
1. Textos - qualquer tipo de texto encontrado na internet;
1. Áudios, Vídeos e Imagens;
1. Grafos (são redes, nós, como a rede de amigos do Facebook, que te indica os amigos em comum, etc);
1. Webpages (código fonte das páginas);
1. Séries temporais (são dados do mesmo objeto que variam com o tempo);

Se pegarmos o Facebook ou a Wikipedia, podemos encontrar todos os tipos de **dados não estruturados** acima. Consegue pensar em mais alguma plataforma que também contenha tudo isso?

Como dito antes, esses dados são transformados para que o computador possa interpretá-los. Também são transformados para que **nós humanos** possamos analisá-los. Sendo assim, transformamos os **dados não estruturados** em **dados estruturados**, possuindo atributos/valores.

Os dados são estruturados em matrizes, onde a coluna diz respeito aos objetos (uma imagem por exemplo) e a linha diz respeito aos atributos (o que aquela imagem representa). No exemplo abaixo, uma tabela analisa o objeto **tipos de carro** e possui atributos **motor**, **quantos kilomestros roda por litro** e **ano de fabricação**.

Objeto   | Motor | Gasto de combustível (Km/L) | Ano
--------- | ------ | ---- | -------
Carro 1 | x | 10,3 | 2007
Carro 2 | y |  8,7 | 2012
... | ... | ... | ...
Carro n | z | 9,0 | 2020

Os dados **não precisam ser numéricos**. Vamos ver alguns tipos de variáveis:
1. Qualitativas:
    1. Nominais (sem significado matemático, exemplo: **motor x, y, z**);
    2. Ordinais (também não são números, porém representam uma ordem, exemplo: **pouco, médio, muito** ou **baixo, médio, alto**).
2. Quantitativas:
    1. Discretas (valores contáveis, exemplo: **ano = 2007**);
    2. Contínuas (valores reais, exemplo: **gasto de combustível = 10,3**, **peso**, **distância**, etc).
    
Na tabela fictícia abaixo em que podemos analisar as relações entre as diversas variáveis de uma pessoa para entender o porquê de uma _Nota final_.
    
 Código | Nome | Idade | Sexo | Região | Escolaridade | Nota final 
--- | --- | --- | --- | --- | --- | ---
1 | Mário | 20 | Masculino | Sudeste | Ensino Médio | 70
2 | Julia | 19 | Feminino | Centro-oeste | Ensino Médio | 73
3 | Clebson | 32 | Masculino | Nordeste | Ensino Superior | 85
... | ... | ... | ... | ... | ... | ...
77 | Roberta | 26 | Feminino | Norte | Ensino Superior | 83

    
    
Apesar de as colunas **Nome** e **Código** representarem o **Objeto**, elas podem ser entendidas como dados do tipo **qualitativo nominal**. A coluna Código possui valores numéricos, mas o número é apenas um símbolo indicando uma pessoa. As colunas **Região** e **Sexo** também possuem dados qualitativos nominais.

A coluna **Escolaridade** também possui dados qualitativos, porém diferentemente dos anteriores, eses são **qualitativos ordinais**, pois o nível de escolaridade pode ser interpretado como sendo **baixo**, **médio** e **alto**, e até mesmo transformado em numerais, como **1**, **2** e **3**.

A coluna **Idade** diz respeito a um dado **quantitativo discreto**, pois é um número que podemos contar facilmente. 

Já a coluna **Nota final** possui dados **quantitativos contínuos**, pois apesar de ser numérico, é um número que possui suas próprias variáveis (por exemplo o peso de questões em uma prova, a média de todas elas, nota de uma redação, etc).


### 2. Escala de dados
A **escala de dados** diz respeito a quais operações lógicas podem ser realizadas nos valores dos atributos. Vamos entender melhor descrevendo com os tipos de dados e as operações possíveis. 

1. Qualitativas:
    1. Nominais: **=** e **≠**. Exemplo: Sudeste **=** Sudeste; Norte ≠ Nordeste;
    2. Ordinais: **=**, **≠**, **<**, **>**, **≤**, **≥**. Essas outras operações são possíveis pois os dados qualitativos ordinais são **contáveis**. **Escolaridade baixa < alta**.
2. Quantitativas:
    1. Intervalares: **=, ≠, <, >, ≤, ≥, +** e **-**: datas, temperatura, distância, etc. Esse tipo de valor não pode ser contabilizado como um numeral comum. 20 celsius não é o dobro de 10 celsius, pois é uma escala baseada em Kelvin. O ano 2000 também não pode ser o dobro do ano 1000, pois o calendário é baseado em datas abstratas. Alguns anos são maiores do que os outros, por exemplo.
    2. Racionais: **=, ≠, <, >, ≤, ≥, +, -, *** e **/** diferente dos intervalares, os valores numéricos racionais possuem um **significado absoluto**. Uma grande diferença entre números intervalares e números racionais é que o último pode conter o número zero absoluto. Exemplo: a própria escala Kelvin, que possui um zero absoluto, além de salário, número de objetos e pessoas, saldo em conta. Aqui podemos **multiplicar e dividir**. Metade de um valor é obtido através da divisão por dois.
    
    
Consulte a tabela abaixo para ver o que cada símbolo significa e uma exemplificação mais gráfica!

Símbolo | Operação | Qualitativo nominal | Qualitativo Ordinal | Quantitativo Intervalar | Quantitativo Racional
--| ---       | ---               | ---           | --| ---
= | Igual     | Sudeste = Sudeste | Baixo = Baixo  | 32º F = 32º F | 9,807 m/s² = 9,807 m/s² (gravidade da terra)
≠ | Diferente | Norte ≠ Nordeste  | Muito ≠ Pouco | 32º F ≠ -32º F  | 1.000 N ≠ 3.000 N (força do soco de um boxeador)
< | Menor |    | Baixo < Alto | 10ºC < 20ºC | 20 centavos < 21 centavos
> | Maior |    | Alto > Baixo | 10ºC > 20ºC | 20,10 reais > 20,01 reais
≤ | Menor ou igual |    | Alto ≤ Alto | ano 200 a.C. ≤ 400 d.C. | 200K ≤ 300K
≥ | Maior ou igual |    | Alto ≥ Alto | ano 200 a.C. ≥ 200 a.C. | 4 laranjas ≥ 4 laranjas
+ | Positivo | | | 20ºC  | + 200 reais de saldo
- | Negativo | | | -20ºC | - 200 reais de saldo
/ | Divisão | | | | 800K / 2 = 400K
* | Multiplicação | | | | 400 reais * 2 = 800 reais


### 3. Vamos descrever os dados!
Vimos até aqui:
1. quais são os diferentes tipos de atributos
2. como classificamos os valores
3. quais operações podemos realizar

Agora podemos **descrever os dados** através de métodos da **Estatística Descritiva**. As medidas que analisaremos são as seguintes:
1. Medida de frequência;
2. Medidas centrais;
3. Medida de dispersão.

Vamos ampliar a tabela que utilizamos anteriormente para exemplificar cada uma das medidas! Consideraremos somente as 10 primeiras linhas da matriz.

 Código | Nome | Idade | Sexo | Região | Escolaridade | Nota final 
--- | --- | --- | --- | --- | --- | ---
1 | Mário | 20 | Masculino | Sudeste | Ensino Médio | 70
2 | Julia | 19 | Feminino | Centro-oeste | Ensino Médio | 73
3 | Clebson | 32 | Masculino | Nordeste | Ensino Superior | 85
4 |  Kelly|   43  |Feminino  | Sudeste | Ensino Médio | 75
5 | Salviano | 77 | Masculino | Norte | Ensino Médio | 34
6 |Pietro  | 17 | Masculino | Sul | Ensino Superior  | 43
7 | Jade |   24 | Feminino | Sul | Ensino Superior | 62
8 |Gabrielly  | 17 | Feminino | Nordeste | Ensino Médio | 16
9 |  Joesley  | 56 | Masculino | Centro-oeste | Ensino Médio | 64
10 | Paulo   | 24 | Masculino | Sudeste | Ensino Superior | 94
... | ... | ... | ... | ... | ... | ...


#### 3.1 Medida de frequência
A **medida de frequência** é a mais conhecida! Ela diz respeito à frequência de aparição de um certo valor. Vamos pegar a variante **Sexo**. O valor **Masculino** aparece 6 vezes e o **Feminino** aparece 4 vezes. Intuitivamente, 60% são Masculinos e 40% são Femininos.

Para o cálculo da frequência **x**, a _regrinha de três_ pode ser utilizada. Podemos definir a fórmula como **Número de linhas * x = Número de Elementos * 100**. O número de elementos diz respeito a quantas vezes apareceu o elemento nas linhas selecionadas.

Para medir a frequência **x** de pessoas masculinas:
10 * x = 6 * 100
10x = 600
x = 600/10
x = 60%

#### 3.2 Medidas centrais
##### Moda
As medidas centrais são também chamadas de **Moda**. Com elas, costumamos medir dados **nominais** (porém é possível medir qualquer tipo de dado estruturado) com o objetivo de **retornar o valor mais comum**.

Vamos medir a **Moda da variente Região** nas 10 primeiras linhas da matriz. Para isso, contamos o número de ocorrências de cada valor e identificamos qual deles aparece mais:

Região | Número de aparições 
--- | ---
Sul | 2
Sudeste | 3
Centro-oeste | 2
Norte | 1
Nordeste | 2

Podemos constatar nesse rápido exemplo que **a Moda da variante Região é Sudeste**.

Caso queira representar a medida de Frequência e a medida de Moda em **gráfico**, opte por representá-la através do gráfico de pizza. A ordenação dos valores em um gráfico de barras poderá dar uma falsa sugestão de que algo está crescendo ou decrescendo, e isso deve ser evitado pois não diz respeito à análise que queremos representar.

##### Média
Para determinar a medida central de **variáveis quantitativas**, nós calculamos o valor da **Média**. Para isso, **somamos** os valores e **dividimos** pelo número total de observações (linhas calculadas).

Para calcular a Média da variante **Idade**, somamos todos os valores da coluna e dividimos pelo número de linhas (ou número de elementos somados).

![image.png](attachment:image.png)

In [7]:
media_idade = (20 + 19 + 32 + 43 + 77 + 17 + 24 + 17 + 56 + 24) / 10
print("A Média da variável Idade é:", media_idade)

A Média da variável Idade é: 32.9


#### Mediana
**Não confunda Média com Mediana**. Essa última diz respeito ao **valor central**. Vamos exemplificar com o cálculo da Mediana da variável fictícia **peso**:

Jorge | Matheus | Fernanda | Samanta | Carla
-- | -- | -- | -- | --
54.3 kg | 76.2 kg | 97.7 kg | 55.0 kg | 69.6 kg

Para chegarmos ao valor central, precisamos:
1. Ordenar os valores (pode ser crescente ou decrescente);

Jorge | Samanta | Carla | Matheus | Fernanda
-- | -- | -- | -- | --
54.3 kg | 55.0 kg | 69.6 kg | 76.2 kg | 97.7 kg

2. Saber se o número de elementos do conjunto de valores a ser calculado é um número **ímpar** ou **par**.
    1. Ímpar: a **Mediana** é o valor do meio, ou seja, **69.6 kg**;
    2. Par: a **Mediana** é a soma dos dois valores do meio / 2.

Vamos adicionar mais um valor para calcular a Mediana de um conjunto par:

Jorge | Samanta | Carla | Matheus | Fernanda | Roberto
-- | -- | -- | -- | -- | --
54.3 kg | 55.0 kg | 69.6 kg | 76.2 kg | 97.7 kg | 101.2 kg

Como agora o número total de elementos do conjunto é de número **par**, a **Mediana** é a soma dos dois valores centrais dividido por dois.

In [9]:
Carla = 69.6
Matheus = 76.2
mediana_par = (Carla + Matheus) / 2

print("A mediana do conjunto é:", mediana_par)

A mediana do conjunto é: 72.9
