# Estatística

## 1. Análise exploratória

A "Análise Exploratória de Dados", foi originada (formalmente) em 1977 com a publicação da obra "Exploratory Data Analysis", de John Tukey.

Aliada a computação, com o desenvolvimento de novas tecnologias e maior uso de dados, a análise exploratória de dados evoluiu muito além de seu escopo original.

### 1.1 Elementos de Dados Estruturados

Os dados vêm de várias fontes: medições de sensores, eventos, texto, imagens e vídeos.

O grande desafio da ciência de dados é transformar esse volume imenso de dados brutos, em informações acionáveis.

TIPOS DE DADOS
* Contínuo

    Dados que podem assumir qualquer valor em um intervalo
    
* Discreto

    Dados que podem assumir apenas valores inteiros, como contagens.

* Categórico

    Dados que podem assumir apenas um conjunto específico de valores que representam um conjunto de categorias possíveis.

    * Binário

        Um caso especial de dados categóricos com apenas duas categorias de valores (0/1, verdadeiro/falso).

* Ordinal

    Dados categóricos que possuem uma ordenação explícita.



#### *Por que nos preocupamos com uma taxonomia de tipos de dados?*


Para fins de análise de dados e modelagem preditiva, o tipo de dados é importante para ajudar a determinar o tipo de exibição
visual, análise de dados ou modelo estatístico. 

Mais importante, o tipo de dados para uma variável determina como o software irá lidar com cálculos para aquela variável.


### 1.2 "Dados Retangulares"

Os "dados retangulares" são essencialmente uma matriz bidimensional com linhas indicando registros (casos) e colunas indicando características (variáveis).


#### Data Frames e Índices

Tabelas possuem índices, seja em um banco de dados ou uma estrutura em linguagem Python ou R.

* Python - Pandas = DataFrame
* R = data.frame

#### Estruturas de dados não retangulares



Existem outras estruturas de dados além dos dados retangulares.

* Estrutura de dados de séries temporais: medições sucessivas da mesma variável.
* Estrutura de dados espaciais: mapeamento e na análise de localização (coordenadas). 
* Estruturas de dados de conexões (ou rede): são usadas para representar relacionamentos físicos, sociais e abstratos (redes sociais, centros de distribuição etc.). São úteis para certos tipos de problemas, como otimização de rede e sistemas de recomendação.

**Cada um desses tipos de dados tem sua metodologia especializada em ciência de dados.**


### 1.3 Média, Moda e Mediana 

#### Média

Média: soma de todos os valores dividida pelo número de valores.
Média aparada: média descartando valores extremos.
Média ponderada: média que multiplica cada valor por um peso em específico.

#### Moda
Moda: valor que mais se repete em um conjunto.

#### Mediana

Mediana: o número do meio em uma lista classificada de dados.
Mediana ponderada: mediana que multiplica cada valor por um peso em específico.



#### Outliers

"A definição exata de um outlier é um tanto subjetiva, embora certas convenções sejam usadas
em vários resumos e gráficos de dados (quartis, boxplots)"


### 1.4 Variabilidade 

Também conhecida como dispersão, mede se os valores dos dados estão bem agrupados ou dispersos

#### Desvio médio absoluto

Desvio médio absoluto: média da diferença entre cada dado e a média de todos os dados.

#### Variância

Variância: é a média dos desvios ao quadrado.

#### Desvio padrão

Desvio padrão: é a raiz quadrada da variância.

    "...matematicamente, trabalhar com valores ao quadrado é muito mais conveniente do que valores absolutos, especialmente para modelos estatísticos."

### Desvio mediano absoluto
Desvio mediano absoluto: mediana da diferença entre cada dado e a mmediana de todos os dados.

    Consequentemente também existe a variância e desvio padrão medianos.

    Mais utilizado para não incluir outliers

### 1.5 Explorando a distribuição de dados

* Percentis e Boxplot
* Tabela de frequência
* Histograma
* Density plot


### 1.6 Explorando dados categóricos e binários

* Tabela de Frequência
* Moda
* "Valor esperado" (média ponderada)
* Gráfico de Barras
* Gráfico de setores


### 1.7 Correlação

* Coeficiente de correlação
* Matriz de correlação
* Gráfico de dispersão

Pontos importantes da correlação:

* O coeficiente de correlação mede até que ponto duas variáveis são associados um ao outro.
* Quando valores altos de v1 vão com valores altos de v2, v1 e v2 são associados positivamente.
* Quando valores altos de v1 estão associados a valores baixos de v2, v1 e v2 estão negativamente associados.
* O coeficiente de correlação é uma métrica padronizada para que sempre varie de –1 (correlação negativa perfeita) a +1 (correlação positiva perfeita).
* Um coeficiente de correlação de 0 indica nenhuma correlação, mas esteja ciente de que arranjos aleatórios de dados produzirão valores positivos e negativos para o coeficiente de correlação apenas por acaso.

#### **Coeficiente de correlação**

Mede até que ponto as variáveis numéricas estão associadas umas às outras (varia de –1 a +1).

* Pearson
* Spearman
* Kendall

#### **Matriz de correlação**

Tabela com os coeficientes de correlação entre variáveis

#### **Gráfico de dispersão**

Gráfico onde o eixo x é uma variável e o eixo y é outra variável

#### Covariância

É a medida do grau de interdependência (ou inter-relação) numérica entre duas variáveis.

### 1.8 Explorando duas ou mais variáveis