In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import random

## Estimativas de localização / tendência central

Variáveis com dados medidos ou de contagem podem ter milhares de valores distintos. Um passo básico na exploração dos seus dados é obter um "valor típico" para cada variável: uma estimativa de onde a maioria dos dados está localizada, ou seja, sua tendência central ("the tendency of quantitative data to cluster around some central value.")

Qual é o ponto que resume todos os pontos que tenho?

**Obs**: na estatística, 'N' se refere ao numéro de registros da população e 'n' da amostra.

**Obs**: para substituição de dados faltantes, se não tiver outlier nos dados, dá para usar a média, se tiver dá para pegar o que está entre o quartil 25 e o quartil 75 e preencher com valores aleatórios dentro desse range.

**Obs**: 

### Média

$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$

### 'Trimmed' média

Calcular descartando um número fixo de valores classificados em cada extremidade e, em seguida, tirando uma média dos valores restantes.

$\bar{x}{trim} = \frac{\sum^{^{n-k}}_{i=k+1} x_i}{n-2k}$

K é a quantidade de valores que serão removidos em cada extremidade.

### Mediana

A mediana é o número do meio em uma lista ordenada dos dados. A mediana depende apenas dos valores no centro dos dados classificados (depende da localização e não dos valores em si).

A mediana é considerada uma estimativa robusta de localização, pois não é influenciada por valores fora do padrão (casos extremos) que poderiam distorcer os resultados.

A mediana não é a única estimativa robusta de localização. De fato, a média aparada é amplamente utilizada para evitar a influência de valores fora do padrão. Por exemplo, aparar os 10% inferiores e superiores dos dados (uma escolha comum) fornecerá proteção contra valores fora do padrão em todos os conjuntos de dados, exceto os mais pequenos. A média aparada pode ser vista como um compromisso entre a mediana e a média: é robusta a valores extremos nos dados, mas usa mais dados para calcular a estimativa de localização.

### Outlier

An exact definition of an outlier is somewhat subjective, although certain conventions are used. Um outlier é qualquer valor que distoa muito dos outros valores do conjunto de dados.

## Estimativas de dispersão / variabilidade

A localização é apenas uma dimensão na sumarização de uma característica. Uma segunda dimensão, variabilidade, também conhecida como dispersão, mede se os valores dos dados estão fortemente agrupados ou espalhados. No coração da estatística está a variabilidade: medindo, reduzindo, distinguindo variabilidade aleatória de variabilidade real, identificando as várias fontes de variabilidade real e tomando decisões na presença dela.

### Definições

* **Deviations** - The difference between the observed values and the estimate of location (pode ser chamado de erro ou resíduo).
* **Variance** - The sum of squared deviations from the mean divided by n – 1 where n is the number of data values (chamada também de mean-squared-error).
* **Standard deviation** - The square root of the variance
* **Mean absolute deviation** - The mean of the absolute values of the deviations from the mean. (chamado de l1-norm ou Manhattan norm).
* **Median absolute deviation from the median** - The median of the absolute values of the deviations from the median.
* **Range** - The difference between the largest and the smallest value in a data set.
* **Order statistics** - Metrics based on the data values sorted from smallest to biggest.
* **Percentile** - The value such that P percent of the values take on this value or less and (100–P) percent take on this value or more.
* **Interquartile range (IQR)** - The difference between the 75th percentile and the 25th percentile.

### Standard deviation and Related Estimates

The most widely used estimates of variation are based on the differences, or deviations, between the estimate of location and the observed data.

#### Mean Absolute Deviation (MAD)

One way to measure variability is to estimate a typical value for these deviations.
Averaging the deviations themselves would not tell us much—the negative deviations
offset the positive ones. 

So, we take the average of the absolute values of the
deviations from the mean.

$MAD = \frac{1}{n} \sum_{i=1}^{n} |x_i - \mu|$

#### Variance and Standard Deviation

The best-known estimates of variability are the variance and the standard deviation,
which are based on squared deviations.

The standard deviation is much easier to interpret than the variance since it is on the
same scale as the original data.

**Obs:** standard deviation is preferred in statistics over the mean absolute deviation. It owes its preeminence to statistical theory: mathematically, working with squared values is much more convenient than absolute values, especially for statistical models.

$\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2$

$\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}$

### Estimates based on Percentiles

A different approach to estimating dispersion is based on looking at the spread of the sorted data. Statistics based on sorted (ranked) data are referred to as order statistics.

A medida mais básica é o range. Ele é bom em identificar outliers, mas é uma medida muito sensível a outlier quando você quer medir a dispersão dos dados com o range. Para evitar isso, pode olhar pro range depois de dropar os outliers.

Essas medidas são baseadas nas diferenças entre os percentis. 

#### Percentile

O Pth percentil é o valor que P% dos valores são iguais a ele ou menores e (100 - P)% dos dados estão acima dele. 

A mediana é a mesma coisa que o 50th percentil. 

O percentil é a mesma coisa que o quantil, quando se fala em quantil, você fala em .8, .7, que a mesma coisa coisa que falar 80 percentil, 70 percentil.

Percentiles are also valuable for summarizing the entire distribution.

Percentiles are especially valuable for summarizing the tails (the outer range) of the distribution.

**Obs:** para datasets grandes, calcular os exatos percentis pode ser computacionalmente custos, uma vez que para isso é necessário ordenar todos os dados. Para isso, foram desenvolvidos algoritmos que calculam mais rapidamente e chegam em uma aproximação do percentil exato. 

**Obs:** Quartis (25th percentil, 50th percentil, 75 percentil). Decil (10 percentil, 20, ... 90 percentil).

#### Interquartile Range (IQR)

É uma medida de dispersão comum.

Ela é a diferença entre o percentil 75 e o percentil 25.

Exemplo:
* Dados: {3,1,5,3,6,7,2,9}.
* Dados ordenados: {1,2,3,3,5,6,7,9}
* O 25th é 2.5, o 75th percentil é 6.5, então o IQR = 6.5 – 2.5 = 4.

## Exploring the Data Distribution

Each of the estimates we’ve covered sums up the data in a single number to describe
the location or variability of the data.  It is also useful to explore how the data is dis‐
tributed overall.


### Definições

* **Boxplot**: A plot introduced by Tukey as a quick way to visualize the distribution of data.
* **Frequency Table**: A tally of the count of numeric data values that fall into a set of intervals (bins).
* **Histogram**: A plot of the frequency table with the bins on the x-axis and the count (or proportion) on the y-axis. While visually similar, bar charts should not be confused with histograms.
* **Density plot**: A smoothed version of the histogram, often based on a kernel density estimate.

### Boxplot

https://miro.medium.com/max/828/1*objBGPPd5mgAXLOnJYqaFA.webp

The top and bottom of the box are the 75th and 25th percentiles, respectively. The median is shown by the horizontal line in the box. The dashed lines, are the  whiskers. O tamanho dessa linha tracejada pra cima é de 1.5 * IQR (75 percentil - 25 percentil).

### Frequency Table

A frequency table of a variable divides up the variable range into equally spaced segments and tells us how many values fall within each segment.

Separa em bins (intervalo) e conta quantos casos se encaixam em cada bin.

It is important to include the empty bins; the fact that there are no values in those bins is useful information. It can also be useful to experiment with different bin sizes. If they are too large, important features of the distribution can be obscured. If they are too small, the result is too granular, and the ability to see the bigger picture is lost.

### Histograms

A histogram is a way to visualize a frequency table, with bins on the x-axis and the
data count on the y-axis.

### Density plot


O gráfico de densidade pode ser entendido como um histograma mais suave. A distribuição dos dados é mostrada como uma linha contínua e não por meio de barras.

Suponha que temos 3 bins.
* No primeiro temos 10 casos
* No segundo 70 casos
* No terceiro 20 casos

Ao invés de plotarmos um histograma que tem no eixo y a contagem absoluta de casos em cada bin, pega a proporção de cada bin e bota isso no eixo y.

## Exploring Binary and Categorical Data

For categorical data, simple proportions or percentages tell the story of the data.

### Definições

* **Mode**: The most commonly occurring category or value in a data set.
* **Expected Value**: When the categories can be associated with a numeric value, this gives an average value based on a category’s probability of occurrence.
* **Bar charts**: The frequency or proportion for each category plotted as bars.
* **Pie charts**: The frequency or proportion for each category plotted as wedges in a pie.

### Bar charts

Note that a bar chart resembles a histogram; in a bar chart the x-axis represents different categories of a factor variable, while in a histogram the x-axis represents values of a single variable on a numeric scale. In a histogram, the bars are typically shown touching each other, with gaps indicating values that did not occur in the data. In a bar chart, the bars are shown separate from one another.


### Mode

The mode is the value that appears most often in the data. 

### Expected Value

## Correlation

Exploratory data analysis in many modeling projects involves examining correlation among predictors, and between predictors and a target variable. Variables X and Y (each with measured data) are said to be positively correlated if high values of X go with high values of Y, if high values of X go with low values of Y, and vice versa, the variables are negatively correlated.

### Definições

* **Correlation coefficient**: A metric that measures the extent to which numeric variables are associated with
one another (ranges from –1 to +1).
* **Correlation matrix**: A table where the variables are shown on both rows and columns, and the cell
values are the correlations between the variables.
* **Scatterplot**: A plot in which the x-axis is the value of one variable, and the y-axis the value of
another.

### Pearson's correlation coefficient

The correlation coefficient is a standardized way to calculate correlation between variables, which gives an estimate of the correlation between two variables that always lies on the same scale. Ele é calculado matematicamente como o covariancia das duas variáveis dividido pelo produto dos desvios padrão das duas variáveis (para tornar um valor sempre entre -1 e 1).

![image.png](attachment:image.png)

**Obs: Variables can have an association that is not linear, in which case the correlation coefficient may not be a useful metric.**

**Obs: Like the mean and standard deviation, the correlation coefficient is sensitive to outli‐
ers in the data. We can trim data, like in the mean.**

### Scatterplot

The standard way to visualize the relationship between two measured data variables is with a scatterplot. The x-axis represents one variable and the y-axis another, and each point on the graph is a record.

## Exploring Two or More Variables

Familiar estimators like mean and variance look at variables one at a time (univariate analysis). Correlation analysis is an important method that compares two variables (bivariate analysis). In this section we look at additional estimates and plots, and at more than two variables (multivariate analysis).

### Definições

* **Contingency table**: A tally of counts between two or more categorical variables.
* **Hexagonal binning**: A plot of two numeric variables with the records binned into hexagons.
* **Contour plot**: A plot showing the density of two numeric variables like a topographical map
* **Violin plot**: Similar to a boxplot but showing the density estimate.

### Hexagonal Binning (Plotting Numeric Versus Numeric Data)

Scatterplots are fine when there is a relatively small number of data values. For data sets with hun‐
dreds of thousands or millions of records, a scatterplot will be too dense, so we need a different way to visualize the relationship.

![image.png](attachment:image.png)

### Contour plot (Plotting Numeric Versus Numeric Data)

### Two Categorical Variables

Para visualizar a relação entre duas variáveis categóricas podemos utilizar a tabela de contingência. Colocamos as categorias da var1 na linha, as categorias da var2 nas colunas e preenchemos essa tabela com a quantidade de casos da linha i e da coluna j.

imagem da pagina 40.

### Categorical and Numeric Data

Boxplots are a simple way to visually compare the distributions of a numeric variable grouped according to a categorical variable.

A violin plot, is an enhancement to the boxplot and plots the density estimate with the density on the y-axis. The density is mirrored and flipped over, and the resulting shape is filled in, creating an image resembling a violin
* The advantage is that show nuances in distribution that aren't perceptible in a boxplot
* Can't show the outliers so well as boxplot

imagens pag 41 e 42