<a href="https://colab.research.google.com/github/Rogerio-mack/Analise_Exploratoria_de_Dados/blob/main/AED_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="http://meusite.mackenzie.br/rogerio/mackenzie_logo/UPM.2_horizontal_vermelho.jpg"  width=300, align="right">
<br>
<br>
<br>
<br>
<br>

# Estatística Descritiva
---

Aqui você vai compreender os conceitos de população e amostra, e o que é a estatística descritiva. Aprendará o que são e omo empregar medidas de centralidade (média, mediana) e medidas de dispersão (variância, desvios padrão, quartis) para caracterização de conjuntos de dados. Vai aprender também como identificar outliers dos dados e a explorar como duas variáveis podem estar relacionadas linearmente (covariância, correlação). E você aprender tudo isso aplicando esses conceitos a conjuntos de dados com R.

## Introdução

A estatística descritiva busca fornecer uma descrição útil de um grande número de dados a partir de medidas de centralidade e dispersão dos dados como média, mediana, variância, desvio padrão e quartis, frequencia de valores e moda, correlação e covariância.

Você, então, pode aplicar agora os seus conhecimentos de R para fazer essas estatísticas e entender melhor um conjunto de dados de interesse.

## Tipos de dados

Uma distinção importante que você precisa ter em mente ao explorar os dados é identificar que tipo de dado, ou a natureza do dado, que você está tratando. Podemos identificar dois grandes grupos de dados, os qualitativos e quantitativos, ou mais simplesmente dados numéricos e dados categóricos.


| Dados quantitativos ou numéricos             | Exemplos                               |
|:---------------------------------------------|:---------------------------------------|
| discretos (contagens ou número inteiros)     | ex. número de casos de infecção        |
| contínuos (medidas numa escala contínua)     | ex. volume, área, peso, preços         |


| Dados qualitativos ou categóricos            | Exemplos                               |
|:---------------------------------------------|:---------------------------------------|
| nominais (categorias de dados)               | ex. sexo: masculino, feminino          |
| ordinais (categorias ordenadas)              | ex. salinidade: baixa, média, alta     |


Identificar claramente essa natureza dos dados é muito importante pois, dependedo de sua natureza, o dado pode ter um tratamento diferente. Por exemplo, pense no atributo `sexo` em uma base de dados de clientes. Esse atributo pode aparecer codificado como 0=masculino e 1=feminino. Entretanto, mesmo apresentando os valores numéricos 0 e 1, trata-se de uma categoria, um valor nominal e, portanto, faz pouco sentido falarmos em média do atributo `sexo` ou ainda valores como min e max, por que também não há uma relação de ordem (do menor para o maior) entre esses valores. Assim, essa natureza do dado é determinante para você saber que estatísticas são aplicáveis àquele dado.

## Amostra X População

Outra característica importante que você deve ter em mente sobre a natureza dos dados é se os dados que você irá analisar são *amostras* de um conjunto de dados ou são a totalidade dos dados. Por exemplo, você pode ter todos os salários dos funcionários de uma empresa e obter média salarial, maior e menor salários etc. Mas você não poderá obter o salário de *todos* dos brasileiros e, certamente, trabalhará com amostras desses dados. Existem uma série de técnicas para tornar essas amostras confiáveis e para que possamos, a partir de uma amostra, inferir, por exemplo, a média de salário dos brasileiros. Assim, você deve ter em mente ao obter medidas como média ou desvio padrão se elas se referem a dados de uma amostra ou dados de toda a população de dados. Em alguns havendo inclusive uma diferença na forma de cálculo.

## Exploração inicial dos dados

Vamos empregar nesses exemplos o dataset `Cars93`, um dataset built-in do pacote `MASS`.
Significado ds dados, quantidade e linhas e colunas, tipos de dados.

In [None]:
library(MASS)
head(Cars93)
help(Cars93)

Os comandos abaixo exploram características da estrutura dos dados como número de linhas, atributos e os tipos de dados.

In [None]:
# execute cada um dos comandos isoladamente

nrow(Cars93) # nr de linhas
ncol(Cars93) # nr de atributos ou colunas

Examinando estrutura e tipos de dados.

In [None]:
str(Cars93) # estrutura dos dados como exibido na área 'Environment' do RStudio

class(Cars93$Model) # tipo dos dados
class(Cars93$Price)

names(Cars93) # nome dos atributos

### Selecionando linhas e colunas

Em geral a seleção de dados de interesse ocorre depois que você já tem uma ideia das variáveis e seus valores para efetuar a seleção. Os exemplos abaixo são, portanto, apenas para que você tenha mais exemplos de seleção de dados e se familiarize com a seleção de dados com dataframes em R. Lembre-se aqui da sintaxe dos dataframes:

```
dataframe [ linhas , colunas ]
```

#### Selecionando linhas de `Cars93`

In [None]:
head(Cars93[Cars93$Price < 20,])
head(Cars93[Cars93$Price < 20 & Cars93$Type == 'Small',])

myCars = Cars93[Cars93$Price < 20 & Cars93$Type == 'Small',]
head(myCars)

#### Selecionando colunas de `Cars93`

In [None]:
head(Cars93$Price)
head(Cars93[,c('Price','Type')])
head(Cars93[,c(3,5)])

myCars = Cars93[,c('Price','Type')]
head(myCars)

#### Selecionando conjuntos de dados de `Cars93`

In [None]:
myCars = Cars93[ Cars93$Price < 20 & Cars93$Type == 'Small', c('Price','Type','MPG.city')]
head(myCars)
nrow(myCars)

## Estatísticas dos Valores

O quadro a seguir sumariza alguns comandos básicos de R empregados para se obter estatísticas dos dados.


| Univariada     | Descrição                                 |
|----------------|-------------------------------------------|
| min(x)         | Mínimo elemento em x                      |
| max(x)         | Máximo elemento em x                      |
| range(x)       | Range (min to max) elementos em x         |
| length(x)      | número de elementos em x                  |
| mean(x)        | Média dos valores em x                    |
| median(x)      | Mediana dos valores em x                  |
| var(x)         | Variância dos elementos em x              |
| sd(x)          | Desvio padrão dos elementos em x          |
| quantile(x,p)  | O percentual p quartil dos elementos de x |
| table(x)       | Frequ~encias de valores de x              |

| Multivariada   | Descrição                                 |
|----------------|-------------------------------------------|
| cor(x,y)       | Correlação entre os elementos x e y       |
| cov(x,y)       | cov(x,y) Covariance between x and y       |


A análise univariada refere-se a estatísticas que explicam uma única variável enquanto a análise multivariada são estatísticas que buscam explorar a relação entre duas ou mais variáveis.

## Frequência de valores `table()`

Para dados categóricos uma característica importante é quantidade de instâncias (linhas ou registros) que aparecem de cada valor. Em estatística chamamos isso de **frequencia dos dados** e mais adiante vamos ampliar esse conceito para variáveis contínuas e estudar distribuições dos dados.

O comando `table()` em R pode ser empregado para exibir a frequência de valores de uma variável discreta (categórica ou numérica). No momento, você não precisa se preocupar com os comandos para exibir o gráfico aqui. Simplesmente estamos apresentando a informação da frequência dos valores de forma gráfica.

In [None]:
table(Cars93$Type)
table(Cars93$Origin)

par(mfrow = c(1, 2))
barplot(table(Cars93$Type), main='Qde de Veículos por Tipo',col='orange')
barplot(table(Cars93$Origin), main='Qde de Veículos por Origem',col=c('green','blue'))

## Medidas de Centralidade

Média, Mediana e Moda são as principais medidas de Centralidade ou medida de tendência central dos dados.

A **média** é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número de elementos deste conjunto, resumidamente:

$$ \bar{x} = \frac{\sum_{i}^{n} x_i}{n} $$
A **Moda** é o valor mais frequente de um conjunto de dados, sendo assim, para defini-la basta observar a frequência com que os valores aparecem, e um conjunto de dados é chamado de bimodal quando apresenta dois valores igualmente mais frequentes. Não há um comando específico em R para a moda. Então, empregamos abaixo uma função para retornar a moda. Vários pacotes estatísticos, entretanto, implementam essa função e você pode, se quiser, empregar a função de algum pacote estatístico como o `DescTools`.

In [None]:
x = c(rep(1,2),rep(2,3),rep('a',5))
cat('x: ', x)

moda = names(table(x))[table(x)==max(table(x))]

cat('\nModa de x: ', moda)

In [None]:
# install.packages("DescTools")
library(DescTools)

cat('\nModa de x: ', Mode(x))

**Mediana** é definido como o valor central de um conjunto de dados. Para encontrar o valor da mediana os dados são colocados em ordem ordem crescente buscando-se assim o dados central (ou na posição de 50% dos dados, e isso será útil para você entender os quartis mais adiante). Quando o número elementos é par, a mediana é obtida pela média dos dois valores centrais. Note abaixo como se diferenciam os valores de média e mediana.

In [None]:
a = c(1,2,3,4,10)
b = c(1,2,3,10)
c = c(1,1,1,3,10)
cat('\nMediana de a: ', median(a), '\nMediana de b: ', median(b),  '\nMediana de c: ', median(c))
cat('\nMédia de a: ', mean(a), '\nMédia de b: ', mean(b),  '\nMédia de c: ', mean(c))

Existem outro tipos de média, como médias geométricas e médias harmônicas, mas que não trataremos aqui. Você deve notar ainda que as medidas de centralidade não se aplicam para valores categóricos pois sua natureza não inclui uma ideia de valor e ou necessariamente de ordem. O mesmo ocorre com as medidas de dispersão a seguir.

### Sensibilidade de Médias e Medianas

Em geral a média é uma boa medida para caracterizar dados mais uniformemente distribuídos sendo mais sensível que a mediana para dados na presença de *outliers*. *Outliers* são valores que  se diferenciam muito da maior parte dos dados. Por exemplo, imagine a média de renda dos alunos do nosso curso e imagine agora que Jeff Bezos venha a ser seu colega de turma. A média de renda dos alunos será bastante modificada, o valor da mediana, entretanto, tende a ficar pouco alterado.

In [None]:
a = c(rep(2000,5),rep(2500,4),rep(5000,2))
b = c(rep(2000,5),rep(2500,4),rep(5000,2),1000000000) # incluindo o outlier 'Jeff Bezos'

cat('\nMediana de a: ', median(a), '\nMediana de b: ', median(b))
cat('\nMédia de a: ', mean(a), '\nMédia de b: ', mean(b))

## Medidas de Dispersão

Medidas de dispersão são usadas para determinar o grau de variabilidade dos dados de um conjunto de valores.
As estatísticas de tendência central (média, mediana, moda) não permite avaliar a homogeneidade ou uniformidade dos dados. O intervalo de valores (range), variância, desvio padrão e os quartis são as medidas de dispersão mais frequentemente usadas.

Inspecionar os valores min, max e o intervalo de valores é importante para quaisquer conjuntos de dados (mas lembre-se que essas medidas não se aplicam a dados categóricos).

In [None]:
min(myCars$Price)
max(myCars$Price)
range(myCars$Price)
max(myCars$Price) - min(myCars$Price) # chamamos essa diferença de amplitude total

### Variância e Desvio Padrão
A variação é uma medida numérica de como os valores dos dados estão dispersos em torno da média . Em particular, a variação da amostra é definida como:

$$  s^2(x) = \sum_i^n \frac{( x_i -  \bar{x})^2 }{n - 1} $$



Da mesma forma, a variância de uma população é definida em termos da média da população $\mu$ e tamanho da população N :

$$  \sigma^2(x) = \sum_i^n  \frac{( x_i -  \mu)^2 }{N} $$
Em R, a variação da amostra é calculada com a função `var()`. Observe que, quando o tamanho da amostra é  grande, a variância da amostra converge para a variância da população. Desse modo não faremos na maior parte dos casos distinção entre os cálculos de amostras e população, empregando diretamente as funções do R. Note ainda que, independente de uma ou outra forma de cálculo, a ordem do valor obtido é mantida e um valor maior de variância de amostra corresponde também a um maior valor de variância da população o que permite empregarmos quaisquer desses valores para identificar dados mais e menos dispersos. Mas se você precisar de uma variação da população poderá empregar o cálculo direto.

In [None]:
x = c(1,2,3,4)
var(x)

sum((x - mean(x))^2) / length(x)
sum((x - mean(x))^2) / (length(x) - 1) # este é o cálculo que corresponde a função var()

O desvio padrão, de uma amostra ou população, pode ser obtido pela raiz quadrada da correspondente variância. Assim,

$$  s(x) =  \sqrt{ \sum_i^n \frac{( x_i -  \bar{x})^2 }{n - 1}} $$
Ou simplesmente

$$  s(x) = \sqrt{ s^2(x) } $$
e, igualmente

$$  \sigma(x) =   \sqrt{  \sum_i^n  \frac{( x_i -  \mu)^2 }{N} } $$
ou

$$  \sigma(x) =   \sqrt{  \sigma^2(x)  } $$
Um valor alto para a variância (ou desvio padrão) indicará que os valores encontram-se mais distantes da média – ou seja, a distribuição é mais dispersa.

Você pode notar ainda que a variância emprega o quadrado da diferença dos valores com relação à média. Já o desvio padrão, como a raiz quadrada da variação, fornece um valor que está nas mesmas unidades que os valores o que será útil em uma série de situações que empream os dados originais. Em princípio, ambas medidas fornecem uma medida de dispersão, usando-se uma ou outra dependendo da necessidade.

In [None]:
suppressMessages(attach(Cars93))

mean(Price)

var(Price)
sd(Price)

cat(mean(Price) - sd(Price), mean(Price) + sd(Price))

detach(Cars93)

O comando `attach` permite aqui omitir o nome do dataframe simplificando a codificação e o `sd()`, estando na mesma unidade da variável original, permite fazer operações como cálculo do intervalo acima.

### Escore padrão e *Outliers*

Outra medida de dispersão importante é o escore padronizado. Ele fornece uma medida de quanto um valor se desvia da média e é dado por:


$$  Z(x_i) =   \frac{ x_i -  \bar{x} }{s(x)} $$
Valores negativos indicam que o valor de $x_i$ encontra-se à esquerda da média e valores positivos indicam que o valor de $x_i$ encontra-se à direita da média.

Essa medida é útil para vários propósitos e aqui você pode empregá-la para detectar *outliers* dos dados, isto é, dados que se diferenciam demais da amostra. O escore padronizado pode ser obtido para os valores todos os valores dos dados aplicando-se a função `scale()`.

Neste exemplo calculamos o valor do escore padronizado para o preço do 5o veículo de nosso conjunto de dados Cars93.

In [None]:
suppressMessages(attach(Cars93))

cat('\nPreço do 5o veículo: ', Price[5])

cat('\nCálculo do escore padronizado (empregando a definição):', ( Price[5] - mean(Price) ) / sd(Price))

cat('\nCálculo do escore padronizado (empregando a função scale):', scale(Price)[5])

detach(Cars93)

Outliers podem surgir por erros de medida, 'sujeira' nos dados ou serem medidas de fato que apenas desviam do padrão dos demais dados, e é importante você entender a natureza desses dados para tomar a decisão do que fazer com esses dados (por exemplo, excluir da amostra). Existem algumas técnicas para a detecção de outliers e uma delas é empregar escore padronizado. Valores com escore padrão superior a 3 são, então, considerados outliers. Note que muitas vezes você pode pensar que um determinado valor está *fora da curva*, mas o que define estatisticamente um valor fora do padrão dos dados é um cálculo bem definido, como por exemplo do escore padrão > 3. Assim, você deve notar que o preço do veículo acima, 30, com escore padrão de 1.08 é um preço dentro do padrão de dados.

Você pode, então, empregar a função `scale()` para determinar outliers nos dados.

In [None]:
suppressMessages(attach(Cars93))

scale(Price, center=FALSE)[1:6] # uma amostra dos escores padrão

L = scale(Price) > 3 # selecionando escores maiores que 3

print(Cars93[L,])

detach(Cars93)

Não é supresa que um Mercedes-Benz seja o veículo com preço outlier, sendo 61.9 o único preço outlier desse conjunto de dados.

### Interpretando o Escore Padrão

Você aprenderá mais sobre isso e os comandos abaixo nas aulas seguintes. Mas neste ponto, talvez seja importante você notar que em dados com uma distribuição normal, aquela com uma curva em forma de sino e que inclui um grande número de casos de interesse, é esperado que 68% dos dados estejam dentro de 1 desvio padrão da média, 95% dos dados dentro de 2 desvios padrão da média e 99,7% dos dados dentro de 3 desvios padrão da média.

$$[ \bar{x} - 1\sigma(x), \bar{x} + 1\sigma(x)] \rightarrow 68\% \ dos \ dados$$
$$[ \bar{x} - 2\sigma(x), \bar{x} + 2\sigma(x)] \rightarrow 95\% \ dos \ dados$$

$$[ \bar{x} - 3\sigma(x), \bar{x} + 3\sigma(x)] \rightarrow 99.7\% \ dos \ dados$$
Os comandos `pnorm` e `qnorm` que você aprenderá quando estudarmos a distribuição normal são empregados para obter respectivamente o 'percentil' dos dados a partir de um valor (`pnorm`) ou o valor para um dado percentil (`qnorm`), e você pode notar que o preço do quinto veículo corresponde a um percentil inferior a 99.7% (e portanto um valor esperado), enquanto o preço do modelo Mercedez aparece  encontra-se em percentil 99.9%, e portanto fora do intervalo de 99.7%, caracterizando um outlier.

In [None]:
suppressMessages(attach(Cars93))

Price[5] # um preço normal
pnorm(Price[5],mean=mean(Price),sd=sd(Price))
qnorm(pnorm(Cars93$Price[5],mean=mean(Price),sd=sd(Price)),mean=mean(Price),sd=sd(Price))

Price[59] # um outlier
pnorm(Price[59],mean=mean(Price),sd=sd(Price))
qnorm(pnorm(Cars93$Price[59],mean=mean(Price),sd=sd(Price)),mean=mean(Price),sd=sd(Price))

detach(Cars93)

A figura a seguir mostra como estão relacionados esses intervalos às quantidades de ocorrências da amostra para uma distribuição normal introduzindo também o conceito de quartis e distância inter quartis que você verá a seguir.

<img src="http://meusite.mackenzie.br/rogerio/TIC/boxplotIQR.png" width=500, align="center"></a>

## Quartis

O percentil é o valor que corresponde a um certo percentual dos dados da amostra quando encontram-se ordenados. Desse modo, os percentis 0%, 50% e 100% correspondem, respectivamente, ao valor mímino, a mediana e o valor máximo dos dados.

In [None]:
suppressMessages(attach(Cars93))

cat('\n',min(Price), quantile(Price,prob=0))
cat('\n',median(Price), quantile(Price,prob=0.5))
cat('\n',max(Price), quantile(Price,prob=1))

detach(Cars93)

E os quartis, os valores que correspondem a 0, 0.25, 0.5, 0.75 e 1 do percentual ordenado das amostras, pela sua importância, acabam recebendo denominação próprias. Os valores correspondentes a 25% e 75% dos dados são chamados de 1º e 3º quartis, e os demais mínimo (0), mediana (0.5) e máximo (1).

In [None]:
print(quantile(Cars93$Price))

Esses dados também podem ser obtidos com o comando `summary()` que apresenta um conjunto de estatísticas resumidas dos dados.

In [None]:
summary(Cars93[ , c('Type','Make','Price','Cylinders','Horsepower')])

Um gráfico de caixa, ou `boxplot` é um gráfico que representa esses valores. Você aprenderá na próxima aula como produzir esses gráficos e, por hora, basta observar como esses valores são representados.

In [None]:
suppressMessages(attach(Cars93))

boxplot(Price,data=Cars93,main="Preços por Tipo",col='Blue')

detach(Cars93)

### Distância interquartis e Outliers

Os quartis oferecem uma outra técnica para detecção de outliers e, embora aqui apresentem outliers diferentes, em geral a técnica do escore padrão e das distâncias interquartis tendem a convergir para uma grande quantidade de dados. A técnica interquartis, entretanto, é mais comum e é a que empregaremos aqui.

Nessa técnica (veja a figura anterior) são considerados outliers os dados que ultrapassam a distância de $1.5 \times IQR$, a distância entre o 3o e o 1o quartil.

In [None]:
iqr = IQR(Cars93$Price)

# ou ainda...
#
# Q1 = quantile(Cars93$Price, probs=c(.25))
# Q3 = quantile(Cars93$Price, probs=c(.75))
# iqr = Q3 - Q1

print(Cars93[ (Cars93$Price > quantile(Cars93$Price, probs=c(.75)) + 1.5*iqr) | (Cars93$Price < quantile(Cars93$Price, probs=c(.25)) - 1.5*iqr), ])

## Covariância e Correlação

Entendidas as características de uma variável isolada do nosso conjunto de dados (por exemplo o Preço dos veículos), estamos interessados agora em compreender como se relacionam duas variáveis de interesse. Por exemplo, você pode estar interessado em saber o preço de um veículo se relaciona com o consumo de combustível.

A Covariância mede a relação linear entre duas variáveis. A covariância é semelhante à correlação entre duas variáveis, no entanto, elas diferem nas seguintes maneiras:

1. Coeficientes de correlação são normalizados, sendo um valor no intervalo entre $[-1, 1]$ onde, um relacionamento linear perfeito resulta em um coeficiente de correlação $|1|$. Ele mede tanto a força (valor absoluto) como a direção da relação linear entre duas variáveis (positivo para mesma direção).

2. 2.	Valores de covariância podem variar de menos infinito a mais infinito e, portanto, o valor para uma relação linear ideal dependerá dos dados. Assim, é difícil determinar a força da relação entre as variáveis. De qualquer modo, valores de covariância positivos indicam que valores acima da média de uma variável estão associados, também, a valores acima da média da segunda variável. E de modo equivalente, valores negativos de covariância indicam que valores acima da média de uma variável associam-se a valores abaixo da média para segunda variável.

Embora represente uma relação linear entre os dados a correlação é uma relação bastante importante e, em geral, a primeira que buscamos. Mas você deve saber que dados podem estar bastante relacionados sem que, entretanto, exibam uma relação linear.

In [None]:
x = c(1:100)
y = sin(x)*x
cor(x,y)

Nos dados acima $x$ e $y$ têm uma dependência direta e, entretanto, exibem uma correlação próxima de zero.

Além disso você correlação não significa necessariamente uma relação de causa efeito. Ela pode ser um indício dessa relação, mas em princípio, ela apenas indica o quanto os valores esperados de uma variável estão relacionados ao valor da outra. Duas variáveis, entretanto, podem apresentar correlação sem uma relação de causa efeito entre elas, mas por que ambas são o resultado de uma terceira variável.

O coeficiente de correlação é uma função direta da covariância e obtido pela divisão da covariância pelo produto dos desvios padrão das variáveis.

A covariância de uma amostra é definida como:

$$ s_{xy} = COV(x,y) =\frac{1}{n-1} \sum_{i}^{n}  (x_i - \bar{x})(y_i - \bar{y}) $$
e, da mesma forma, a covariância populacional é dada por:

$$ \sigma_{xy} = COV(x,y) = \frac{1}{n} \sum_{i}^{n} (x_i - \mu_{x})(y_i - \mu_{y}) $$
e talvez você tenha notado a semelhança dos cálculos de covariância e variância de uma única variável. A variância sendo idêntica a covariância de uma variável com ela mesma.

O **coeficiente de determinação**, ou mais exatamente o **coeficiente de determinação de Pearson** pode ser então calculado como:

$$ r_{xy} = \frac{COV(x,y)}{\sigma(x) \sigma(y)} $$
E empregamos as funções `cov()` e `cor()` para obter esses valores com R.

In [None]:
cov(Cars93$Price, Cars93$Horsepower)
cor(Cars93$Price, Cars93$Horsepower)

cov(Cars93$Price, Cars93$MPG.city)
cor(Cars93$Price, Cars93$MPG.city)

E não ver ser surpresa para você que o preço dos veículos tenha uma correlação positiva para potência dos motores (isto é, carros mais potentes são mais caros) e uma correlação negativa para o maior consumo de combustível (note que MPG, ou *Milhas por Galão* tem valores menores para um maior consumo de combustível).

Você pode observar a relação de duas variáveis graficamente e exploraremos mais isso na próxima aula.

In [None]:
myCars = Cars93[ , c('Price',"MPG.city", 'Horsepower')]
pairs(myCars)

## Referências

Devore, Jay L. **Probabilidade e Estatística para Engenharia e Ciências**. Trad. Solange Aparecida Visconte. Cengage, 2018.

Navarro, Danielle, **Learning Statistics with R**, disponível em: https://learningstatisticswithr.com/ ( LSR version 0.6 (pdf) ). Acesso: 26/02/2021.

Wickham, H., Grolemund, G. **R for Data Science**. O'Reilly Media, Inc., 2016.