<img src="https://drive.google.com/uc?export=view&id=1h_07KvMIw8cHB5DWLdnZMFRoXfDuHS9W" width="500" height="100">


In [None]:
# Anexar o repositório do GitHub
system('git clone https://github.com/marcosfs2006/Estatistica_Basica_R.git')

# **<font color="blue" size=15>Análise Exploratória de Dados<font>**

A Análise Exploratória de Dados (EDA, na sigla em inglês) tem origem no trabalho do estatístico John Tukey (1915-2000) entitulado [*Exploratory Data Analysis*](https://www.amazon.ca/Exploratory-Data-Analysis-John-Tukey/dp/0201076160) publicado em 1977. Neste livro Tukey refere-se à análise exploratória de dados nos seguintes termos:

> _Análise Exploratória de Dados é trabalho de detetive, trabalho de detetive com números, trabalho de detetive com contagem ou trabalho de detetive com gráﬁcos._

> _Um detetive investigando um crime necessita tanto de ferramentas como de entendimento. Se ele não dispor de material para recolhimento de impressões digitais falhará em encontrar as impressões digitais em boa parte das superfícies. Se ele não dispõe de entendimento sobre onde o criminoso mais provavelmente tenha deixado as impressões não olhará nos lugares certos._ 

> _Igualmente, o analista de dados também necessita de ferramentas e entendimento. O propósito deste livro é fornecer um pouco de ambos._

A análise exploratória de dados é uma **abordagem de análise de dados** que utiliza uma variedade de técnicas (principalmente gráﬁcas) com os seguintes objetivos:  

* Maximizar o *insight* acerca do conjunto de dados;   
* Descobrir estrutura subjacente aos dados;   
* Ajudar a identiﬁcar variáveis relevantes;   
* Detectar *outliers* e outras anomalias;   
* Testar suposições acerca do conjunto de dados.   

Para alcançar estes objetivos a EDA recorre largamente a resumos numéricos e a gráﬁcos.

Um ponto importante a considerar é que estas técnicas foram desenvolvidas quando os computadores pessoais não eram largamente utilizados, de forma que boa parte das técnicas foram desenvolvidas com vistas a serem elaboradas manualmente. Não obstante, muitas ainda são bastante úteis, como será visto neste capítulo.



## **Ramo e folhas**   

O ramo-e-folhas é uma representação semi-gráﬁca de dados numéricos que permite sua organização de forma a chamar a atenção para algumas características do conjunto de dados, tais como:

* Forma da destribuição (simetria);   
* Dispersão (espalhamento dos dados);    
* Existência de *outliers*;   
* Existência de lacunas entre os dados.   

Pode-se ainda mencionar como características do ramo-e-folhas o fato de possuir muita semelhança com o histograma, tendo porém a vantagem de exibir o formato da distribuição sem que haja perda de informação. A desvantagem do ramo-e-folhas está no fato de ser um gráﬁco que deve ser utilizado com conjuntos dados com poucas observações.

Para a construção do ramo-e-folhas o R dispõe da função `stem()` cujo uso será ilustrado a seguir com o conjunto de dados `ilc.RData` que registra os índices de liquidez corrente para 100 empresas, das quais 50 são solventes e 50 são insolventes.

O ramo-e-folhas para este conjunto de dados pode ser elaborado da seguinte forma:



In [None]:
load('ilc.RData')
stem(ilc$ilc)

Observando o gráﬁco acima, pode-se perceber que o mesmo é construído separando-se os dados em duas partes, uma que constitui o "ramo", e outra que é utilizada para construir as "folhas". Por exemplo o menor valor, `0,32`, transforma-se em `0 | 3`.

Uma melhoria no gráfico pode ser feita fazendo-se uma modificação no argumento `scale=` da função que realiza uma expansão na escala do gráfico.

Modiﬁcando o argumento `scale=` da função para 2 (a opção padrão é 1), obtém-se o seguinte resultado:


In [None]:
stem(ilc$ilc, scale = 2)

O ramo-e-folhas acima mostra duas empresas que tem um índice de liquidez corrente que se distancia um pouco dos demais. Esta informação não fica visível no gráfico anterior.

O pacote `aplpack` disponibiliza as funções `stem.leaf()` e `stem.leaf.backback()` que implementam o ramo-e-folhas. Os comandos a seguir mostram o uso destas funções no conjunto de dados `ilc`.

In [None]:
library(aplpack)
stem.leaf(ilc$ilc, m=4, rule.line = "Sturges", style="bare")

In [None]:
solvente   <- ilc$ilc[ilc$situacao == 'solvente']
insolvente <- ilc$ilc[ilc$situacao == 'insolvente']

stem.leaf.backback(solvente, insolvente,
                   m=6, rule.line = "Sturges",
                   style="bare")


## **Gráfico de pontos**    

O gráfico de pontos (*dotcharts*) também é uma boa opção para a visualização de pequenos conjuntos de dados. Ainda com o conjunto de dados `ilc.RData` este gráfico pode ser feito com a função `stripchart()` da seguinte forma:  



In [None]:
par(bty="n")
stripchart(ilc$ilc, method='stack',
           at=0.1, pch=16, col='blue',cex=1.5)

In [None]:
par(bty="n")
stripchart(ilc ~ situacao, data=ilc, method='jitter',
           pch=16, col='blue',cex=1.5)

O gráfico confirma a existência de dois valores que se distanciam dos demais valores do conjunto de dados.


## **Resumo de cinco números**  

Já foi visto no capítulo 4 que é possível resumir um conjunto de dados utilizando sua distribuição de frequências. Outra forma de se obter uma redução dos dados é por intermédio do cálculo de valores resumos que revelem características numéricas importantes do conjunto de dados.

Uma forma utilizada para apresentar estas medidas resumos é o chamado resumo de cinco números que consiste em um arranjo que apresente as seguintes informações do conjunto de dados: valor mínimo, quartil inferior ($1^o$ quartil), mediana, quartil superior ($3^o$ quartil) e valor máximo. 

O R dispõe da função `fivenum()` que retorna estes valores para um conjunto de dados. Para os dados do índices de liquidez corrente (`ilc.RData`) tem-se:

In [None]:
fivenum(ilc$ilc)

O R também dispõe da função `summary()` que apresenta um resumo dos dados semelhante ao fornecido pela função `fivenum()` mas contendo também a média do conjunto de dados.

In [None]:
summary(ilc$ilc)

Esta função também pode ser utilizada para resumir variáveis em um `data frame`. Vamos exemplificar com o conjunto de dados `receita_municipios.RData`.


In [None]:
options(scipen=20)
load('receita_municipios.RData')
summary(receita)

## **Boxplot**  

O `boxplot` é um gráﬁco que possibilita representar a distribuição de um conjunto de dados com base em alguns de seus parâmetros descritivos, quais sejam: a mediana ($Q_2$), o quartil inferior ($Q_1$), o quartil superior ($Q_3$) e do intervalo interquartil ($IQR = Q_3 − Q_1$). A ﬁgura a seguir apresenta o boxplot destacando suas principais características:


![](https://drive.google.com/uc?export=view&id=1-4GMptpaC0f9-DK7Now1xXFB34IGClm0)

A linha central da caixa marca a mediana do conjunto de dados. A parte inferior da caixa é delimitada pelo quartil inferior ($Q_1$) e a parte superior pelo quartil superior ($Q_3$). As hastes inferior e superior se estendem, respectivamente, do quartil inferior até o menor valor não inferior a $Q_1 − 1.5\times(Q_3 − Q_1)$ e do quartil superior até o maior valor não superior a $Q_3 + 1.5\times(Q_3 − Q_1)$. Os valores inferiores a $Q_1 − 1.5\times(Q_3 − Q_1)$ e superiores a $Q_3 + 1.5\times(Q_3 − Q_1)$ são representados individualmente no gráﬁco sendo estes valores caracterizados como *outliers*.

As quantidades $Q_1 − 1.5\times(Q_3 − Q_1)$ e $Q_3 + 1.5\times(Q_3 − Q_1)$ delimitam, respectivamente, as cercas inferior e superior e constituem limites para além dos quais, como visto, os dados passam a ser considerados *outliers*.

O `boxplot` permite avaliar a simetria dos dados, sua dispersão e a existência ou não de *outliers* nos mesmos, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados correspondentes às categorias de uma variável qualitativa.

Para a construção de um `boxplot`, utiliza-se a função `boxplot()`, conforme ilustrado a seguir:

In [None]:
load('ideb.RData')
idebRJ <- subset(ideb, uf == 'RJ')

colunas <- c('ideb05', 'ideb07', 'ideb09', 'ideb11', 'ideb13', 'ideb15')

boxplot(idebRJ[, colunas],
        main='IDEB Ensino Fundamental\nAnos Finais (RJ)',
        col='lightblue')

Caso se queira obter os valores que são `outliers`, o comando a seguir ilustra como obter os `outliers` da variável `ideb15`:


In [None]:
sort(boxplot.stats(idebRJ[, 'ideb15'])$out)

Uma outra forma de se elaborar um `boxplot` consiste em comparar valores de uma variável quantitativa em função dos valores de uma variável qualitativa.

Vamos exemplificar comparando os valores do `ideb15`, para as escolas das redes municipal, estadual e federal do Estado do Rio de Janeiro.

In [None]:
unique(ideb$rede)

boxplot(ideb15 ~ rede, data=idebRJ,
        main='Comparativo das redes Federal, Estadual e Municipal')

abline(h=median(idebRJ$ideb15[idebRJ$rede == 'Estadual'], na.rm=TRUE), col='red', lty=3)

text(1:3, 2, labels=as.character(table(idebRJ$rede)), cex=0.7)


Às vezes pode útil adicionar informações ao gráfico, seja ele um boxplot ou outro gráfico qualquer. O exemplo a seguir ilustra como adicionar texto ao boxplot bem como outros dados. 


In [None]:
# Carrega a base de dados
load('ilc.RData')

# Cria o boxplot
bp <- boxplot(ilc ~ situacao, data=ilc)

# Adiciona o conjunto todo de dados ao boxplot 
# na cor cinza
stripchart(ilc ~ situacao, data = ilc,
           method='jitter', vertical=TRUE,
           jitter=0.1, pch=16, col='grey',
           add=TRUE)

# Adiciona médias ao boxplot em vermelho
medias <- with(ilc, tapply(ilc, situacao, mean))
points(1:2, medias, pch=16, col='red', cex=1.5)

# Anotar na leteral dos boxplot
text(1 + 0.5, bp$stats[,1], as.character(bp$stats[,1]), cex=0.7)
text(2 + 0.5, bp$stats[,2], as.character(bp$stats[,2]), cex=0.7)


## **Transformações**

As transformações são modiﬁcações feitas nos dados originais com o objetivo de facilitar a análise dos mesmos.
 
Dentre as razões para se transformar os dados pode-se citar as seguintes:

* simetrizar a distribuição dos dados;   
* estabilizar a dispersão;
* linearizar a relação entre duas variáveis;   

**Transformações lineares**: classe de transformações que não modificam a forma da distribuição do conjunto de dados. Exemplo deste tipo de transformação é a **padronização**, que consiste em subtrair dos valores a média dos mesmos e dividir pelo desvio padrão.

Esta transformação não modiﬁca a forma da distribuição dos dados originais, mas permite que variáveis medidas em ordem de grandeza tão distintas como *$km^2$*, e *mg* possam ser utilizados na modelagem estatística sem que isso distorça a análise.

<br>

$$z_i = \frac{x_i - \bar{x}}{s}$$

O R dispõe da função `scale()` que nos permitirá realizar este tipo de transformação nos dados. 

Exemplo:

In [None]:
load('rh.RData')
par(mfrow=c(1, 2))
hist(rh$Salário, breaks = 20, main='Valores originais')
hist(scale(rh$Salário), breaks = 20, main='Valores padronizados')

Como pode ser visto, a forma da distribuição não se modificou mesmo com a padronização da variável.

Outra transformação útil é a que tem por objetivo fazer com que as variáveis passem a assumir valores no intervalo [0,1]. Esta transformação pode ser feita utilizando-se a seguinte fórmula:

<br>

$$t_i = \frac{x_i - x_{min}}{x_{max} - x_{min}}$$

**Transformações não-lineares**: classe de transformações que alteram a forma da distribuição do conjunto de dados original. 

Dentre as transformações não-lineares mais comumente encontradas na prática pode-se citar a transformação logaritmica, indicada para normalizar os dados originais.



In [None]:
hist(rh$Salário, breaks = 20) # dados originais
hist(log(rh$Salário), breaks = 20) # dados transformados

## **Reta resistente**  

A reta resistente é uma alternativa robusta ao modelo de regressão linear simples para modelar a relação linear existente entre duas variáveis.

Sendo uma técnica mais robusta, a reta resistente não é afetada por valores extremos que possam existir no conjunto de dados.

Os passos para calcular os parâmetros da reta $y = a + bx$ são os seguintes:

1\. Ordena-se os dados ($x_i$,$y_i$) com base nas abcissas, e divide-se este conjunto de dados em 3 partes, de forma que cada parte contenha aproximadamente a mesma quantidade de observações.

2\. Calcula-se a mediana dos $x_i$ e dos $y_i$ para cada grupo, de forma a se obter três novos pontos {($x_I$,$y_I$),($x_M$,$y_M$),($x_S$,$y_S$)} formados pelas medianas das abcissas e ordenadas dos três grupos (I,M,S).

3\. Calcula-se o coeﬁciente angular ($b$) e o intercepto ($a$) da seguinte forma:

$$b = \frac{y_S - y_I}{x_S - x_I}$$

$$a = \frac{1}{3}[(y_I - bx_I) + (y_M - bx_M) + (y_S - bx_S)]$$

A implementação desta técnica no R é feita pela função `line()`, cuja utilização será evidenciada a seguir utilizando o seguinte conjunto de dados constante à ﬂ. 128 do livro **The ABC of EDA**:


In [None]:
indmort <- data.frame(
  temp_media_anual = c(51.3, 49.9, 50, 49.2,
                       48.5, 47.8, 47.3, 45.1,
                       46.3, 42.1, 44.2, 43.5,
                       42.3, 40.2, 31.8, 34),
  indice_mort = c(102.5, 104.5, 100.4, 95.9,
                  87, 95, 88.6, 89.2, 78.9,
                  84.6, 81.7, 72.2, 65.1, 68.1,
                  67.3, 52.5)
)

indmort


In [None]:
plot(indmort)
grid(col='darkgrey')

# ajuste da reta resistente
reta <- line(indmort$temp_media_anual, indmort$indice_mort)
abline(coef(reta), col = "blue", lwd=2)

# ajuste de um modelo linear (regressão simples)
regres <- lm(indice_mort ~ temp_media_anual, data = indmort)
abline(regres, col = "red", lwd=2) 


O gráﬁco acima apresenta a reta resistente ajustada em azul e a reta ajustada por mínimos quadrados. O gráﬁco evidencia que a reta ajustada por mínimos quadrados foi afetada pelo valor discrepante existente no conjunto de dados.

Os coeﬁcientes da reta ajustada aos dados podem ser obtidos com a função `coef()`:


Assim, a reta ajustada pela função `line()` é: $y_i = −79.6875 + 3.6250 x_i$.

Ajustada a reta, é sempre recomendável avaliar a qualidade do ajuste realizado, o que pode ser feito plotando-se os resíduos do ajuste ($r_i = (y_i − \hat{y}_i)$) contra os valores ajustados ($\hat{y}_i$).



In [None]:
plot(residuals(reta) ~ fitted(reta), main = "Resíduos vs. Valores Ajustados")
abline(h=0, lty=3, lwd=3, col='red')

## **Suavização de dados**  

Às vezes é necessário tentar buscar nos dados padrões um pouco mais gerais do que uma reta. A suavização de dados é uma tentativa nesse sentido ao tentar bustar uma estrutura subjacente em um conjunto de dados que se apresente como uma série de tempo ou um conjunto de dados onde a ordenação dos dados é importante.

A ideia é obter uma descrição dos dados que capture o máximo de sua estrutura. Estes descritores são usualmente denominados suavizadores e não necessitam possuir uma fórmula explícita, devem apenas ser suaves. Exemplos de suavisadorres são a média móvel e mediana móvel.

Vejamos o conjunto de dados a seguir retirado da página 165 do livro `ABC of EDA`.


In [None]:
cow_temp <- data.frame(
  dia = 1:30,
  temp = c(60, 70, 54, 56, 70, 66,
           53, 95, 70, 69, 56, 70,
           70, 60, 60, 60, 50, 50,
           48, 59, 50, 60, 70, 54,
           46, 57, 57, 51, 51, 59)
)


Vamos visualizar este conjunto de dados:

In [None]:
plot(temp ~ dia, data=cow_temp)

Vamos aplicar alguns suavizadores.

No R, existem algumas possibilidades. A função `smooth()` implementa os suavisadores propostos por Tuckey (3RS3R, 3RSS, 3R, etc).


In [None]:
plot(temp ~ dia, data=cow_temp, col='blue', pch=3)
points(smooth(cow_temp$temp, twiceit = T), pch=16, col="tomato")


Outra possibilidade é o uso da função `runmed()` que calcula medianas móveis. Calcularemos a seguir medianas móveis de 3 (k = 3). 

In [None]:
plot(temp ~ dia, data=cow_temp, col='blue', pch=3)
points(runmed(cow_temp$temp, k=3), pch=16, col="tomato")


A função `lowess()` calcula suavizadores que utilizam regressões polinomiais localmente ponderadas.

In [None]:
plot(temp ~ dia, data=cow_temp, col='blue', pch=3)
#lines(lowess(cow_temp$temp), col = "tomato")
points(lowess(cow_temp$temp), col = "tomato", pch=16)


A função `smooth.spline()` permite o ajustamento de suavizadores spline cúbico. 

In [None]:
plot(temp ~ dia, data=cow_temp, col='blue', pch=3)
points(smooth.spline(cow_temp$temp ~ cow_temp$dia), pch=16, col="tomato")