In [None]:
# This R environment comes with many helpful analytics packages installed
# It is defined by the kaggle/rstats Docker image: https://github.com/kaggle/docker-rstats
# For example, here's a helpful package to load

library(tidyverse) # metapackage of all tidyverse packages

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

list.files(path = "../input")

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# Visualização de Dados na Análise Multivariada

In [None]:
###############################################
#####    VISUALIZING MULTIVARIATE DATA    #####
###############################################


# Precisa dos pacotes de dados e dos gráficos para Análise Multivariada chamado MVA, grid e lattice.
# Precisa instalar se não tiver instalado ainda no R

install.packages("MVA")

install.packages("lattice")

install.packages("grid")

library("grid")

library("lattice")

library("MVA")

##### Para os Datasets
# carregue os dados, confira
install.packages("HSAUR2")
library("HSAUR2")

In [None]:
##### Datasets

# USairpollution Dataset
# air pollution in US cities
data("USairpollution", package = "HSAUR2")
#?USairpollution

In [None]:
##### Scatterplots are standard for for representing continuous bivariate data, but can be used to
# accomodate other variables

##### Gráficos de dispersão são padrão para representar dados bivariados contínuos, mas podem ser usados para
# acomodar outras variáveis

# Gráficos de dispersão das variãveis de fabricação (manu) e população (popul)

# Labels de variáveis categóricas:
mlab <- "Empresas de manufaturas com mais de 20 funcionários"
plab <- "Tamanho populacional em milhares (censo 1970)"

In [None]:
# Chamar a função plot() para função high-level, 
# Observe a formula para descrever as variáveis a serem plotadas.

plot(popul ~ manu, data = USairpollution, 
     xlab = mlab, ylab = plab)

In [None]:
# Podemos ver os outliers

# Vamos checar as distribuições marginais Let's look at marginal distributions
# A função rug plots mostra quando os pontos apresentam comportamento atípico

plot(popul ~ manu, data = USairpollution, 
     xlab = mlab, ylab = plab)

# colocar símbolos na horizontal (rug)
rug(USairpollution$manu, side = 1)

# colocar símbolos na vertical (rug)
rug(USairpollution$popul, side = 2)

In [None]:
# Agora mostramos as distribuições marginais de outra maneira

# Primeiro divida a área de plotagem em três áreas para poder desenhar um gráfico de dispersão, histograma e boxplot

#?layout

# A matriz mostra a localização dos pontos plotados
layout(matrix(c(2, 0, 1, 3), 
              nrow = 2, byrow = TRUE),
       # comprimento das colunas(plots)
       # altura das linhas (plots)
       widths = c(2, 1), heights = c(1, 2), 
       # refere-se às dimensões
       respect = TRUE)

In [None]:
# estica o intervalo do eixo x
xlim <- with(USairpollution, 
             range(manu)) * 1.1

# configura a plotagem dos pontos mas não desenha nada
plot(popul ~ manu, data = USairpollution, 
     cex.lab = 0.9, xlab = mlab, ylab = plab, 
     type = "n", xlim = xlim)

# adiciona o texto dos pontos plotados, onde podemos abreviar os nomes das cidades, identificado-as com  o plote dos símbolos 
with(USairpollution, text(manu, popul, cex = 0.6,
     labels=abbreviate(row.names(USairpollution))))

In [None]:
# Desenha o histograma como a distribuição marginal da manufatura; 
# Usa a função with() que nos permite extrair variáveis do dataframe...

# as funções hist() e boxplot() são avaliados DENTRO do dataframe USairpollution com a função with()

with(USairpollution, 
     hist(manu, main = "", xlim = xlim))

# desenha boxplot das distribuições marginais para o tamenho populacional das cidades
with(USairpollution, boxplot(popul))

In [None]:
# Vemos que os valores atípicos se mostram tanto no gráfico de dispersão das variáveis quanto em cada distribuição marginal. 

# O outlier mais extremo é Chicago, Filadélfia e Detroit

# Assim, as grandes cidades têm grandes instalações fabris.

### O Boxplot Bivariado

# Vamos procurar um método mais formal e objetivo para rotular observações como outliers

# O boxplot bivariado é um análogo 2D do boxplot para dados univariados, podendo mostrar propriedades 
# de distribuição dos dados na identificação de possíveis valores discrepantes.

# Baseia-se no cálculo de medidas 'robustas' de localização, escala e correlação. Consiste em um par de elipses concêntricas, 
# um é a 'dobradiça' e o outro a 'cerca' que delineia os outliers

# Linhas de regressão de y em x e x em y com interseção mostrando o estimador de localização bivariado; 

# Ângulo agudo entre a regressão
# linhas serão pequenas para um grande valor absoluto de correlações e grandes para um pequeno valor absoluto de correlações .

# Crie um gráfico de dispersão das variáveis manufatura (manu) e tamanho populacional (popul) incluindo boxplot bivariado

# vamos ver se essas cidades são outliers:
outcity <- match(lab <- c("Chicago", "Detroit", 
    "Cleveland", "Philadelphia", "Houston"), 
                 rownames(USairpollution))

In [None]:
# Extrair apenas as variáveis manu e popul do dataframe 
x <- USairpollution[, c("manu", "popul")]

# desenhar o boxplot das variáveis bivariadas (load MVA package)
# o circulo do meio contém 50% dos pontos; 
# as linhas são linhas linhas de regressão das variáveis manu e popul invertidas
 
bvbox(x, mtitle = "", xlab = mlab, ylab = plab)
# colocar label nas cinco cidades outliers
text(x$manu[outcity], x$popul[outcity], 
     labels = lab, cex = 0.7, 
     pos = c(2, 2, 4, 2, 2))

In [None]:
# Chicago, Filadélfia, Detroit e Cleveland são outliers, mas Houston se posiciona em cima da cerca (fence), 
# portanto não se deve considerar um oultiler

# Suponha agora que queremos calcular a correlação entre manu e popul, 
# devemos sempre olhar primeiro para o gráfico de dispersão porque os valores discrepantes podem
# distorcer o coeficiente de correlação.

# Então excluímos essas quatro cidades e calculamos consideradas outliers 

# calcula a corr do produto pearson com a função cor() 

with(USairpollution, cor(manu, popul))

# As 4 cidades outliers combinadas no dataframe 
outcity <- match(c("Chicago", "Detroit", 
                   "Cleveland", "Philadelphia"),
                 rownames(USairpollution))

# calcular a correlação entrel as quatro cidades outliers
with(USairpollution, cor(manu[-outcity], 
                         popul[-outcity]))

In [None]:
# A correlação vai de 0,96 a 0,80

### O casco convexo de dados bivariados

# alternativa ao uso de gráfico de dispersão com boxplot bivariado é calcular corr sem outliers é 'aparar casco convexo' 
# que permite a 'estimativa robusta' da correlação

# O casco convexo de um conjunto de observações bivariadas é os'vértices do menor poliedro convexo no espaço variável 
# dentro do qual estão todos os pontos de dados'

# A remoção de pontos situados no casco convexo pode eliminar outliers isolados sem perturbar a forma geral 
# da distribuição bivariada

# Calcular a estimativa robusta de corr das observações restantes

# Encontramos o casco convexo de nossos dados

#?chull

# Observações sobre o casco
(hull <- with(USairpollution, 
              chull(manu, popul)))

# Plota todos os pontos:
with(USairpollution, 
     plot(manu, popul, pch = 1, 
          xlab = mlab, ylab = plab))

# plota o polígono
with(USairpollution, 
     # pontos de referência do casco com subscritos:
     polygon(manu[hull], popul[hull],
             # número e ângulo das linhas:
             density = 15, angle = 30))

In [None]:
# Calcula a correlação e remove os pontos no casco convexo 
with(USairpollution,
     cor(manu[-hull],
         popul[-hull]))

# A correlação é 0.9225, mais alta que a correlalão 0.80
# remover os outliers do boxplot bivariado

In [None]:
#### Chi-Plot

# Aumenta o gráfico de dispersão para destacar a independência.
# Chi-plot transforma os valores x, y no gráfico de dispersão
# em valores para mostrar desvios da independência usando tabelas qui-quadrado

# Gráfico de dispersão scatterplot:
par(mfrow=c(1,2))
with(USairpollution, plot(manu, popul, 
                          xlab = mlab, 
                          ylab = plab, 
                          cex.lab = 0.9))

# chi-plot:
with(USairpollution, chiplot(manu, popul))

# Os pontos não estão na banda horizontal o que indica que Points that are NOT in the horizontal band
# indicate um afastamento da independência.

In [None]:
##### O gráfico Bubble e outros gráficos Glyph Plots 

# Para incluir mais de 2 variáveis no gráfico de dispersão

# O gráfico Bubble é o mais simples: terceira variável
# representado por raios de círculos proporcionais aos valores

# Gráfico Bubble da temperatura, vento, SO2:

ylim <- with(USairpollution, 
             # spreads out y axis:
             range(wind)) * c(0.95, 1)


#desenha o gráfico de dispersão:
plot(wind ~ temp, data = USairpollution, 
     xlab="Average annual temperature (Fahrenheit)",
     ylab="Average annual wind speed (m.p.h.)", 
     pch=10,
     ylim=ylim)

# adiciona bolhas:
with(USairpollution, 
      # tamanho dos círculos ligados ao SO2:
      # centrado na temperatura e no vento:
      symbols(temp, wind, circles = SO2,
              # dimensiona o tamanho dos símbolos e
              # adiciona símbolos ao gráfico existente
              inches = 0.5, add = TRUE))

In [None]:
#?símbolos

# Cidades com temperaturas anuais moderadas e velocidades do vento têm maior poluição do ar, 
# mas podem ter mais variáveis envolvidas

# Inclua todas as variáveis no gráfico de dispersão de temperatura básica e vento substituindo círculos por estrelas de 5 lados 
# com comprimentos de cada lado representando outra variável

# posições espaciais das cidades no vento, o gráfico de dispersão temp são combinados com a representação em estrela de cinco 
# outras variáveis:

plot(wind ~ temp, data = USairpollution,
     xlab=" Média anual da temperatura (Fahrenheit)",
     ylab="Média anual da velociade do vento (m.p.h.)", 
     pch = 10, ylim=ylim)
with(USairpollution,
     # desenhar as estrelas com temp or wind
    stars(USairpollution[,-c(2,5)], 
          locations = cbind(temp, wind),
          labels = NULL, add = TRUE, cex = 0.5))

In [None]:
# Gráficos Bubble e Stars são exemplos de símbolos 
# ou 'gráficos de glyph' nos quais os valores dos dados controlam os parâmetros do símbolo

# Também poderia simplesmente representar todas as variáveis como o lado da estrela de 7 lados 
# e organizar as estrelas resultantes em uma matriz retangular

stars(USairpollution, cex = 0.55)

In [None]:
# N.O., Miami, Jax, Atl têm formas semelhantes com temperaturas médias anuais distintas mais altas 

In [None]:
##### A Matriz do Gráfico de Dispersão (Scatterplot Matrix)
# plota todos os pares de variáveis numéricas

# usa símbolos de pontos ampliados; 
# indica outliers, precip não linear com predays e SO2

pairs(USairpollution, pch = ".", cex = 3)

In [None]:
# Indica forte correlação linear entre manu e popul. Scatterplot
# A matriz é útil para interpretar a matriz de correlação 
# Cheque a linha de SO2 row na matriz de dispersão (scatter matrix)
round(cor(USairpollution), 4) 

# adicionar as linhas de regressão para os ajustes lineares
pairs(USairpollution, 
      panel = function (x, y, ...) {
          points(x, y, ...)
          abline(lm(y ~ x), col = "grey")
      }, pch = ".", cex = 1.5)

##### Aprimorando o gráfico de dispersão com Densidades Bivariadas Estimadas

In [None]:
# Estimadores de Densidade de Kernel

# A função Kernel determina o formato dos solavancos ("bumps")
# coloca nas observações; Largura da janela h' 
# determina os seus comprimentos

# Para algumas grades (grid) x, plota 3 funções de kernel:

#1 retangular:
rec <- function(x) (abs(x) < 1) * 0.5

#2 triangular
tri <- function(x) (abs(x) < 1) * (1 - abs(x))

# gaussiana:
gauss <- function(x) 1/sqrt(2*pi) * exp(-(x^2)/2)

# conjunto dos valores de x:
x <- seq(from = -3, to = 3, by = 0.001)

# plotar a retangular
plot(x, rec(x), type = "l", ylim = c(0,1), 
     lty = 1, ylab = expression(K(x)),
     main = "THREE COMMONLY USED KERNEL FUNCTIONS")

# adicionar as linhas para a triangular
lines(x, tri(x), lty = 2)

# adicionar as linhas para a gaussiana:
lines(x, gauss(x), lty = 3)

# adicionar as legendas:
legend("topleft", legend = c("Rectangular", 
                             "Triangular", 
                             "Gaussian"), 
       lty = 1:3, 
       title = "kernel functions", 
       bty = "n")

# criar o vetor x
x <- c(0, 1, 1.1, 1.5, 1.9, 2.8, 2.9, 3.5);x

# Quantos elementos?:
n <- length(x);n

# criar um vetor maior de x para grade
xgrid <- seq(from = min(x) - 1, 
             to = max(x) + 1, by = 0.01) 
xgrid

# determinar o h_ comprimento dos solavancos (bumps)
h <- 0.4

# definir os solavancos (bumps) da função gaussiana de kernel
bumps<-sapply(x,function(a)gauss((xgrid-a)/h)/(n*h))
bumps
nrow(bumps)
ncol(bumps)

In [None]:
# lotagem de solavancos (bumps) individuais e sua soma usando a função de densidade do kernel f. 
# As saliências são centralizadas em suas observações

# essae pontos plotados somam as linhas de solavancos 
plot(xgrid, rowSums(bumps), 
     ylab = expression(hat(f)(x)),
     type = "l", xlab = "x", lwd = 2,
     main="GAUSSIAN BUMPS SUMMED, using KERNEL DENSITY f")
# a função rug mostra aonde os solavancos (bumps) individuais se originam
rug(x, lwd = 2)
# chamar a função para desenhar os solavancos (bumps)
out <- apply(bumps,2,function(b) lines(xgrid, b))
# redefinir o estado dos gráficos originais
par(op)

In [None]:
# Pode ser estendido em duas dimensões para casos bivariados
# Aqui usamos um kernel Epanechnikov para a grade entre (-1.1,-1.1) e (1.1,1.1).

# A função para Epanechnikov kernel
epa <- function(x, y) 
  ((x^2 + y^2) < 1) * 2/pi * (1 - x^2 - y^2)
# sequência para a grade
x <- seq(from = -1.1, to = 1.1, by = 0.05)
# aplicar a função para kernel (apply)
epavals <- sapply(x, function(a) epa(a, x))
# persp() desenha os 3D wireframes (contornos) e outros
persp(x = x, y = x, z = epavals, 
      xlab = "x", ylab = "y", 
      zlab = expression(K(x, y)), 
      theta = -35, axes = TRUE, 
      box = TRUE)

In [None]:
##### Plotagens tridimensionais
# Para extensão de análise dos dados bivariados

# Vamos aprimorar o gráfico de dispersão com estimativa da densidade bivariada
# usando dados CYGOB1: saída de energia e superfície
# temperatura do aglomerado estelar CYG OB1.

# Será um gráfico de dispersão de densidade aprimorado pelos
# contornos da densidade bivariada estimada usando
# usando a função bkde2D()

library("KernSmooth")
CYGOB1
#?CYGOB1

In [None]:
# Gráfico de dispersão aprimorado com densidade bivariada
CYGOB1d <- bkde2D(CYGOB1, 
                  bandwidth = sapply(CYGOB1, 
                                     dpik))
# CYGOB1d são densidades bivariadas
CYGOB1d
# plote dos dados originais
plot(CYGOB1, xlab = "log surface temperature",
             ylab = "log light intensity",
     main="LOGS of Light Intensities and Surface Temps")
# adicionar os contornos das densidades bivariadas
contour(x = CYGOB1d$x1, y = CYGOB1d$x2, 
        z = CYGOB1d$fhat, add = TRUE)

# É o gráfico de dispersão do log da intensidade da luz e do log da temperatura da superfície para estrelas (stars) em CYG OB1
# mostrando a densidade bivariada estimada

# Use persp() para desenhar wireframe 3D
# Também conhecido como "Perspective Plot"

persp(x = CYGOB1d$x1, y = CYGOB1d$x2, 
      z = CYGOB1d$fhat,
      xlab = "log surface temperature",
      ylab = "log light intensity",
      zlab = "density",
      main="Perspective Plot of CYGOB1")

In [None]:
### GRÁFICOS DE TRELIÇA (TRELLIS GRAPHICS)
# Abordagem para olhar em alta dimensão
# estrutura em dados usando gráficos 1D, 2D, 3D

# 3D Plot de dados de medidas corporais, nós recriamos

##############################################
    ### Recirando dos dados Measure 
##############################################
measure <-
  structure(list(V1 = 1:20, 
                 V2 = c(34L, 37L, 38L, 36L, 38L, 
                        43L, 40L, 38L, 40L, 41L, 
                        36L, 36L, 34L, 33L, 36L, 
                        37L, 34L, 36L, 38L, 35L), 
                 V3 = c(30L, 32L, 30L, 33L, 29L, 
                        32L, 33L, 30L, 30L, 32L, 
                        24L, 25L, 24L, 22L, 26L, 
                        26L, 25L, 26L, 28L, 23L), 
                 V4 = c(32L, 37L, 36L, 39L, 33L, 
                        38L, 42L, 40L, 37L, 39L, 
                        35L, 37L, 37L, 34L, 38L, 
                        37L, 38L, 37L, 40L, 35L)), 
            .Names = c("V1", "V2", "V3", "V4"), 
            class = "data.frame", 
            row.names = c(NA, -20L))
measure <- measure[,-1]
names(measure) <- c("chest", "waist", "hips")
measure$gender <- gl(2, 10)
levels(measure$gender) <- c("male", "female")

# Precisa dar o load em lattice se já não tiver feito
# library("lattice")

panel.hist <- function(x, ...)
{
  usr <- par("usr"); on.exit(par(usr))
  par(usr = c(usr[1:2], 0, 1.5) )
  h <- hist(x, plot = FALSE)
  breaks <- h$breaks; nB <- length(breaks)
  y <- h$counts; y <- y/max(y)
  rect(breaks[-nB], 0, 
       breaks[-1], y, col="grey", ...)
}
pairs(measure[, c("chest", "waist","hips")],
      diag.panel = panel.hist,
      panel = function (x,y) {
        data <- data.frame(cbind(x,y))
        par(new = TRUE)
        den <- bkde2D(data, 
                      bandwidth=sapply(data,dpik))
        contour(x = den$x1, y = den$x2, 
                z = den$fhat, axes = FALSE)
      })

# 3D scatterplot das medidas corporais.
# Usar pontos para homens, e triângulos para mulheres
library("scatterplot3d")
with(measure, scatterplot3d(chest, waist, hips,
     pch =(1:2)[gender],type="h",angle = 55))

In [None]:
# 3D scatterplot dos dados do USairpollution
with(USairpollution, 
    scatterplot3d(temp, wind, SO2, 
                  type = "h",
                  angle = 55))

# painel dos plots para vento fraco e vento forte (light wind e high wind)
plot(xyplot(SO2 ~ temp| cut(wind, 2), 
            data = USairpollution))

# Mostra que em cidades com ventos fracos, a poluição do ar diminui com o aumento da temperatura, 
# mas em cidades com ventos fortes, a poluição não parece ser fortemente relacionado com o aumento da temperatura

# Aqui temos um gráfico tridimensional de temperatura, vento, e precip para quatro níveis de SO2.

# São poucos pontos em cada painel.

pollution <- with(USairpollution, 
                  equal.count(SO2,4))
plot(cloud(precip ~ temp * wind | pollution, 
           panel.aspect = 0.9,
           data = USairpollution))

In [None]:
# Terremotos (Earthquakes) -latitude and longitude
# (localização) por profundidade perto de Fiji
plot(xyplot(lat ~ long| cut(depth, 3), 
            data = quakes, 
            layout = c(3, 1), 
            xlab = "Longitude", 
            ylab = "Latitude"))

# Locais de terremotos diferentes em várias profundidades

### Gráficos 3D mais complexos da treliça

# Gráficos de dispersão de latitude e longitude condicionada à magnitude, com profundidade
# codificação por sombreamento (formato)

Magnitude <- with(quakes, equal.count(mag, 4))
depth.ord <- with(quakes, rev(order(depth)))
quakes.ordered <- quakes[depth.ord,]
depth.breaks <- with(quakes.ordered, 
                     do.breaks(range(depth),50))
quakes.ordered$color<-level.colors(quakes.ordered$depth,
                                   at=depth.breaks,
                                   col.regions=grey.colors)
plot(xyplot(lat ~ long | Magnitude, 
            data = quakes.ordered,
            aspect = "iso", 
            groups = color, 
            cex = 2, col = "black",
       panel = function(x, y, groups, ..., subscripts) {
           fill <- groups[subscripts]
           panel.grid(h = -1, v = -1)
           panel.xyplot(x, y, pch = 21, 
                        fill = fill, ...)
       },
       legend =
       list(right =
            list(fun = draw.colorkey,
                 args=list(key=list(col=gray.colors,
                                    at = depth.breaks),
                           draw = FALSE))),
            xlab = "Longitude", 
            ylab = "Latitude"))

# plotagem de nuvens de latitude e longitude condicionada à magnitude
plot(cloud(depth ~ lat * long | Magnitude, 
           data = quakes,
           zlim = rev(range(quakes$depth)),
           screen = list(z = 105, x = -70), 
           panel.aspect = 0.9,
           xlab = "Longitude", 
           ylab = "Latitude", 
           zlab = "Depth"))

## Lista 03

VISUALIZAÇÃO DE EXERCÍCIOS DE DADOS MULTIVARIADOS

**Exercício 1.** Use o boxplot bivariado no gráfico de dispersão de pares de variáveis ((temp, wind), (temp, precip), (temp, predays)) contidas no dataframe com os dados de poluição do ar para identificar quaisquer discrepâncias.
Calcule a correlação entre cada par de variáveis usando todos os dados e depois com a remoção dos dados identificados como  outliers. Comente os resultados.

**Exercício 2.** Compare os gráficos qui (chi-plots) com os gráficos de dispersão (scatterplots) correspondentes para os pares de variáveis ((temp, wind), (temp, precip), (temp, predays)) contidos na base de dados de poluição do ar. Você acha que há alguma vantagem no primeiro gráfico em relação ao segundo?