# Introdução à Linguagem R - Visualização de Dados


## Autor: Luiz Affonso Guedes
última atualização: outubro de 2017


## Baseado no Livro: R for Data Science, de Garrett Grolemund e Hadley Wickham
- Disponível em: http://r4ds.had.co.nz/

## Objetivos

O objetivo geral deste documeto é apresentar a potencialidade da linguagem R no contexto de ciência de dados. 

Os objetivos específicos deste documento são:
- Apresentar as funcionalidade de gráficos na linguagem R.


## Metodologia Utilizada
Usaremos uma abordagem interativa e incremental, mesclando braves explicações conceituais com programas em linguagem R.

Só trabalharemos com dos retangulares (tipo planilha).

# Sumário
- 
    

## 0. Instalação de pacotes
Para execução dos exemplos, será necessário a instalação e a importação do pacote "tidyverse".
- Este pacote contém as principais biblitecas do R.


In [None]:
install.packages("tidyverse")

In [None]:
library(tidyverse)

## 1. Introdução

- Iremos trabalhar com data frames, que são dados retangulares, dispostos em colunas (variáveis) e linhas (observações).

- uso do data frame "mpg", que contém observações colatadas pela "US Environment Protection Agency" sobre 38 modelos de carros.

In [None]:
mpg

In [None]:
?mpg

### 2. Criação de Gráfico
- uso da biblioteca ggplot.
- para plotar os dados de "mpg", com "displ" no eixo x e "hwy" no eixo y.

In [None]:
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

- Com ggplot2, a função ggplot( ) inicia um plot.
    - A função ggplot( ) cria um sistema de coordenadas, que se pode adicionar camadas.
    -O primeiro argumento de ggplot( ) é o dataset que será utilizado no gráfico.
    - O ggplot(data = mpg) cria um gráfico vazio.


- Completa-se o gráfico adicionando-se uma ou mais camadas sobre o gráfico criado por ggplot( ).
    - A função geom_point( ) adiciona uma camada de pontos sobre o plot (no caso um scatterplot).
    - Há várias funções do tipo geom_*, sendo que cada uma utiliza um tipo diferente de símbols sobre o gráfico.
    
- O padrão para se criar um gráfico em ggpot é o seguinte:


ggplot(data = dataFrameDesejado) + 

  geom_nomeDaFuncao (mapping = aes(mapeamentos)) 
  

In [None]:
# Verifique o que ocorre se se executar apenas ggplot(.) 
ggplot(data = mpg)

#### Exercício: 
- Faça um gráfico (tipo scatterplot) de "hwy" vs "cyl"


In [None]:
# Resolução do Exercício


## 3. Trabalhando com Asthetics em Gráficos

> “The greatest value of a picture is when it forces us to notice what we never expected to see.” — John Tukey

Um "Aesthetic" é uma propriedade visual dos objetos em sua trama. Aesthetics inclui coisas como o tamanho, a forma ou a cor dos seus pontos. 
- Pode-se exibir um ponto um gráfico de diferentes maneiras via alteração dos valores de suas propriedades estéticas.
    - como forma e cor de um ponto para tornar o ponto pequeno, triangular ou azul, por exemplo.


In [None]:
# Exemplo de uso de Asthetics
# Mapeamento das cores dos pontos da variável de classe para revelar a classe de cada carro.
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, color = class))

In [None]:
# Exemplo de uso de Asthetics
# Mapeamento de tamanho dos pontos da variável de classe para revelar a classe de cada carro.
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, size = class))

- Pode-se controlar o nível de transparência dos pontos via o parâmetro "alpha".
- Pode-se controlar a forma (shape) do ponto via o prâmetro "shape".

In [None]:
# # Exemplo de uso de Asthetics

# Nível de transparência dos pontos.

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, alpha = class))


In [None]:
# Definindo o formato (shape) dos pontos.

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, shape = class))

- Pode-se definir parâmetros (como cor, por exemplo) especificamente para os ponto.
- Para isto, precisa-se especificar o parâmetro em questão fora da variável mapping.

In [None]:
# Definindo a cor Azul para os pontos do gráfico
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy), color = "blue")

In [None]:
# Qual é a diferença para o gráfico anterior?
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, color = "blue"))

## 4 Facets
- São subplots, onde cada um exibe um subconjuto dos dados.
- Bastante útil para dados categóricos.
- Usar a função facet_wrap( ) para dividir o gráfico em subplots com uma mesma variável.
    - O primeiro argumento é uma fórmula.
    - A variável passada deve ser discreta.

In [None]:
# Exemplo de uso da função facet_wrap(), para se criar subplots

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_wrap(~ class, nrow = 2)

In [None]:
# Exemplo de uso da função facet_wrap(), para se criar subplots

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_wrap(~ class, nrow = 3)

- Para dividir o plot sobre a combinação de duas variáveis, usa-se a função facet_grid().
    - O primeiro argumento é uma fórmula, que contém duas variáveis separadas por ~.

In [None]:
# Exemplo de uso da função facet_grid(y~x)

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_grid(drv ~ cyl)

- Se preferir não dividir o gráfico em linhas e colunas, usa-se . ao invés do nome da variável. 
    - Por exemplo: + facet_grid(. ~ cyl).

In [None]:
# Exemplo de uso da função facet_grid(y~x)

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_grid(. ~ cyl)

In [None]:
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) +
  facet_grid(drv ~ .)

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) +
  facet_grid(. ~ cyl)

## 5. Objetos Geométricos
- Uma função geom_* é um objeto gráfico que o ggplot usa para representar dados.
- Há várias formas de se representar dados:
    - bar charts usam geom_bar( ).
    - boxplots usam geom_boxplot( ).
    - scatterplots usam geom_point( ).
    - line plots usam geom_line( ).
    - ...

In [None]:
# Exemplo de gráfico de pontos
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

In [None]:
# Exemplo de gráfico de linha
ggplot(data = mpg) + 
  geom_line(mapping = aes(x = displ, y = hwy))

In [None]:
# Exemplo de gráfico de linha com suavização
ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy))

In [None]:
# Exemplo de gráfico de linha com suavização e gráfico de pontos sobrepostos
ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy))+ 
  geom_point(mapping = aes(x = displ, y = hwy))

In [None]:
# Gráfico de linha, com tipo de linha para valor da variável "drv"
ggplot(data = mpg) + 
  geom_line(mapping = aes(x = displ, y = hwy, linetype = drv))

In [None]:
# Gráfico de linha com suavização, com tipo de linha para valor da variável "drv"
ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))

#### Exercício:
- Sobreponha os pontos no gráfico anterior, porém cada valor da variável "drv" deverá ter uma cor própria.

In [None]:
# Resolução do Problema

### Exemplos de Gráficos de Barras

In [None]:
# A variável "diamonds" vem no pocote ggplot

ggplot(data = diamonds) + 
  geom_bar(mapping = aes(x = cut))

In [None]:
ggplot(data = diamonds) + 
  geom_bar(mapping = aes(x = cut, fill = cut))

In [None]:
ggplot(data = diamonds) + 
  geom_bar(mapping = aes(x = cut, fill = clarity))

In [None]:
ggplot(data = diamonds) + 
  geom_bar(mapping = aes(x = cut, fill = clarity), position = "dodge")

### Exemplos de Gráficos de Caixa (boxplots)

In [None]:
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
  geom_boxplot()

In [None]:
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
  geom_boxplot() +
  coord_flip()

## 6. Mapas
- função map_data("país)
- função geom_polygon( )

In [None]:
# Exemplo de uso da função map_data - mapa da Nova-Zelândia
nz <- map_data("nz")


In [None]:
# Exemplo - Dezenho do mapa
ggplot(nz, aes(long, lat, group = group)) +
  geom_polygon(fill = "white", colour = "black")


In [None]:
# Exemplo - Dezenho do mapa da Nova-Zelândia
ggplot(nz, aes(long, lat, group = group)) +
  geom_polygon(fill = "white", colour = "black") +
  coord_quickmap()

In [None]:
# Exemplo de uso da função map_data - mapa dos Estados Unidos
state <- map_data("state")


In [None]:
# Exemplo - Dezenho do mapa dos Estados Unidos
ggplot(state, aes(long, lat, group = group)) +
  geom_polygon(fill = "blue", colour = "black")