# R

## Manipulação de dados
### DataFrames

O que veremos nesse tutorial?

1. leitura de dados
2. selecionar linhas
3. selecionar colunas
4. filtro de linhas
5. groupby com estatísticas
6. renomear colunas 
7. dados faltantes


## 1. Leitura de dados

In [None]:
# importando biblioteca
# install.packages("tidyverse")
# install.packages("data.table")
# install.packages("microbenchmark")
library('tidyverse')
library('data.table')
library('microbenchmark')

In [None]:
# sp500 = read_csv('data/sp500.csv')
sp500 = fread('data/sp500.csv') # data.table bem mais rápido

# sp500 = data.frame(sp500)

### Mensurando tempo de exeução da leitura dos dados

In [None]:
print(microbenchmark(read_csv('data/sp500.csv')))

In [None]:
print(microbenchmark(fread('data/sp500.csv')))

#### Mostrando as 10 primeiras linhas

In [None]:
head(sp500, 10)

## 2. Selecionar linhas

In [None]:
## selecionando as linhas 1, 10 e 100
sp500[c(1,10,100),]

In [None]:
## removendo as linhas 1, 10 e 100
sp500[-c(1, 10, 100), ]

## 3. Selecionar colunas

In [None]:
head(sp500$close)
head(sp500[,'close'])

# em R não é necessário fazer a cópia

In [None]:
## mais de uma coluna
sp500[,c('symbol','close', 'volume')]

## dplyr
sp500 %>%
    select(symbol, close, volume)

In [None]:
## removendo colunas específicas
subset(sp500, select=-c(high, open))

## dplyr
sp500 %>%
    select(-high, -open)

## 4. Selecionando linhas a partir de condições

In [None]:
sp500[sp500$volume < 1000,]

In [None]:
sp500 %>%
    filter(volume < 1000)

In [None]:
sp500 %>%
    filter(volume < 1000, close > 60)

### Select

In [None]:
# selecionar as colunas que iniciam com v
sp500 %>%
    select(starts_with('v'))

In [None]:
# não vamos selecionar as colunas que iniciam com v
sp500 %>%
    select(!starts_with('v'))

In [None]:
# mais de uma condição
sp500 %>%
    select(starts_with('v'), starts_with('c'))

## 5. Groupby

#### Calculando estatísticas

In [None]:
## Descrevendo as estatísticas básicas
summary(sp500)

In [None]:
# vamos fazer o grupo por symbol e calcular a média do volume
sp500 %>%
    group_by(symbol) %>%
    summarise(media = mean(volume))
    

In [None]:
# ordenando de forma crescente
sp500 %>%
    group_by(symbol) %>%
    summarise(media = mean(volume)) %>%
    arrange(media)

# ordenando de forma decrescente
sp500 %>%
    group_by(symbol) %>%
    summarise(media = mean(volume)) %>%
    arrange(desc(media))
    

In [None]:
estatisticas <- sp500 %>%
    group_by(symbol) %>%
    summarise(mean=mean(close), std=sd(close))

estatisticas

## 6. Renomeando colunas

In [None]:
estatisticas %>%
    rename(ticker=symbol,
           media=mean,
           desvio=std)

## 7. Dados faltantes

In [None]:
# somar a quantidade de dados faltantes para cada coluna
sum_na <- function(df){
    sum(is.na(df))
}

# usando apply
apply(sp500, FUN=sum_na, MARGIN=2)

In [None]:
# drop NA 
na.omit(sp500)
# alternativa
drop_na(sp500)

In [None]:
# dropando NA apenas de high
sp500 %>%
    drop_na(high)