<font size="7">Introdução à Estatística</font>

João Ricardo Costa Filho \
[joaocostafilho.com](https://)

# Introdução ao R (Notebook)

Este notebook foi feito para uma aula introdutória de R, com explicações curtas e exemplos executáveis.

> **Sugestão:** execute as células na ordem e altere os valores para ver como o comportamento muda.


## 0) Preparação

Salve uma cópia do notebook no **seu** Google Drive.

## 1) R como calculadora

In [None]:
# soma
2 + 2

In [None]:
# subtração
10 - 3

In [None]:
# multiplicação
4 * 7

In [None]:
# divisão
10 / 2

In [None]:
# potência
2^3

In [None]:
# raiz quadrada
sqrt(25)

In [None]:
# log natural
log(10)

In [None]:
# log base 10
log10(100)

## 2) Objetos (variáveis) e atribuição

Em R, a atribuição mais comum usa `<-` (mas `=` também funciona em muitos contextos).

In [None]:
# crie dois objetvos, x e y:
x <- 10
y <- 3

In [None]:
# realize as quatro operações básicas com os dois objetos criados



In [None]:
# crie mais um objeto, z:
z = 50
z

## 3) Tipos de dados básicos (classes)

Os tipos mais comuns nesta etapa:
- **numeric** (números)
- **character** (texto)
- **logical** (TRUE/FALSE)

In [None]:
a <- 10
b <- 10.5
c <- "Economia"
d <- TRUE


In [None]:
Por que após rodar os comandos acima não visualizamos nenhum resultado?

In [None]:
class(a)
class(b)
class(c)
class(d)

## 4) Comparações e operadores lógicos

A partir dos objetos criados anteriormente, verifique:

In [None]:
# desigualdade
x > y
x < y

x >= y
x <= y

In [None]:
# igualdade
x == y

In [None]:
# diferente
x != y

In [None]:
(x > 5) & (y > 5)  # "e"

In [None]:
(x > 5) | (y > 5)  # "ou"


In [None]:
!(x > 5)           # "não é"

## 5) Vetores
Quase tudo em R é 'vetorizado': operações são aplicadas elemento a elemento.

In [None]:
# crie o vetor v1
v1 <- c(1, 2, 3, 4, 5)
v1

In [None]:
# obtenha o primeiro e o quinto elemento do vetor v1:
v1[1]   # primeiro elemento
v1[5]   # quinto elemento


In [None]:
# crie o vetor v2
v2 <- 1:10
v2

# crie o vetor v3
v3 <- seq(from = 0, to = 1, by = 0.2)
v3

# crie o vetor v4
v4 <- rep(5, times = 10)
v4

Com base nos vetores criados anteriormente, realize as seguintes operações vetoriais:

In [None]:
# Operações vetoriais
v1 * 2
v1 + 10
sum(v1)
mean(v1)
min(v1)
max(v1)
length(v1)

## 6) Indexação lógica (filtragem)

Isso é central para análise de dados: você cria uma condição e usa para selecionar elementos.

In [None]:
v1 > 3
v1[v1 > 3]

Vamos criar uma base de dados para salários:

In [None]:
salarios <- c(2000, 3000, 5000, 1200, 8000)

Obetnha os salários que estão acima de 4000:

## 7) Funções básicas de estatística descritiva

In [None]:
# média
mean(salarios)

In [None]:
print("Salários ordenados:")
# ordenar de maneira crescente
sort(salarios)

# ordenar de maneira decrescente
#sort(salarios, decreasing = TRUE)

print("mediana:")

# mediana
median(salarios)


In [None]:
# mínimo
min(salarios)

In [None]:
# máximo
max(salarios)

In [None]:
# variância amostral
var(salarios)

In [None]:
# desvio-padrão amostral
sd(salarios)

In [None]:
# resumo (quartis, mínmo, máximo)
summary(salarios)

## 8) Valores ausentes (NA)

Muitas funções retornam `NA` se houver `NA` no vetor, a menos que você use `na.rm = TRUE`.

In [None]:
dados <- c(10, 20, NA, 40)


Calcule a média dos elementos do vetor 'dados':

Calcule a média dos elementos do vetor 'dados' removendo os valores ausentes (NA):

In [None]:
mean(dados, na.rm = TRUE)

Descubra quais elementos do vetor 'dados' estão ausentes:

In [None]:
is.na(dados)

## 9) Listas

Listas podem conter elementos de tipos diferentes (vetores, textos, números, data frames...).

In [None]:
lista <- list(
  nome = "João Ricardo",
  idade = 40,
  notas = c(8, 7, 9),
  aprovado = TRUE
)

Estrutura dos dados da lista:

In [None]:
str( lista )

Calcule a média das notas de João Ricardo presente na lista criada anteriormente:

In [None]:
mean( lista$notas )

## 10) Data frames

Data frames são a estrutura padrão para dados 'tabulares' (linhas = observações; colunas = variáveis).

In [None]:
df <- data.frame(
  id = 1:5,
  renda = c(2000, 2500, 3000, 4000, 10000),
  desempregado = c(TRUE, TRUE, FALSE, FALSE, FALSE)
)


In [None]:
df

Verifique a estrutura dos dados do data frame:

Utilize a função 'summary' para obter um resumo dos dados:

Extraia apenas a variável 'renda':

Extraia a primeira linha do data frame:

In [None]:
df[1, ]     # primeira linha

Extraia a coluna 'id'do data frame:

In [None]:
df[, "id"]  # coluna id

Obtenha as observações do data frame cuja renda é maior do que 3000:

In [None]:
df[df$renda > 3000, ]

## 11) Criando novas variáveis no data frame

Crie uma variável para a renda dividida por 1000:

In [None]:
df$renda_mil <- df$renda / 1000

Crie uma variável com o log da renda:

In [None]:
df$renda_log <- log(df$renda)

Visualize o data frame para observar o resultado:

## 12) Tabelas de frequência

Comecemos com a seguinte base de dados:

In [None]:
contrato <- c("CLT", "PJ", "CLT", "Informal", "CLT",
              "CLT", "PJ", "Informal", "CLT", "PJ",
              "CLT", "Informal", "CLT", "CLT", "PJ",
              "Informal", "CLT", "PJ", "CLT", "Informal")


Encontre a frequência absoluta de cada tipo de contrato:

In [None]:
table( contrato )

Encontre a frequência relativa de cada tipo de contrato:

In [None]:
prop.table( table( contrato ) )     # frequência relativa

Trabalhemos agora com os dados no formato data frame:

In [None]:
df2 <- data.frame(
  id = 1:20,
  contrato = c("CLT", "PJ", "CLT", "Informal", "CLT",
               "CLT", "PJ", "Informal", "CLT", "PJ",
               "CLT", "Informal", "CLT", "CLT", "PJ",
               "Informal", "CLT", "PJ", "CLT", "Informal")
)

Obtenha as primeiras duas observações (primeira duas linhas) do data frame:

In [None]:
head( df2, 3 )

Obtenha as últimas quatro observações (últimas quatro linhas) do data frame:

In [None]:
tail( df2, 4 )

Encontre a frequência absoluta de cada tipo de contrato **no data frame**:

Encontre a frequência relativa de cada tipo de contrato (e multiplique por 100):

## 13) Gráficos básicos (base R)

Para começar, base R é suficiente. Mais tarde, você pode migrar para `ggplot2` se quiser.

Primeiro, crie um data frame com os dados a serem representados graficamente:

In [None]:
df3 <- data.frame(
   idade = 18:32,
   renda = c(1200, 1400, 1600, 1550, 1800,
             2100, 2000, 2400, 2600, 2550,
             3000, 3200, 3100, 3600, 3900)
)

Faça um gráfico de dispersão:

In [None]:
plot(df3$idade, df3$renda,
     main = "Renda e Idade",
     xlab = "Idade",
     ylab = "Renda",
     pch = 19)


Faça um histograma da renda:

In [None]:
hist(df3$renda,
     main = "Distribuição da renda",
     xlab = "Renda")

Faça um boxplot da renda:

In [None]:
boxplot(df3$renda,
        main = "Boxplot da renda")

## 14) Importar e exportar dados

Neste exemplo, criamos um CSV e lemos de volta. Em aula, você pode trocar pelo arquivo real dos alunos.

In [None]:
# Exportar os dados
write.csv(df3, "meus_dados.csv", row.names = FALSE)


In [None]:
# Importar
df4 <- read.csv("meus_dados.csv")

Visualize as três primeiras linhas do data frame `df4`:

## Vamos salvar os resultados!

Salve localmente o arquivo criado com a função 'save.image':

In [None]:
save.image( file = "aula1.RData" )

Agora, abra um novo notebook (não se esqueça que o default tem que ser o R), faça (manualmente) o upload do arquivo na máquina "virtual" e utilize a função 'load' para fazer o upload do arquivo no R da nova sessão do Colab. Escolha algum dos objetos criados nesta aula e visualize-o.