# Aula de Introdução à Linguagem R

*UFSCar Lagoa do Sino* \
Prof. Dr. Iuri Emmanuel de Paula Ferreira   
contato: iuri@ufscar.br \
Versão: setembro de 2025


Colaboração: \
Centro de Modelagem Estatística em Ciências Ambientais (CeMECA - UFSCar)\



# Sumário

  - [X] Configurações do R no Colab
  - [ ] Apresentação do R
  - [ ] Instalação, interface e execução dos códigos
  - [ ] Tipos de dados
  - [ ] Operações Básicas
  - [ ] Estrutura de dados
    - [ ] arrays e vetores
    - [ ] matrizes e dataframes
  - [ ] Desafios

# Configurações do R no Colab

Para usar R no Google Colab, a maneira mais simples é alterar o ambiente de execução do notebook diretamente.

1.  Vá para o menu "Ambiente de execução" no topo da página.
2.  Selecione "Alterar tipo de ambiente de execução".
3.  Na janela de configurações do notebook, escolha "R" no dropdown "Configurações do notebook".
4.  Clique em "Salvar".

Após mudar o ambiente de execução para R, as células de código no seu notebook executarão código R nativamente.

# R, Julia e Python: Uma Breve Comparação para Análise de Dados

R, Julia e Python são linguagens populares para análise de dados, cada uma com seus pontos fortes e fracos.

*   **R:** Fortemente focado em estatística e visualização de dados. Possui um vasto repositório de pacotes (CRAN) voltados para análise estatística. É amplamente utilizado em pesquisa acadêmica e por estatísticos. A sintaxe pode ser um pouco diferente de outras linguagens de programação.

*   **Python:** Uma linguagem de propósito geral com uma vasta gama de aplicações, incluindo análise de dados, aprendizado de máquina, desenvolvimento web, etc. Possui bibliotecas poderosas como Pandas e NumPy para manipulação de dados e Scikit-learn e TensorFlow para aprendizado de máquina. É muito popular na indústria e academia.

*   **Julia:** Projetada para computação de alto desempenho, especialmente em áreas científicas e numéricas. É conhecida por sua velocidade, que pode ser comparável à de linguagens compiladas como C, mantendo a flexibilidade de linguagens dinâmicas. A sintaxe é mais próxima da matemática. Ainda tem um ecossistema de pacotes menor comparado a R e Python.

A escolha entre elas muitas vezes depende do projeto, da familiaridade da equipe com a linguagem e das necessidades específicas de desempenho ou de pacotes especializados.


# Apresentação

<div align = "justify">

R é uma linguagem de programação criada por Ross Ihaka e
Robert Gentleman, na universidade de Auckland, Nova Zelândia,
em meados dos anos 1990. A linguagem R foi uma adaptação da
linguagem S, criada por John Chambers em 1976, nos laboratórios
Bell. </p>

R também denomina um programa computacional destinado a análises estatísticas e visualização de dados. O programa R é livre ( _General Public License_ ) e possui código-fonte aberto, sendo aprimorado continuamente por uma rede global de colaboradores, a partir da _R Foundation for Statistical Computing_ , sediada em Viena, na Áustria. </p>

A linguagem R vem se tornando cada vez mais utilizada, passando da 19º posição em 2019 ao 9º lugar em 2020 em popularidade, conforme _The TIOBE Programming Community index_ .

</div>   





# Instalação, interface e execução de códigos  

<div align = "justify">

Para instalar o R, clique no link [instalação](https://cran.r-project.org/). O usuário deverá escolher o arquivo de acordo com o seu sistema operacional. Detalhes sobre como usar o R pela primeira vez são expostos no vídeo que acompanha esta aula (AVA 2 - UFSCar).

O R é uma linguagem interpretada. Isso significa que partes do código podem ser executadas diretamente do interpretador (interface R), sem a necessidade de compilar todo código e montar um arquivo executável (.exe). Dessa forma, o usuário seleciona o pedaço do código que deseja executar e, de imediato, tem o resultado impresso no terminal de saída ou na janela gráfica. Se houver erro de sintaxe/interpretação, o programa exibirá um alerta no terminal de saída.   

Após abrir a interface R, o usuário deverá criar um script (.txt ou .R) no qual os comandos serão salvos. Para executar um bloco de comandos, o usuário deverá selecioná-lo com o cursor do mouse (deixando-o em realce) e, então, pressionar "F5" ou "CTRL+ENTER", a depender da interface em uso. Outra opção é executar o comando, linha a linha, até completar o bloco de comandos desejado.

Se o terminal de saída apresentar o símbolo "+", isso significa que algum comando ainda não foi finalizado e o programa aguarda sua conclusão. Às vezes, a execução das linhas de comando não segue a ordem correta e o programa "trava" com o sinal de "+" e, nesse caso, é preciso "matar" o processo clicando no botão "Stop".

No R, os resultados podem ser obtidos a partir do uso de funções/expressões ou serem atribuídos a variáveis e gravados
na memória do computador. Há diversas formas de atribuir valores
a uma variável: nome <- valor; valor -> nome; nome = valor.
Tanto "->" como "=" funcionam como comandos de atribuição. Uma vantagem do R é o fato de não ser requerida a declaração/inicialização de variáveis, tipos e tamanhos ao início do programa, como é comum em outras linguagens. R é uma linguagem _case sensitive_, isso significa que letras maiúsculas e minúsculas são diferenciadas no programa. Portanto, uma variável de nome "x" será diferente de outra com nome "X".

</div>





In [1]:
# Cálculo a partir de expressão
sin(0.5)


In [2]:
# Valores atribuídos a variáveis locais
x <- 5
10 -> X


In [3]:
# Diferença entre as variáveis "x" e "X"
print( sprintf("O valor de 5 vezes x é: %d", 5*x) ); sprintf("O valor de 5 vezes X é: %d", 5*X)

[1] "O valor de 5 vezes x é: 25"


<div align = "justify">

Geralmente, o programador quebra linha entre comandos diferentes e
executa uma linha por vez. Entretanto, há a opção de listar inúmeros
comandos na mesma linha, separando-os por ponto-e-vírgula.

Textos que seguem "#" são comentários e, portanto, são desconsiderados pelo interpretador durante a execução do programa. Servem apenas para orientar os programadores/leitores do código.

</div>

In [None]:
# Programa: a parábola ax^2 + bx + c tem duas raízes reais?
print("Vamos fazer um programa para dizer se a parábola ax^2 + bx + c tem raízes reais.")
a <- as.numeric(readline("Escreva o valor do coeficiente a: " ))
b <- as.numeric(readline("Escreva o valor do coeficiente b: " ))
c <- as.numeric(readline("Escreva o valor do coeficiente c: " ))
# Cálculo do disciminante
delta <- b^2-4*a*c
# Se o discriminante é maior ou igual a zero, há raízes reais.
if(delta >= 0){
   print("Sim! A parábola tem raízes reais.")
} else{ print("Não. A parábola não tem raízes reais.")}


# Tipos de dados

<div align = "justify">

Há diversos tipos de dados que podem ser armazenados na memória do computador e manipulados a partir do programa R. Os dados podem ser
numéricos (reais ou inteiros), lógicos (verdadeiro ou falso),
caracteres (sequências alfanuméricas), números complexos ou funções.

</div>

  + Dado numérico real (ponto flutuante)



In [None]:
1/3

  + Dado numérico inteiro
  



In [None]:
as.integer(1/3)

  + Dado lógico

In [None]:
x > X

  + Caracteres, Strings ou Palavras (Alfabéticas ou Alfanuméricas)

In [None]:
nome <- "Nivaldo Rolando Pedreira"
class(nome)

  + Função
  

In [None]:
class(exp)

<div align = "justify">

O comando _class_ retorna o tipo do dado guardado no objeto que entra como argumento da função (entre parênteses).

Se o leitor tiver dúvidas sobre algum comando, pode utilizar a função
_help_. Para testar, digite no console: _help("sum")_.

</div>

  + Vamos fazer uma função que calcula a média?

In [None]:
calcula_media <- function(x){

# ... processamento ...
soma <- sum(x)
n <- length(x)
media <- soma/n

return(media)
}

In [None]:
x <- c(19, 17, 23, 54, 12, 35, 18)
calcula_media(x)

# Operações Básicas e Funções Matemáticas

No R, as operações aritméticas são definidas de maneira intuitiva.

In [None]:
l<-23
print(l^2+2*l)
print(3*2+2)
print(3*(2+2))
print(l/3)


Mais operações matemáticas são listadas   [aqui](https://stat.ethz.ch/R-manual/R-devel/library/base/html/Arithmetic.html).

Além disso, diversas funções matemáticas são pré-definidas no R.


In [None]:
# Arredondar (duas casas decimais)
round(17/3,2)

In [None]:
# seno, cosseno, tangente, arco-tangente, tengente hiperbólica
print( list(sin(pi), cos(pi), tan(pi), atan(0.5), tanh(0.5)) )

In [None]:
# raiz quadrado, exponencial, log natural, log na base 10 e módulo
print( list(sqrt(4), exp(2), log(10), log10(10), abs(-6.5))  )

<div align = "justify">

Por sua vez, comparações e controle de fluxo dependem de operadores
lógicos, ou seja, que resultam em _TRUE_ ou _FALSE_. Observe que "=="
não é um comando de atribuição, mas trata-se de uma comparação lógica de igualdade. Com comandos lógicos, também é possível estabelecer a união e
a interseção entre conjuntos: "(cond. 1)&(cond. 2)" será verdade (_TRUE_) apenas se as condições 1 e 2 forem satisfeitas simultaneamente; por outro lado, "(cond. 1)|(cond. 2)" será verdade se a condição 1 ou a condição 2 (ou ambas) forem satisfeitas.

</div>

In [None]:
print("Entre com um nome:")
nome <- readline()
is.numeric(nome)



In [None]:
is.character(nome)

In [None]:
# A variável é igual a 23?
l==23
# A variável é menor do que 15?
print(l<15)
# A variável é menor do que 23
print(l<=23)
# atribuição (nova variável)
print(a<-17)


In [None]:
# condição 1 E condição 2
(a<15)&(l>23)


In [None]:
# condição 1 OU condição 2
(a<15)|(l>23)


# Principais estruturas de dados   



## Vetores

<div align = "justify">

Vetor é o tipo de estrutura de dados mais simples. Trata-se de uma sequência de "valores" a serem armazenados na memória do computador. Observe que tais valores não são necessariamente números, mas podem ser nomes e/ou categorias ou valores lógicos (TRUE ou FALSE). Cada elemento de um vetor é um componente.

Uma lista pode ser construída a partir da combinação de elementos do mesmo tipo, através do comando (*combine*). Sua sintaxe é *c(element 1, element 2, ...)* . Observe que os elementos são separados por vírgulas. Se os elementos forem números decimais, as unidades e os decimais serão separados por pontos, como na Língua Inglesa.

</div>

In [None]:
# Vetor c/ números inteiros de 1 a 10
v<-c(1,2,3,4,5,6,7,8,9,10)
# Impressão do vetor armazenado
print(v)
# Quinto elemento do vetor
print(v[5])

In [None]:
# Vetor c/ nomes dos alunos
nomes<-c("Raul","Zulmira","Edmilson","Jaquelina","Gabriela","Hudson")
# Impressão do vetor armazenado
nomes
# Obs: Nomes e rótulos sempre devem ser incluídos com aspas duplas.

In [None]:
# Vetor com valores lógicos
# Quais elementos de v são divisíveis por 2?
print(v%%2)
# Observe que o operador %% indica a divisibilidade
# (0 = não divisível / 1 = divisível)
as.logical(v%%2)
# Aqui os valores foram transformados em variáveis lógicas
# (i.e. TRUE = Verdadeiro = 1; FALSE = Falso = 0)

<div align = "justify">

Quando digitamos *vetor[2]*, o número disposto entre colchetes é uma **subscrição**. A subscrição indica a posição de um dado dentro de uma
estrutura de dados. Obviamente, a subscrição é um número inteiro e
dentro dos limites de tamanho da lista. A subscrição/índice varia de 1
até N, em que N é o número de elementos na lista.

Diversas operações com vetores e entre vetores e matrizes são pré-definidas no R. No exemplo abaixo, identifique a diferença entre o produto ponto-a-ponto e a multiplicação escalar (produto interno).

</div>

In [None]:
# Definição de dois vetores quaisquer
v <- c(12,3,4,25,7,8)
r <- c(13,15,4,21,2,3)
print("Comprimento de um vetor")
print( length(v) )
readline(scan(n=1)) # dê enter para continuar!
print("Multiplicação ponto-a-ponto")
print( v*r )
readline(scan(n=1)) # dê enter para continuar!
print("Produto escalar <v,r>")
print( v%*%r )


## Arrays ou matrizes

Arrays e matrizes são estruturas de dados bidimensionais, cujas as
entradas apresentam subscrições para as linhas e colunas.


In [None]:
# Criando um banco de dados
dados<-data.frame(v,r)
# Leitura das 3 linhas iniciais
head(dados,3)


In [None]:
# acessando a coluna "v" do banco de dados
dados$v


In [None]:
# Acessando o elemento da linha 3 e coluna 2
dados[3,2]


In [None]:
# Dimenões do banco de dados
dim(dados)


<div align = "justify">

No exemplo abaixo, definimos uma matriz com 3 linhas (_nr = number of lines_) e cujo preenchimento segue a ordem das colunas (_byrow = FALSE_).
Diversas operações matriciais são possíveis, tais como: transposição, inversão, multiplicação, cálculo de autovalores, autovetores e determinantes. Essas operações têm grande relevância na Estatística.

</div>

In [None]:
# Definindo a matriz
A<-matrix(c(2,3,4,5,6,7),nr=3,byrow=FALSE)
A


In [None]:
# Obtenção da transposta
t(A)


In [None]:
# Definindo outra matriz
B<-matrix(c(2,3,4,5,6,7,8,9,10),nr=3,byrow=FALSE)
B


In [None]:
# Cálculo do determinante
det(B)


In [None]:
# Tentativa - Cálculo da Inversa
try(solve(B))


In [None]:
# Nova matriz
B2<-matrix(c(2,3,28,5,6,12,8,9,5),nr=3,byrow=FALSE)
print(det(B2))
print(solve(B2))


In [None]:
# multiplicação ponto-a-ponto
B*B2


In [None]:
# multiplicação matricial
B%*%B2

## Data Frames

Data frames são estruturas de dados tabulares em R, semelhantes a planilhas ou tabelas de banco de dados. Eles são amplamente utilizados para armazenar dados que podem ter diferentes tipos de dados em cada coluna (por exemplo, uma coluna pode conter números, outra texto, etc.). Cada coluna em um data frame é um vetor de igual comprimento, e cada linha representa uma observação.

### Criando um Data Frame

Podemos criar um data frame combinando vetores de igual comprimento.

In [None]:
# Criando vetores para o data frame
nomes <- c("Ana", "Bruno", "Carla", "Daniela")
idades <- c(25, 30, 22, 28)
cidades <- c("São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba")

# Criando o data frame
pessoas_df <- data.frame(Nome = nomes, Idade = idades, Cidade = cidades)

# Exibindo o data frame
print(pessoas_df)

### Acessando Elementos em um Data Frame

Podemos acessar colunas usando o operador `$` ou colchetes `[]`. Para acessar linhas ou elementos específicos, usamos colchetes com índices de linha e coluna.

In [None]:
# Acessando a coluna "Nome"
print("Coluna 'Nome':")
print(pessoas_df$Nome)

# Acessando a coluna "Idade" usando colchetes
print("\nColuna 'Idade':")
print(pessoas_df[, "Idade"])

# Acessando a primeira linha
print("\nPrimeira linha:")
print(pessoas_df[1, ])

# Acessando o elemento na segunda linha e terceira coluna
print("\nElemento na segunda linha e terceira coluna:")
print(pessoas_df[2, 3])

### Informações sobre o Data Frame

Podemos obter informações sobre a estrutura e as dimensões de um data frame.

In [None]:
# Estrutura do data frame
print("Estrutura do data frame:")
str(pessoas_df)

# Dimensões do data frame (linhas x colunas)
print("\nDimensões do data frame:")
dim(pessoas_df)

# Nomes das colunas
print("\nNomes das colunas:")
colnames(pessoas_df)

## Manipulação de Data Frames com dplyr

O pacote `dplyr` é uma ferramenta poderosa e popular no R para manipulação de dados, especialmente com data frames. Ele fornece um conjunto consistente de funções que facilitam a realização de operações comuns, como filtrar linhas, selecionar colunas, ordenar dados, agrupar e resumir.

### Instalando e Carregando o dplyr

Antes de usar o `dplyr`, você precisa instalá-lo (se ainda não tiver) e carregá-lo na sua sessão R.

In [None]:
# Instalar dplyr (execute apenas se não tiver instalado)
# install.packages("dplyr")

# Carregar o pacote dplyr
library(dplyr)

### Principais Funções do dplyr

O `dplyr` oferece várias funções verbais e intuitivas para manipular data frames:

- `filter()`: Filtra linhas com base em condições.
- `select()`: Seleciona colunas por nome ou posição.
- `arrange()`: Ordena linhas com base em uma ou mais colunas.
- `mutate()`: Cria novas colunas ou modifica colunas existentes.
- `summarise()`: Calcula valores resumidos (como média, mediana, contagem).
- `group_by()`: Agrupa dados por uma ou mais variáveis para operações resumidas.

### Exemplos de Uso do dplyr

Vamos usar o data frame `pessoas_df` criado anteriormente para demonstrar algumas funções do `dplyr`.

In [None]:
# Filtrar pessoas com mais de 25 anos
pessoas_mais_25 <- pessoas_df %>% filter(Idade > 25)
print(pessoas_mais_25)

In [None]:
# Selecionar apenas as colunas Nome e Cidade
nome_cidade <- pessoas_df %>% select(Nome, Cidade)
print(nome_cidade)

In [None]:
# Ordenar por idade em ordem crescente
pessoas_ordenadas_idade <- pessoas_df %>% arrange(Idade)
print(pessoas_ordenadas_idade)

In [None]:
# Adicionar uma nova coluna com a idade em meses
pessoas_com_idade_meses <- pessoas_df %>% mutate(Idade_Meses = Idade * 12)
print(pessoas_com_idade_meses)

In [None]:
# Calcular a idade média
idade_media <- pessoas_df %>% summarise(Media_Idade = mean(Idade))
print(idade_media)

# Exercício 1 - Operações com Vetores

# 1. Crie dois vetores numéricos, `vetor1` e `vetor2`, com 5 elementos cada.
# Escolha valores inteiros ou decimais para os elementos.

# 2. Calcule a soma elemento a elemento dos dois vetores e armazene o resultado em `soma_vetores`.

# 3. Calcule o produto escalar entre `vetor1` e `vetor2` e armazene o resultado em `produto_escalar`.

# 4. Verifique quais elementos em `vetor1` são maiores que 10.

# 5. Crie um novo vetor `vetor3` contendo apenas os elementos de `vetor1` que são maiores que 10.


# Exercício 2 - Manipulação de Vetores

# 1. Crie um vetor de caracteres chamado `frutas` com pelo menos 6 nomes de frutas.
# 2. Acesse e imprima o terceiro elemento do vetor `frutas`.
# 3. Acesse e imprima os elementos do segundo ao quarto do vetor `frutas`.
# 4. Modifique o quinto elemento do vetor `frutas` para "kiwi".
# 5. Adicione um novo elemento "manga" ao final do vetor `frutas`.
# 6. Imprima o vetor `frutas` atualizado.

# Exercício 3 - Criando e Usando Funções

# 1. Crie uma função em R chamada `calcula_imc` que recebe dois argumentos: `peso` (em kg) e `altura` (em metros).
# 2. A função deve calcular o Índice de Massa Corporal (IMC) usando a fórmula: IMC = peso / (altura^2).
# 3. A função deve retornar o valor do IMC calculado.
# 4. Use a função `calcula_imc` para calcular o IMC de uma pessoa com 70 kg e 1.75 metros de altura.
# 5. Imprima o resultado do IMC calculado.

# Exercício 4 - Função para Análise de Vetor

# 1. Crie uma função em R chamada `analisa_vetor` que recebe um vetor numérico como argumento.
# 2. A função deve calcular e retornar uma lista contendo a média, a mediana e o desvio padrão do vetor de entrada.
# 3. Crie um vetor numérico de exemplo.
# 4. Use a função `analisa_vetor` para analisar o vetor de exemplo.
# 5. Imprima os resultados retornados pela função.