<h1 align="center">Introdução à Análise de Dados com Linguagem R</h1>

## 1 Instalação do R
<p style="text-align:justify">A instalação padrão da linguagem R é feita a partir do <a href="https://cran.r-project.org/">CRAN</a>, uma rede formada de servidores espalhadod pelo mundo que armazena versões atualizadas do código fonte e executável (Windows), assim como a documentação da linguagem R.</p>

## 2 Instalação do RStudio
<p style="text-align:justify;">RStudio é um ambiente de desenvolvimento integrado para linguagem R (IDE - <i>integrated development environment</i>), porém pode rodar <i>scripts</i> SQL, C, C++ e Python. A vantagem se se poder trabalhar com IDE é que ela disponibiliza ferramentas de apoio ao desenvolvimento de códigos em linguagem de programção. Para <i>download</i> do RStudio acesse o endereço <a href="https://www.rstudio.com/products/rstudio/download/#download">https://www.rstudio.com/,</a> e escolha a opção <i>RStudio Desktop</i></p>

## Conhecendo a Interface Gráfica do RStudio

![](./output/RStudio.PNG)

A interface do RStudio é divida em 4 painés, e duas barras:
* 1 - Barra de _menu_
* 2 - Barra de ferramentas
* 3 - Painel de _scripts_ e arquivos
* 4 - Painel de variáveis de Ambiente/Histórico/Conexões/Tutorial
* 5 - Painel de _Console/Terminal_ 
* 6 - Painel de Árvore de Arquivos/Gráficos/Pacotes/Ajuda/Visualizador

## 3 Pacotes
<p style="text-align:justify">Para instalar um determinado pacote (biblioteca) em R, utilizamos a função <i><mark style="background-color:Gainsboro">install.packages("nome_do_pacote")</mark></i>, a qual recebe como parâmetro o nome do pacote a ser instalado. Utilizaremos como exemplo a instalação do pacote <mark style="background-color:Gainsboro">dplyr</mark>, o mais importante pacote para manipulação e transformação de <i>dataframes</i> em R.</p>
<p style="text-align:justify;">Para carregar um pacote em R fazemos uso da função <mark style="background-color:lightgray;">library()</mark>, fornecendo como parâmetro o nome do pacote</p>

## 3.1 Instalar e Carregar Pacotes
### Exercício Prático
**Instrução 1/3**
* Instale o pacote `dplyr` utilizando a janela do console

**Instrução 2/3**
* Instale o pacote `readr` utilizando a janela Packages.

**Instrução 3/3**
* Carregue o pacote `dplyr`

Em ambos os trechos de código acima se observa o uso do caractere `#`, em R e python este caractere é utilizado para fazer comentário no código, portanto, toda linha que contém este caractere é ignorada na execução do programa.

## 3.3 Listar todos os Pacotes instalados

In [None]:
available.packages()

## 3.4 Mostrar os pacotes carregados na sessão atual

In [None]:
search()

## 3.5 Obter e Configurar o ambiente de trabalho

<p style="text-align:justify">Para obter o ambiente de trabalho atualmente em uso pelo RStudio utilizamos a função <mark style="background-color:lightgray;">getwd()</mark>; esta função vem do termo em inglês: <i>Get Working Directory</i>, traduzido para o portugês como "Obter Ambiente de Trabalho". No sistema operacional Windows, por padrão, o RStudio configura o ambiente de trabalho em "C:/Usuários/Nome_do_Usuário/Documentos"</p>.
<p style="text-align:justify">Para configurar um ambiente de trabalho diferente do padrão utilizamos a função <mark style="background-color:lightgrey">setwd()</mark>. Esta função tem nome bem sugestivo na lingua inglesa, a saber: <i>Set Working Directory</i>, "Configurar Ambiente de Trabalho".</p>

### Exercício Prático - Ambiente de trabalho
**Instrução 1/2**
* Use a janela console dp RStudio para obter o atual diretório de trabalho em uso no seu computador.

**Instrução 2/2**
* Configure seu ambiente de trabalho para `'C:/Users/Downloads'`

## 4 Operadores Aritméticos e de Atribuição em R

|Operador|Função|
|:------:|:----:|
| +      | Soma |
| -      | Subtração |
| /      | Divisão |
| *      | Multiplicação |
|   %%   | Resto da divisão |
| %/%    | Parte inteira divisão |
| ^      | Potenciação |
| **     | Potenciação |
| <-     | Atribuição |
| =      | Atribuição |

### Exercício Prático - Operadores Aritméticos e de Atribuição

**Instrução 1/3**
* Obter o resto da divisão entre os números inteiros 10 e 3.

**Instrução 2/3**
* Obter a parte interira da divisão de 10 por 3.

**Instrução 3/3**
* Obter o quadrado de um número inteiro qualquer.

## 5 Operadores de Comparação em R

| Operador | Significado |
|:--------:|:-----------:|
| == | igual a |
| != | diferente de |
| >  | maior que |
| <  | menor que |
| >= | maior ou igual a |
| <= |menor ou igual a |

## 6 Operadores Lógicos em R

| Operador | Descrição | Explicação |
|:--------:|:---------:|:------:|
| & |AND lógico| Comparação pareada de todos os elementos de dois ou mais vetores | 
| && |AND lógico| Compara apenas os doi primeiros elemetos de vetores |
| \| | OR lógico | |
| \|\| | OR lógico |
| ! | NOT lógico | Negação lógica.  |
| xor | OR exclusivo | Ou Exclusivo. Retorna valor lógico TRUE se ambos os valores de entrada forem diferentes entre si, e retorna FALSE se os valores forem iguais. |

## 7 Objeto em R
Um objeto é simplesmente qualquer variável que armaneza um caractere numérico, alfabético ou uma cadeia de carateres (_string_). Em R temos objetos especiais para manipulação de grande volume de dados, a exemplo de vetores, listas e dataframes.
Para criação de um objeto se utiliza o operador de atribuição `<-`. Nos exemplos a seguir são criados os objetos `x`, `y` e `z` para armazenar um número inteiro, uma letra e uma frase.

In [None]:
x <- 42
y <- "R"
z <- "R é massa"

### 7.1 Conferindo o contéudo de um objeto
Para conferir o conteúdo de um objeto em R, fazemos uma chamada diretamento pelo nome do objeto de interesse ou através do uso da função _`print()`_

In [None]:
x
print(x)
cat(y)

### 7.2 Descobrindo o tipo de dados armazenado em um objeto R
Para descobrir o tipo de dados armazenado em um objeto, podemos utilizar a função _`class`_

In [None]:
class(x)
class(y)
class(z)

## 8 Estrutura de Dados em R
### 8.1 Vetores
Vetor em R é um objeto R que armazena um ou mais elementos de valores indexados, ou seja, cada elemento dentro do vetor possui uma posição específica. Para criação de um vetor basta colocar os valores dentro de `c()`. Vetor é uma estrutura de dados especialmente importante em análise de dados. A seguir temos um exemplo de como criar um vetor de inteiros.

In [None]:
inteiros <- c(42, 33, 0, -1, 5)

Para acessar o primeiro elemento do vetor `inteiros` usamos o comando _`vetor[x]`_, onde _vetor_ é nome atribuido ao vetor e _x_ é o índice do elemento a ser buscado no vetor. Se quisermos mostrar apenas o elemento de índice 1 do vetor `inteiros`, ou seja o primeiro elemento, basta usar _`inteiros[1]`_

In [None]:
inteiros[1]

### 8.1.2 Substituição de elementos de um vetor

In [None]:
inteiros[1] <- 2
inteiros

### 8.1.3 Funções básicas aplicadas a vetores

* _`length()`_ Retorna o tamanho de um vetor, ou seja, o núemro de elementos armazenados no vetor.

In [None]:
length(inteiros)

* _`names()`_ Retorna os nomes atribuídos a cada elemento de um vetor

In [None]:
dias_semana <- c(1:7)
names(dias_semana)

In [None]:
names(dias_semana) <- c('Domingo', 'Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado')

In [None]:
names(dias_semana)

* _`attributes()`_ Retorna uma lista com os atributos associados a um vetor.

In [None]:
attributes(inteiros)
attributes(dias_semana)

* _`seq()`_ Cria uma sequência dentro de um vetor


In [None]:
sequencia <- seq(0, 10, 2)
print(sequencia)

* _`rep()`_ Cria uma repetição de um vetor

In [None]:
rep(1:4, 3)

### Função `lapply( )` aplicada a vetores
A função lapply, parte do pacote base do R, no caso específico de vetores, recebe 2 argumentos como parâmetro: o vetor contendo de dados e uma função a ser aplicada aos elementos do vetor.

* `mapply()` versão multivariada das funções lapply e sapply, utilizada para iterar entre elementos de vetores ou listas.

In [None]:
a <- c(42, 1, 5, 7)
b <- c(4, 2, 3, 5)

mapply(sum, a, b)

## Exercício Prático - Vetores e Operadores de Comparação
Para este exercício, considere os vetores `temperatura` e `nome_cientifico`. O primeiro vetor possui dados de temperatura média mensal da Estação Manual INMET 82861, localizada no município de Cocneição do Araguaia. O segundo vetor é formado com nomes científicos de árvores inventariadas na Floresta Nacional de Altamira.

In [None]:
temperatura <- c(26.38452, 26.90357, 27.04064, 27.42467, 28.53548, 28.90000,
                 NA, 29.73818, 30.54667, 27.21652, 27.28800, 27.84000)

nome_cientifico <- read.csv('C:/Users/67147020278/Documents/Introducao_Analise_Dados_R/data/vetor_nomes_cientificos.csv')

**Instrução 1/5**
* Obter as temperaturas que estão acima da média do vetor `temperatura`

**Instrução 2/5**
* Obter as temperaturas que estão abaixo da média do vetor `temperatura`

**Instrução 3/5**
* Contar quantas árvores da espécie `Parkia gigantocarpa` ocorrem na área do inventaário florestal.

**Instrução 4/5**
* Mostre onde os valores do vetor de temperaturas não apresenta `NA`

**Instrução5/5**
* Mostre onde os valores do vetor de temperaturas apresenta `NA`

### 8.1.4 Funções Estatísticas Aplicadas a Vetores

* _`mean()`_ Retorna a média aritmética de um vetor
* _`median()`_ Retorna a mediana de um vetor
* _`min()`_ Retorna o menor valor dentre os elementos de um vetor
* _`max()`_ Retorna o maior valor dentre os elementos de um vetor
* _`sd()`_ Retorna o desvio padrão de um vetor

### 8.1.5 Testes Lógicos com Vetores
* _`any()`_ Testa se algum elemento do vetor atende a uma condição específica

**Exemplo**: Dado o vetor de nome `dap`, o qual armaneza dados de mensuração de diâmetro de milhares de árvores na Floresta Nacional de Altamira, teste se algum elemento é menor ou igual a 40.

In [None]:
dap <- inventario$DAP_cm

In [None]:
any(dap >= 40)

* _`all()`_ Testa se todos os elementos de um vetor atendem a uma condição.

**Exemplo:** Dado o vetor de nome `dap`, testar se alguma elemento é menor do que 0:

In [None]:
all(dap < 0)

## Exercício Prático - Índice de Vetor

Considerando o vetor de nome `dap`, o qual armaneza dados de mensuração de diâmetro de milhares de árvores na Floresta Nacional de Altamira, mostre: 

**Instrução 1/3**
* **Apenas** os dados do penúltimo elemento desse vetor (127.32).

**Instrução 2/3**
* O diâmetro mínimo de medição

**Instrução 3/3**
* O diâmetro médio mensurado

### 8.2 Matriz

In [None]:
matriz = matrix(1:6, nrow = 3, byrow = TRUE)
matriz

A função `apply`, parte do pacote `base` do R, recebe 3 argumentos como parâmetro: a matriz ou _data frame_ contendo os dados, a indicação do sentido de aplicação da função, representado pelos números 1 (linha) ou 2 (coluna) e a função a ser aplicada.

Somar as linhas de uma matriz:

In [None]:
apply(matriz, 1, sum)

Somar os valores das colunas de uma matriz:

In [None]:
apply(matriz, 2, sum)

### 8.3 Listas

In [None]:
lista <- list(inventario$Vol, inventario$g)
lista2 <- list(fi$Vol, fi$g, fi$Nome_Cientifico)

### 8.3.1 Funções lapply e sapply
As funções `lapply` e `sapply` são uma variação da função `apply` para iterar sobre aos elementos de uma lista. Esta funções diferem somente na forma como os resultados são mostrados na tela. Para a função `lapply` a saída é na forma de lista, enquanto `sapply` apresenta uma saída vetorial.

In [None]:
lapply(lista, mean)

In [None]:
sapply(lista, mean)

### Exercío Prático - Listas
**Instrução**
* Obter a médias dos vetores numéricos da `lista2`

### 8.4 Fatores
<p style="text-align:justify;">Em R as variáveis categóricas são classificadas e ordenadas através da função <mark style="background-color:lightgrey">factor( )</mark>. o vetor contém dados da variável categórica sexo.</p> 

In [2]:
sexo <- c("macho", "femea", "femea", "macho", "macho", "macho", "femea", "macho")

<p style="text-align:justify;">O trecho de código a seguir mostra a estrutura do vetor <mark style="background-color:lightgrey">sexo</mark>, obtida através da função <mark style="background-color:lightgrey">str( )</mark>, o retorno desta função nos diz que o tipo de vetor em questão é caracteres e possui oito elementos.</p>
<p style="text-align:justify;">A função <mark style="background-color:lightgrey">levels( )</mark> é utilizada para inspecionar os níveis de um fator, como nosso vetor não foi definido como fator retorna <mark style="background-color:lightgrey">NULL,</mark>.</p>

In [3]:
str(sexo)
levels(sexo)

 chr [1:8] "macho" "femea" "femea" "macho" "macho" "macho" "femea" "macho"


NULL

<p style="text-align:justify;">Outra forma de verificar se um vetor de variáveis categóricas possui fatores é através da função <mark style="background-color:lightgrey">is.factor( )</mark>. Esta função retorna TRUE em caso do vetor possuir fatores definidos, caso contrário retorna FALSE.</p>

In [5]:
is.factor(sexo)

A seguir definimos o vetor sexo como fator

In [6]:
sexo_fator <- factor(sexo, levels = c("macho", "femea"))
str(sexo_fator)
levels(sexo_fator)

 Factor w/ 2 levels "macho","femea": 1 2 2 1 1 1 2 1


O código abaixo mostra como atribuir rótulos ao níveis do fatores:

In [8]:
sexo_fator <- factor(sexo, levels = c("macho", "femea"), labels = c("M", "F"))
str(sexo_fator)
levels(sexo_fator)

 Factor w/ 2 levels "M","F": 1 2 2 1 1 1 2 1


### 8.5 Data Frames

<p style="text-align:justify">O trecho de código a seguir faz a leitura de uma planilha em formato .csv, a qual é atribuída ao objeto R denominado <mark style="background-color:lightgrey">inventario</mark>, o qual após leitura dos dados passa a ser um dataframe, pois as colunas da planilha são importadas como vetores. Assim, podemos definir dataframe como um conjunto de vetores, mas pode também armazenar listas.</p>

In [9]:
# Lê uma planilha csv com dados de inventário florestal
inventario <- read.csv2('./data/UMF_IV_UPA_4F_SINAFLOR_03.csv',
                encoding = 'latin1')

<p style="text-align:justify">A seguir usamos a função <mark style="background-color:lightgrey">head( )</mark> para mostrar as linhas iniciais do dataframe<mark style="background-color:lightgrey">inventario</mark>. Por padrão esta função mostra apenas as seis primeiras linhas do dataframe, caso queiramos ler as dez primeiras linhas, devemos especificar este número após o nome do dataframe: <mark style="background-color:lightgrey">head(inventario, 10)</mark></p> 

In [10]:
head(inventario)

Unnamed: 0_level_0,N_arv,UPA,UT,Nome_Cientifico,Nome_Popular,DAP_cm,Alt,Categoria,QF,Vol,g,lat,lon
Unnamed: 0_level_1,<int>,<int>,<int>,<chr>,<chr>,<dbl>,<int>,<chr>,<int>,<dbl>,<dbl>,<dbl>,<dbl>
1,10001,6,1,Parkia gigantocarpa,Fava-atanã,114.59,19,Remanescente,1,12.4891,1.0313,-5.907904,-54.9691
2,10002,6,1,Bagassa guianensis,Tatajuba,67.48,17,Remanescente,1,4.3893,0.3577,-5.907938,-54.96912
3,10003,6,1,Castilla ulei,Caucho,52.52,11,Explorar,1,1.8263,0.2166,-5.907999,-54.96991
4,10004,6,1,Castilla ulei,Caucho,40.74,13,Remanescente,1,1.1068,0.1304,-5.906353,-54.96999
5,10005,6,1,Vochysia maxima,Quaruba,47.75,15,Remanescente,2,1.8325,0.179,-5.906086,-54.97024
6,10006,6,1,Copaifera duckei,Copaíba,43.93,18,Remanescente,1,1.7038,0.1515,-5.905871,-54.97024


<p style="text-align:justify">A seguir usamos a função <mark style="background-color:lightgrey">tail( )</mark> para mostrar as últimas linhas do dataframe<mark style="background-color:lightgrey">inventario</mark>. Por padrão esta função mostra apenas as seis últimas linhas do dataframe, caso queiramos ler as dez últimas linhas, devemos especificar este número após o nome do dataframe: <mark style="background-color:lightgrey">tail(inventario, 10)</mark></p> 

In [11]:
tail(inventario)

Unnamed: 0_level_0,N_arv,UPA,UT,Nome_Cientifico,Nome_Popular,DAP_cm,Alt,Categoria,QF,Vol,g,lat,lon
Unnamed: 0_level_1,<int>,<int>,<int>,<chr>,<chr>,<dbl>,<int>,<chr>,<int>,<dbl>,<dbl>,<dbl>,<dbl>
18583,290695,6,29,Parkia multijuga,Fava-benguê,52.52,15,Remanescente,2,2.3001,0.2166,-5.853998,-54.97232
18584,290696,6,29,Couratari guianensis,Tauari,92.95,24,Explorar,1,10.4347,0.6785,-5.853668,-54.97245
18585,290697,6,29,Vochysia maxima,Quaruba,112.68,20,Remanescente,2,12.6251,0.9972,-5.853556,-54.9723
18586,290698,6,29,Hymenaea parvifolia,Jutaí-mirim,66.53,18,Remanescente,2,4.4416,0.3476,-5.853985,-54.96238
18587,290699,6,29,Vochysia maxima,Quaruba,127.32,19,Explorar,1,14.6343,1.2732,-5.854445,-54.96315
18588,290700,6,29,Vochysia maxima,Quaruba,54.75,17,Remanescente,2,2.776,0.2354,-5.854735,-54.96475


* Função _`tapply()`_: Aplica uma função sobre um vetor com agrupamento em outro vetor categórico. Recebe como parâmetros: um vetor numérico, um vetor categórico e uma função.
O código a seguir aplica a função média sobre o vetor `volume` agrupado ao vetor `ut` (unidades de trabalho)

In [39]:
# Calcular o volume médio por unidade de trabalho
tapply(inventario$Vol, inventario$Categoria, mean)

## 9 Funções em R
<p style="text-align:justify;">A definição de uma função em R segue a seguinte sintaxe:

In [29]:
nome_da_função <- function (parâmetros) {
    return() 
}

A função definida a seguir, denominada como `duplicar_valor`, recebe como parâmetro um valor `x`, definido por padrão como 2, e retorna o quadrado deste valor.

In [30]:
duplicar_valor <- function(x = 2) {
        return(x ^ 2)
}

Após a criação da função devemos invocá-la fornecendo o valor de seu parâmetro para recebermos seu retorno.

In [31]:
duplicar_valor()

In [32]:
duplicar_valor(2)

### Exercício Prático 1 - Funções
O índice de massa corporal (IMC) é uma medida internacional usada para calcular se uma pessoa está no peso ideal. Neste exercício você deverá criar uma função para calcular o IMC e modificá-la para dizer ao usuário de ele está com o peso normal (entre 18,5 e 24,9), sobre peso (25,0 e 29,9), obeso (30,0 e 39,9) ou magro demais (menor que 18,5). O IMC é calculado a partir da seguinte fórmula:

$$ IMC = {Peso \over (Altura) ^ 2} $$

**Instrução 1/2**
* Crie uma função chamada `imc` para calcular o índice de massa corporal. Esta função deve receber como parâmetros: `peso` (kg) e `altura` (m).

**Instrução 2/2**
* Agora melhore a função de forma a informar ao usuário sua situação de acordo com o IMC calculado.

### Exercício Prático 2 - Funções
O diâmetro de árvores calculado a partir da circunferência do caule. utilizando-se da seguinte fórmula:
$$ diametro = { circumferencia \times \pi } $$

**Instrução**
* Crie uma função chamada `d` que recebe como parâmetro a circunferência de uma árovre e retorna o seu diâmetro.

### 9.1 Escopo de variáveis

No código a seguir temos a definição da variável `x` recebendo o valor inteiro `4`

In [None]:
x <- 4

Agora ao chamarmos a função `duplicar_valor()`, que valor deverá nos retornar, 4 ou 16?

In [None]:
duplicar_valor()

A função retorna 4, pois o valor da variável `x` definida na função é uma variável local e com o valor padrão 2, a qual é restrita ao escopo da função em questão, apesar de ´x´ definido fora da função ser uma variável global.
O conceito de variável global fica melhor compreedido com o uso da seguinte função:

In [33]:
txt <- 'Olá R'

saida_txt <- function () {
    return(txt)
}

<p style="text-align:justify">Como a função acima não tem a variável <mark style="background-color:lightgrey;">txt</mark> localmente definida em seu escopo, retorna a variável global <mark style="background-color:lightgrey;">txt</mark> definida fora de seu escopo, pois esta é uma variável global a qual está disponível em todo o ambiente de variáveis do R.
Podemos definir uma variável local de uma função como global, a qual passará a ser global após a chamada da função. Para tal devemos utilizar o operador de atribuição <mark style="background-color:lightgrey;"> <<- </mark></p>

In [34]:
# variavel global fora da funcao
msg <- 'Eu sou global fora e estou fora de função!!'

# Funcao com variavel local definida como global
f <- function () {
        msg <<- 'Eu sou uma variável local e global!! kkkkk'
        return(msg)
}

In [35]:
msg

In [36]:
f()

In [37]:
msg