<h1 align="center">Introdução à Análise de Dados com Linguagem R</h1>

## 1. Introdução
<p style="text-align:justify">R é uma linguagem de programação gratuita de código aberto usada principalmente para computação estatística e gráficos. R é uma linguagem interpretada semelhante a Python, onde você não precisa compilar primeiro para executar seu programa. Depois de criar seu programa, você pode executá-lo em uma ampla variedade de plataformas UNIX, Windows e macOS.</p>

<p style="text-align:justify">R foi inicialmente utilizado por estatísticos para facilitar o processamento estatísticos, mas posteriormente outros programadores se envolveram com o projeto e desenvolveram a linguagem para uma ampla variedade de tarefas não estatísticas, incluindo processamento de dados, visualização gráfica e processamento analítico.</p>

<p style="text-align:justify">Como qualquer outra linguagem de programação, R também suporta extensão na forma de pacotes, portanto, os desenvolvedores podem criar seus próprios pacotes e reutilizá-los quando necessário.</p>

## 2 Instalação do R
<p style="text-align:justify">A instalação padrão da linguagem R é feita a partir do <a href="https://cran.r-project.org/">CRAN</a>, uma rede formada de servidores espalhadod pelo mundo que armazena versões atualizadas do código fonte e executável (Windows), assim como a documentação da linguagem R.</p>

## 3 Instalação do RStudio
<p style="text-align:justify">RStudio é um ambiente de desenvolvimento integrado para linguagem R (IDE - <i>integrated development environment</i>), porém pode rodar <i>scripts</i> SQL, C, C++ e Python. A vantagem se se poder trabalhar com IDE é que ela disponibiliza ferramentas de apoio ao desenvolvimento de códigos em linguagem de programção. Para <i>download</i> do RStudio acesse o endereço <a href="https://www.rstudio.com/products/rstudio/download/#download">https://www.rstudio.com/,</a> e escolha a opção <i>RStudio Desktop</i></p>

## 3.1 Conhecendo a Interface Gráfica do RStudio

![](./output/RStudio.PNG)

A interface do RStudio é divida em 4 painés, e duas barras:
* 1 - Barra de _menu_
* 2 - Barra de ferramentas
* 3 - Painel de _scripts_ e arquivos
* 4 - Painel de variáveis de Ambiente/Histórico/Conexões/Tutorial
* 5 - Painel de _Console/Terminal_ 
* 6 - Painel de Árvore de Arquivos/Gráficos/Pacotes/Ajuda/Visualizador

## 4. Obter e Configurar o ambiente de trabalho

<p style="text-align:justify">Para obter o ambiente de trabalho atualmente em uso pelo RStudio utilizamos a função <mark style="background-color:#F4F4F4;">getwd()</mark>; esta função vem do termo em inglês: <i>Get Working Directory</i>, traduzido para o portugês como "Obter Ambiente de Trabalho". No sistema operacional Windows, por padrão, o RStudio configura o ambiente de trabalho em "C:/Usuários/Nome_do_Usuário/Documentos"</p>.
<p style="text-align:justify">Para configurar um ambiente de trabalho diferente do padrão utilizamos a função <mark style="background-color:#F4F4F4">setwd()</mark>. Esta função tem nome bem sugestivo na lingua inglesa, a saber: <i>Set Working Directory</i>, "Configurar Ambiente de Trabalho".</p>

### Exercício Prático - Ambiente de trabalho
**Instrução 1/2**
* Use a janela console do RStudio para obter o atual diretório de trabalho em uso no seu computador.

**Instrução 2/2**
* Configure seu ambiente de trabalho para `'C:/Users/Downloads'`

## 4.1 Operadores Aritméticos e de Atribuição em R

|Operador|Função|
|:------:|:----:|
| +      | Soma |
| -      | Subtração |
| /      | Divisão |
| *      | Multiplicação |
|   %%   | Resto da divisão |
| %/%    | Parte inteira divisão |
| ^      | Potenciação |
| **     | Potenciação |
| <-     | Atribuição |
| =      | Atribuição |

### Exercício Prático - Operadores Aritméticos e de Atribuição

**Instrução 1/3**
* Obter o resto da divisão entre os números inteiros 10 e 3.

**Instrução 2/3**
* Obter a parte interira da divisão de 10 por 3.

**Instrução 3/3**
* Obter o quadrado de um número inteiro qualquer.

## 5 Operadores de Comparação em R

| Operador | Significado |
|:--------:|:-----------:|
| == | igual a |
| != | diferente de |
| >  | maior que |
| <  | menor que |
| >= | maior ou igual a |
| <= |menor ou igual a |

## 6 Objeto em R
Um objeto é simplesmente qualquer variável que armaneza um caractere numérico, alfabético ou uma cadeia de carateres (_string_). Em R temos objetos especiais para manipulação de grande volume de dados, a exemplo de vetores, listas e dataframes.
Para criação de um objeto se utiliza o operador de atribuição `<-`. Nos exemplos a seguir são criados os objetos `x`, `y` e `z` para armazenar um número inteiro, uma letra e uma frase.

In [None]:
# definição de um objeto do tipo inteiro
int <- 42

# definição de um objeto do tipo caractere
letra <- "R"

# # definição de um objeto do tipo string (cadeia de caracteres)
string <- "R é massa"

<p style="text-align:justify">Em ambos os trechos de código acima se observa o uso do caractere `#`, em R e python este caractere é utilizado para fazer comentário no código, portanto, toda linha que contém este caractere é ignorada na execução do programa.</p>
A seguir é mostrado como fazer comentário com várias linhas.

In [None]:
"
Este é um comentário em R utilizando 
várias linhas para documentação de
códigos.
"

## 6.1 Conferindo o contéudo de um objeto
Para conferir o conteúdo de um objeto em R, fazemos uma chamada diretamento pelo nome do objeto de interesse ou através do uso da função _`print()`_

In [None]:
int
print(int)
cat(int)

## 6.2 Descobrindo o tipo de dados armazenado em um objeto R
Para descobrir o tipo de dados armazenado em um objeto, podemos utilizar a função _`class`_

In [None]:
class(int)
class(letra)
class(string)

## 7 Estrutura de Dados em R
### 7.1 Vetores
Vetor em R é um objeto R que armazena um ou mais elementos de valores indexados, ou seja, cada elemento dentro do vetor possui uma posição específica. Para criação de um vetor basta colocar os valores dentro de `c()`. Vetor é uma estrutura de dados especialmente importante em análise de dados. A seguir temos um exemplo de como criar um vetor de inteiros.

In [None]:
inteiros <- c(42, 33, 0, -1, 5)

Para acessar o primeiro elemento do vetor `inteiros` usamos o comando _`vetor[x]`_, onde _vetor_ é nome atribuido ao vetor e _x_ é o índice do elemento a ser buscado no vetor. Se quisermos mostrar apenas o elemento de índice 1 do vetor `inteiros`, ou seja o primeiro elemento, basta usar _`inteiros[1]`_

## 7.1.2 Substituição de elementos de um vetor

In [None]:
inteiros[1] <- 2
inteiros

## 7.2 Funções básicas aplicadas a vetores

* _`length()`_ Retorna o tamanho de um vetor, ou seja, o núemro de elementos armazenados no vetor.

In [None]:
length(inteiros)

* _`names()`_ Retorna os nomes atribuídos a cada elemento de um vetor

In [None]:
dias_semana <- c(1:7)
names(dias_semana)

In [41]:
names(dias_semana) <- c('Domingo', 'Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado')

In [42]:
names(dias_semana)

In [None]:
dias_semana

* _`attributes()`_ Retorna uma lista com os atributos associados a um vetor.

In [None]:
attributes(inteiros)
attributes(dias_semana)

* _`seq()`_ Cria uma sequência dentro de um vetor


In [None]:
sequencia <- seq(0, 10, 2)
print(sequencia)

* _`rep()`_ Cria uma repetição de um vetor

In [None]:
rep(1:4, 3)

* `duplicated()` Remove elementos duplicados.

## 7.3 Funções Estatísticas Aplicadas a Vetores

* _`mean( )`_ Retorna a média aritmética

* _`median( )`_ Retorna a mediana

* _`min( )`_ Retorna o menor valor

* _`max( )`_ Retorna o maior valor

* _`sd( )`_ Retorna o desvio padrão

* _`summary( )`_ Retorna a estatístiva descritiva.

* _`cor( )`_ Retorna a correlação entre dois vetores.

In [68]:
# Leitura dos dados
load('./data/dados_modulo_1.rda')

# Mostrar os objetos atualmente disponíveis no ambiente R
ls()

### Calcular a média do vetor _dap_ (diâmetro médio das árvores)

In [None]:
# média do vetor dap (diânetro médio das árvores)
mean(dap)

### Calcular a mediana do vetor _altura_ (altura comercial das árvores)

In [None]:
### Calcular a mediana do vetor _altura_ (altura comercial das árvores)
median(altura)

### Mostrar os valores mínimo e máximo do vetor dap

In [None]:
# valor mínimo de dap
min(dap)

In [None]:
# dap Máximo
max(dap)

### Calcular o desvio padrão do vetor dap

In [None]:
# desvio padrão para o vetor dap
sd(dap)

### Mostrar a estatística Descritiva do Vetor altura

In [None]:
summary(altura)

## Calcular a correlação linear entre diâmetro e altura das árvores

In [None]:
cor(dap, altura)

## 7.4 Função `lapply()` aplicada a vetores
A função lapply, parte do pacote base do R, no caso específico de vetores, recebe 2 argumentos como parâmetro: o vetor contendo de dados e uma função a ser aplicada aos elementos do vetor.

In [73]:
nomes <- c('MASSARANDUBA', 'IPÊ', 'GARAPEIRA', 'JATOBÁ')
nomes

In [None]:
lapply(nomes, tolower)

## 7.5 Função `sapply()`

In [None]:
sapply(nomes, tolower)

## 7.6 Função `mapply()`
Versão multivariada das funções lapply e sapply, utilizada para iterar entre elementos de vetores ou listas.

In [None]:
# Definição dos Vetores a e b
a <- c(7, 12, 5, 2, 1) 
b <- c(4, 2, 3, 5, 1)

# Nomes para os vetores
dias_semana <- c('Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta')

# Atribuir nome aos vetores
names(a) <- dias_semana
names(b) <- dias_semana

# Uso da função mapply() para retornar a soma
# entre os elementos dos vetores a e b
mapply(max, a, b)

## 7.7 Função _`tapply()`_
Aplica uma função sobre um vetor com agrupamento em outro vetor categórico. Recebe como parâmetros: um vetor numérico, um vetor categórico e uma função.
O código a seguir aplica a função média sobre o vetor `volume` agrupado ao vetor `ut` (unidades de trabalho)

In [None]:
# Calcular o volume médio por unidade de trabalho
tapply(dap, categoria, mean)

## 8 Valores Ausentes (NA)
Em R valores ausentes são conhecidos como `NA`, uma sigla em inglês que significa _Not Available_, ou seja, valores nãop disponíceis. Na literatura técnica e também em outras linguagens de programação esta sigla é definida como `Nan` (_Not available number_)

## Como Saber se Há Valores Ausentes (NA) nos Dados?
Para conferir a presença de valores NA nos dados utilizamos a função `is.na()`, a qual recebe como parâmetro de entrada apenas o vetor de dados.

## Exercício Prático - Vetores e Operadores de Comparação
<p style="text-align:justify">Para este exercício, considere o vetor <mark style="background-color:#F4F4F4">temperatura</mark>. Esse vetor possui dados de temperatura média mensal da Estação Meteorológica Manual INMET 82861, localizada no município de Conceição do Araguaia.</p>

In [None]:
temperatura <- c(26.38452, 26.90357, 27.04064, 27.42467, 28.53548, 28.90000,
                 NA, 29.73818, 30.54667, 27.21652, 27.28800, 27.84000)

**Instrução 1/4**
* Obter a temperatura média do vetor `temperatura`

**Instrução 2/4**
* Obter as temperaturas que estão acima da média do vetor `temperatura`

**Instrução 3/4**
* Mostre quanto dos dados do vetor de temperaturas apresentam valores `NA`

**Instrução 4/4**
* Mostre onde os dados do vetor de temperaturas apresenta valores `NA`

## 9 Testes Lógicos com Vetores
* _`any()`_ Testa se algum elemento do vetor atende a uma condição específica

**Exemplo**: Dado o vetor de nome `dap`, o qual armaneza dados de mensuração de diâmetro de milhares de árvores na Floresta Nacional de Altamira, teste se algum elemento é menor ou igual a 40.

In [None]:
any(dap >= 40)

* _`all()`_ Testa se todos os elementos de um vetor atendem a uma condição.

**Exemplo:** Dado o vetor de nome `dap`, testar se algum elemento é menor do que 0:

In [None]:
all(dap < 40)

* `is.na( )` Testa se o vetor contém valores ausentes (_Not Availables_)

In [None]:
vetor <- c(NA, 2, 3, 6)
is.na(vetor)

## Exercício Prático - Índice de Vetor

Considerando o vetor de nome `dap`, o qual armaneza dados de mensuração de diâmetro de milhares de árvores na Floresta Nacional de Altamira, mostre: 

**Instrução 1/5**
* Quantas árvores foram inventariadas.

**Instrução 2/5**
* **Apenas** o penúltimo elemento desse vetor.

**Instrução 3/5**
* O diâmetro mínimo de medição

**Instrução 4/5**
* O diâmetro máximo mensurado

**Instrução 5/5**
* O diâmetro médio mensurado