# Trilha 5

Seguindo o padrão de introduzir a linguagem de programação que será estudada nestas próximas quatro trilhas, nós vamos explorar algumas características da Linguagem R em um *Jupyter Notebook* que permite a reprodução dos blocos de código.

O formato do notebook já é conhecido, e você encontrará aqui no e-book os *chunks* executáveis para auxiliar na fixação do conteúdo apresentado. Em alguns momentos encontrará também perguntas sem a resposta (de forma imediata) para que se sinta desafiado à respondê-la e avaliar o seu aprendizado. As respostas estarão no final do e-book, assim poderá comparar o que você fez com o que era esperado.

É importante ressaltar que existem diversas formas diferentes de resolver o mesmo problema, e com isso em mente, entenda que a resposta apresentada é somente uma delas. **Confie no seu potencial de resolver problemas!** O importante é você aproveitar esta jornada e aprender o máximo possível para resolver os problemas que surgirem à sua frente. 

## Introdução à Linguagem R

Para começar com a introdução à Linguagem R, vamos criar uma variável e atribuir o valor numérido 10 à ela. Como no *Python*, em R é possível atribuir um valor à variável utilizando o simbolo de igual (**=**), porém também há uma forma diferente, utilizando uma "seta para a esquerda" (**<-**) composta por um sinal de menor seguido de um hífem. 

In [1]:
"Hello, World"

In [2]:
x = 20
x

x <- 10
x

Repare que não existe uma declaração formal da variável, ela simplesmente recebe um valor qualquer e armazena este valor. Seguindo este conceito, a variável não é fortemente tipada, ou seja, o tipo de valor que está armazenado dentro dela pode sofrer alteração durante a execução do código.

Veja o código abaixo, agora a variável X criada anteriormente com o valor 10 recebe um vetor de dez posições, começando em 1 e indo até 10. Ao visualizar o que há na variável X, é possível ver que o valor 10 que estava lá anteriormente foi substituído pelo vetor sem nenhum alerta. É importante prestar atenção à esta característica, pois é comum trabalhar com a manipulação de variáveis e objetos no R e executar determinados blocos de código de forma específica.
 

In [1]:
# Como funciona
X <- c (1:10)
X

Repare que, para criar este vetor de 10 posições, é utilizada a função **C** (que é chamada de *Combine*) informando qual é o elemento inicial e qual é o elemento final do vetor. Existem outras variações para o uso do *Combine*, recomendo ler a documentação para explorar o seu potencial.

Para acessar a documentação de uma função no R, é possível chamar o código **help(Nome_da_Função)**, substituindo o Nome_da_Função pela função que você quer conhecer mais detalhes. Veja o código abaixo como é possível ter a documentação da função **C**.

In [2]:
help(c)

c                     package:base                     R Documentation

_C_o_m_b_i_n_e _V_a_l_u_e_s _i_n_t_o _a _V_e_c_t_o_r _o_r _L_i_s_t

_D_e_s_c_r_i_p_t_i_o_n:

     This is a generic function which combines its arguments.

     The default method combines its arguments to form a vector.  All
     arguments are coerced to a common type which is the type of the
     returned value, and all attributes except names are removed.

_U_s_a_g_e:

     ## S3 Generic function
     c(...)
     
     ## Default S3 method:
     c(..., recursive = FALSE, use.names = TRUE)
     
_A_r_g_u_m_e_n_t_s:

     ...: objects to be concatenated.  All ‘NULL’ entries are dropped
          before method dispatch unless at the very beginning of the
          argument list.

recursive: logical.  If ‘recursive = TRUE’, the function recursively
          descends through lists (and pairlists) combining all their
          elements into a vector.

use.names: 

Ainda explorando o vetor criado, é possível criar predicados para que o resultado retornado satisfaça estas condições. Os predicados são condições na linguagem de programação, que devem retornar apenas se o valor satisfaz aquela condição de forma positiva. Ou seja, se o valor da variável atende àquela condição o resultado é retornado, se não atender, a linguagem de programação não apresenta o resultado.

Veja este exemplo, o predicado (ou condição) é apresentar apenas os valores no qual o **X > 8** no vetor de dez posições criado anteriormente. Repare que a condição é para valores acima de 8, e o próprio 8 não é retornado.

In [3]:
X [(X > 8)]

Para incluir o 8 no resultado, a condição deve ser de **X >= 8**, assim, qualquer valor que esteja armazenado na variável e seja maior ou igual à oito aparecerá no resultado.

In [4]:
X [(X >= 8)]


> **Pergunta 1)**: Pensando desta forma, quais seriam as condições para garantir que o vetor retorne apenas os valores **1, 2, 3, 4 e 5** ?



Para acessar elementos dentro do vetor, é possível combinar condições no predicado. Por exemplo, se quisermos retornar valores que sejam maiores que 8 ou menores que 5 é necessário utilizar o simbolo **|** (*pipe*) para combinar esta condicional de *OR* explicando ao interpretador da linguagem que uma condição ou a outra é aceitável.

In [5]:
X [(X > 8) | (X < 5)]


Repare que os valores apresentados são 1, 2, 3, 4, 9 e 10. Isso é possível porque a condição pede que sejam retornados os valores abaixo de 5 **ou** acima de 8.

Por outro lado, para garantir que duas condições sejam executadas em conjunto no mesmo bloco de código e serão retornadas com a combinação destas duas regras, é utilizado o simbolo **&** (*e comercial*) para indicar ao interpretador que a condição *AND* deve ser aplicada.

In [6]:
X[(X < 8) & (X > 5)]

Agora repare que, os valores retornados são apenas o 6 e 7. Isso acontece porque a condição diz que os valores devem ser inferiores à 8 **e** superiores à 5.

Preste atenção à estas condicionais quando for criar suas regras de retorno de dados. No início é comum se confundir com cláusulas de *OR* e de *AND*.

> **Pergunta 2)** O que acontece se escrever as condicionais do vetor desta forma **X[(X > 8) & (X < 5)]**? E porque isso aconteceu?



Outra forma de interagir com valores de vetor é criar as condicionais diretamente no vetor sem retornar seus elementos. Veja o exemplo utilizando apenas **X > 8**. Repare que o resultado é um conjunto de dez elementos com as marcações de *TRUE* para quem atende o predicado e *FALSE* para quem não atende. Isso acontece seguindo a mesma ideia do que foi visto nos exemplos anteriores neste e-book. A condição é validada pelo interpretador da linguagem R e retorna os valores que atender àquele predicado ou não. 

In [7]:
X > 8

Veja que somente os dois ultimos elementos do vetor são retornados como *TRUE*, porque somente eles atendem aos critérios estabelecidos no código de **X > 8**.

Da mesma forma que, ao solicitar ao interpretador o resultado de **X < 5**, somente os quatro primeiros resultados serão retornados como *TRUE* enquanto os outros serão *FALSE*.

In [10]:
X < 5

Desta forma de interação também é possível retornar os valores com as condições de *OR* e de *AND*, a diferença é que o retorno será de *TRUE* ou *FALSE*. Ao observar o bloco de código que possui a condição com **X > 8 | X < 5** os valores que retornam como *TRUE* são os que atendem a condição do predicado enquanto os outros valores retornam como *FALSE*.

In [9]:
X > 8 | X < 5


Desta forma, ao misturarmos os conhecimentos aprendidos até agora neste e-book, é possível entender como o vetor retorna os valores que estão em seus elementos a partir de valores *TRUE* e *FALSE*, ou seja, dentro deste vetor de 10 posições é possível definir quais elementos serão apresentados no resultado a partir desta definição de *TRUE* e *FALSE*.

Sendo assim, veja o que acontece ao informar um **C** com um conjunto de *T* (que equivale a *TRUE*) e *F* (que é *FALSE*) para mostrar os valores do vetor.

In [11]:
X [c (T, T, T, T, F, F, F, F, T, T)]

Repare que os valores do *Combine* que possuiam o valor *T* estavam nas posições 1, 2, 3, 4, 9 e 10. Sendo assim, os valores que estavam nesta posição do vetor foram apresentados.

> **Pergunta 3)** Revise um dos primeiros blocos de código que utilizamos aqui no e-book: **X [(X > 8)]**. Você consegue dizer o que o elemento *(X > 8)* faz? Explique o comportamento deste elemento para o resultado que chegou.

Nos exemplos anteriores foi estudado os efeitos de valores numéricos em um vetor de 10 posições. Mas será que é possível ter os mesmos resultados ao se trabalhar com um vetor de texto? Vamos explorar as mesmas operações, contudo, em um conjunto de texto que vai de *a* até *j*. 

Veja o exemplo de código onde a variável *X* recebe um *Combine* com os 10 caracteres para preencher este vetor.

In [12]:
X <- c('a','b','c','d','e','f','g','h','i','j')
X

Como o vetor recebe praticamente todo tipo de dado, ele também trabalha bem com os caracteres simples que foram informados no preenchimento da variável X. Repare que é a mesma variável utilizada deste o inicio dos exemplos deste e-book, ou seja, uma unica variável manipula todos os exemplos apresentados. 

A aplicação de condições no vetor segue o mesmo padrão do que estudamos anteriormente. Acompanhe o codigo que verifica todos os elementos que são maiores e igual a *d*. Veja que o resultado é *d*, *e*, *f*, *g*, *h*, *i* e *j*.



In [13]:
X [(X >= 'd')]

Esta condição funciona mesmo que os dados estejam fora de ordem no vetor, veja o exemplo dos caracteres com uma ordem diferente da alfabética.

In [14]:
X <- c('f','c','b','d','g','h','a','i','e','j')
X [(X >= 'd')]

## Tipos de dados

Durante o processo de desenvolvimento é importante saber qual é o tipo de dado que está atribuída à variável naquele momento. 

Para entender qual é a estrutura, a função *STR()* deve ser utilizada. Aqui pode causar uma confusão no entendimento, já que no *Python* esta função é utilizada para retornar o valor do objeto em *String*.

Veja o bloco de código a seguir, onde o valor 1 é atribuído à variável *X*, e em seguida, o resultado da função *STR()*.


In [15]:
X <- 1
str(X)

 num 1


Veja que o retorno foi *num*, indicando que é um valor numérico.  Porém, este resultado é meramente informativo.

Agora, imagine uma situação no qual é necessário fazer um cálculo a partir da entrada do usuário. Como você poderia garantir que o usuário informou um valor numérico? Para isso, é possível verificar se o valor daquela variável é numérico utilizando a função *is.numeric()* e passando o valor a ser validado numérico como parâmetro. Se o resultado desta função for *TRUE* o interpretador do R garante que o valor é numérico, senão o resultado será *FALSE*.

In [16]:
X <- 1
is.numeric(X)
X

Um ponto importante para destacar é que qualquer numero é definido como *num* mesmo que seja um valor inteiro. 

Há um tipo específico de variável chamado *int* que deve ser definido explicitamente com a função *as.integer()* e passando o valor a ser convertido para inteiro como parâmetro. Atenção para a diferença entre o *is.integer()* e o *as.integer()*. A função com o **is** tem o objetivo de comparar o valor e a função com o **as** faz a atribuição do valor para aquele tipo de dado.

Veja três exemplos destas funções.

In [17]:
X <- 3
is.integer(X)
X
is.numeric(X)

Neste bloco a variável recebe um número e verifica se é um valor inteiro. O resultado será *FALSE* porque é um número e todos números são do tipo *numeric*.

In [18]:
X <- as.integer(3)
is.integer(X)
X

Já neste exemplo, para atribuir o valor 3 à variável é utilizada a função explícita *as.integer*, em seguida é validado se é inteiro com a função *is.integer* e desta vez o resultado é *TRUE*.


In [19]:
X <- 2+as.integer(2)
is.integer(X)
is.numeric(X)
X

Já neste exemplo, mesmo que através de uma somatória de valores 2 e 2 resultando 4, o valor final é um *numeric* e não um *integer* porque é necessário definir explicitamente esta conversão.

Os códigos acima permitem que você compare os resultados dos blocos e veja a diferença entre o *num* e o *int*, como também a diferença entre o *is* e o *as* nas respostas.

E para encerrar esse assunto, veja como ficam os elementos de texto e *bit* lógico (com valores *TRUE* e *FALSE*).

In [20]:
X <- '2'
is.character(X)
X

In [21]:
X <- TRUE
is.logical(X)
X

Lembra lá no começo do e-book que exploramos um pouco de vetores? Como será que eles são entendidos dentro do intepretador? 

In [22]:
#Vetores
X <- c(5,6,7,8)
is.vector(X)
X

X <- c(9:12)
is.vector(X)
X

## Matrizes

Outra forma de armazenamento e processamento de dados bastante utilizada em linguagens de programação estatística são as matrizes. As matrizes permitem mais de uma dimensão, diferente do que foi visto nos vetores na seção **Introdução à Linguagem R**. As matrizes permitem que dados sejam armazenados em linhas e colunas, só que sempre serão do mesmo tipo de dado. Isso significa que as matrizes não podem ter colunas com tipos de dados distintos, porém com um data frame (que serão vistos em outra trilha) é possível.

Repare que nos exemplos de matrizes abaixo, o valor base será a variável *valores* que possui um vetor de seis posições começando em 1 e indo até 6. Os resultados das matrizes serão diferentes mesmo utilizando a mesma origem de dados.

Porque isso acontece? O motivo é o preenchimento! Pode-se tomar alguns caminhos diferentes para preencher os dados dentro da matriz.

Uma característica da matriz é a presença obrigatória da definição de quantas linhas (informado pelo parâmetro *nrow*) e colunas (parâmetro *ncol*) devem existir na matriz.

Outra característica da matriz é o caminho do preenchimento das células, ou seja, a partir da posição [1,1] (sendo o primeiro elemento antes da virgula o índice da linha e o segundo elemento, após a virgula, o indice da coluna) onde será escrito o próximo valor. O parâmetro *byrow* recebe a opção de *TRUE* ou *FALSE*, sendo que, se informar *TRUE* os dados serão preenchidos percorrendo linha a linha, ou seja, preenche toda a linha 1 para então começar a linha 2, depois a 3 e assim por diante. Se não informar nada neste parâmetro o interpretador entende como *FALSE*, e então, o preenchimento será feito de forma colunar, preenchendo toda a primeira coluna, então parte para a segunda coluna, depois a terceira e assim por diante. 

In [23]:
valores <- c(1,2,3,4,5,6)

X <- matrix(valores, nrow = 2, ncol = 3, byrow = TRUE)
X


0,1,2
1,2,3
4,5,6


Esta é uma matriz [2,3] porque ela possui 2 linhas e 3 colunas. Seu preenchimento será linear, ou seja, os valores são preenchidos linha a linha.

In [24]:
X <- matrix(valores, nrow = 2, ncol = 3, byrow = FALSE)
X

0,1,2
1,3,5
2,4,6


Esta também é uma matriz [2,3] porém o seu preenchimento é colunar, ou seja, os valores são preenchidos na primeira coluna, depois na segunda, e assim por diante.

In [25]:
X <- matrix(valores, nrow = 3, ncol = 3, byrow = FALSE)
X

0,1,2
1,4,1
2,5,2
3,6,3


Aqui tem um exemplo diferente, apesar da fonte de dados possuir apenas 6 valores, a definição da matriz é [3,3] e seu preenchimento é colunar. Porém, como há mais elementos na matriz do que na fonte de dados, o interpretador do R reinicia a fonte de dados e continua preenchendo a matriz até completar a quantidade de linhas e colunas que foram definidas.  

In [30]:
X <- matrix(valores, nrow = 3, ncol = 2)
X

0,1
1,4
2,5
3,6


Este exemplo é de uma matriz [3,2] e que omitiu a forma de preenchimento com o parâmetro *byrow*, implicando no preenchimento padrão da matriz que é colunar.

Para encerrar os exemplos deste e-book, veja como é a sintaxe da criação de uma função própria. A criação de funções específicas permitirão reaproveitamento de código, e é uma técnica importante com linguagens de programação. No *Python* é utilizada a palavra reservada *def*, já aqui no R é utilizada a palavra *funcion* e segue a estrutura como deste exemplo:

In [31]:
X <- function(a,b){
       a * b
}


A função que foi atribuída à variável X que estamos usando desde o começo do e-book recebe dois valores que estão nos parâmetros *a* e *b*, e realiza a multiplicação destes dois valores. 

In [32]:
X(5,2)



Para chamar a função e executar seu bloco de código, é só colocar o nome da função e passar os dois valores dos parâmetros. No exemplo acima, foi passado o valor 5 e 2, e a multiplicação deles resulta em 10, como visto no resultado apresentado.

Neste e-book foi feita uma introdução à tópicos como:

*   Vetores
*   Tipos de variáveis
*   Validação e atribuição de tipos
*   Matrizes
*   Funções



## Respostas das perguntas

**Pergunta 1)** Pensando desta forma, quais seriam as condições para garantir que o vetor retorne apenas os valores **1, 2, 3, 4 e 5** ?

> **Resposta 1:** X[(X<=5)]




**Pergunta 2)** O que acontece se escrever as condicionais do vetor desta forma **X[(X > 8) & (X < 5)]**? E porque isso aconteceu?

> **Resposta 2:** O resultado não apresenta nada. Isso acontece porque o vetor tem os valores 1, 2, 3, 4, 5, 6, 7, 8, 9 e 10. Com estes valores não há nenhum número que seja ao mesmo tempo maior que 8 e menor que 5. Como a condicional é um *AND* nenhum dos valores do vetor atende esse predicado.

**Pergunta 3)** Revise um dos primeiros blocos de código que utilizamos aqui no e-book: **X [(X > 8)]**. Você consegue dizer o que o elemento *(X > 8)* faz? Explique o comportamento deste elemento para o resultado que chegou.

> **Resposta 3:** O elemento *(X > 8)* retornará 
um vetor com valores *TRUE* e *FALSE* onde somente os dois ultimos estão com valores *TRUE*. Estes valores *T* ou *F* são utilizados no vetor de 10 posições para saber quais serão impressas no resultado.



# Notas adicionais do Professor Luciano


## Numeros Complexos

In [33]:
x = 1 + 1i
x*x

## Somando vetores

In [34]:
x = c(1:3)
y = c(4:6)
x
y
x+y

## Multiplicação de matrizes

In [35]:
a = matrix(c(1,3,5,7), ncol=2, nrow=2)
a

b = matrix(c(2,4,6,8), ncol=2, nrow=2)
b


a * b

a %*% b

0,1
1,5
3,7


0,1
2,6
4,8


0,1
2,30
12,56


0,1
22,46
34,74


## If .... else ...

In [36]:
a <- 33
b <- 33

if (b > a) {
  print("b is greater than a")
} else if (a == b) {
  print("a and b are equal")
} else {
  print("a is greater than b")
}

[1] "a and b are equal"


## loop

In [37]:
for (x in 1:10) {
  print(x)
}

[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10
