# Estrutura de Dados


## Vetores

Vetor (vector) é a estrutura de dados básica em R. Ele contém elementos de um mesmo tipo. O tipo dos dados pode ser lógico (booleano), inteiro, douvle, character, complex ou raw.

Em R um vetor é criada utilizando a função ```c()```.

In [1]:
x = c(1,2,5,0,10)
x

In [2]:
typeof(x)

In [3]:
length(x) # len 

In [5]:
x = c(1, 5.4, TRUE, "hello")
x

In [18]:
# string > float > int > bool 
x = c(TRUE, TRUE, FALSE, 1L)

In [19]:
typeof(x)

para criar um vetor de numeros consecutivo, o operador ```:``` é muito útil. 

In [20]:
x = 1:4
x

In [21]:
2:-5

sequências mais complexas pode ser criada utilizando a função ```seq```.

In [24]:
?seq

In [27]:
seq(1, 3, by=0.5) # 1:3
1:3

In [29]:
seq(1, 3, length.out=100) # linspace

## Indexação

In [31]:
x

In [34]:
x[]

In [35]:
x[1:3] 

In [36]:
x[c(1, 4)]

In [38]:
x[-1:-3]

### Usando vetor lógico (booleano) com indice

In [39]:
x[c(TRUE, FALSE, FALSE, TRUE)]

In [42]:
x <= 2

In [43]:
x[x <= 2]

In [44]:
x[x > 2]

### Usando caracteres como indice 

In [45]:
x = c("primeiro"=3, "segundo"=0, "terceiro"=9)
names(x)

In [46]:
x["segundo"]

In [47]:
x[c("primeiro", "terceiro")]

## Modificando um Vetor

In [48]:
x = -3:2; x

In [49]:
x[2] = 0; x

In [40]:
x[x < 0] = 6; x

### Função ifelse

In [50]:
x = -3:2
# retorna valor absoluto dos elementos do vetor
ifelse(x < 0, -x, x)

In [50]:
x

In [53]:
y = 1:6; y

In [54]:
x + y

In [55]:
x - y

In [56]:
x * y

In [57]:
x / y

## Matriz

Matriz (matrix) é a estrutura de dados bidimensioanla em R. 

Matriz é similar aos vetores, por;em contém uma dimensão a mais.

In [58]:
a = matrix(1:9, nrow=3, ncol=3); a

0,1,2
1,4,7
2,5,8
3,6,9


In [59]:
class(a)

In [60]:
attributes(a)

In [63]:
dim(a)

### Criando Matrizes

Podemos criar como mostrado acima.

In [63]:
matrix(1:9, nrow=3, ncol=3)

0,1,2
1,4,7
2,5,8
3,6,9


In [64]:
1:9
matrix(1:9, nrow=3)

0,1,2
1,4,7
2,5,8
3,6,9


In [65]:
matrix(1:9, nrow=3, byrow=TRUE)

0,1,2
1,2,3
4,5,6
7,8,9


Apesar disso, internamente, as matrizes armazenam os dados pelas colunas.

In [66]:
x = matrix(1:9, nrow = 3, dimnames = list(c("X","Y","Z"), c("A","B","C")))
x

Unnamed: 0,A,B,C
X,1,4,7
Y,2,5,8
Z,3,6,9


Podemos mudar os nomes das colunas e linhas com as funções ```colnames()``` e ```rownames()```.

In [67]:
colnames(x)
rownames(x)

In [68]:
colnames(x) = c("C1","C2","C3")
rownames(x) = c("R1","R2","R3")

x

Unnamed: 0,C1,C2,C3
R1,1,4,7
R2,2,5,8
R3,3,6,9


### Indexação


In [70]:
x['R1', 'C2']

In [71]:
x[1:3, 1:2]

Unnamed: 0,C1,C2
R1,1,4
R2,2,5
R3,3,6


In [72]:
x[c(1,2),c(2,3)]

Unnamed: 0,C2,C3
R1,4,7
R2,5,8


In [73]:
x[c(3,2),]

Unnamed: 0,C1,C2,C3
R3,3,6,9
R2,2,5,8


In [76]:
x[,]

Unnamed: 0,C1,C2,C3
R1,1,4,7
R2,2,5,8
R3,3,6,9


In [77]:
x[-1,]

Unnamed: 0,C1,C2,C3
R2,2,5,8
R3,3,6,9


In [78]:
x[c(TRUE,FALSE,TRUE),c(TRUE,TRUE,FALSE)]

Unnamed: 0,C1,C2
R1,1,4
R3,3,6


In [79]:
x[c(TRUE,FALSE),c(2,3)] 

Unnamed: 0,C2,C3
R1,4,7
R3,6,9


In [80]:
x[c(TRUE, FALSE)] # reciclagem

No exemplo acima, a matrix é tratada como um vetor da forma ```(1,2,3,4,5,6,7,8,9)```.

In [89]:
x[x>5]    # selecia os maiores que 5

x[x%%2 == 0]    # seleciona os impares

### Modificando a Matriz

In [82]:
x = matrix(1:9, nrow=3); x

x[2, 2] = 10; x

x[x < 5] = 0; x

0,1,2
1,4,7
2,5,8
3,6,9


0,1,2
1,4,7
2,10,8
3,6,9


0,1,2
0,0,7
0,10,8
0,6,9


In [83]:
t(x)

0,1,2
0,0,0
0,10,6
7,8,9


In [84]:
cbind(c(1, 2, 3), x)

0,1,2,3
1,0,0,7
2,0,10,8
3,0,6,9


In [86]:
cbind(x, x)

0,1,2,3,4,5
0,0,7,0,0,7
0,10,8,0,10,8
0,6,9,0,6,9


In [100]:
x = x[1:2,]; x

0,1,2
0,0,7
0,10,8


In [102]:
x = matrix(1:6, nrow=2); x

0,1,2
1,3,5
2,4,6


In [104]:
dim(x) = c(3, 2); x

0,1
1,4
2,5
3,6


|  Operador ou Função |  Descrição | 
|:---: | :--- |
| A * B | Multiplicação elemento a elemento |
| A %*% B | Multiplicação de Matriz |
| crossprod(A,B) | Produto vetorial |
| t(A) | Trasposta |
| diag(A) | Cria uma matriz diagonal a partir da diagonal de A |
| diag(k) | Se k é um escalar, cria uma matriz identidade kxk |
| solve(A, b) | retorna o vetor x que satisfaz b = Ax |
| ginv(A)  | Matriz inversa, precisa do pacote MASS |
| rowMeans(A)  | Retorna vetor com as médias das linhas |
| rowSum(A)  | Retorna vetor com as somas das linhas |
| colMeans(A)  | Retorna vetor com as médias das colunas |
| colSum(A)  | Retorna vetor com as somas das colunas |

### Exercício

Muitas vezes quando estamos criando nossos modelos é preciso definir uma métrica para nós os avaliarmos e escolher o melhor dentre eles. Algumas vezes, nós mesmo temos de implementá-las, portanto, nesse exercício você vai ter de implementar uma extensão da métrica Erro Quadrático Médio, em inglês *Mean Squared Error (MSE)*, chamada *Root Mean Squared Logarithmic Error (RMSLE)*. 

A RMSLE é deifnida como:

$\epsilon = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(\log(\hat{y}_i) - \log(y_i))^2}$

onde:

- $\epsilon$ é o valor do erro (score)
- $n$ é o total de exemplos no conjunto de dados testado
- $\hat{y}_i$ é a predição do modelo
- $y_i$ é o valor do real do imóvel (rótulo)
- $\log(x)$ é a função logarítmica de $x$

A RMSLE penaliza mais estimativas erradas para menos do que para mais.

In [5]:
y_true = 1:1000000
y_pred = y_true - rnorm(length(y_true), 0, 1)

# seu código