# Estrutura de Dados


## Vetores

Vetor (vector) é a estrutura de dados básica em R. Ele contém elementos de um mesmo tipo. O tipo dos dados pode ser lógico (booleano), inteiro, douvle, character, complex ou raw.

Em R um vetor é criada utilizando a função ```c()```.

In [2]:
x = c(1,2,5,0,10)
x

In [3]:
typeof(x)

In [4]:
length(x)

In [9]:
x = c(1, 5.4, TRUE, "hello")
x

In [10]:
typeof(x)

para criar um vetor de numeros consecutivo, o operador ```:``` é muito útil. 

In [11]:
x = 1:4
x

In [12]:
2:-2

sequências mais complexas pode ser criada utilizando a função ```seq```.

In [13]:
?seq

In [14]:
seq(1, 3, by=0.2)

In [17]:
seq(1, 3, length.out=11)

## Indexação

In [18]:
x

In [19]:
x[3]

In [20]:
x[1:2]

In [21]:
x[c(1,4)]

In [22]:
x[-1]

### Usando vetor lógico (booleano) com indice

In [23]:
x[c(TRUE, FALSE, FALSE, TRUE)]

In [25]:
x[x < 2]

In [26]:
x[x > 2]

### Usando caracteres como indice 

In [34]:
x = c("primeiro"=3, "segundo"=0, "terceiro"=9)
names(x)

In [35]:
x["segundo"]

In [36]:
x[c("primeiro", "terceiro")]

## Modificando um Vetor

In [38]:
x = -3:2; x

In [39]:
x[2] = 0; x

In [40]:
x[x < 0] = 6; x

### Função ifelse

In [50]:
x = -3:2
# retorna valor absoluto dos elementos do vetor
ifelse(x < 0, -x, x)

## Matriz

Matriz (matrix) é a estrutura de dados bidimensioanla em R. 

Matriz é similar aos vetores, por;em contém uma dimensão a mais.

In [55]:
a = matrix(1:9, nrow=3, ncol=3); a

0,1,2
1,4,7
2,5,8
3,6,9


In [56]:
class(a)

In [57]:
attributes(a)

In [62]:
dim(a)

### Criando Matrizes

Podemos criar como mostrado acima.

In [63]:
matrix(1:9, nrow=3, ncol=3)

0,1,2
1,4,7
2,5,8
3,6,9


In [64]:
matrix(1:9, nrow=3)

0,1,2
1,4,7
2,5,8
3,6,9


In [65]:
matrix(1:9, nrow=3, byrow=TRUE)

0,1,2
1,2,3
4,5,6
7,8,9


Apesar disso, internamente, as matrizes armazenam os dados pelas colunas.

In [69]:
x = matrix(1:9, nrow = 3, dimnames = list(c("X","Y","Z"), c("A","B","C")))
x

Unnamed: 0,A,B,C
X,1,4,7
Y,2,5,8
Z,3,6,9


Podemos mudar os nomes das colunas e linhas com as funções ```colnames()``` e ```rownames()```.

In [71]:
colnames(x)
rownames(x)

In [72]:
colnames(x) = c("C1","C2","C3")
rownames(x) = c("R1","R2","R3")

x

Unnamed: 0,C1,C2,C3
R1,1,4,7
R2,2,5,8
R3,3,6,9


### Indexação


In [73]:
x[1,2]

In [78]:
x[1:3, 1:2]

Unnamed: 0,C1,C2
R1,1,4
R2,2,5
R3,3,6


In [82]:
x[c(1,2),c(2,3)]

Unnamed: 0,C2,C3
R1,4,7
R2,5,8


In [83]:
x[c(3,2),]

Unnamed: 0,C1,C2,C3
R3,3,6,9
R2,2,5,8


In [84]:
x[,]

Unnamed: 0,C1,C2,C3
R1,1,4,7
R2,2,5,8
R3,3,6,9


In [85]:
x[-1,]

Unnamed: 0,C1,C2,C3
R2,2,5,8
R3,3,6,9


In [86]:
x[c(TRUE,FALSE,TRUE),c(TRUE,TRUE,FALSE)]

Unnamed: 0,C1,C2
R1,1,4
R3,3,6


In [87]:
x[c(TRUE,FALSE),c(2,3)] 

Unnamed: 0,C2,C3
R1,4,7
R3,6,9


In [88]:
x[c(TRUE, FALSE)] # reciclagem

No exemplo acima, a matrix é tratada como um vetor da forma ```(1,2,3,4,5,6,7,8,9)```.

In [89]:
x[x>5]    # selecia os maiores que 5

x[x%%2 == 0]    # seleciona os impares

### Modificando a Matriz

In [95]:
x = matrix(1:9, nrow=3); x

x[2, 2] = 10; x

x[x < 5] = 0; x

0,1,2
1,4,7
2,5,8
3,6,9


0,1,2
1,4,7
2,10,8
3,6,9


0,1,2
0,0,7
0,10,8
0,6,9


In [96]:
t(x)

0,1,2
0,0,0
0,10,6
7,8,9


In [97]:
cbind(x, c(1, 2, 3))

0,1,2,3
0,0,7,1
0,10,8,2
0,6,9,3


In [99]:
rbind(x, 1:3)

0,1,2
0,0,7
0,10,8
0,6,9
1,2,3


In [100]:
x = x[1:2,]; x

0,1,2
0,0,7
0,10,8


In [102]:
x = matrix(1:6, nrow=2); x

0,1,2
1,3,5
2,4,6


In [104]:
dim(x) = c(3, 2); x

0,1
1,4
2,5
3,6


|  Operador ou Função |  Descrição | 
|:---: | :--- |
| A * B | Multiplicação elemento a elemento |
| A %*% B | Multiplicação de Matriz |
| crossprod(A,B) | Produto vetorial |
| t(A) | Trasposta |
| diag(A) | Cria uma matriz diagonal a partir da diagonal de A |
| diag(k) | Se k é um escalar, cria uma matriz identidade kxk |
| solve(A, b) | retorna o vetor x que satisfaz b = Ax |
| ginv(A)  | Matriz inversa, precisa do pacote MASS |
| rowMeans(A)  | Retorna vetor com as médias das linhas |
| rowSum(A)  | Retorna vetor com as somas das linhas |
| colMeans(A)  | Retorna vetor com as médias das colunas |
| colSum(A)  | Retorna vetor com as somas das colunas |

### Exercício

Muitas vezes quando estamos criando nossos modelos é preciso definir uma métrica para nós os avaliarmos e escolher o melhor dentre eles. Algumas vezes, nós mesmo temos de implementá-las, portanto, nesse exercício você vai ter de implementar uma extensão da métrica Erro Quadrático Médio, em inglês *Mean Squared Error (MSE)*, chamada *Root Mean Squared Logarithmic Error (RMSLE)*. 

A RMSLE é deifnida como:

$\epsilon = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(\log(\hat{y}_i) - \log(y_i))^2}$

onde:

- $\epsilon$ é o valor do erro (score)
- $n$ é o total de exemplos no conjunto de dados testado
- $\hat{y}_i$ é a predição do modelo
- $y_i$ é o valor do real do imóvel (rótulo)
- $\log(x)$ é a função logarítmica de $x$

A RMSLE penaliza mais estimativas erradas para menos do que para mais.

In [5]:
y_true = 1:1000000
y_pred = y_true - rnorm(length(y_true), 0, 1)

# seu código