# Estruras de Dados


Vamos ver nesse notebook algumas outras estruturas de dados importantes no R, tais como lista, DataFrame e Factor.

## Lista

Lista é uma estrutura de dados que nos permite ter dados de tipos distintos.

Lembre-se que vetor possui todos elementos do mesmo tipo e portanto é chamado de vetor atômico, já vetores tendo tipos disntios são chamados de lista.

In [1]:
x = list("a"=2.5,"b"= TRUE)
x$a

In [2]:
x$b

In [3]:
typeof(x)

In [4]:
length(x)

### Criando Listas

Listas podem ser criadas com a função ```list()```.

In [5]:
 x = list("a" = 2.5, "b" = TRUE, "c" = 1:3); x

No exemplo, a, b, c são chamados de tags e facilitam a referência a componentes da lista. Todavia, são opcionais.

In [6]:
x <- list(2.5, TRUE, 1:3); x

In [7]:
x[[1]]

In [8]:
pessoa = list("idade"=27, "nome"="josep lima")
pessoa$idade

In [9]:
pessoa[c(1,2)]

In [10]:
pessoa[c("idade", "nome")]

In [11]:
pessoa[-2]

In [12]:
pessoa[1:2]

In [13]:
typeof(pessoa[1])

In [14]:
typeof(pessoa["idade"])

In [15]:
typeof(pessoa[[1]])

In [16]:
typeof(pessoa[["idade"]])

### Modificando a Lista

In [17]:
pessoa[["nome"]] = "José Lima"; pessoa

In [18]:
pessoa[["casado"]] = FALSE; pessoa

In [19]:
pessoa[["idade"]] = NULL; str(pessoa)

List of 2
 $ nome  : chr "José Lima"
 $ casado: logi FALSE


In [20]:
pessoa$casado = NULL; str(pessoa)

List of 1
 $ nome: chr "José Lima"


## Data Frame

Data frame é uma estrutura de dados bidimensional em R. É uma caso especial de uma lista que possui componponentes de tamanho iguais. Cada compontent forma uma coluna.

In [21]:
x = data.frame("id"=1:2, "idade"= c(32, 21)); x

id,idade
1,32
2,21


In [22]:
typeof(x)

In [23]:
class(x)

### Funções do Data Frame

In [24]:
names(x)

In [25]:
ncol(x)

In [26]:
nrow(x)

In [27]:
length(x)

### Criando um Data Frame

In [28]:
x = data.frame("id" = 1:2, "idade" = c(21,15), "nome" = c("José Lima","Dória Silva")); str(x)

'data.frame':	2 obs. of  3 variables:
 $ id   : int  1 2
 $ idade: num  21 15
 $ nome : Factor w/ 2 levels "Dória Silva",..: 2 1


In [29]:
x = data.frame("id" = 1:2, "idade" = c(21,15), "nome" = c("José Lima","Dória Silva"), 
               stringsAsFactors=FALSE); str(x)

'data.frame':	2 obs. of  3 variables:
 $ id   : int  1 2
 $ idade: num  21 15
 $ nome : chr  "José Lima" "Dória Silva"


## Lidando com valores nulos

In [30]:
x = data.frame("id" = 1:2, "idade" = c(21, NA), "nome" = c("José Lima","Dória Silva")); str(x)

'data.frame':	2 obs. of  3 variables:
 $ id   : int  1 2
 $ idade: num  21 NA
 $ nome : Factor w/ 2 levels "Dória Silva",..: 2 1


In [31]:
mean(x[,'idade'])

In [32]:
mean(x[!is.na(x[,'idade']),'idade'])

In [33]:
x[is.na(x[,'idade']),'idade'] <- 30

In [34]:
x

id,idade,nome
1,21,José Lima
2,30,Dória Silva


### Lendo Data Frame de um Arquivo CSV

In [35]:
df = read.csv("dados/iris-dataset.csv", header=FALSE); head(df)

V1,V2,V3,V4,V5
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa


In [36]:
tail(df)

Unnamed: 0,V1,V2,V3,V4,V5
145,6.7,3.3,5.7,2.5,Iris-virginica
146,6.7,3.0,5.2,2.3,Iris-virginica
147,6.3,2.5,5.0,1.9,Iris-virginica
148,6.5,3.0,5.2,2.0,Iris-virginica
149,6.2,3.4,5.4,2.3,Iris-virginica
150,5.9,3.0,5.1,1.8,Iris-virginica


In [37]:
summary(df)

       V1              V2              V3              V4       
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.054   Mean   :3.759   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
               V5    
 Iris-setosa    :50  
 Iris-versicolor:50  
 Iris-virginica :50  
                     
                     
                     

In [38]:
colnames(df) = c("sepal_length", "sepal_width", "petal_length", "sepal_width", "species")
head(df)

sepal_length,sepal_width,petal_length,sepal_width.1,species
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa


### Indexação

#### Acessando como uma lista

In [39]:
head(df["sepal_length"])
typeof(df["sepal_length"])

sepal_length
5.1
4.9
4.7
4.6
5.0
5.4


In [40]:
df$sepal_length
typeof(df$sepal_length)

In [41]:
df[["sepal_length"]]
typeof(df[["sepal_length"]])

#### Acessando como uma Matriz

In [42]:
str(df)

'data.frame':	150 obs. of  5 variables:
 $ sepal_length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ sepal_width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ petal_length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ sepal_width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ species     : Factor w/ 3 levels "Iris-setosa",..: 1 1 1 1 1 1 1 1 1 1 ...


In [43]:
head(df, n = 10)

sepal_length,sepal_width,petal_length,sepal_width.1,species
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa


In [44]:
df[1:5,]

sepal_length,sepal_width,petal_length,sepal_width.1,species
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa


In [45]:
df[df$sepal_length < 5.0,]

Unnamed: 0,sepal_length,sepal_width,petal_length,sepal_width.1,species
2,4.9,3.0,1.4,0.2,Iris-setosa
3,4.7,3.2,1.3,0.2,Iris-setosa
4,4.6,3.1,1.5,0.2,Iris-setosa
7,4.6,3.4,1.4,0.3,Iris-setosa
9,4.4,2.9,1.4,0.2,Iris-setosa
10,4.9,3.1,1.5,0.1,Iris-setosa
12,4.8,3.4,1.6,0.2,Iris-setosa
13,4.8,3.0,1.4,0.1,Iris-setosa
14,4.3,3.0,1.1,0.1,Iris-setosa
23,4.6,3.6,1.0,0.2,Iris-setosa


In [46]:
df[1:3, 2]

In [47]:
df[1:3, 2, drop = FALSE]

sepal_width
3.5
3.0
3.2


In [48]:
head(df, n = 1)
df[1, "petal_length"] = 2; head(df, n = 1)

sepal_length,sepal_width,petal_length,sepal_width.1,species
5.1,3.5,1.4,0.2,Iris-setosa


sepal_length,sepal_width,petal_length,sepal_width.1,species
5.1,3.5,2,0.2,Iris-setosa


### Adcionando componentes

In [49]:
rbind(list(5.06, 3.6, 1.0, 0.25, "Iris-setosa"),df)
head(df)

Unnamed: 0,sepal_length,sepal_width,petal_length,sepal_width.1,species
2,5.06,3.6,1.0,0.25,Iris-setosa
210,5.10,3.5,2.0,0.20,Iris-setosa
3,4.90,3.0,1.4,0.20,Iris-setosa
4,4.70,3.2,1.3,0.20,Iris-setosa
5,4.60,3.1,1.5,0.20,Iris-setosa
6,5.00,3.6,1.4,0.20,Iris-setosa
7,5.40,3.9,1.7,0.40,Iris-setosa
8,4.60,3.4,1.4,0.30,Iris-setosa
9,5.00,3.4,1.5,0.20,Iris-setosa
10,4.40,2.9,1.4,0.20,Iris-setosa


sepal_length,sepal_width,petal_length,sepal_width.1,species
5.1,3.5,2.0,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa


In [50]:
df$novo <- "a"
head(df)

sepal_length,sepal_width,petal_length,sepal_width.1,species,novo
5.1,3.5,2.0,0.2,Iris-setosa,a
4.9,3.0,1.4,0.2,Iris-setosa,a
4.7,3.2,1.3,0.2,Iris-setosa,a
4.6,3.1,1.5,0.2,Iris-setosa,a
5.0,3.6,1.4,0.2,Iris-setosa,a
5.4,3.9,1.7,0.4,Iris-setosa,a


#### Removendo componetentes

In [51]:
df$novo = NULL
tail(df)

Unnamed: 0,sepal_length,sepal_width,petal_length,sepal_width.1,species
145,6.7,3.3,5.7,2.5,Iris-virginica
146,6.7,3.0,5.2,2.3,Iris-virginica
147,6.3,2.5,5.0,1.9,Iris-virginica
148,6.5,3.0,5.2,2.0,Iris-virginica
149,6.2,3.4,5.4,2.3,Iris-virginica
150,5.9,3.0,5.1,1.8,Iris-virginica


## Factors

Fatores são utilizados para representar valores categóricos, onde as opções são finitas. Por exemplo, estado civil, genêro, entre outros.

In [52]:
estado.civil = factor(c("solteiro", "viúvo", "casado", "solteiro"))
estado.civil

In [53]:
class(estado.civil)

levels(estado.civil)

### Criando Factors

In [54]:
estado.civil = factor(c("solteiro", "viúvo", "casado", "solteiro"))

str(estado.civil)

 Factor w/ 3 levels "casado","solteiro",..: 2 3 1 2


### Indexação

In [55]:
estado.civil[3]

In [56]:
estado.civil[c(2,4)]

In [57]:
estado.civil[-1]

In [58]:
estado.civil[c(TRUE, FALSE, FALSE, TRUE)]

### Modificando um Factor

In [59]:
estado.civil[2] = "solteiro"; estado.civil

In [60]:
estado.civil[2] = "divorciado"; estado.civil

“invalid factor level, NA generated”

In [61]:
levels(estado.civil) = c(levels(estado.civil), "divorciado")
estado.civil[2] = "divorciado"
estado.civil

## Agrupamento com Data Frames

In [62]:
aggregate(df$sepal_length, by=list(species=df$species), mean)

species,x
Iris-setosa,5.006
Iris-versicolor,5.936
Iris-virginica,6.588


In [63]:
aggregate(df$sepal_length, by=list(species=df$species), sd)

species,x
Iris-setosa,0.3524897
Iris-versicolor,0.5161711
Iris-virginica,0.6358796


In [64]:
aggregate(sepal_length ~ species, df, mean)

species,sepal_length
Iris-setosa,5.006
Iris-versicolor,5.936
Iris-virginica,6.588


## Transformações

In [65]:
# eixo 1 a função recebe linha a linha
# vamos então transformar as colunas numéricas
# deixando seus valores numa escala entre 0 e 1
apply(df[,c('sepal_width', 'sepal_length')], 
      1, function(x) {(x - min(x)) / (max(x) - min(x))})

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21
sepal_width,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
sepal_length,1,1,1,1,1,1,1,1,1,1,⋯,1,1,1,1,1,1,1,1,1,1


In [66]:
# eixo 2 a função recebe uma coluna inteira
# vamos então transformar as colunas numéricas
# deixando seus valores numa escala entre 0 e 1
apply(df[,c('sepal_width', 'sepal_length')], 
      2, function(x) {(x - min(x)) / (max(x) - min(x))})

sepal_width,sepal_length
0.6250000,0.22222222
0.4166667,0.16666667
0.5000000,0.11111111
0.4583333,0.08333333
0.6666667,0.19444444
0.7916667,0.30555556
0.5833333,0.08333333
0.5833333,0.19444444
0.3750000,0.02777778
0.4583333,0.16666667


In [67]:
tapply(df$sepal_length, df$species, FUN=function(x) {(x - min(x)) / (max(x) - min(x))})

### Métodos de Mesclagem

| Método | SQL Join         
| :- |:--------:
| all.x | LEFT OUTER JOIN
| all.y | RIGHT OUTER JOIN
| all | FULL OUTER JOIN
| default | INNER JOIN

|  | 
| :- |:--------:
| ![left join](img_leftjoin.gif) | ![right join](img_rightjoin.gif) | ![outer join](img_fulljoin.gif) | ![inner join](img_innerjoin.gif) |

\**imagem tirada de (https://www.w3schools.com/sql/sql_join.asp)*

In [68]:
x = data.frame("id"=1:4, "idade"= c(32, 21, 30, 27)); x
y = data.frame("id"=3:6, "gender"= c("M", "F", "F", "M")); y

id,idade
1,32
2,21
3,30
4,27


id,gender
3,M
4,F
5,F
6,M


### Inner Join

In [69]:
merge(x, y, by="id")

id,idade,gender
3,30,M
4,27,F


### Left join

In [70]:
merge(x, y, by="id", all.x = TRUE)

id,idade,gender
1,32,
2,21,
3,30,M
4,27,F


### Right join

In [71]:
merge(x, y, by.x="id", by.y="id", all.y = TRUE)

id,idade,gender
3,30.0,M
4,27.0,F
5,,F
6,,M


### Outer join

In [72]:
merge(x, y, by="id", all = TRUE)
?merge

id,idade,gender
1,32.0,
2,21.0,
3,30.0,M
4,27.0,F
5,,F
6,,M
