# Estructuras de datos en ![](https://www.r-project.org/Rlogo.png)



## Data Frame (data.frame)

Como vimos antes, una matriz sólo puede contener elementos del mismo tipo. Debido a esta
limitación surgen los data frames.

Normalmente un data frame contendrá un dataset, con las variables como columnas y las  observaciones como filas.
+ Columnas: atributos, variables
+ Filas: observaciones, casos, instancias

Internamente, R maneja los **data frames** como listas de vectores o factores, todas de la  misma longitud.

Podemos asimilarlos a una hoja de cálculo tradicional.

Para crear data frames usaremos la función `data.frame(x, y, …)`, la cual recibe como parámetros las columnas del dataset.

## Creación de data frames

Es posible crear data frames “a mano”, pero no es la práctica habitual.

In [2]:
###################################
# Data frames: Creación           #
###################################
# Creación de data frame vacío
empty <- data.frame()

# A partir de dos vectores
c1 <- 1:10 # vector de enteros
c2 <- letters[1:10] # vector de strings
df <- data.frame(col1 = c1, col2 = c2)
df

col1,col2
1,a
2,b
3,c
4,d
5,e
6,f
7,g
8,h
9,i
10,j


Normalmente leeremos los datasets desde ficheros con las funciones `read.csv(filename)` o `read.table(filename)`.

In [None]:
# Lectura desde fichero
df <- read.csv("filename.csv", header = T)

## Operaciones sobre data frames

Análisis exploratorio de los datos de un data frame:
+ `head(df)`: devuelve las primeras observaciones.
+ `tail(df)`: devuelve las últimas observaciones.
+ `str(df)`: muestra de forma rápida la estructura de la información almacenada.
    + Número total de observaciones.
    + Número total de variables.
    + Lista con todos los nombres de las variables.
    + El tipo de cada variable.
    + Las primeras observaciones de cada variable.
+ `summary(df)`: muestra los estadísticos básicos de cada variable.

In [4]:
###################################
# Data frames: Operaciones        #
###################################

# Análisis exploratorio
head(mtcars)
head(mtcars, 10)
head(mtcars, -10)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225,105,2.76,3.46,20.22,1,0,3,1


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [6]:
tail(mtcars)
tail(mtcars, 10)
tail(mtcars, -10)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2
Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6
Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8
Volvo 142E,21.4,4,121.0,109,4.11,2.78,18.6,1,1,4,2


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
AMC Javelin,15.2,8,304.0,150,3.15,3.435,17.3,0,0,3,2
Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
Pontiac Firebird,19.2,8,400.0,175,3.08,3.845,17.05,0,0,3,2
Fiat X1-9,27.3,4,79.0,66,4.08,1.935,18.9,1,1,4,1
Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2
Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6
Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8
Volvo 142E,21.4,4,121.0,109,4.11,2.78,18.6,1,1,4,2


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Merc 280C,17.8,6,167.6,123,3.92,3.44,18.9,1,0,4,4
Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
Merc 450SL,17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
Merc 450SLC,15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3
Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
Lincoln Continental,10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
Fiat 128,32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1
Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2
Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.9,1,1,4,1


In [7]:
str(mtcars)

'data.frame':	32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...


In [8]:
summary(mtcars)

      mpg             cyl             disp             hp       
 Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
 1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
 Median :19.20   Median :6.000   Median :196.3   Median :123.0  
 Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
 3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
 Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
      drat             wt             qsec             vs        
 Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
 1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
 Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
 Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
 3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
 Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
       am              gear            carb      
 Min.   :0.0000   Min.   :3.000  

## Manipulación de data frames

Para unir data frames la mejor manera es usar la función `rbind(df1, df2, …)`, obteniendo un
data frame resultante con más filas.

In [9]:
###################################
# Data frames: Manipulacion       #
###################################
# Añadir filas
df <- rbind(mtcars, data.frame(mpg = 22, cyl = 5, disp = 202, hp = 100, drat = 2.56, wt = 3.1, 
                               qsec = 15, vs = 1, am = 0, gear =5, carb = 4, row.names=c("seat")))

Para añadir columnas podemos emplear la función `cbind(df1, df2, …)`, pasando como  parámetros otro data frame o un vector. También existen otras maneras de añadir columnas.

In [10]:
# Añadir columnas
df$newcolumn <- rep(1, nrow(df))
df[, 'copyofhp'] <- df$hp
df$hp.gear <- df$hp / df$gear
v <- 1:nrow(df)
df <- cbind(df, v)

## Indexación de data frames

Al igual que sucedía con las matrices, utilizaremos los corchetes `[ ]` para indexar data  frames. Emplearemos dos números enteros: uno para la fila y otro para la columna `[row,  column]`.

Podemos aplicar lo aprendido al indexar matrices para indexar data frames.

Existe una manera rápida de seleccionar una columna, utilizando la expresión `df$column` ó  `df["column"]` ó `df[1]`.

Al indexar podemos obtener vectores o data frames dependiendo como lo hagamos.
+ Al seleccionar filas obtenemos siempre data frames.
+ Al seleccionar múltiples columnas obtenemos siempre data frames.
+ Al seleccionar columnas individuales podemos obtener data frames o vectores.

### Indexación de celdas

In [11]:
###################################
# Data frames: Indexación         #
###################################

# Indexando celdas
df <- data.frame(mtcars)
str(df)
df[5, 2] # Obtiene una única celda
df[1:5, 1:2] # Obtiene varias celdas
df[1:2, c("gear", "am")]
df[1:2, c("gear", "am")] <- 0 # Asignación de celdas
df[1:2, c("gear", "am")]

'data.frame':	32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...


Unnamed: 0,mpg,cyl
Mazda RX4,21.0,6
Mazda RX4 Wag,21.0,6
Datsun 710,22.8,4
Hornet 4 Drive,21.4,6
Hornet Sportabout,18.7,8


Unnamed: 0,gear,am
Mazda RX4,4,1
Mazda RX4 Wag,4,1


Unnamed: 0,gear,am
Mazda RX4,0,0
Mazda RX4 Wag,0,0


### Indexación de filas

In [12]:
# Indexando filas (siempre devuelve data frames)
df[1, ]
df[-nrow(df), ]
df[1:5, ]
df[(df$hp > 150 & df$hp < 200), ]
subset(df, hp > 150 & hp < 200)

vrow <- as.numeric(as.vector(df[1, ])) # Convertimos el resultados de la indexación en vector

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21,6,160,110,3.9,2.62,16.46,0,0,0,4


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,0,0,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,0,0,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,0,0,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,0,0,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
Merc 450SL,17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
Merc 450SLC,15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3
Pontiac Firebird,19.2,8,400.0,175,3.08,3.845,17.05,0,0,3,2
Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
Merc 450SL,17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
Merc 450SLC,15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3
Pontiac Firebird,19.2,8,400.0,175,3.08,3.845,17.05,0,0,3,2
Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6


### Indexación de columnas

In [14]:
# Indexando columnas
df$hp # Devuelve un vector
df[, "hp"] # Devuelve un vector
df[, 4] # Devuelve un vector
df["hp"] # Devuelve un data frame con una columna
df[4] # Devuelve un data frame con una columna
df[["hp"]] # Devuelve un vector
df[ , c(4, 6)] # Devuelve un data frame
df[ , c("hp", "wt")] # Devuelve un data frame

Unnamed: 0,hp
Mazda RX4,110
Mazda RX4 Wag,110
Datsun 710,93
Hornet 4 Drive,110
Hornet Sportabout,175
Valiant,105
Duster 360,245
Merc 240D,62
Merc 230,95
Merc 280,123


Unnamed: 0,hp
Mazda RX4,110
Mazda RX4 Wag,110
Datsun 710,93
Hornet 4 Drive,110
Hornet Sportabout,175
Valiant,105
Duster 360,245
Merc 240D,62
Merc 230,95
Merc 280,123


Unnamed: 0,hp,wt
Mazda RX4,110,2.62
Mazda RX4 Wag,110,2.875
Datsun 710,93,2.32
Hornet 4 Drive,110,3.215
Hornet Sportabout,175,3.44
Valiant,105,3.46
Duster 360,245,3.57
Merc 240D,62,3.19
Merc 230,95,3.15
Merc 280,123,3.44


Unnamed: 0,hp,wt
Mazda RX4,110,2.62
Mazda RX4 Wag,110,2.875
Datsun 710,93,2.32
Hornet 4 Drive,110,3.215
Hornet Sportabout,175,3.44
Valiant,105,3.46
Duster 360,245,3.57
Merc 240D,62,3.19
Merc 230,95,3.15
Merc 280,123,3.44


## Unión de data frames

Existe una función muy útil en R que nos permitirá unir dos data frames. La función merge
recibe los siguientes parámetros:
+ `x, y`: data frames a combinar.
+ `by, by.x, by.y`: permiten especificar las columnas por las que se combinarán ambos data  frames.
+ `all, all.x, all.y`: permite seleccionar si queremos obtener todas las filas de ambos data  frames (FULL JOIN), todas las del data frame x (LEFT JOIN) o todas las del data frame  y (RIGHT JOIN).

Su funcionamiento es similar a los JOIN de SQL.

In [16]:
###################################
# Data frames: merge              #
###################################

c1 <- 1:10
c2 <- letters[1:10]
c3 <- 5:20
c4 <- letters[5:20]
df.x <- data.frame(col1 = c1, col2 = c2)
df.y <- data.frame(col1 = c3, col2 = c4)
df.x
df.y

col1,col2
1,a
2,b
3,c
4,d
5,e
6,f
7,g
8,h
9,i
10,j


col1,col2
5,e
6,f
7,g
8,h
9,i
10,j
11,k
12,l
13,m
14,n


In [18]:
join <- merge(df.x, df.y, by = c("col1")) #join

In [19]:
join

col1,col2.x,col2.y
5,e,e
6,f,f
7,g,g
8,h,h
9,i,i
10,j,j


In [21]:
left.join <- merge(df.x, df.y, by = c("col1"), all.x = T) #left join

In [22]:
right.join <- merge(df.x, df.y, by = c("col1"), all.y = T) #right join

In [23]:
full.join <- merge(df.x, df.y, by = c("col1"), all = T) #full join

## Información sobre data frames

![image.png](attachment:image.png)

## Traps sobre data frames

Al leer data frames desde ficheros normalmente se emplea el argumento `stringsAsFactors = FALSE` para evitar la coerción a factores.

Se suele evitar emplear nombres en filas y utilizarlos sólo en columnas.

No utilizar `rbind(df1, df2, …)` con factores, ya que algunas veces puede dar problemas
(coerción).

## Ejercicio 5

In [None]:
###################################
# Data frames                     #
###################################

# Crea a partir de los vectores siguientes un data frame
planets <- c("Mercury", "Venus", "Earth", "Mars", "Jupiter", "Saturn", "Uranus", "Neptune");
type <- c("Terrestrial planet", "Terrestrial planet", "Terrestrial planet", "Terrestrial planet", "Gas giant", "Gas giant", "Gas giant", "Gas giant")
diameter <- c(0.382, 0.949, 1, 0.532, 11.209, 9.449, 4.007, 3.883); 
rotation <- c(58.64, -243.02, 1, 1.03, 0.41, 0.43, -0.72, 0.67);
rings <- c(FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, TRUE, TRUE);

planets_df  <- data.frame(planets, type, diameter, rotation, rings)

# Comprueba el contenido del data frame
str(planets_df)

# Selecciona la información de los primeros tres planetas (los más cercanos al sol)
closest_planets_df <- planets_df[1:3, ]

# Selecciona la información de los últimos tres planetas (los más lejanos al sol)
furthest_planets_df <- planets_df[6:8, ]

# Comprueba la selección
closest_planets_df
furthest_planets_df

# Selecciona la columna diameter de los últimos seis planetas (los más lejanos al sol)
furthest_planets_diameter <- planets_df[3:8, "diameter"]

# Selecciona sólo los planetas que tienen anillos
planets_with_rings_df <- planets_df[planets_df$rings, ]

# Selecciona los planetas que tienen un diametro inferior al de la tierra (aquellos que tienen diametro < 1, 
# puesto que la variable es relativa al diametro de la tierra)
small_planets_df  <- subset(planets_df, subset = diameter < 1)

# La función order devuelve las posiciones de un vector ordenado ascendentemente
a <- c(4, 10, 3)
order(a)
a[order(a)]

# Ordena el data frame según el diametro de los planetas ascendentemente
positions <- order(planets_df$diameter, decreasing = TRUE)
largest_first_df <- planets_df[positions, ]
largest_first_df