# Introducción a R

## Librerías de R
R tiene una gran cantidad de librerías disponibles para aplicar todo tipo de algoritmos. La documentación sobre las mismas se encuentra en la página del repositorio oficial: https://cran.r-project.org/web/packages/available_packages_by_name.html

Las librerías añaden funcionalidades al código de R para casos particularesx existen librerías para poder utilizar ciertos algoritmos, para conectarse a cierto tipo de bases de datos, para poder manejar datasets de forma eficiente...

Para mantener un orden, se recomienda cargar las librerías __al principio de los scripts__.

In [2]:
# install.packages("dplyr") # las librerías se pueden instalar con el comando install.packages o con la ayuda de RStudio
library(dplyr) 

Es sencillo encontrar a la documentación de la librería desde google, y se puede obtener información utilizando el comando ? de ayuda.

In [3]:
?mean
# dplyr::funcion(parametros)

No es necesario cargar una librería entera si lo que se buscar es ejecutar una única función de la misma, basta con llamar a la función de la librería con ::

## Clases básicas de datos en R
R utiliza programación orientada a objetos y en términos genéricos, todos los elementos que maneja R son objetos: un valor numérico es un objeto, un vector es un objeto, una función es un objeto, un gráfico es un objeto, …

Las clases básicas de datos son los siguientes:

- __Numeric__: Es el tipo de dato básico en R para utilizar números que no son enteros.
- __Integer__: Tipo de dato básico para los enteros.
- __Logical__: Valor lógico, TRUE/FALSE.
- __Character__: Tipo de dato asociado a las cadenas o _strings_

In [141]:
numero <- 10.5
entero <- as.integer(10)
logico <- TRUE # FALSE
caracter <- "hola"

Comprobamos las clases:

In [65]:
print(class(numero))
print(class(entero))
print(class(logico))
print(class(caracter))

[1] "numeric"
[1] "integer"
[1] "logical"
[1] "character"


R permite realizar cambios en las clases siempre _que sea posible_ esto es, siempre que el cambio tenga sentido y el objeto pueda tener el formato necesario para su transformación.

In [66]:
var <- "10"
print(var)
print(class(var))
var <- as.numeric(var)
print(var)
print(class(var))
print( var * 2)

[1] "10"
[1] "character"
[1] 10
[1] "numeric"
[1] 20


In [67]:
caracter <- "10"
print(caracter)
class(caracter)
caracter_a_numero <- as.numeric(caracter)
print(caracter_a_numero)
class(caracter_a_numero)

[1] "10"


[1] 10


In [68]:
logic <- "TRUE"
print(logic)
class(logic)
caracter_a_logico <- as.logical(logic)
print(caracter_a_logico)
class(caracter_a_logico)

[1] "TRUE"


[1] TRUE


Estas funciones as.XXXX() existen para realizar cambios entre multitud de objetos en R.

## Vectores

Lo que se ha generado arriba son __vectores__ de longitud 1, que son los tipos de datos más básicos en R. Cada vector tiene su propia clase y todos los elementos del mismo vector __han de tener la misma clase__ esto es importante, ya que luego presentaremos estructuras más complejas que pueden tener distintas clases de objetos contenidos.

Cuando se quiere crear un vector de longitud mayor que 1 se utiliza la función __c()__ que combina los elementos en el mismo vector.

In [142]:
vector_numero <- c(1, 3, 10.5, pi)
vector_entero <- as.integer(c(1, 3, 10, 1000))
vector_logico <- c(TRUE, FALSE, TRUE, FALSE)
vector_caracter <- c("hola", "hasta luego", "1", "TRUE")

In [143]:
vector_numero

Para __indexar__ en un vector, utilizaremos unos corchetes simples [], por lo que:

In [71]:
vector_numero[4]
vector_caracter[c(1,3)]

Devuelve el cuarto valor de vector_numero. Por otro lado, cuando en vez de un número positivo dentro de los corchetes se encuentra un número negativo, R omite las posiciones al devolver el vector.

In [72]:
vector_numero[-4]
vector_numero[c(-1, -2)]

Añadir elementos a un vector es sencillo, se puede utilizar la misma función c() añadiendo los nuevos valores:

In [144]:
vector_caracter <- c(vector_caracter, "nuevo elemento")
vector_caracter

In [146]:
v1 <- c("a", "1", "2")
v1 <- v1[-1]
v1 <- c(v1, 3)
print(as.numeric(v1))

[1] 1 2 3


## Matrices

Una matriz es una colección de elementos indezados por filas y columnas, al igual que sucede con los vectores una matriz tiene la misma clase de dato en todos sus elementos.

In [74]:
?matrix

In [148]:
m_1 <- matrix(c(1:6), nrow = 2)
m_1

0,1,2
1,3,5
2,4,6


In [76]:
m_2 <- matrix(c("a", "b", "c", "d", "e", "f"), ncol = 2)
m_2

0,1
a,d
b,e
c,f


La indexación es parecida a la de los vectores, pero teniendo en cuenta las dos dimensiones.

In [77]:
print(m_2[1,1])
print(m_2[2,2])
print(m_2[c(1,3), c(1,2)]) # seleccionamos filas 1 y 3, columnas 1 y 2

[1] "a"
[1] "e"
     [,1] [,2]
[1,] "a"  "d" 
[2,] "c"  "f" 


A la hora de indexar en matrices, si no introducimos nada antes de la coma seleccionamos todas las filas, y en el caso de que no introdujamos nada después, seleccionamos todas las columnas.

In [78]:
print(m_2[,1])
print(m_2[1,])

[1] "a" "b" "c"
[1] "a" "d"


## Array
Un array es idéntico a una matriz, excepto por el hecho de que incluye más de dos dimensiones, es una generalización de una matriz. También ha de tener la misma clase de dato en todos sus elementos.

In [79]:
a_1 <- array(c(1:12),dim = c(2,3,2))
print(a_1)

, , 1

     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6

, , 2

     [,1] [,2] [,3]
[1,]    7    9   11
[2,]    8   10   12



## Factores

Hemos visto la clase character, ¿pero cómo caracterizamos características de los individuos cuando realizamos un análisis estadístico? Los factores son la respuesta.

Un __factor__ es una variable categórica con un número finito de valores o niveles. En R los factores se utilizan habitualmente para realizar clasificaciones de los datos, estableciendo su pertenencia a los grupos o categorías determinados por los niveles del factor.

Es muy importante categorizar este tipo de variables como factores a la hora de implementar modelos en R, porque el resultado obtenido puede ser totalmente diferente y desvirtuar el modelo.

In [80]:
sexo <- c("Hombre", "Mujer", "Hombre", "Mujer", "Mujer", "Hombre", "Hombre", "Hombre") # character
print(sexo)
class(sexo)

[1] "Hombre" "Mujer"  "Hombre" "Mujer"  "Mujer"  "Hombre" "Hombre" "Hombre"


In [81]:
factor_sexo <- as.factor(sexo)
print(factor_sexo)
class(factor_sexo)

[1] Hombre Mujer  Hombre Mujer  Mujer  Hombre Hombre Hombre
Levels: Hombre Mujer


Esto representa un factor ya que establece para cada sujeto su pertenencia a una de las dos categorías “Hombre” o “Mujer”.

# Cláusulas básicas, bucles

Las expresiones para realizar las comparaciones son las siguientes:

- \>  mayor que
- \>=  mayor o igual que
- <  menor que 
- <= menor o igual que
- == igual que
- != distinto que

Y como en cualquier otro lenguaje de programación, existen las cláusulas if, que tienen la siguiente estructura:

if(clausula){<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;código<br>
}else if(clausula){<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;código<br>
}else(clausula){<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;código<br>
}

In [82]:
if (3 < 1){
    print("3 < 1")
}else if (3 == 1){ # la igualdad se comprueba con ==
    print("3 = 1")
}else{
    print("3 > 1")
}

[1] "3 > 1"


Y los bucles do

for(clausula){<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;código<br>
}

In [150]:
for(valor in c(1:5)[-c(1:5)*2]){
    print(valor)
}

[1] 1
[1] 3
[1] 5


También con while:

while(clausula){<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;código<br>
}

In [84]:
x <- 0
while(x < 5){
    x <- x + 1
}
print(x)

[1] 5


# Funciones definidas por el usuario (UDF)

Una función es un grupo de instrucciones que toma un "input" o datos de entrada, usa estos datos para computar otros valores y retorna un resultado/producto.

El formato de las funciones en R es el siguiente:

nombre_funcion <- function(argumentos){<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;código<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return(resultado)<br>
}

In [4]:
elevar_cuadrado <- function(x){
    return(x**2)
}
elevar_cuadrado(4)

In [154]:
sumar <- function(x, y = 1){
    z <- x + y
    return(z) # z solo existe dentro
}

In [155]:
sumar(2, 3)

R permite introducir tantos argumentos como queramos, pero solo permite tener un objeto de salida, en caso de querer sacar varios objetos se puede utilzar una lista, que veremos más adelante.

También se pueden recar funciones _recursivas_, es decir, funciones que se llaman a sí mismas.

In [88]:
factorial_recursivo <- function(x) {
    if (x == 0){
        return (1)
    }else{
        return (x * factorial_recursivo(x-1))
    }
}

In [89]:
factorial_recursivo(4)
factorial_recursivo(4) == 4*3*2

## Dataframes 


Normalmente, cuando se realiza un estudio estadístico sobre los sujetos u objetos de una muestra, la información se organiza en un dataframe en los que cada fila corresponde a un sujeto y cada columna a una variable. La estructura de un dataframe es muy similar a la de una matriz. Además, a diferencia de las matrices los dataframes ofrecen la posibildiad de añadir en cada columna información de distinto tipo, por lo que dentro del mismo dataframe pueden haber variables numéricas, caracteres, factores...


In [90]:
edad <- c(22, 34, 29, 25, 30, 33, 31, 27, 25, 25)
tiempo <- c(14.21, 10.36, 11.89, 13.81, 12.03, 10.99, 12.48, 13.37, 12.29, 11.92)
sexo <- as.factor(c("M","H","H","M","M","H","M","M","H","H"))
misDatos <- data.frame(edad,tiempo,sexo)
misDatos

edad,tiempo,sexo
22,14.21,M
34,10.36,H
29,11.89,H
25,13.81,M
30,12.03,M
33,10.99,H
31,12.48,M
27,13.37,M
25,12.29,H
25,11.92,H


In [91]:
head(misDatos, 4) # muestra las 4 primeras filas

edad,tiempo,sexo
22,14.21,M
34,10.36,H
29,11.89,H
25,13.81,M


In [92]:
tail(misDatos, 4) # muestra las 4 últimas filas

Unnamed: 0,edad,tiempo,sexo
7,31,12.48,M
8,27,13.37,M
9,25,12.29,H
10,25,11.92,H


In [93]:
summary(misDatos) # resumen de la información contenida en un dataframe

      edad           tiempo      sexo 
 Min.   :22.00   Min.   :10.36   H:5  
 1st Qu.:25.00   1st Qu.:11.90   M:5  
 Median :28.00   Median :12.16        
 Mean   :28.10   Mean   :12.34        
 3rd Qu.:30.75   3rd Qu.:13.15        
 Max.   :34.00   Max.   :14.21        

In [94]:
str(misDatos) # estructura del dataframe

'data.frame':	10 obs. of  3 variables:
 $ edad  : num  22 34 29 25 30 33 31 27 25 25
 $ tiempo: num  14.2 10.4 11.9 13.8 12 ...
 $ sexo  : Factor w/ 2 levels "H","M": 2 1 1 2 2 1 2 2 1 1


In [95]:
names(misDatos) # nombres de las variables
names(misDatos)[1] <- "edad_sujeto"

In [96]:
dim(misDatos) # tamaño del dataframe

In [97]:
nrow(misDatos) # numero de filas (individuos) de dataframe

In [98]:
ncol(misDatos) # numero de columnas (variables) del dataframe

#### Indexación

Cada columna del dataframe se puede ver como un vector que contiene una variable de los individuos, así que a la hora de indexar un dataframe podemos querer trabajar con un subconjunto del dataframe original o con un vector de los que forman el mismo. Por ello para la indexación de los dataframes distinguiremos dos métodos:

- utilizar los corchetes [ ] de manera equivalente al de las matrices, cuando se indexa de este modo se obtiene un dataframe
- utilizar el símbolo \$ para poder obtener un vector del dataframe

In [99]:
misDatos[1,2]

Pero también podemos llamar a las columnas referenciando a su nombre:

In [100]:
misDatos["edad"]

edad
22
34
29
25
30
33
31
27
25
25


In [101]:
misDatos$edad

In [102]:
misDatos[c("edad", "sexo")]

edad,sexo
22,M
34,H
29,H
25,M
30,M
33,H
31,M
27,M
25,H
25,H


In [103]:
typeof(misDatos$edad)

In [104]:
typeof(misDatos["edad"])

Podemos variar los valores del dataframe tanto con $ como con [ ] pero __ojo__ que si el tipo de dato que introducimos R no lo interpreta bien podemos estar cambiando la estructura del dataframe.

In [105]:
misDatos$edad[3] <- "15"

In [106]:
head(misDatos)

edad,tiempo,sexo
22,14.21,M
34,10.36,H
15,11.89,H
25,13.81,M
30,12.03,M
33,10.99,H


In [107]:
str(misDatos) # !!!!!! tipo chr en edad

'data.frame':	10 obs. of  3 variables:
 $ edad  : chr  "22" "34" "15" "25" ...
 $ tiempo: num  14.2 10.4 11.9 13.8 12 ...
 $ sexo  : Factor w/ 2 levels "H","M": 2 1 1 2 2 1 2 2 1 1


In [108]:
misDatos$edad <- as.numeric(misDatos$edad) # volvemos a estado normal

Añadir columnas o filas es sencillo con las funciones cbind o rbind:

In [109]:
nombres <- c("Lara","Juan","Paco","Laura","Marta","Ernesto","Maria","Sandra","Germán","Jose")
cbind(misDatos, nombres_individuos = nombres)
head(misDatos) #!! tengo que volver a guardar el df
misDatos <- cbind(misDatos, nombres_individuos = nombres)
head(misDatos)

edad,tiempo,sexo,nombres_individuos
22,14.21,M,Lara
34,10.36,H,Juan
15,11.89,H,Paco
25,13.81,M,Laura
30,12.03,M,Marta
33,10.99,H,Ernesto
31,12.48,M,Maria
27,13.37,M,Sandra
25,12.29,H,Germán
25,11.92,H,Jose


edad,tiempo,sexo
22,14.21,M
34,10.36,H
15,11.89,H
25,13.81,M
30,12.03,M
33,10.99,H


edad,tiempo,sexo,nombres_individuos
22,14.21,M,Lara
34,10.36,H,Juan
15,11.89,H,Paco
25,13.81,M,Laura
30,12.03,M,Marta
33,10.99,H,Ernesto


#### Indexación lógica

Puede suceder que nos interese obtener un sunconjunto de los individuos que cumplen una regla, es decir, que queramos filtrar los individuos cuyas variables cumplan unas condiciones.

In [110]:
misDatos$edad

In [111]:
misDatos$edad > 25

In [156]:
misDatos$edad[misDatos$edad > 25]

Unnamed: 0,edad,tiempo,sexo,nombres_individuos,tiempo_cuadrado
2,34,10.36,H,Juan,107.3296
5,30,12.03,M,Marta,144.7209
6,33,10.99,H,Ernesto,120.7801
7,31,12.48,M,Maria,155.7504
8,27,13.37,M,Sandra,178.7569


In [113]:
misDatos[misDatos$edad > 25,] 

Unnamed: 0,edad,tiempo,sexo,nombres_individuos
2,34,10.36,H,Juan
5,30,12.03,M,Marta
6,33,10.99,H,Ernesto
7,31,12.48,M,Maria
8,27,13.37,M,Sandra


In [114]:
misDatos[misDatos$edad > 25 & misDatos$sexo == "M",] # & |

Unnamed: 0,edad,tiempo,sexo,nombres_individuos
5,30,12.03,M,Marta
7,31,12.48,M,Maria
8,27,13.37,M,Sandra


In [115]:
misDatos["tiempo_cuadrado"] <- misDatos$tiempo ** 2

## Listas

Podemos entender una lista como un contenedor de objetos que pueden ser de cualquier clase: números, vectores, matrices, funciones, data.frames, incluso otras listas. Una lista puede contener a la vez varios de estos objetos, que pueden ser además de distintas dimensiones.

In [117]:
A=matrix(1:9,nrow=3)
M=matrix(letters[1:8],nrow=2)
lista <- list(df = misDatos, A = A, M = M, x = c(1,2,3,4), e = exp(1))
lista

edad,tiempo,sexo,nombres_individuos,tiempo_cuadrado
22,14.21,M,Lara,201.9241
34,10.36,H,Juan,107.3296
15,11.89,H,Paco,141.3721
25,13.81,M,Laura,190.7161
30,12.03,M,Marta,144.7209
33,10.99,H,Ernesto,120.7801
31,12.48,M,Maria,155.7504
27,13.37,M,Sandra,178.7569
25,12.29,H,Germán,151.0441
25,11.92,H,Jose,142.0864

0,1,2
1,4,7
2,5,8
3,6,9

0,1,2,3
a,c,e,g
b,d,f,h


El acceso a las variables se puede realizar tanto con __dobles corchetes__ [[]] como con $ si les hemos puesto nombre.

In [118]:
lista$df

edad,tiempo,sexo,nombres_individuos,tiempo_cuadrado
22,14.21,M,Lara,201.9241
34,10.36,H,Juan,107.3296
15,11.89,H,Paco,141.3721
25,13.81,M,Laura,190.7161
30,12.03,M,Marta,144.7209
33,10.99,H,Ernesto,120.7801
31,12.48,M,Maria,155.7504
27,13.37,M,Sandra,178.7569
25,12.29,H,Germán,151.0441
25,11.92,H,Jose,142.0864


In [136]:
lista[[1]]

edad,tiempo,sexo,nombres_individuos,tiempo_cuadrado
22,14.21,M,Lara,201.9241
34,10.36,H,Juan,107.3296
15,11.89,H,Paco,141.3721
25,13.81,M,Laura,190.7161
30,12.03,M,Marta,144.7209
33,10.99,H,Ernesto,120.7801
31,12.48,M,Maria,155.7504
27,13.37,M,Sandra,178.7569
25,12.29,H,Germán,151.0441
25,11.92,H,Jose,142.0864


Sobre cada entrada de la lista podemos utilizar todas las funciones/indexaciones que ya hemos visto.

In [120]:
lista[[1]]$edad[lista[[1]]$edad > 25]

In [121]:
lista[["append"]] <- "nuevo item"

## Lectura y escritura de archivos de texto

En R, es sencillo leer y escribir ficheros en formato csv, además tiene multitud de librerías que funcionan como conectores a diferentes bases de datos (SQL, Cassandra, elastic...) es sencillo encontrar las librerías para cada una de ellas buscando y existe una gran cantidad de información en internet.

En este caso, vamos a ver cómo leer y escribir sobre un fichero de texto, para ello lo primero es seleccionar el directorio de trabajo, en el mismo se va a leer el archivo y es algo que se debería hacer siempre al principio del script, después de la carga de las librerías, para tener una lectura de código más limpia.

In [122]:
#setwd("Directorio que se va a utilizar") # comando para seleccionar el directorio en el que se va a trabajar, 
                                         # en este caso ha de contener el archivo a leer
#read.csv("nombre_archivo_lectura.csv") # comando para leer el archivo .csv
#write.csv(nombre_dataframe_escribir, "nombre_archivo_salida.csv", row.names = FALSE) # comando para escribir el archivo,
# el parámetro row.names = FALSE impone que en el archivo de salida cada fila no está numerada, lo cual crea una columna a mayores

Para el caso de archivos muy grandes, la lectura por este método puede resultar bastante lenta, para evitarlo en estos casos recomiendo el uso de la función _fread_ del paquete _data.table_: https://cran.r-project.org/web/packages/data.table/data.table.pdf

### Manejo de dataframes avanzado: la librería dplyr

dplyr es una librería que permite de manera cómoda y con una escritura de código muy limpia, manejar dataframes y realizar cálculos sobre ellos. Las principales funciones son las siguientes:
- __select()__	selecciona columnas
- __filter()__	filtra filas
- __arrange()__	ordena las filas
- __mutate()__	crea nuevas columnas bajo nuestros parámetros
- __summarise()__	resume valores
- __group_by()__	agrupaciones que permite realizar cálculos sobre ellas

Estas dos últimas especialmente nos pueden ser de mucha ayuda en una gran variedad de situaciones. 

Vamos a introducirlo utilizando el dataset iris. El conjunto de datos contiene 50 muestras de cada una de tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Se midió cuatro rasgos de cada muestra: lo largo y lo ancho del sépalos y pétalos, en centímetros.

In [123]:
attach(iris)
head(iris)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [124]:
str(iris)

'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...


In [125]:
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                

dplyr tiene su propio sistema para escribir código de forma limpia y clara. Utiliza la expresión __%>%__ para indicar que a lo que hay a la izquierda de la misma se le aplica la función de la derecha. Por ejemplo:

In [126]:
iris %>% head()

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


Con esta forma de escribir, es simple y limpio realizar una serie de cambios sobre el dataframe de manera sencilla:

In [127]:
iris %>%
group_by(Species) %>%
summarise(sep_length_max = max(Sepal.Length), sep_length_min = min(Sepal.Length), n_observaciones = n())

Species,sep_length_max,sep_length_min,n_observaciones
setosa,5.8,4.3,50
versicolor,7.0,4.9,50
virginica,7.9,4.9,50


In [128]:
iris %>% mutate(sumVar = rowSums(iris[1:4])) %>% head ()# iris se puede cambiar por .

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,sumVar
5.1,3.5,1.4,0.2,setosa,10.2
4.9,3.0,1.4,0.2,setosa,9.5
4.7,3.2,1.3,0.2,setosa,9.4
4.6,3.1,1.5,0.2,setosa,9.4
5.0,3.6,1.4,0.2,setosa,10.2
5.4,3.9,1.7,0.4,setosa,11.4


dplyr también implementa la capacidad de realizar todo tipo de join de manera eficiente:
- __inner_join()__	
- __left_join()__	
- __right_join()__	
- __full_join()__	


In [129]:
df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3)))
df2 = data.frame(CustomerId = c(2, 4, 6), State = c(rep("Alabama", 2), rep("Ohio", 1)))

In [130]:
df1

CustomerId,Product
1,Toaster
2,Toaster
3,Toaster
4,Radio
5,Radio
6,Radio


In [131]:
df2

CustomerId,State
2,Alabama
4,Alabama
6,Ohio


In [132]:
inner_join(df1, df2)

Joining, by = "CustomerId"


CustomerId,Product,State
2,Toaster,Alabama
4,Radio,Alabama
6,Radio,Ohio


In [133]:
left_join(df1, df2)

Joining, by = "CustomerId"


CustomerId,Product,State
1,Toaster,
2,Toaster,Alabama
3,Toaster,
4,Radio,Alabama
5,Radio,
6,Radio,Ohio


__Ejercicio__:

Crear un dataframe, que para cada producto, devuelva el número de estados distintos desde los cuales ha sido pedido.

Pista: usar la función n_distinct para obtener el número de elementos distintos en una columna.