# Introducción a la Programación para Ciencia de Datos
## Lenguaje de programación R
_Rocío Romero Zaliz_ - rocio@decsai.ugr.es

# Tidyverse
Una colección de paquetes con una gramática, filosofía y estructura similar (https://tidyverse.tidyverse.org)

<i>Wickham H, Averick M, Bryan J, Chang W, McGowan LD, François R, Grolemund G, Hayes A, Henry L, Hester J, Kuhn M, Pedersen TL, Miller E, Bache SM, Müller K, Ooms J, Robinson D, Seidel DP, Spinu V, Takahashi K, Vaughan D, Wilke C, Woo K, Yutani H (2019). “Welcome to the tidyverse.” Journal of Open Source Software, 4(43), 1686. doi:10.21105/joss.01686.</i>

In [None]:
# Carga del paquete
library(tidyverse)

## Cheatsheets
https://posit.co/resources/cheatsheets/

In [None]:
class(mtcars)

In [None]:
mtcars

## Pipeline (%>%) - paquete magrittr
Operador que sirve para realizar varias operaciones de forma secuencial sin recurrir a parentesis anidados o a sobrescribir bases de datos.

In [None]:
# Sin magrittr
x <- c(1, 4, 6, 8)
y <- round(mean(sqrt(log(x))), 2)
y

In [None]:
# Con magrittr
# library(magrittr)
x <- c(1, 4, 6, 8)
y <- x %>% log() %>% sqrt() %>% mean() %>% round(2)
y

In [None]:
# Con magrittr
x <- c(1, 4, 6, 8)
y <- x %>% log %>% sqrt %>% mean %>% round(2)
y

## Paquete dplyr
dplyr es un paquete de R para manipular, limpiar y resumir datos no estructurados. Facilita y agiliza la exploración y manipulación de datos en R.

In [None]:
# Vamos a trabajar con un conjunto de datos ya creado
# library(dplyr)
starwars %>% print

In [None]:
class(starwars)

In [None]:
mtcars$pepe

In [None]:
# Tibble: si accedes a una columna que no existe te avisa...
starwars$pepe

In [None]:
starwars %>% str

In [None]:
mtcars$pepe <- starwars$films

### filter()
Selecciona filas en un data frame

In [None]:
mtcars[mtcars$hp > 100,]

In [None]:
# Busco a los andorides...
# Fuera del tidyverso
print(starwars[!is.na(starwars$species) & starwars$species == "Droid",])

In [None]:
# Dentro del tidyverso
starwars %>% filter(species == "Droid") %>% print

In [None]:
filter(starwars, species == "Droid") %>% print

In [None]:
starwars %>% filter(species == "Droid") %>% filter(homeworld == "Naboo") %>% print

In [None]:
starwars %>% filter(species == "Droid") %>% filter(height < 100) %>% print

In [None]:
starwars %>% filter(species == "Droid") %>%
    filter(height < 100 | is.na(height)) %>% print

In [None]:
starwars %>% filter(species == "Droid") %>%
    filter(height >= 96 & height < 200) %>% print

In [None]:
starwars %>% filter(species == "Droid", height >= 96 & height < 200) %>% print

In [None]:
starwars %>% filter(species == "Droid") %>% 
    filter(height >= 96 & homeworld %in% c("Naboo", "Tatooine")) %>% print

In [None]:
print(starwars[10:15,])

In [None]:
starwars %>% slice(10:15) %>% print

In [None]:
starwars %>% slice_max(n=5, height) %>% print # slice_max

In [None]:
starwars %>% slice_min(n=5, height) %>% print # slice_min, antiguamente top_n

### select()
Permite seleccionar variables (columnas) del data frame

In [None]:
print(starwars[,c("name","homeworld")])

In [None]:
starwars %>% select(name, homeworld)

In [None]:
starwars %>% select(-name, -homeworld) %>% print

In [None]:
starwars %>% select(starts_with("s")) %>% head(5) %>% print

In [None]:
starwars %>% select(ends_with("es")) %>% head(5) %>% print

In [None]:
starwars %>% select(contains("a")) %>% head(5) %>% print

In [None]:
starwars %>% select(name)

In [None]:
starwars %>% pull(name)

In [None]:
class(starwars %>% pull(name))

### arrange()
Reordena filas en un data frame

In [None]:
starwars %>% arrange(height) %>% print

In [None]:
starwars %>% arrange(desc(height)) %>% print

In [None]:
starwars %>% arrange(height, desc(birth_year)) %>% print

### rename()
Renombra columnas en un data frame

In [None]:
starwars %>% rename(hair = hair_color) %>% print

###  mutate()
Crea nueva columnas en un data frame o actualiza las ya existentes

In [None]:
starwars %>%
    mutate(height_in = height * 0.393701) %>% 
    select(starts_with("he")) %>% head(5)

In [None]:
starwars %>% select(sex) %>% head(5)

In [None]:
starwars %>% 
    mutate(sex = as.factor(sex), height = 1) %>% print

También existen funciones `mutate_if` y `mutate_at`.

In [None]:
starwars %>% mutate_if(is.character, as.factor) %>% print

In [None]:
starwars %>% mutate_at(c("name","sex"), as.factor) %>% print

### summarise()/summarize()
Permite colapsar/resumir filas en un data frame

In [None]:
summary(starwars)

In [None]:
starwars$height

In [None]:
starwars$height %>% mean(na.rm=TRUE)

In [None]:
starwars %>% summarise(promedio = mean(height, na.rm=TRUE), NN = n(), desv = sd(mass))
# SELECT AVG(height) AS promedio, COUNT(*) AS NN, SD(mass) AS desv FROM starwars

In [None]:
starwars %>% filter(species == "Droid") %>% summarise(NN = n())
# SELECT COUNT(*) FROM starwars WHERE species='Droid'

In [None]:
starwars %>% filter(species == "Droid") %>% count

In [None]:
starwars %>% summarise(desviacion_tipica = sd(height, na.rm=TRUE))

In [None]:
starwars %>% summarise(max(mass, na.rm=TRUE))

In [None]:
starwars %>% summarise(mean = mean(height, na.rm=TRUE), sd = sd(height, na.rm=TRUE))

In [None]:
starwars$species %>% unique %>% length

In [None]:
starwars %>% summarise(n(), mean(mass, na.rm = TRUE)) # Que feo escribir n() y mean() sin alias

In [None]:
# Atención que se vienen curvas...
starwars %>%
        group_by(species) %>%
        summarise(n = n(), mass = mean(mass, na.rm = TRUE))

In [None]:
starwars %>% 
    group_by(species) %>% 
    summarise(n = n(), mass = mean(mass, na.rm = TRUE)) %>% 
    filter(n > 2, mass > 50)

Más funciones útiles para usar con sumarise():
* Center: mean(), median()
* Spread: sd(), IQR(), mad()
* Range: min(), max(), quantile()
* Position: first(), last(), nth()
* Count: n(), n_distinct()
* Logical: any(), all()

In [None]:
starwars %>% summarise_if(is.numeric, mean, na.rm = TRUE)

In [None]:
starwars %>% summarise_if(is.numeric, list(prom=mean,sd=sd), na.rm = TRUE)

In [None]:
starwars %>% 
    summarise_at(c("height","mass"), mean, na.rm = TRUE)

In [None]:
starwars %>% 
    summarise_at(vars(height,mass), mean, na.rm = TRUE)

In [None]:
starwars %>% 
    summarise_at(vars(height,mass), list(mean,sd), na.rm = TRUE)

In [None]:
starwars %>% select(height, mass, birth_year) %>%
    summarise_all(list(minimo = min, maximo = max), na.rm = TRUE)

### across()
Se utiliza para aplicar una operación a varias columnas de un data frame de manera simultánea. Esta es una versión más moderna y más legible.

In [None]:
starwars %>% select(height) %>% unique

In [None]:
starwars %>% 
  group_by(species) %>% 
  filter(n() > 1) %>% # ¡Ojo! usad parentesis si no os lía con la función n()
  summarise(across(c(sex, gender, homeworld), n_distinct))

In [None]:
starwars %>% 
  group_by(species) %>% 
  filter(n() > 1) %>% 
  summarise(across(c(sex, gender, homeworld), list(n_distinct,length))) # WTF? length vs. n

In [None]:
starwars %>% n_distinct

In [None]:
starwars %>% n

In [None]:
starwars %>% length

In [None]:
dim(starwars)

## Extra

In [None]:
df <- data.frame(period=c("Q1_y2019","Q2_y2019", "Q3_y2019","Q4_y2019"), revenue=c(23,24,27,29))
df

In [None]:
df %>% separate(period, c("Quarter","Year"), sep="_y") # El contario de separate es unite

In [None]:
# Expresiones regulares... más adelante veremos esto
ndf <- df %>% extract(period, c("Quarter","Year"), "Q(.*)_y(.*)") %>%
    mutate_if(is.character, as.numeric)
ndf

In [None]:
df <- tibble(
  a = c(1, 5, 3),
  b = c(4, 2, 6),
  c = c(7, 3, 1)
)

# Sin rowwise... 
df %>% 
    mutate(max_val = max(a, b, c))  # Devuelve el mismo valor para todas las filas


In [None]:
# Con rowwise: calcula el máximo por fila
df %>%
  filter(a > 1) %>%
  rowwise() %>%
  mutate(max_val = max(a, b, c))


### Ejercicios Tidyverse
1) Utiliza el dataset de `mtcars` y el paquete `tidyverse` para:
    * Mostrar las 5 primeras filas del dataset
    * Convertir la variables "cyl", "gear" y "carb" en factores y las variables "vs" y "am" en lógicas, y mostrar la estructura del dataset (usar este dataset transformado de aqui en adelante)
    * Mostrar solo los coches con una potencia ("hp") mayor a 100
    * Seleccionar solo las columnas "mpg", "cyl", "hp" y "qsec" del dataset
    * Calcular la cantidad total de coches para cada valor único en la columna "cyl" (número de cilindros)
    * Encontrar el modelo de coche con la mayor potencia ("hp") y mostrar su información completa
    * Calcular el promedio de potencia de los coches con 8 cilindros
2) Supongamos que tienes un data frame llamado `lego_sets` que contiene información sobre diferentes conjuntos de Lego, incluyendo el nombre del conjunto, el número de piezas, el tema y el año de lanzamiento:
    * Filtra y muestra solo los conjuntos de Lego lanzados en el año 2020
    * Encuentra y muestra el nombre y el número de piezas del conjunto de Lego más grande
    * Calcula la cantidad total de piezas para cada tema y muéstralos en orden descendente por número de piezas
    * Calcula cuántos conjuntos de Lego se lanzaron en cada año y muéstralo ordenado por año de forma ascendente
    * Encuentra los 3 temas más populares (con más conjuntos) y muestra el número de conjuntos y el número total de piezas para cada uno de ellos

<pre>
# Generar datos ficticios
nombres <- paste("Conjunto", 1:80)
piezas <- sample(50:1000, 80, replace = TRUE)
temas <- sample(c("Ciudad", "Espacio", "Arquitectura", "Granja", "Dinosaurios", "Aventuras", "Piratas"), 80, replace = TRUE)
años <- sample(2000:2023, 80, replace = TRUE)

# Crear el data frame
lego_sets <- data.frame(
  Set_Name = nombres,
  Piece_Count = piezas,
  Theme = temas,
  Year = años
)
</pre>
3) Dado un data frame llamado `bebidas` que contiene información sobre la edad, género, tipo de bebida y cantidad de copas consumidas por un grupo de personas, filtra y muestra únicamente a las mujeres mayores de 20 años. Para este suconjunto calcula la media, el máximo, la cantidad de copas totales y la desviación estándar de la edad para cada combinación de tipo de bebida. Finalemnte, agrega una nueva columna que indique cuántas personas se encuentran en cada grupo de tipo de bebida.

<pre>
# Generar datos ficticios
num_elementos <- 100
edades <- sample(18:70, num_elementos, replace = TRUE)
sexos <- sample(c("Hombre", "Mujer"), num_elementos, replace = TRUE)
tipos_bebida <- sample(c("Cerveza", "Vino", "Refresco", "Cóctel", "Agua"), num_elementos, replace = TRUE)
cantidad_copas <- sample(1:5, num_elementos, replace = TRUE)

# Crear el data frame de bebidas
bebidas <- data.frame(
  Edad = edades,
  Sexo = sexos,
  Bebida = tipos_bebida,
  Copas = cantidad_copas
)
</pre>
4) Dado un data frame llamado `peliculas`, indique los 2 géneros con mayor puntuación media por país pero solo de peliculas para mayores de 13 o superiores, que incluya el número de películas en ese género, su beneficio medio (ganancia-presupuesto), la desviación estándar de la puntuación y la puntuación media. Ordenar los resultados por puntuación media por país de forma descendente.

<pre>
# Crear un data frame con 150 filas
num_filas <- 150

# Generar datos ficticios
set.seed(123)  # Para reproducibilidad
paises <- sample(c("EE. UU.", "Reino Unido", "Francia", "España", "Italia"), num_filas, replace = TRUE)
nombres <- paste("Película", 1:num_filas)
años <- sample(1980:2023, num_filas, replace = TRUE)
puntuaciones <- round(runif(num_filas, 1, 10), 1)
tematicas <- sample(c("Acción", "Drama", "Comedia", "Ciencia Ficción", "Animación"), num_filas, replace = TRUE)
directores <- paste("Director", 1:num_filas)
companias <- sample(c("Warner Bros.", "Universal Pictures", "Disney", "Sony Pictures", "Paramount Pictures"), num_filas, replace = TRUE)
presupuestos <- round(runif(num_filas, 1000000, 50000000), 2)
ganancias <- round(presupuestos * runif(num_filas, 0.5, 2.5), 2)
ratings <- sample(c("G", "PG", "PG-13", "R", "NC-17"), num_filas, replace = TRUE)  # Columna de rating ficticio

# Crear el data frame
peliculas <- data.frame(
  País = paises,
  Nombre = nombres,
  Año = años,
  Puntuación = puntuaciones,
  Temática = tematicas,
  Director = directores,
  Compañía = companias,
  Presupuesto = presupuestos,
  Ganancia = ganancias,
  Rating = ratings
)
</pre>
5) Dado un conjunto de datos llamado notas que contiene información sobre las notas de los estudiantes en varias asignaturas, agrega una columna con la nota promedio de cada estudiante. Previamente reemplaza los valores faltantes con 0 (HINT: usa replace_na).

<pre>
# Generar datos ficticios
estudiantes <- paste("Estudiante", 1:50)
notas_matematicas <- sample(c(NA, 5, 6, 7, 8, 9, 10), 50, replace = TRUE)
notas_historia <- sample(c(NA, 4, 5, 6, 7, 8), 50, replace = TRUE)
notas_ciencias <- sample(c(NA, 6, 7, 8, 9, 10), 50, replace = TRUE)

# Crear el data frame
notas <- data.frame(
  Estudiante = estudiantes,
  Nota_Matemáticas = notas_matematicas,
  Nota_Historia = notas_historia,
  Nota_Ciencias = notas_ciencias
)
</pre>

## Practicando...

In [None]:
starwars %>% print

In [None]:
# Selecciona solo las columnas name, height y mass.

In [None]:
starwars %>% select(name, height, mass) %>% arrange(mass) %>% head(10)

In [None]:
starwars %>% select(name, height, mass) %>% slice_min(n = 10, mass)

In [None]:
# Agrupa los personajes por especie y calcula la masa promedio por grupo.

In [None]:
starwars %>% group_by(species) %>% summarize(masa_promedio = mean(mass, na.rm = TRUE)) %>% 
    filter(!is.nan(masa_promedio))

In [None]:
starwars %>% filter(species == "Xexto") %>% print

In [None]:
starwars %>% filter(species == "Droid") %>% select(name, species, height) %>% arrange(desc(height))

In [None]:
# Encuentra el personaje más alto de cada especie.
los_mas_altos <- starwars %>% group_by(species) %>% summarise(height = max(height, na.rm=TRUE))
print(los_mas_altos)
merge(starwars, los_mas_altos) %>% filter(species == "Droid") %>% print

In [None]:
starwars %>% group_by(species) %>% summarise(el_mas_alto = max(height, na.rm=TRUE))


In [None]:
# Calcula el IMC (Índice de Masa Corporal) de cada personaje usando la fórmula...
# Luego, ordena los personajes por IMC y filtra los que tienen valores extremos (IMC > 40 o < 15).

In [None]:
starwars %>% select(name, height, mass) %>% mutate(imc = mass / ((height/100)^2)) %>% 
    arrange(imc) %>% filter(imc >= 15 & imc <= 40)

In [None]:
# Identifica los planetas (homeworld) con más diversidad de especies.
starwars %>% 
    filter(!is.na(homeworld)) %>% 
    group_by(homeworld) %>% 
    summarize(diversidad = n_distinct(species)) %>%
    arrange(desc(diversidad))

In [None]:
summary(starwars)

In [None]:
?quantile

In [None]:
qq0 <- starwars %>% summarize_if(is.numeric, quantile, probs = 0, na.rm = TRUE)
qq1 <- starwars %>% summarize_if(is.numeric, quantile, probs = 0.25, na.rm = TRUE)
print(qq0)
print(qq1)

In [None]:
starwars %>% summarise_if(is.numeric, list(min, mean, max), na.rm = TRUE)

In [None]:
starwars %>% summarise_if(is.numeric, is.na) %>% summarise_all(sum)

In [None]:
starwars %>% mutate_if(is.numeric, is.na) %>% summarise_if(is.logical, sum)