# 1. Limpieza y preparación de los datos

El directorio `data/preprocessed` contiene los datos preprocesados. Es decir los datos que fueron transformados a un formato más conveniente para su uso y unidos en un solo archivo.

En este caso, los datos fueron transformados a un formato `csv` utilizando el script: `scripts/Data Transformation.r`.

In [1]:
# Cargamos las librerías necesarias
library(readr) # Para leer archivos
library(dplyr) # Para manipulación de datos
library(lubridate) # Para manipulación de fechas


Attaching package: 'dplyr'


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



Attaching package: 'lubridate'


The following objects are masked from 'package:base':

    date, intersect, setdiff, union




## 1.1 Importando los datos

Usaremos la función `read_csv` del paquete `readr` para leer el archivo `data.csv`.

Ya que nos ofrece la facilidad de definir el tipo de dato de cada columna de forma automática (también es posible definirla de forma manual de ser necesario).

Puede encontrar más información en los siguientes enlaces:
- [read_csv](https://readr.tidyverse.org/reference/read_delim.html)
- [readr](https://readr.tidyverse.org/)

In [2]:
# Cargamos los datos
spotifyStream <- read_csv("../data/preprocessed/data.csv")

[1mRows: [22m[34m12835[39m [1mColumns: [22m[34m4[39m
[36m──[39m [1mColumn specification[22m [36m────────────────────────────────────────────────────────[39m
[1mDelimiter:[22m ","
[31mchr[39m  (2): artistName, trackName
[32mdbl[39m  (1): msPlayed
[34mdttm[39m (1): endTime

[36mℹ[39m Use `spec()` to retrieve the full column specification for this data.
[36mℹ[39m Specify the column types or set `show_col_types = FALSE` to quiet this message.


La salida anterior nos muestra que la asignación de los tipos de datos fue correcta.
- msPlayed: double
- trackName: character
- artistName: character
- EndTime: date

In [3]:
# Visualizamos el encabezado del dataset
head(spotifyStream)

endTime,artistName,trackName,msPlayed
<dttm>,<chr>,<chr>,<dbl>
2022-03-29 22:00:00,Doja Cat,Say So,88094
2022-03-30 23:48:00,Carla Morrison,Eres Tú,210140
2022-03-31 21:20:00,Tessa Violet,Bored,184401
2022-03-31 21:24:00,Porta,Animales racionales,229573
2022-03-31 21:28:00,Porta,Días Grises,233353
2022-03-31 21:31:00,Tessa Violet,Bad Ideas,179173


In [4]:
# Visualizamos el pie de los datos
tail(spotifyStream)

endTime,artistName,trackName,msPlayed
<dttm>,<chr>,<chr>,<dbl>
2023-03-31 20:19:00,Taylor Swift,Blank Space,231826
2023-03-31 20:23:00,Tessa Violet,I Don't Get to Say I Love You Anymore,210013
2023-03-31 20:27:00,Carla Morrison,Eres Tú,228253
2023-03-31 20:30:00,MisterWives,3 small words,193026
2023-03-31 20:34:00,Tessa Violet,Games,221051
2023-03-31 20:36:00,Tessa Violet,YES MOM,162360


In [5]:
# Visualizamos la estructura de los datos
str(spotifyStream)

spc_tbl_ [12,835 × 4] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ endTime   : POSIXct[1:12835], format: "2022-03-29 22:00:00" "2022-03-30 23:48:00" ...
 $ artistName: chr [1:12835] "Doja Cat" "Carla Morrison" "Tessa Violet" "Porta" ...
 $ trackName : chr [1:12835] "Say So" "Eres Tú" "Bored" "Animales racionales" ...
 $ msPlayed  : num [1:12835] 88094 210140 184401 229573 233353 ...
 - attr(*, "spec")=
  .. cols(
  ..   endTime = [34mcol_datetime(format = "")[39m,
  ..   artistName = [31mcol_character()[39m,
  ..   trackName = [31mcol_character()[39m,
  ..   msPlayed = [32mcol_double()[39m
  .. )
 - attr(*, "problems")=<externalptr> 


La función `str` nos muestra la estructura de un objeto.

Puede encontrar más información en el siguiente enlace [`str`](https://www.rdocumentation.org/packages/utils/versions/3.6.2/topics/str).

In [6]:
# Verificamos valores nulos
sum(is.na(spotifyStream))

La función `is.na()` nos permite identificar los valores faltantes.
La función `sum()` nos permite sumar los valores.

Puede encontrar más información en los siguientes enlaces:
- [is.na()](https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/is.na)
- [sum()](https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/sum)

In [7]:
# Verificamos la cantidad de valores únicos que hay en cada columna
length(unique(spotifyStream$artistName)) # Artistas únicos
length(unique(spotifyStream$trackName)) # Canciones únicas

La función `unique()` nos permite obtener los valores únicos de una columna y la función `length()` nos permite obtener la longitud de un vector.

Puede encontrar más información en los siguientes enlaces:
- [unique()](https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/unique)
- [length()](https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/length)

En nuestros datos podemos ver que tenemos 157 artistas únicos y 479 canciones únicas.

## 1.2 Limpieza y formateo

El paquete `readr` se encargo de indicar que la columna `endTime` contiene una fecha y hora, por lo que para su correcta manipulación utilizaremos el paquete `lubridate` que nos permite trabajar con fechas y horas.

Puede encontrar más información sobre el paquete en el siguiente enlace: [lubridate](https://lubridate.tidyverse.org/)

Las funciones que utilizaremos son:
- `day()` para obtener el día
- `month()` para obtener el mes
- `year()` para obtener el año
- `wday()` para obtener el día de la semana
- `hour()` para obtener la hora
- `weekdays()` para obtener el nombre del día de la semana

Para agregar las nuevas columnas utilizaremos la función `mutate()` del paquete `dplyr` y el operador `|>` que nos permite encadenar funciones.

Puede encontrar más información sobre el paquete en los siguientes enlaces: [dplyr](https://dplyr.tidyverse.org/) y [mutate](https://dplyr.tidyverse.org/reference/mutate.html)

In [8]:
# Extraemos el dia, mes, año y dia de la semana de la columna endTime
spotifyStream <- spotifyStream |>
  mutate(hour = hour(endTime)) |>
  mutate(day = day(endTime)) |>
  mutate(month = month(endTime)) |>
  mutate(year = year(endTime)) |>
  mutate(weekday = wday(endTime), weekdayName = weekdays(endTime))


La información de las columnas agregadas es la siguiente:
- `hour`: Hora de la reproducción
- `day`: Día de la reproducción
- `month`: Mes de la reproducción
- `year`: Año de la reproducción
- `weekday`: Día de la semana de la reproducción
- `weekdayName`: Nombre del día de la semana de la reproducción

La columna `msPlayed` contiene el tiempo que se reprodujo la canción en milisegundos, por lo que necesitamos convertirlo a minutos para que sea más fácil de leer.
Aprovecharemos para crear también una columna con el tiempo de reproducción en horas.

In [9]:
spotifyStream <- spotifyStream |>
  mutate(minutesPlayed = msPlayed / 60000) |> # Convertir ms a minutos
  mutate(hoursPlayed = msPlayed / 3600000) # Convertir ms a horas

Ahora eliminamos las columnas que ya no necesitamos, utilizando la función `select()` del paquete `dplyr`.

Puede encontrar más información sobre la función en el siguiente enlace: [select()](https://dplyr.tidyverse.org/reference/select.html)

In [10]:
spotifyStream <- spotifyStream |>
  select(-msPlayed) |> # Eliminamos la columna msPlayed
  select(-endTime) # Eliminamos la columna endTime

Revisamos algunas métricas de los datos utilizando la función `summary()` del paquete base de R.

Puede encontrar más información sobre la función en el siguiente enlace: [summary()](https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/summary)

In [11]:
summary(spotifyStream)

  artistName         trackName              hour            day       
 Length:12835       Length:12835       Min.   : 0.00   Min.   : 1.00  
 Class :character   Class :character   1st Qu.:11.00   1st Qu.: 8.00  
 Mode  :character   Mode  :character   Median :16.00   Median :16.00  
                                       Mean   :13.94   Mean   :15.88  
                                       3rd Qu.:20.00   3rd Qu.:24.00  
                                       Max.   :23.00   Max.   :31.00  
     month             year         weekday      weekdayName       
 Min.   : 1.000   Min.   :2022   Min.   :1.000   Length:12835      
 1st Qu.: 3.000   1st Qu.:2022   1st Qu.:2.000   Class :character  
 Median : 7.000   Median :2022   Median :4.000   Mode  :character  
 Mean   : 6.191   Mean   :2022   Mean   :3.949                     
 3rd Qu.: 8.000   3rd Qu.:2023   3rd Qu.:6.000                     
 Max.   :12.000   Max.   :2023   Max.   :7.000                     
 minutesPlayed      hoursPl

## 1.3 Exportación

Finalmente utilizamos la función `write_csv()` del paquete `readr` para guardar el archivo en formato csv.

Puede encontrar más información sobre esta función en el siguiente enlace: [readr](https://readr.tidyverse.org/reference/write_delim.html).


In [12]:
write_csv(spotifyStream, "../data/processed/spotifyStream.csv")