# Módulo 3: Paquetes y Carga de datos

En este tercer módulo concentraremos nuestra atención en cómo instalar y cargar paquetes y cómo cargar bases de datos que se encuentren en archivos.

Al finalizar este módulo estarás en capacidad de:

- Instalar y cargar paquetes en R
- Cargar bases de datos de paquetes y que estén en archivos `.txt`, `.xlxs` y `.csv`



In [51]:
install.packages("gapminder")
install.packages("readxl")
install.packages("tidyverse")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



## Paquetes

Ya tenemos claro cómo se escriben líneas de código para hacer operaciones aritméticas, de relación y lógicas en R. También tenemos claro los diferentes tipos de objetos que existen en R y ya conocemos algunas funciones.

Ahora, podemos hablar de los paquetes en R. Los paquetes son un conjunto de funciones y bases de datos desarrollados por la comunidad. Aumentan la potencia de R mejorando las funcionalidades básicas de R existentes o añadiendo otras nuevas.

Tu primera actividad será leer el Capítulo 7 del libro Empezando a usaR: Una guía paso a paso.  Recuerda que el libro lo encuentras  en el menú principal del curso en el primer módulo o haciendo click en el siguiente link:

Empezando a usaR: Una guía paso a paso.

Una vez termines de leer el Capítulo 7, regresa a esta página para continuar con nuestras actividades de este módulo.  No continúes si aún no has leído el Capítulo 7 del libro.

1. Un paquete en R es una colección de `funciones`, código y datos que sirve para realizar tareas `específicas`.

2. Si quiero usar un paquete debo cargarlo cada vez que lo necesite, y para eso se usa la función `library()`.

No es load.library

## Carga de datos

Ya tenemos claro cómo instalar y cargar paquetes en R. Ahora, concentremos nuestra atención en cómo cargar datos que se encuentren incluidos en paquetes o en archivos `.txt`, `.csv` o `.xlxs`.

Lee el Capítulo 8 del libro Empezando a usaR: Una guía paso a paso.  Ya sabes dónde encontrar el libro.

Una vez termines de leer el Capítulo 8, regresa a esta página para hacer un ejercicio y posteriormente unas unas actividades de chequeo. No continúes si aún no has leído el Capítulo 8 del libro.

### Archivos `.txt`

In [None]:
# leyendo el archivo .txt
# puede que se necesite usar la ruta absoluta del archivo
employee <- read.table("employee.txt", header = TRUE, sep = ",")

class(employee)

### Archivos `.csv`

In [None]:
# leyendo el archivo .csv
employee2 <- read.csv("employee.csv", header = TRUE, sep = ";")

# verificando la clase del objeto
class(employee2)

### Archivos `.xlsx`

In [None]:
# install.packages("readxl")
# cargando el paquete
library(readxl)

# leyendo datos del archivo .xlsx que está en hoja2
employee3 <- read_excel("employee.xlsx", sheet = 2, range = "C2:E62")

class(employee3)

### Extraer datos de paquetes

In [12]:
# install.packages("gapminder")

# cargando el paquete gapminder
library(gapminder)

# listando las bases de datos disponibles
data()

Para listar bases de datos específicas

In [52]:
data(package = 'gapminder')

head(gapminder)

country,continent,year,lifeExp,pop,gdpPercap
<fct>,<fct>,<int>,<dbl>,<int>,<dbl>
Afghanistan,Asia,1952,28.801,8425333,779.4453
Afghanistan,Asia,1957,30.332,9240934,820.853
Afghanistan,Asia,1962,31.997,10267083,853.1007
Afghanistan,Asia,1967,34.02,11537966,836.1971
Afghanistan,Asia,1972,36.088,13079460,739.9811
Afghanistan,Asia,1977,38.438,14880372,786.1134


In [58]:
library(gapminder)

colombia <- gapminder %>%
  filter(country == "Colombia") %>%
  slice(1) %>%
  select(-year) %>%
  summarise(meanLifeExp = mean(lifeExp), meanPop = mean(pop), meanGdpPercap = mean(gdpPercap))

colombia

meanLifeExp,meanPop,meanGdpPercap
<dbl>,<dbl>,<dbl>
50.643,12350771,2144.115


## Ejercicio 1

Como lo hemos discutido anteriormente, es común que los datos que analicemos sean recolectados de muchas maneras y sean guardados en archivos. Nuestra primera tarea en cualquier proyecto que implique analizar datos será cargar la base de datos.

Para este ejercicio tenemos una base de datos que incluye todas las canciones que han estado en el Top 200 de las listas semanales (Global) de Spotify en 2020 y 2021. Esta base de datos es suministrada por Pillai (2021). La base de datos se encuentra en el archivo spotify_dataset.csv.

La base cuenta con las siguientes 23 variables:

- `Highest.Charting.Position`: La posición más alta en la que ha estado la canción en las listas semanales de Spotify Top 200 Global Charts en 2020 y 2021.

- `Number.of.Times.Charted`: El número de veces que la canción ha estado en la lista de las 200 mejores canciones semanales de Spotify en 2020 y 2021.

- `Week.of.Highest.Charting`: La semana en la que la canción tuvo la posición más alta en las listas globales semanales de las 200 mejores canciones de Spotify en 2020 y 2021.

- `Song.Name`: El nombre de la canción que ha estado en las Top 200 Weekly Global Charts de Spotify en 2020 & 2021.

- `Song.ID`: El ID de la canción proporcionado por Spotify (único para cada canción).

- `Streams`: Número aproximado de streams que tiene la canción.

- `Artist`: El artista o artistas principales que han participado en la elaboración de la canción.

- `Artist.Followers`: El número de seguidores que tiene el artista principal en Spotify.

- `Genre`: Los géneros a los que pertenece la canción.

- `Release.Date`: La fecha inicial de lanzamiento de la canción.

- `Weeks.Charted`: Las semanas que la canción ha estado en el Top 200 de las listas semanales de Spotify en 2020 y 2021.

- `Popularity`: La popularidad de la canción. El valor estará entre 0 y 100, siendo 100 la más popular.

- `Danceability`: La bailabilidad describe lo adecuado que es un tema para bailar basándose en una combinación de elementos musicales que incluyen el tempo, la estabilidad del ritmo, la fuerza del compás y la regularidad general. Un valor de 0,0 es el menos bailable y 1,0 es el más bailable.

- `Acousticness`: Una medida de 0,0 a 1,0 de si la pista es acústica.

- `Energy`: La energía es una medida de 0,0 a 1,0 y representa una medida perceptiva de intensidad y actividad. Normalmente, las pistas energéticas se sienten rápidas, fuertes y ruidosas.

- `Liveness`: Detecta la presencia de público en la grabación. Los valores más altos de liveness representan una mayor probabilidad de que la pista haya sido interpretada en directo.

- `Loudness`: La sonoridad general de una pista en decibelios (dB). Los valores de sonoridad se promedian en toda la pista. Los valores suelen oscilar entre -60 y 0 db.

- `Speechiness`: La expresividad detecta la presencia de palabras habladas en una pista. Cuanto más exclusivamente hablada sea la grabación (por ejemplo, un programa de entrevistas, un audiolibro o una poesía), más se acercará a 1,0 el valor del atributo.

- `Tempo`: El tempo global estimado de una pista en pulsaciones por minuto (BPM). En la terminología musical, el tempo es la velocidad o el ritmo de una pieza determinada y se deriva directamente de la duración media de los tiempos.

- `Duration..ms.`: Duración de la canción en milisegundos.

- `Valence`: Una medida de 0,0 a 1,0 que describe la positividad musical que transmite una pista. Las pistas con valencia alta suenan más positivas (por ejemplo, felices, alegres, eufóricas), mientras que las pistas con valencia baja suenan más negativas (por ejemplo, tristes, deprimidas, enfadadas).

- `Chord`: El acorde principal de la canción instrumental.

Crea el objeto spotify en el que cargarás la base de datos disponible en el archivo `spotify_dataset.csv`. Recuerda que en este caso los datos están separados por comas.

In [59]:
# Carga de bases de datos
spotify <- read.csv("spotify_dataset.csv", header = TRUE, sep = ",")

Ahora constata que el objeto spotify sea de clase data.frame.

In [60]:
class(spotify)

Mira la clase de cada una de las variables que está en el objeto spotify. Adicionalmente, mira la descripción de las variables y determina que variable no tiene la clase correcta.

In [61]:
str(spotify)

'data.frame':	1556 obs. of  23 variables:
 $ Index                    : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Highest.Charting.Position: int  1 2 1 3 5 1 3 2 3 8 ...
 $ Number.of.Times.Charted  : int  8 3 11 5 1 18 16 10 8 10 ...
 $ Week.of.Highest.Charting : chr  "2021-07-23--2021-07-30" "2021-07-23--2021-07-30" "2021-06-25--2021-07-02" "2021-07-02--2021-07-09" ...
 $ Song.Name                : chr  "Beggin'" "STAY (with Justin Bieber)" "good 4 u" "Bad Habits" ...
 $ Streams                  : chr  "48,633,449" "47,248,719" "40,162,559" "37,799,456" ...
 $ Artist                   : chr  "Måneskin" "The Kid LAROI" "Olivia Rodrigo" "Ed Sheeran" ...
 $ Artist.Followers         : int  3377762 2230022 6266514 83293380 5473565 5473565 8640063 6080597 36142273 3377762 ...
 $ Song.ID                  : chr  "3Wrjm47oTz2sjIgck11l5e" "5HCyWlXZPP0y6Gqq8TgA20" "4ZtFanR9U6ndgddUvNcjcG" "6PQ88X9TkUIAUIZJHW2upE" ...
 $ Genre                    : chr  "['indie rock italiano', 'italian pop']" "['australia

Ahora debemos corregir la clase variable `Stream`. Esta variable tiene en el archivo original comas para separar los miles y los millones. Al momento de leer los datos, R creyó que se trata de unos caracteres. Para convertir esta variable a un entero, debemos remover las comas. Eso lo podemos hacer con la función `gesub()`. Esta función permite cambiar caracteres en una cadena de caracteres. El primer argumento corresponde a `pattern` que especifica los caracteres que se quieren remplazar que se expresan entre comillas (en este caso una coma: `“,”`). El segundo argumento, `replacement`, son los caracteres con los que se quieren remplazar los caracteres previamente especificados. En este caso no queremos remplazar las comas por ningún otro caracter, por tanto el segundo argumento será `replacement = ““`. El tercer argumento es el objeto sobre el cual se quiere aplicar este proceso de sustitución.

Por tanto, podemos hacer el cambio de clase a entero de la siguiente manera.

In [63]:
spotify$Streams <- as.integer(gsub(",", "", spotify$Streams))

# chequeo
class(spotify$Streams)

## Ejercicio 2

Ahora carguemos una base de datos que incluye una lista completa de películas y series disponibles en varias plataformas de streaming. Esta base está en el archivo movies_shows.txt. La base de datos contiene las siguientes 9 variables:

- `Title`: Nombre de la serie o película

- `Year` : Año

- `Age`: Clasificación por edades de las películas

- `Rotten.Tomatoes`: Calificación de la serie o película en Rotten Tomatoes[https://www.rottentomatoes.com]. La calificación máxima es 100.

- `Netflix` : Una variable cualitativa que representa la presencia o no de la serie o película en esta plataforma. Toma el valor de 1 si la serie o película está en Netflix y 0 en caso contrario

- `Hulu`: Una variable cualitativa que representa la presencia o no de la serie o película en esta plataforma. Toma el valor de 1 si la serie o película está en Hulu y 0 en caso contrario

- `Prime.Video`: Una variable cualitativa que representa la presencia o no de la serie o película en esta plataforma. Toma el valor de 1 si la serie o película está en Prime.Vide y 0 en caso contrario

- `Disney.`: Una variable cualitativa que representa la presencia o no de la serie o película en esta plataforma. Toma el valor de 1 si la serie o película está en Disney+ y 0 en caso contrario

- `Type`: Una variable cualitativa que representa si se trata de una serie o película. Toma el valor de 1 si se trata de una serie y 0 si es una película

> Esta base de datos fue creada apartir de dos bases disponibles [aquí](https://www.kaggle.com/ruchi798/movies-on-netflix-prime-video-hulu-and-disney) y [aquí](https://www.kaggle.com/ruchi798/tv-shows-on-netflix-prime-video-hulu-and-disney).


Crea el objeto movies.shows en el que cargarás la base de datos disponible en el archivo movies_shows.txt. Recuerda que en este caso los datos están separados por comas.

In [64]:
# Carga de bases de datos
movies.shows <- read.table("movies_shows.txt", header = TRUE, sep = ",")

Ahora constata que el objeto movies.shows sea de clase data.frame.

In [65]:
class(movies.shows)

Mira la clase de cada una de las variables que está en el objeto movies.shows. Adicionalmente, mira la descripción de las variables y determina que variable no tiene la clase correcta.

In [66]:
str(movies.shows)

'data.frame':	14883 obs. of  9 variables:
 $ Title          : chr  "The Irishman" "Dangal" "David Attenborough: A Life on Our Planet" "Lagaan: Once Upon a Time in India" ...
 $ Year           : int  2019 2016 2020 2001 2018 2018 2020 2017 2018 2020 ...
 $ Age            : chr  "18+" "7+" "7+" "7+" ...
 $ Rotten.Tomatoes: chr  "98/100" "97/100" "95/100" "94/100" ...
 $ Netflix        : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Hulu           : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Prime.Video    : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Disney.        : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Type           : int  0 0 0 0 0 0 0 0 0 0 ...


Porque las columnas `Netflix`, `Hulu`, `Prime.Video` no son una sola columna `platform`? Porque la columna `Rotten.Tomatoes` no es de tipo `numeric`?

Finalmente, corrija la clase de las variables que detecto que no estaban bien.

In [67]:
movies.shows$Netflix <- as.factor(movies.shows$Netflix)
movies.shows$Hulu <- as.factor(movies.shows$Hulu)
movies.shows$Prime.Video <- as.factor(movies.shows$Prime.Video)
movies.shows$Disney. <- as.factor(movies.shows$Disney.)
movies.shows$Type <- as.factor(movies.shows$Type)

movies.shows$Rotten.Tomatoes <- as.numeric(gsub("/100", "", movies.shows$Rotten.Tomatoes))

str(movies.shows)

'data.frame':	14883 obs. of  9 variables:
 $ Title          : chr  "The Irishman" "Dangal" "David Attenborough: A Life on Our Planet" "Lagaan: Once Upon a Time in India" ...
 $ Year           : int  2019 2016 2020 2001 2018 2018 2020 2017 2018 2020 ...
 $ Age            : chr  "18+" "7+" "7+" "7+" ...
 $ Rotten.Tomatoes: num  98 97 95 94 94 94 93 92 92 92 ...
 $ Netflix        : Factor w/ 2 levels "0","1": 2 2 2 2 2 2 2 2 2 2 ...
 $ Hulu           : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
 $ Prime.Video    : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
 $ Disney.        : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
 $ Type           : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...


## Ejercicio 3

a. Guarda tu script en un archivo con el nombre `Script_ejer_cap_8.R`.

b. Guarda tu workspace en un archivo con el nombre Ws_ejer_cap_8.RData.


In [None]:
save.image(file = "Ws_ejer_cap_8.RData")

## Actividades

A continuación encontrarás un link para descargar un archivo en formato `.csv` que emplea comas como delimitador de los datos.

archivo_datos.csv

Carga el archivo en R.

¿Cuántas observaciones tiene esta base de datos?

In [75]:
datos <- read.csv("archivo_datos.csv", header = TRUE, sep = ",")

# observaciones - variables
# filas - columnas
dim(datos)

Carga la base de datos que se llama gapminder del paquete del mismo nombre.

¿Cuántas variables tiene esta base de datos?

In [77]:
dim(gapminder)

Lee el Capítulo 9 del libro Empezando a usaR: Una guía paso a paso.  


Una vez termines de leer el capítulo 9, regresa a esta página para hacer unas actividades de chequeo. No continúes si aún no has leído el capítulo 9 del libro.

1. Se le entiende por información cuando encontramos `relaciones` en los datos

2. Empareja cada una de las tareas que podemos hacer con los datos y su respectiva descripción.

- Resumir: Simplificar la representación de los datos para generar información

- Visualización: Facilita la comprensión y el descubrimiento de los datos por medio de gráficos

- Clasificación: Predecir la categoría de un individuo

- Clustering: Encontrar grupos de elementos similares

- Detección de Excepciones: Encontrar individuos con características o comportamiento diferentes

## Evaluación

2. Para esta pregunta necesitaras emplear R. Carga el paquete `MASS`. Si no lo tienes ya instalado tendrás que instalarlo. Ahora, carga el `data.frame` de nombre `anorexia` que se encuentra en dicho paquete. ¿Cuál es la clase de la variable `Treat`?

In [84]:
install.packages("MASS")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [86]:
library(MASS)

In [87]:
anorexia <- as.data.frame(anorexia)

class(anorexia$Treat)

In [88]:
str(anorexia)

'data.frame':	1 obs. of  1 variable:
 $ anorexia: chr "anorexia"


Para esta pregunta necesitaras emplear R. Carga el paquete `MASS`. Si no lo tienes ya instalado tendrás que instalarlo. Ahora, carga el `data.frame` de nombre `Boston` que se encuentra en dicho paquete. ¿Cuántas variables tiene ese `data.frame`?

In [89]:
boston <- as.data.frame(Boston)
dim(boston)


4. Hemos cargado archivos que terminan en .txt. En este contexto txt significa `archivo de texto`

5. Para esta pregunta necesitaras emplear R. Carga el archvio de nombre `archivo6.csv` ¿Cuántas observaciones tiene ese `data.frame`?

In [90]:
datos6 <- read.csv("archivo_datos.csv", header = TRUE, sep = ",")

dim(datos6)

# Referencias

Sashank Pillai, “Spotify Top 200 Charts (2020-2021).” Kaggle, 2021, doi: 10.34740/KAGGLE/DSV/2529719.