# Resumen de los principales comandos utilizados en R

| **Comando**               | **Descripción**                                                                                                                                                     | **Ejemplo de Uso**                                                                                  |
|---------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------|
| `library()`               | Carga una librería o paquete para usar sus funciones en R.                                                                                                         | `library(dplyr)`                                                                                  |
| `suppressMessages()`      | Ejecuta un comando suprimiendo los mensajes informativos o de advertencia.                                                                                         | `suppressMessages(library(dplyr))`                                                                |
| `options()`               | Establece opciones globales en R para personalizar el comportamiento de ciertas funciones o paquetes.                                                              | `options(readr.show_types = FALSE)`                                                               |
| `read_csv()`              | Lee un archivo CSV y lo convierte en un tibble o `data.frame`.                                                                                                     | `df <- read_csv('data/file.csv')`                                                                 |
| `read_excel()`            | Lee un archivo Excel (.xlsx o .xls) y lo convierte en un tibble o `data.frame`.                                                                                     | `df <- read_excel('data/file.xlsx')`                                                              |
| `read_tsv()`              | Lee un archivo TSV y lo convierte en un tibble o `data.frame`.                                                                                                     | `df <- read_tsv('data/file.tsv')`                                                                 |
| `inner_join()`            | Combina dos tibbles o `data.frames` manteniendo solo las filas con valores coincidentes en una clave común.                                                         | `result <- df1 %>% inner_join(df2, by = "id")`                                                    |
| `mutate()`                | Crea o modifica columnas en un tibble o `data.frame`.                                                                                                              | `df <- df %>% mutate(new_col = old_col * 2)`                                                      |
| `as.Date()`               | Convierte una cadena de texto en un objeto de fecha, especificando el formato.                                                                                      | `df <- df %>% mutate(date_col = as.Date(text_col, format = "%Y-%m-%d"))`                          |
| `summarize()`             | Crea resúmenes de datos agregados, como promedios, mínimos o máximos, agrupados opcionalmente por una columna.                                                      | `summary <- df %>% summarize(avg_value = mean(value))`                                            |
| `str_to_lower()`          | Convierte cadenas de texto a minúsculas, útil para estandarizar valores.                                                                                            | `df <- df %>% mutate(clean_text = str_to_lower(text_col))`                                         |
| `str_remove()`            | Elimina patrones específicos de una cadena de texto.                                                                                                               | `df <- df %>% mutate(clean_price = str_remove(price, " dollars"))`                                |
| `count()`                 | Cuenta las ocurrencias de valores únicos en una columna.                                                                                                           | `counts <- df %>% count(column_name)`                                                             |
| `filter()`                | Filtra filas de un tibble o `data.frame` según condiciones lógicas.                                                                                                | `df <- df %>% filter(value > 10)`                                                                 |
| `select()`                | Selecciona columnas específicas de un tibble o `data.frame`.                                                                                                       | `df <- df %>% select(col1, col2)`                                                                 |
| `arrange()`               | Ordena filas en función de una o más columnas, en orden ascendente o descendente.                                                                                   | `df <- df %>% arrange(desc(col1))`                                                                |
| `group_by()`              | Agrupa filas en categorías, permitiendo realizar operaciones agrupadas.                                                                                            | `df_grouped <- df %>% group_by(category_col)`                                                     |
| `mean()`                  | Calcula el promedio de una columna numérica.                                                                                                                       | `average <- mean(df$numeric_col)`                                                                 |
| `min()`                   | Encuentra el valor mínimo de una columna.                                                                                                                          | `minimum <- min(df$numeric_col)`                                                                  |
| `max()`                   | Encuentra el valor máximo de una columna.                                                                                                                          | `maximum <- max(df$numeric_col)`                                                                  |
| `round()`                 | Redondea valores numéricos a un número especificado de decimales.                                                                                                  | `df <- df %>% mutate(rounded_col = round(numeric_col, 2))`                                        |
| `glimpse()`               | Muestra una vista rápida de las columnas y tipos de datos en un tibble o `data.frame`.                                                                              | `glimpse(df)`                                                                                     |
| `head()`                  | Muestra las primeras filas de un tibble o `data.frame`.                                                                                                            | `head(df)`                                                                                        |
| `tail()`                  | Muestra las últimas filas de un tibble o `data.frame`.                                                                                                             | `tail(df)`                                                                                        |
| `as.numeric()`            | Convierte valores a formato numérico.                                                                                                                              | `df <- df %>% mutate(numeric_col = as.numeric(text_col))`                                         |
| `print()`                 | Muestra el contenido de un objeto en la consola.                                                                                                                   | `print(df)`                                                                                       |
| `nrow()`                  | Devuelve el número de filas en un tibble o `data.frame`.                                                                                                           | `total_rows <- nrow(df)`                                                                          |
| `ncol()`                  | Devuelve el número de columnas en un tibble o `data.frame`.                                                                                                        | `total_columns <- ncol(df)`                                                                       |
| `paste()`                 | Combina cadenas de texto con un separador específico.                                                                                                              | `df <- df %>% mutate(full_name = paste(first_name, last_name, sep = " "))`                        |
| `unique()`                | Extrae los valores únicos de una columna o vector.                                                                                                                 | `unique_values <- unique(df$column_name)`                                                         |
| `length()`                | Devuelve la longitud de un vector o el número de elementos en un objeto.                                                                                           | `num_elements <- length(df$column_name)`                                                          |
| `tibble()`                | Crea un tibble manualmente.                                                                                                                                        | `df <- tibble(id = c(1, 2), name = c("Alice", "Bob"))`                                            |


# Tabla de Comandos para Joins en R con `dplyr`

| **Comando**         | **Descripción**                                                                                     | **Ejemplo de Uso**                                | **Resultado Simplificado**                                                                 |
|---------------------|-----------------------------------------------------------------------------------------------------|--------------------------------------------------|-------------------------------------------------------------------------------------------|
| `inner_join()`      | Mantiene solo las filas con claves coincidentes en ambas tablas.                                    | `df1 %>% inner_join(df2, by = "id")`             | Filas comunes entre las dos tablas.                                                      |
| `left_join()`       | Mantiene todas las filas de la tabla izquierda y agrega las columnas de la derecha si coinciden.    | `df1 %>% left_join(df2, by = "id")`              | Todas las filas de la tabla izquierda, con datos faltantes (`NA`) si no hay coincidencia. |
| `right_join()`      | Mantiene todas las filas de la tabla derecha y agrega las columnas de la izquierda si coinciden.    | `df1 %>% right_join(df2, by = "id")`             | Todas las filas de la tabla derecha, con datos faltantes (`NA`) si no hay coincidencia.   |
| `full_join()`       | Mantiene todas las filas de ambas tablas, combinando datos donde coincidan las claves.              | `df1 %>% full_join(df2, by = "id")`              | Todas las filas de ambas tablas, con datos faltantes (`NA`) donde no coincidan las claves.|
| `anti_join()`       | Devuelve las filas de la tabla izquierda que no tienen coincidencia en la derecha.                  | `df1 %>% anti_join(df2, by = "id")`              | Filas de la izquierda que no aparecen en la derecha.                                      |
| `semi_join()`       | Devuelve las filas de la tabla izquierda que tienen coincidencia en la tabla derecha.               | `df1 %>% semi_join(df2, by = "id")`              | Filas de la izquierda que aparecen en la derecha.                                         |

---

## Ejemplo de Tablas y Resultados para Joins

### Tablas de Entrada

**Tabla 1 (`df1`):**

| id | nombre  |
|----|---------|
| 1  | Alice   |
| 2  | Bob     |
| 3  | Charlie |

**Tabla 2 (`df2`):**

| id | ciudad     |
|----|------------|
| 2  | Nueva York |
| 3  | Londres    |
| 4  | París      |

---

### Resultados para Cada Join

1. **`inner_join(df1, df2, by = "id")`**  
   Mantiene solo las filas con coincidencias en ambas tablas:


   | id | nombre  | ciudad     |
   |----|---------|------------|
   | 2  | Bob     | Nueva York |
   | 3  | Charlie | Londres    |

2. **`left_join(df1, df2, by = "id")`**  
   Todas las filas de la tabla izquierda (`df1`), con datos de la derecha donde coincidan las claves:


   | id | nombre  | ciudad     |
   |----|---------|------------|
   | 1  | Alice   | NA         |
   | 2  | Bob     | Nueva York |
   | 3  | Charlie | Londres    |

3. **`right_join(df1, df2, by = "id")`**  
   Todas las filas de la tabla derecha (`df2`), con datos de la izquierda donde coincidan las claves:


   | id | nombre  | ciudad     |
   |----|---------|------------|
   | 2  | Bob     | Nueva York |
   | 3  | Charlie | Londres    |
   | 4  | NA      | París      |

4. **`full_join(df1, df2, by = "id")`**  
   Todas las filas de ambas tablas:


   | id | nombre  | ciudad     |
   |----|---------|------------|
   | 1  | Alice   | NA         |
   | 2  | Bob     | Nueva York |
   | 3  | Charlie | Londres    |
   | 4  | NA      | París      |

5. **`anti_join(df1, df2, by = "id")`**  
   Filas de la izquierda que no tienen coincidencia en la derecha:


   | id | nombre  |
   |----|---------|
   | 1  | Alice   |

6. **`semi_join(df1, df2, by = "id")`**  
   Filas de la izquierda que tienen coincidencia en la derecha:


   | id | nombre  |
   |----|---------|
   | 2  | Bob     |
   | 3  | Charlie |


# Explicación del Operador `%>%` en R

El operador `%>%`, también conocido como **pipe**, es una herramienta que permite encadenar funciones de manera legible y estructurada. Es parte del paquete **`magrittr`**, que está incluido en **`tidyverse`**, y no forma parte del R base (nativo).

---

## Características del Operador `%>%`

1. **Encadena Funciones**:
   - Permite aplicar una serie de operaciones secuencialmente, enviando el resultado de una función como entrada de la siguiente.
   - Mejora la legibilidad del código.

2. **Simplifica la Sintaxis**:
   - Elimina la necesidad de usar variables temporales o anidar múltiples funciones.

3. **Compatibilidad**:
   - Funciona principalmente con librerías del `tidyverse` como `dplyr`, `tidyr`, y `ggplot2`.
   - Puede usarse en cualquier función en R que acepte un argumento de entrada explícito.

---

## Ejemplo General de Uso

```r
# Sin usar %>%
result <- as.numeric(str_remove(price, " dollars"))
```

```r
# Usando %>% para simplificar y mejorar la legibilidad
result <- price %>%
  str_remove(" dollars") %>%
  as.numeric()
```

---

## Tabla: Cuándo y Dónde Usar `%>%`

| **Característica**           | **Descripción**                                                                                                     | **Ejemplo**                                                                                             |
|------------------------------|---------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------|
| **Propósito**                | Enviar el resultado de una operación como entrada a la siguiente función.                                           | `df %>% mutate(new_col = old_col * 2) %>% summarize(mean(new_col))`                                     |
| **Uso Principal**            | Se utiliza con funciones del `tidyverse` o cualquier función que acepte un argumento explícito.                     | `listings %>% filter(price > 100) %>% select(id, price)`                                                |
| **Requisitos**               | Requiere cargar el paquete `magrittr` (o `tidyverse`).                                                              | `library(dplyr)`                                                                                        |
| **R Base vs. tidyverse**     | No es parte de R nativo, pero puede usarse fuera del `tidyverse` con funciones adecuadas.                           | `vec %>% log() %>% sqrt()`                                                                              |
| **Alternativa en R Base**    | Sin `%>%`, se pueden encadenar funciones anidándolas, pero esto puede reducir la legibilidad.                       | `sqrt(log(vec))`                                                                                        |

---

## Ejemplo del Código Original

```r
avg_price <- listings %>%
  mutate(price_clean = str_remove(price, " dollars") %>% # Limpia la columna "price" eliminando la palabra "dollars".
        as.numeric()) %>%                               # Convierte el resultado a formato numérico.
  summarize(avg_price = mean(price_clean))              # Calcula el promedio de la columna limpia.
```

### Desglose:

1. `listings %>%`  
   - El tibble `listings` es la entrada inicial para las operaciones.

2. `mutate(price_clean = str_remove(price, " dollars") %>% as.numeric())`  
   - Limpia los valores de `price`, eliminando "dollars", y convierte la columna resultante a numérica.

3. `summarize(avg_price = mean(price_clean))`  
   - Calcula el promedio (`mean()`) de la columna `price_clean`.

Este ejemplo ilustra cómo el operador `%>%` mejora la claridad del código al evitar variables intermedias y anidaciones complejas.

---

# ¿Qué es un Tibble en R?

Un **tibble** es una versión mejorada de un `data.frame` en R, diseñada para ser más legible y fácil de usar. Los tibbles son parte del paquete `tibble`, que está integrado en el ecosistema de `tidyverse`. A continuación, se describen sus principales características:

---

## Principales Características de un Tibble

1. **Impresión Mejorada**:
   - Muestra un número limitado de filas y columnas para evitar sobrecargar la consola.
   - Indica el número de filas y columnas adicionales con mensajes como "y x más variables".
   - No cambia el formato de los datos al mostrarlos.

2. **Sin Conversión Automática de Tipos**:
   - A diferencia de un `data.frame`, un tibble no convierte automáticamente cadenas de texto en factores.

3. **Compatibilidad con el Ecosistema Tidyverse**:
   - Los tibbles funcionan de manera óptima con funciones del `tidyverse`, como `dplyr` y `ggplot2`.

4. **Columnas con Datos Complejos**:
   - Permiten incluir listas o funciones como columnas.

---

## Ventajas frente a un `data.frame`

| **Característica**        | **Tibble**                          | **data.frame**                     |
|---------------------------|--------------------------------------|-------------------------------------|
| Manejo de impresión       | Muestra un resumen legible          | Puede imprimir todo el conjunto de datos, sobrecargando la consola. |
| Conversión automática     | No convierte cadenas en factores    | Convierte cadenas en factores por defecto. |
| Flexibilidad de columnas  | Permite listas y datos complejos    | Restringido a vectores simples.    |

---

## Ejemplo de Creación de un Tibble

Puedes crear un tibble manualmente o convertir un `data.frame` existente en tibble.

### Crear un Tibble desde Cero
```r
library(tibble)

# Crear un tibble manualmente
mi_tibble <- tibble(
  id = c(1, 2, 3),
  nombre = c("Alice", "Bob", "Charlie"),
  edad = c(25, 30, 35)
)

print(mi_tibble)
```

### Convertir un data.frame en Tibble
```r
# Crear un data.frame
mi_data_frame <- data.frame(
  id = c(1, 2, 3),
  nombre = c("Alice", "Bob", "Charlie"),
  edad = c(25, 30, 35)
)

# Convertir a tibble
mi_tibble <- as_tibble(mi_data_frame)

print(mi_tibble)
```

---

## Resultado de un Tibble

Al imprimir, un tibble puede verse así:
```
# A tibble: 3 × 3
     id nombre    edad
  <dbl> <chr>    <dbl>
1     1 Alice       25
2     2 Bob         30
3     3 Charlie     35
```

Este formato compacto y estructurado facilita la lectura y análisis de datos en R.


# Trabajo con Cadenas de Texto y Fechas en R

En R, las cadenas de texto y las fechas son tipos de datos comunes y tienen muchas funciones dedicadas para manipularlas de manera eficiente. Estas tareas suelen incluir limpieza, transformación, formato y análisis.

---

## 1. **Cadenas de Texto en R**

Las cadenas de texto en R se manejan principalmente a través de funciones del paquete base y el paquete `stringr` del `tidyverse`.

### Principales Funciones para Manipular Texto

| **Función**            | **Descripción**                                                                                   | **Ejemplo**                                          |
|--------------------------|-----------------------------------------------------------------------------------------------------|----------------------------------------------------|
| `nchar()`                | Devuelve la cantidad de caracteres de una cadena.                                                  | `nchar("Hola")` -> `4`                            |
| `toupper()`              | Convierte texto a mayúsculas.                                                                      | `toupper("hola")` -> `"HOLA"`                   |
| `tolower()`              | Convierte texto a minúsculas.                                                                      | `tolower("HOLA")` -> `"hola"`                   |
| `substr()`               | Extrae o reemplaza una subcadena de una cadena.                                                    | `substr("Hola Mundo", 1, 4)` -> `"Hola"`        |
| `paste()` / `paste0()`   | Combina varias cadenas de texto.                                                                   | `paste("Hola", "Mundo")` -> `"Hola Mundo"`     |
| `str_detect()`           | Verifica si un patrón está presente en una cadena (requiere `stringr`).                          | `str_detect("Hola Mundo", "Mundo")` -> `TRUE`   |
| `str_replace()`          | Reemplaza el primer patrón encontrado en una cadena.                                               | `str_replace("Hola Mundo", "Mundo", "R")` -> `"Hola R"` |
| `str_remove()`           | Elimina un patrón de una cadena.                                                                   | `str_remove("Hola Mundo", "Mundo")` -> `"Hola "` |
| `str_split()`            | Divide una cadena en una lista basada en un separador.                                             | `str_split("a,b,c", ",")` -> `c("a", "b", "c")` |

### Ejemplo Práctico

```r
library(stringr)

texto <- "Hola Mundo"
# Convertir a mayúsculas
mayusculas <- toupper(texto)
# Reemplazar "Mundo" con "R"
reemplazo <- str_replace(texto, "Mundo", "R")

print(mayusculas)  # "HOLA MUNDO"
print(reemplazo)   # "Hola R"
```

---

## 2. **Fechas en R**

Las fechas y tiempos en R se representan con clases como `Date` y `POSIXct`. Las funciones del paquete base y `lubridate` del `tidyverse` facilitan su manejo.

### Principales Clases de Fechas

| **Clase**   | **Descripción**                                       |
|-------------|-------------------------------------------------------|
| `Date`      | Representa fechas sin tiempo. Ejemplo: `"2024-12-05"`|
| `POSIXct`   | Representa fechas y horas en formato compacto.        |
| `POSIXlt`   | Representa fechas y horas como una lista de componentes. |

### Principales Funciones para Manipular Fechas

| **Función**               | **Descripción**                                                                 | **Ejemplo**                                                      |
|----------------------------|-----------------------------------------------------------------------------|------------------------------------------------------------------|
| `Sys.Date()`               | Devuelve la fecha actual en formato `Date`.                                | `Sys.Date()` -> `"2024-12-05"`                                 |
| `Sys.time()`               | Devuelve la fecha y hora actual en formato `POSIXct`.                      | `Sys.time()` -> `"2024-12-05 14:30:00"`                        |
| `as.Date()`                | Convierte texto en un objeto `Date`.                                       | `as.Date("05-12-2024", format = "%d-%m-%Y")` -> `"2024-12-05"` |
| `as.POSIXct()`             | Convierte texto en un objeto `POSIXct`.                                    | `as.POSIXct("2024-12-05 14:30:00")`                           |
| `format()`                 | Da formato a fechas en cadenas de texto.                                   | `format(Sys.Date(), "%d/%m/%Y")` -> `"05/12/2024"`           |
| `difftime()`               | Calcula la diferencia entre dos fechas.                                    | `difftime(as.Date("2024-12-06"), Sys.Date())` -> `"1 day"`   |
| `ymd()`, `dmy()`, `mdy()`  | Convierte texto en fechas según su formato (requiere `lubridate`).             | `ymd("2024-12-05")` -> `"2024-12-05"`                       |

### Ejemplo Práctico

```r
library(lubridate)

# Fecha actual
hoy <- Sys.Date()

# Convertir texto en fecha
fecha <- ymd("2024-12-05")

# Calcular diferencia en días
dias_diferencia <- as.numeric(difftime(fecha, hoy, units = "days"))

print(hoy)              # "2024-12-05"
print(fecha)            # "2024-12-05"
print(dias_diferencia)  # Ejemplo: "0"
```

---

## Tips para Trabajar con Cadenas y Fechas

1. **Limpieza de Datos**:
   - Usa `str_remove()` o `str_replace()` para eliminar o sustituir texto no deseado.
   - Convierte cadenas de texto a minúsculas o mayúsculas para estandarizar los datos.

2. **Formato de Fechas**:
   - Siempre especifica el formato al convertir texto a fechas con `as.Date()` o `lubridate`.

3. **Cálculos con Fechas**:
   - Usa `difftime()` para calcular diferencias entre fechas.
   - Usa `Sys.Date()` y `Sys.time()` para trabajar con la fecha y hora actual.

Con estas herramientas y funciones, trabajar con cadenas de texto y fechas en R se vuelve más sencillo y eficiente.


# Resumen de Comandos Utilizados en el Tidyverse

| **Comando**                         | **Descripción**                                                                                                               | **Ejemplo**                                                                                              |
|-------------------------------------|-------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|
| `library(tidyverse)`                | Carga el paquete `tidyverse`, que incluye librerías como `dplyr`, `ggplot2`, y `readr` para análisis y visualización de datos. | `library(tidyverse)`                                                                                     |
| `read_csv()`                        | Lee un archivo CSV y lo convierte en un tibble.                                                                               | `bike_data <- read_csv("data/Cleaned_Bicycle_Thefts_Open_Data.csv")`                                      |
| `head()`                            | Muestra las primeras filas de un data frame o tibble para obtener una vista rápida de los datos.                              | `head(bike_data)`                                                                                        |
| `group_by()`                        | Agrupa filas de un tibble según una o más columnas, útil para operaciones resumidas.                                          | `bike_data %>% group_by(quarter)`                                                                        |
| `summarize()`                       | Crea resúmenes de datos, como conteos o promedios, basados en las columnas agrupadas.                                         | `summarize(total_per_quarter = n())`                                                                     |
| `mutate()`                          | Crea o modifica columnas dentro de un tibble.                                                                                 | `mutate(percentage_per_location = total_per_location / total_all_location)`                              |
| `ggplot()`                          | Inicializa una visualización con el paquete `ggplot2`.                                                                        | `ggplot(aes(x = quarter, y = total_per_quarter))`                                                        |
| `geom_point()`                      | Agrega puntos a un gráfico.                                                                                                   | `geom_point()`                                                                                           |
| `geom_smooth()`                     | Agrega una línea suavizada a un gráfico, con opciones para ajustar el nivel de confianza o el grado de suavizado.             | `geom_smooth(span = 0.1, se = FALSE)`                                                                    |
| `labs()`                            | Agrega etiquetas, títulos y subtítulos a un gráfico creado con `ggplot2`.                                                     | `labs(title = "Quarterly Trends in Bike Thefts", y = "The Number of Stolen Bikes")`                      |
| `geom_col()`                        | Crea gráficos de barras para visualización de datos categóricos.                                                              | `geom_col()`                                                                                             |
| `coord_polar()`                     | Transforma un gráfico de barras en un gráfico circular o de tipo rosquilla.                                                   | `coord_polar(theta = "y")`                                                                               |
| `theme_void()`                      | Elimina elementos visuales innecesarios en un gráfico, como ejes o líneas de cuadrícula.                                      | `theme_void()`                                                                                           |
| `geom_text()`                       | Agrega etiquetas de texto a un gráfico, con opciones para personalizar posición y opacidad.                                   | `geom_text(aes(label = round(percentage_per_location, 2)), position = position_stack(vjust = 0.5))`      |
| `median()`                          | Calcula la mediana de una columna numérica.                                                                                   | `median(bike_cost, na.rm = TRUE)`                                                                        |
| `geom_point()`                      | Crea un gráfico de dispersión, útil para visualizar relaciones espaciales o geográficas.                                      | `geom_point(aes(x = long, y = lat, color = median_value), size = 4)`                                     |
| `geom_text()`                       | Agrega etiquetas de texto a gráficos de dispersión para identificar puntos.                                                   | `geom_text(size = 1.5)`                                                                                  |

---

## Ejemplo de Uso

### Agrupación y Resumen
```r
bike_data %>%
  group_by(quarter) %>%
  summarize(total_per_quarter = n())


In [1]:
library(lubridate)

# Fecha actual
hoy <- Sys.Date()

# Convertir texto en fecha
fecha <- ymd("2024-12-05")

# Calcular diferencia en días
dias_diferencia <- as.numeric(difftime(fecha, hoy, units = "days"))

print(hoy)              # "2024-12-05"
print(fecha)            # "2024-12-05"
print(dias_diferencia)  # Ejemplo: "0"


Attaching package: ‘lubridate’


The following objects are masked from ‘package:base’:

    date, intersect, setdiff, union




[1] "2025-07-12"
[1] "2024-12-05"
[1] -219


# DESAFIO1: Bienvenido a la Ciudad de Nueva York

Bienvenido a Nueva York, una de las ciudades más visitadas del mundo. Hay muchas propiedades en Airbnb en Nueva York para satisfacer la alta demanda de alojamientos temporales para los viajeros, que pueden variar desde unas pocas noches hasta varios meses. En este proyecto, analizarás más de cerca el mercado de Airbnb en Nueva York combinando datos de múltiples formatos de archivo como `.csv`, `.tsv` y `.xlsx` (archivos de Excel).

Recuerda que los archivos **CSV**, **TSV** y **Excel** son tres formatos comunes para almacenar datos. Tienes disponibles tres archivos con datos de listados de Airbnb de 2019:

### **data/airbnb_price.csv**
Este es un archivo CSV que contiene información sobre los precios y ubicaciones de los listados de Airbnb.
- **`listing_id`**: identificador único del listado
- **`price`**: precio por noche del listado en USD
- **`nbhood_full`**: nombre del distrito y vecindario donde se encuentra el listado

### **data/airbnb_room_type.xlsx**
Este es un archivo Excel que contiene información sobre las descripciones y tipos de habitaciones de los listados de Airbnb.
- **`listing_id`**: identificador único del listado
- **`description`**: descripción del listado
- **`room_type`**: Airbnb tiene tres tipos de habitaciones: habitaciones compartidas, habitaciones privadas y casas/apartamentos completos

### **data/airbnb_last_review.tsv**
Este es un archivo TSV que contiene información sobre los nombres de los anfitriones de Airbnb y las fechas de las reseñas.
- **`listing_id`**: identificador único del listado
- **`host_name`**: nombre del anfitrión del listado
- **`last_review`**: fecha de la última reseña del listado


In [None]:
# Carga la librería dplyr para manipulación de datos.
# dplyr es útil para filtrar, seleccionar, agrupar y transformar conjuntos de datos de manera eficiente.
suppressMessages(library(dplyr))

# Establece la opción para que readr no muestre los tipos de columnas al leer archivos.
# Esto evita que se impriman mensajes innecesarios en la consola al cargar datos.
options(readr.show_types = FALSE)

# Carga la librería readr para leer archivos de texto como .csv o .tsv.
# readr es conocida por su rendimiento y facilidad de uso al trabajar con archivos de texto estructurado.
library(readr)

# Carga la librería readxl para leer archivos Excel (.xlsx, .xls).
# Permite importar datos desde hojas de cálculo sin necesidad de software externo como Excel.
library(readxl)

# Carga la librería stringr para manipulación de cadenas de texto.
# stringr facilita tareas como buscar, reemplazar y transformar texto con funciones intuitivas.
library(stringr)


In [None]:
# descomprimiendo el archivo data.zip
unzip("data.zip")

## Actividad 1: Crea un reporte EDA

In [None]:
# ACA

## Actividad 2: Verifica y corrige errores en las columnas, como valores faltantes, nulos y tipo correcto

In [None]:
# ACA


## Actividad 3:  Preguntas de análisis, usa R y las librerias necesarias para contestar las siguientes preguntas.

- ¿Cuáles son las fechas de la reseña más antigua y la más reciente?
- ¿Cuántos de los listados son habitaciones privadas?
- ¿Cuál es el precio promedio de todos los listados (redondeado al centavo más cercano)?
- Combina estos cuatro valores en un tibble llamado `review_dates` con cuatro columnas: `first_reviewed`, `last_reviewed`, `nb_private_rooms` y `avg_price`.  
El tibble debe contener solo una fila con los valores.


#DESAFIO2: Toronto, Ontario 🌆. La Ciudad Reina. The 6ix.

Conocida por su vibrante escena artística, su diversidad cultural, su impresionante horizonte urbano y sus vecindarios llenos de vida, Toronto es una ciudad que nunca duerme. Sin embargo, como en cualquier gran centro urbano, enfrenta sus propios desafíos. Una preocupación creciente para los habitantes de Toronto es el aumento en el número de robos de bicicletas.

Has sido invitado a colaborar con el Servicio de Policía de Toronto para analizar y visualizar datos con el fin de descubrir patrones en la actividad de robos. Tus hallazgos e ideas visuales proporcionarán información crucial que podrá ayudar a asignar recursos de manera más efectiva y desarrollar estrategias para combatir los robos de bicicletas, garantizando una ciudad más segura para todos los ciclistas.

---

## Los Datos

El conjunto de datos utilizado para analizar los robos de bicicletas se titula `Cleaned_Bicycle_Thefts_Open_Data.csv` y está ubicado en la carpeta `data`. Este conjunto de datos contiene información esencial sobre incidentes de robo de bicicletas en una ciudad determinada. A continuación se describen los detalles de cada columna:

| **Columna**       | **Descripción**                                                                 |
|-------------------|---------------------------------------------------------------------------------|
| `date`           | La fecha en que ocurrió el robo de la bicicleta, en formato AAAA/MM/DD.          |
| `quarter`        | El trimestre del año en que ocurrió el robo (equivale a tres meses).             |
| `day_of_week`    | El día de la semana en que ocurrió el robo (por ejemplo, lunes, martes).        |
| `neighborhood`   | El vecindario donde ocurrió el robo, basado en los 140 vecindarios planificados socialmente en la ciudad. |
| `bike_cost`      | El costo reportado de la bicicleta robada, especificado en la moneda local.     |
| `location`       | El tipo específico de ubicación del robo, como estructuras residenciales, áreas comerciales, espacios públicos, etc. |
| `long`           | La longitud del centro del vecindario.                                         |
| `lat`            | La latitud del centro del vecindario.                                          |

Este conjunto de datos ofrece una visión integral de los robos de bicicletas, incluyendo cuándo y dónde ocurren, el impacto financiero y otros factores espaciales y temporales. Al analizar estos datos, puedes obtener valiosos conocimientos sobre patrones y tendencias que informen estrategias para mitigar los robos de bicicletas y mejorar la planificación urbana.

---

In [None]:
## Load tidyverse package
library(tidyverse)
## Read `bike_data`
bike_data <- read_csv("data/Cleaned_Bicycle_Thefts_Open_Data.csv")
## Take a glance of the `bike_data`
head(bike_data)

In [None]:
library(tidyverse)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.1     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [None]:
texto <- "Hola Mundo"

In [None]:
# Convertir a mayúsculas
mayusculas <- toupper(texto)

In [None]:
print(mayusculas)  # "HOLA MUNDO"

[1] "HOLA MUNDO"


In [None]:
# Reemplazar "Mundo" con "R"
reemplazo <- str_replace(texto, "Mundo", "R")

In [None]:
print(reemplazo)   # "Hola R"

[1] "Hola R"


## Actividad 4: Exploración de Tendencias en los Datos

Utiliza gráficos para descubrir tendencias significativas dentro del conjunto de datos de robos de bicicletas explorando las siguientes preguntas:

1. ¿Qué trimestre, es decir, "Q1", "Q2", "Q3" y "Q4", tiene el mayor y menor número de bicicletas robadas? Almacena tus hallazgos como variables de tipo cadena, `high` y `low`.

2. ¿Cuáles son las ubicaciones más frecuentes (por ejemplo, residenciales, áreas comerciales) de robos de bicicletas en Toronto? ¿Y qué proporción representan (redondeada a un decimal)? Almacena tus hallazgos como una variable de tipo cadena, `location`, y una variable numérica, `percentage`.

3. ¿En qué región de Toronto el valor mediano de las bicicletas robadas es el más alto? Almacena tus hallazgos como una variable de tipo cadena, `region` (la región puede ser un nombre real o un código de región, es decir, "1", "2", "3", ...).

4. ¿Qué curso de acción recomendarías a la estación de policía basándote en tus hallazgos? Almacena tu recomendación como una variable de tipo cadena, `action`.
