# Introducción

En este notebook se presenta el primer avance del proyecto final del curso de Data Science I. La finalidad de este ejercicio es identificar, cargar y explorar tres datasets potenciales que cumplan con los requisitos de tener al menos 2000 filas y 15 columnas.

Para ello, se han seleccionado los siguientes conjuntos de datos:

1.   **Viajes al Caribe**: Un dataset sintético que contiene información sobre viajes a destinos de playa en la zona Caribe. Este dataset incluye variables relacionadas con el destino, fechas, duración, costos, tipo de alojamiento, actividades, entre otras, lo que permite analizar el comportamiento de los viajeros en un contexto turístico.

2.   **Netflix Titles & Credits**: Este conjunto de datos, obtenido de la plataforma de streaming Netflix, se compone de dos archivos: uno que contiene la información de los títulos (películas y series) y otro con los créditos (actores y directores). Se explorarán las variables de interés y se filtrará para enfocarnos en las series, en línea con la temática de contenido serial.

3.   **Hotel Bookings**: Este dataset recopila información sobre reservas hoteleras, incluyendo detalles sobre la fecha de reserva, duración de la estancia, tipo de habitación, precio, número de huéspedes, entre otros. Este conjunto de datos es útil para analizar la demanda hotelera, identificar patrones de cancelaciones y segmentar el mercado según las características de la reserva.

El objetivo de este análisis es explorar y describir las variables de cada dataset, identificando aquellas que sean relevantes desde un punto de vista comercial y analítico, y establecer las bases para futuros análisis más profundos y visualizaciones que respondan a preguntas de negocio

In [8]:
# 1. Definir las rutas de los archivos
file_path_viajes = '/content/drive/My Drive/CODERHOUSE/2_Data_Science_I/DataSets/viajes_caribe.csv'
file_path_titles = '/content/drive/My Drive/CODERHOUSE/2_Data_Science_I/DataSets/titles.csv'
file_path_credits = '/content/drive/My Drive/CODERHOUSE/2_Data_Science_I/DataSets/credits.csv'
file_path_hotel = '/content/drive/My Drive/CODERHOUSE/2_Data_Science_I/DataSets/hotel_bookings.csv'

# 2. Importar librerías necesarias
import pandas as pd
import numpy as np

# 3. Cargar los datasets
df_viajes = pd.read_csv(file_path_viajes)
df_titles = pd.read_csv(file_path_titles)
df_credits = pd.read_csv(file_path_credits)
df_hotel = pd.read_csv(file_path_hotel)

# 4. Exploración Inicial del Dataset "Viajes al Caribe"
print("Dataset: Viajes al Caribe")
print("Forma:", df_viajes.shape)
display(df_viajes.head())
df_viajes.info()
display(df_viajes.describe())

# Ejemplo de análisis: Costo promedio de viaje
avg_cost = df_viajes['Costo_total'].mean()
print("Costo total promedio:", avg_cost)

# 5. Exploración Inicial del Dataset "Netflix Titles"
print("\nDataset: Netflix Titles")
print("Forma:", df_titles.shape)
display(df_titles.head())
df_titles.info()
display(df_titles.describe())

# Filtrar para obtener solo series (TV Shows) usando la columna 'type'
df_series = df_titles[df_titles['type'] == 'TV Show']
print("Series en Netflix - Forma:", df_series.shape)
display(df_series.head())

# Ejemplo de análisis: Puntaje promedio de IMDB para series
if 'imdb_score' in df_series.columns:
    avg_imdb_score = df_series['imdb_score'].mean()
    print("Puntaje promedio de IMDB para series:", avg_imdb_score)

# 6. Exploración Inicial del Dataset "Netflix Credits"
print("\nDataset: Netflix Credits")
print("Forma:", df_credits.shape)
display(df_credits.head())
df_credits.info()

# 7. Exploración Inicial del Dataset "Hotel Bookings"
print("\nDataset: Hotel Bookings")
print("Forma:", df_hotel.shape)
display(df_hotel.head())
df_hotel.info()
display(df_hotel.describe())

# Ejemplo de análisis: Porcentaje de cancelaciones
if 'is_canceled' in df_hotel.columns:
    cancel_rate = df_hotel['is_canceled'].mean() * 100
    print("Tasa de cancelación:", round(cancel_rate, 2), "%")


Dataset: Viajes al Caribe
Forma: (2000, 15)


Unnamed: 0,ID_viaje,Playa,País,Fecha_inicio,Duracion_dias,Costo_total,Tipo_alojamiento,Actividades,Numero_viajeros,Edad_promedio,Genero_viajero,Puntuacion,Tipo_paquete,Medio_transporte,Temporada
0,1,Playa Norte,México,2025-02-14,13,3391.09,Airbnb,Snorkel,2,47,Femenino,3.7,Premium,Avión,Alta
1,2,Playa del Carmen,México,2024-10-20,14,3989.2,Hostal,Relax,3,27,Femenino,3.7,Premium,Bus,Baja
2,3,Cayo Coco,Cuba,2023-06-25,10,449.84,Resort,Visitas culturales,5,56,Masculino,4.4,Standard,Avión,Alta
3,4,Boca Chica,República Dominicana,2023-03-26,14,2345.63,Resort,Excursiones,5,34,Masculino,1.3,Standard,Auto,Alta
4,5,Grace Bay,Turcas y Caicos,2024-07-26,14,2481.52,Resort,Visitas culturales,3,65,Masculino,3.0,Standard,Avión,Baja


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID_viaje          2000 non-null   int64  
 1   Playa             2000 non-null   object 
 2   País              2000 non-null   object 
 3   Fecha_inicio      2000 non-null   object 
 4   Duracion_dias     2000 non-null   int64  
 5   Costo_total       2000 non-null   float64
 6   Tipo_alojamiento  2000 non-null   object 
 7   Actividades       2000 non-null   object 
 8   Numero_viajeros   2000 non-null   int64  
 9   Edad_promedio     2000 non-null   int64  
 10  Genero_viajero    2000 non-null   object 
 11  Puntuacion        2000 non-null   float64
 12  Tipo_paquete      2000 non-null   object 
 13  Medio_transporte  2000 non-null   object 
 14  Temporada         2000 non-null   object 
dtypes: float64(2), int64(4), object(9)
memory usage: 234.5+ KB


Unnamed: 0,ID_viaje,Duracion_dias,Costo_total,Numero_viajeros,Edad_promedio,Puntuacion
count,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0
mean,1000.5,8.9665,3103.651475,3.4945,43.782,2.9774
std,577.494589,3.754387,1645.933156,1.728428,15.425708,1.170831
min,1.0,3.0,300.02,1.0,18.0,1.0
25%,500.75,6.0,1716.86,2.0,30.0,1.9
50%,1000.5,9.0,3076.43,4.0,43.0,2.95
75%,1500.25,12.0,4505.4925,5.0,57.0,4.0
max,2000.0,15.0,5999.22,6.0,70.0,5.0


Costo total promedio: 3103.6514749999997

Dataset: Netflix Titles
Forma: (5850, 15)


Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,['documentation'],['US'],1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,"['drama', 'action', 'thriller', 'european']",['US'],,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,"['fantasy', 'action', 'comedy']",['GB'],,tt0071853,8.2,534486.0,15.461,7.811
4,tm120801,The Dirty Dozen,MOVIE,12 American military prisoners in World War II...,1967,,150,"['war', 'action']","['GB', 'US']",,tt0061578,7.7,72662.0,20.398,7.6


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5850 entries, 0 to 5849
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id                    5850 non-null   object 
 1   title                 5849 non-null   object 
 2   type                  5850 non-null   object 
 3   description           5832 non-null   object 
 4   release_year          5850 non-null   int64  
 5   age_certification     3231 non-null   object 
 6   runtime               5850 non-null   int64  
 7   genres                5850 non-null   object 
 8   production_countries  5850 non-null   object 
 9   seasons               2106 non-null   float64
 10  imdb_id               5447 non-null   object 
 11  imdb_score            5368 non-null   float64
 12  imdb_votes            5352 non-null   float64
 13  tmdb_popularity       5759 non-null   float64
 14  tmdb_score            5539 non-null   float64
dtypes: float64(5), int64(

Unnamed: 0,release_year,runtime,seasons,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
count,5850.0,5850.0,2106.0,5368.0,5352.0,5759.0,5539.0
mean,2016.417094,76.888889,2.162868,6.510861,23439.38,22.637925,6.829175
std,6.937726,39.002509,2.689041,1.163826,95820.47,81.680263,1.170391
min,1945.0,0.0,1.0,1.5,5.0,0.009442,0.5
25%,2016.0,44.0,1.0,5.8,516.75,2.7285,6.1
50%,2018.0,83.0,1.0,6.6,2233.5,6.821,6.9
75%,2020.0,104.0,2.0,7.3,9494.0,16.59,7.5375
max,2022.0,240.0,42.0,9.6,2294231.0,2274.044,10.0


Series en Netflix - Forma: (0, 15)


Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score


Puntaje promedio de IMDB para series: nan

Dataset: Netflix Credits
Forma: (77801, 5)


Unnamed: 0,person_id,id,name,character,role
0,3748,tm84618,Robert De Niro,Travis Bickle,ACTOR
1,14658,tm84618,Jodie Foster,Iris Steensma,ACTOR
2,7064,tm84618,Albert Brooks,Tom,ACTOR
3,3739,tm84618,Harvey Keitel,Matthew 'Sport' Higgins,ACTOR
4,48933,tm84618,Cybill Shepherd,Betsy,ACTOR


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77801 entries, 0 to 77800
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   person_id  77801 non-null  int64 
 1   id         77801 non-null  object
 2   name       77801 non-null  object
 3   character  68029 non-null  object
 4   role       77801 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.0+ MB

Dataset: Hotel Bookings
Forma: (119390, 32)


Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015,July,27,1,0,0,2,...,No Deposit,,,0,Transient,0.0,0,0,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015,July,27,1,0,0,2,...,No Deposit,,,0,Transient,0.0,0,0,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015,July,27,1,0,1,1,...,No Deposit,,,0,Transient,75.0,0,0,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015,July,27,1,0,1,1,...,No Deposit,304.0,,0,Transient,75.0,0,0,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015,July,27,1,0,2,2,...,No Deposit,240.0,,0,Transient,98.0,0,1,Check-Out,2015-07-03


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 32 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_week_nights            119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal            

Unnamed: 0,is_canceled,lead_time,arrival_date_year,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,booking_changes,agent,company,days_in_waiting_list,adr,required_car_parking_spaces,total_of_special_requests
count,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119386.0,119390.0,119390.0,119390.0,119390.0,119390.0,103050.0,6797.0,119390.0,119390.0,119390.0,119390.0
mean,0.370416,104.011416,2016.156554,27.165173,15.798241,0.927599,2.500302,1.856403,0.10389,0.007949,0.031912,0.087118,0.137097,0.221124,86.693382,189.266735,2.321149,101.831122,0.062518,0.571363
std,0.482918,106.863097,0.707476,13.605138,8.780829,0.998613,1.908286,0.579261,0.398561,0.097436,0.175767,0.844336,1.497437,0.652306,110.774548,131.655015,17.594721,50.53579,0.245291,0.792798
min,0.0,0.0,2015.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,6.0,0.0,-6.38,0.0,0.0
25%,0.0,18.0,2016.0,16.0,8.0,0.0,1.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,9.0,62.0,0.0,69.29,0.0,0.0
50%,0.0,69.0,2016.0,28.0,16.0,1.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,14.0,179.0,0.0,94.575,0.0,0.0
75%,1.0,160.0,2017.0,38.0,23.0,2.0,3.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,229.0,270.0,0.0,126.0,0.0,1.0
max,1.0,737.0,2017.0,53.0,31.0,19.0,50.0,55.0,10.0,10.0,1.0,26.0,72.0,21.0,535.0,543.0,391.0,5400.0,8.0,5.0


Tasa de cancelación: 37.04 %


# Descripción de Variables Claves
**Variables Clave del Dataset: Viajes al Caribe**
*   Costo_total: Indica el costo total del paquete turístico. Es fundamental para segmentar los viajes según el presupuesto y analizar la rentabilidad de los paquetes.
*   Tipo_alojamiento: Define el tipo de alojamiento (Hotel, Hostal, Airbnb, Resort), lo que ayuda a entender las preferencias del viajero y a segmentar el mercado.
*   Temporada: Refleja la estacionalidad (Alta, Media, Baja) y permite analizar cómo varía la demanda según la época del año.

**Variables Clave del Dataset: Netflix Titles & Credits**
*   type: Filtrando para quedarnos solo con "TV Show", nos enfocamos en el contenido serial.
*   genres: Permite identificar las tendencias de géneros en el contenido de series, lo que es útil para comprender las preferencias de la audiencia.
*   imdb_score / tmdb_score: Son indicadores de la calidad y popularidad de las series, fundamentales para evaluar su recepción en la audiencia.

*Nota: En este análisis se filtrarán los registros del archivo de títulos para conservar únicamente aquellos en los que show_type sea "TV Show", enfocándonos así en las series.*

**Variables Clave del Dataset: Hotel Bookings**
*   is_canceled: Indica si una reserva fue cancelada, lo que es esencial para analizar la satisfacción del cliente y la efectividad de las estrategias de fidelización.
*   lead_time: Mide el tiempo entre la reserva y la llegada, proporcionando información sobre la planificación de los clientes.
*   adr (Tarifa Diaria Promedio): Ayuda a segmentar los clientes y evaluar la rentabilidad de las reservas según el precio.

*Nota: Este dataset es muy completo y permite analizar, por ejemplo, la relación entre el tiempo de reserva, el tipo de cliente y las cancelaciones, aspectos muy relevantes para la gestión hotelera.*

# Conclusiones y Próximos Pasos

En esta etapa inicial del proyecto se han cargado y explorado tres datasets potenciales:

1. Viajes al Caribe: Se identificaron variables clave como el costo total, el tipo de alojamiento y la temporada, las cuales son esenciales para segmentar el mercado y analizar tendencias en el turismo.
2. Netflix Titles & Credits (Series): Al filtrar por series, se destaca la importancia de variables como el género y los puntajes en IMDB/TMDB, que permiten evaluar la calidad y popularidad del contenido serial.
3. Hotel Bookings: Variables como el indicador de cancelación, el lead time y la tarifa diaria promedio ofrecen una base para analizar la demanda y los patrones de cancelación en el sector hotelero.

**Próximos Pasos:**

* Análisis Exploratorio (EDA): Realizar un análisis más profundo utilizando visualizaciones (por ejemplo, gráficos de dispersión, histogramas y boxplots) para detectar tendencias y patrones en cada dataset.
* Ingeniería de Características: Transformar y crear nuevas variables cuando sea necesario (por ejemplo, extraer el mes y la temporada a partir de fechas, o descomponer la columna de géneros en variables binarias).
* Formulación de Hipótesis: Plantear preguntas de análisis específicas, como:
  - ¿Cómo varía el costo total de los viajes según la temporada o el tipo de alojamiento?
  - ¿Qué géneros de series tienen mayor puntaje en IMDB y TMDB, y cómo se relaciona esto con la popularidad?
  - ¿Cuáles son los factores asociados con una mayor tasa de cancelaciones en las reservas hoteleras?
* Desarrollo de Visualizaciones: Diseñar gráficos que ayuden a responder estas preguntas y validen las hipótesis planteadas.
* Integración y Comparación: Evaluar la posibilidad de relacionar insights de distintos datasets para obtener una visión más integral de los patrones de comportamiento en el sector turístico y de entretenimiento.

Estos pasos sentarán las bases para un análisis más detallado y permitirán
extraer insights de valor tanto desde el punto de vista comercial como analítico.