### Clasificación basada en arboles / Proyecto 2-Parte I (Core)

## Proyecto 2-Parte I (Core)

**Proyecto 2: Análisis Inicial y Selección de Problema**

Objetivo: Realizar un análisis exploratorio de datos (EDA) inicial para al menos cuatro conjuntos de datos, diagnosticar y elegir una problemática específica para abordar (regresión, clasificación, clusterización, predicción). Entregar un repositorio con el dataset elegido, el EDA inicial y la problemática seleccionada.

# Descripción del DataFrame

Este DataFrame tiene **119,390 filas** y **31 columnas**. A continuación se presenta una descripción detallada de cada columna:

| **#** | **Columna**                        | **Tipo de dato** | **Descripción**                                                                                                                                                       |
|-------|-------------------------------------|------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0     | `hotel`                           | object           | Tipo de hotel (por ejemplo, Resort o City Hotel).                                                                                                                     |
| 1     | `is_canceled`                     | int64            | Indicador binario: 1 si la reserva fue cancelada, 0 si no.                                                                                                           |
| 2     | `lead_time`                       | int64            | Número de días entre la reserva y la fecha de llegada.                                                                                                               |
| 3     | `arrival_date_year`               | int64            | Año de llegada de la reserva.                                                                                                                                         |
| 4     | `arrival_date_month`              | object           | Mes de llegada de la reserva (como texto, p.ej., "January", "February").                                                                                            |
| 5     | `arrival_date_week_number`        | int64            | Número de semana del año en la que ocurre la llegada.                                                                                                               |
| 6     | `arrival_date_day_of_month`       | int64            | Día del mes en que ocurre la llegada.                                                                                                                                |
| 7     | `stays_in_weekend_nights`         | int64            | Número de noches que la reserva se extiende durante el fin de semana.                                                                                                |
| 8     | `stays_in_week_nights`            | int64            | Número de noches que la reserva se extiende durante la semana.                                                                                                       |
| 9     | `adults`                          | int64            | Número de adultos en la reserva.                                                                                                                                      |
| 10    | `children`                        | float64          | Número de niños en la reserva. (Puede ser NaN si no se indicó el número de niños).                                                                                   |
| 11    | `babies`                          | int64            | Número de bebés en la reserva.                                                                                                                                       |
| 12    | `meal`                            | object           | Tipo de comida incluida en la reserva (por ejemplo, "BB" para solo desayuno, "HB" para media pensión, etc.).                                                         |
| 13    | `country`                         | object           | País de origen del cliente. (Puede ser NaN si no se proporcionó el país).                                                                                           |
| 14    | `market_segment`                  | object           | Segmento de mercado al que pertenece la reserva (por ejemplo, "Online", "Offline", etc.).                                                                            |
| 15    | `distribution_channel`            | object           | Canal de distribución a través del cual se realizó la reserva (por ejemplo, "TA" para agencias de viajes, "Direct", etc.).                                          |
| 16    | `is_repeated_guest`               | int64            | Indicador binario: 1 si el huésped es recurrente, 0 si es la primera vez que se aloja.                                                                              |
| 17    | `previous_cancellations`          | int64            | Número de reservas anteriores que fueron canceladas por el huésped.                                                                                               |
| 18    | `previous_bookings_not_canceled`  | int64            | Número de reservas anteriores que no fueron canceladas.                                                                                                           |
| 19    | `reserved_room_type`              | object           | Tipo de habitación reservada.                                                                                                                                       |
| 20    | `assigned_room_type`              | object           | Tipo de habitación asignada.                                                                                                                                         |
| 21    | `booking_changes`                 | int64            | Número de cambios en la reserva.                                                                                                                                     |
| 22    | `agent`                           | float64          | Identificador del agente que realizó la reserva (NaN si no se utilizó un agente).                                                                                  |
| 23    | `company`                         | float64          | Identificador de la compañía para la que se realizó la reserva (NaN si no pertenece a una empresa).                                                                 |
| 24    | `days_in_waiting_list`            | int64            | Número de días que la reserva permaneció en la lista de espera.                                                                                                     |
| 25    | `customer_type`                   | object           | Tipo de cliente (por ejemplo, "Transient", "Contract", etc.).                                                                                                       |
| 26    | `adr`                             | float64          | Tarifa diaria promedio (Average Daily Rate) en la reserva.                                                                                                         |
| 27    | `required_car_parking_spaces`     | int64            | Número de espacios de estacionamiento necesarios para el cliente.                                                                                                  |
| 28    | `total_of_special_requests`       | int64            | Número total de solicitudes especiales realizadas por el huésped (por ejemplo, almohada extra, cama adicional, etc.).                                              |
| 29    | `reservation_status`              | object           | Estado de la reserva (por ejemplo, "Check-Out", "Canceled", "No-Show").                                                                                             |
| 30    | `reservation_status_date`         | object           | Fecha en la que se actualizó el estado de la reserva.                                                                                                              |

## Tipos de datos:
- **int64**: Columnas que contienen valores enteros (por ejemplo, número de noches, número de personas, cambios en la reserva).
- **float64**: Columnas con valores decimales (por ejemplo, cantidad de dinero, identificadores de agentes y compañías, o niños).
- **object**: Columnas que contienen cadenas de texto (por ejemplo, nombre del hotel, tipo de habitación, país, etc.).

## Resumen:
Este DataFrame parece ser un conjunto de datos relacionado con reservas hoteleras, que contiene información tanto sobre los detalles de las reservas como sobre las características del huésped. Las columnas incluyen información sobre el hotel, la cancelación de la reserva, la duración de la estancia, el tipo de cliente, las solicitudes especiales, y la información de contacto del agente o la empresa (en algunos casos).

En cuanto a valores faltantes, algunas columnas como `children`, `country`, `agent` y `company` tienen ciertos valores nulos que pueden requerir tratamiento antes de realizar un análisis.


In [3]:
import pandas as pd
import numpy as np
import time
import matplotlib.pyplot as plt
import json
import re

In [4]:
path = '../datasets/hotel_bookings.csv'
df = pd.read_csv(filepath_or_buffer=path, sep= ',', header=0)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 31 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_week_nights            119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal            

In [5]:
df.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,booking_changes,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015,July,27,1,0,0,2,...,3,,,0,Transient,0.0,0,0,Check-Out,1/07/15
1,Resort Hotel,0,737,2015,July,27,1,0,0,2,...,4,,,0,Transient,0.0,0,0,Check-Out,1/07/15
2,Resort Hotel,0,7,2015,July,27,1,0,1,1,...,0,,,0,Transient,75.0,0,0,Check-Out,2/07/15
3,Resort Hotel,0,13,2015,July,27,1,0,1,1,...,0,304.0,,0,Transient,75.0,0,0,Check-Out,2/07/15
4,Resort Hotel,0,14,2015,July,27,1,0,2,2,...,0,240.0,,0,Transient,98.0,0,1,Check-Out,3/07/15


In [6]:
# Verificar estadísticas descriptivas para columnas numéricas
df.describe()

Unnamed: 0,is_canceled,lead_time,arrival_date_year,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,booking_changes,agent,company,days_in_waiting_list,adr,required_car_parking_spaces,total_of_special_requests
count,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119386.0,119390.0,119390.0,119390.0,119390.0,119390.0,103050.0,6797.0,119390.0,119390.0,119390.0,119390.0
mean,0.370416,104.011416,2016.156554,27.165173,15.798241,0.927599,2.500302,1.856403,0.10389,0.007949,0.031912,0.087118,0.137097,0.221124,86.693382,189.266735,2.321149,101.831122,0.062518,0.571363
std,0.482918,106.863097,0.707476,13.605138,8.780829,0.998613,1.908286,0.579261,0.398561,0.097436,0.175767,0.844336,1.497437,0.652306,110.774548,131.655015,17.594721,50.53579,0.245291,0.792798
min,0.0,0.0,2015.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,6.0,0.0,-6.38,0.0,0.0
25%,0.0,18.0,2016.0,16.0,8.0,0.0,1.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,9.0,62.0,0.0,69.29,0.0,0.0
50%,0.0,69.0,2016.0,28.0,16.0,1.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,14.0,179.0,0.0,94.575,0.0,0.0
75%,1.0,160.0,2017.0,38.0,23.0,2.0,3.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,229.0,270.0,0.0,126.0,0.0,1.0
max,1.0,737.0,2017.0,53.0,31.0,19.0,50.0,55.0,10.0,10.0,1.0,26.0,72.0,21.0,535.0,543.0,391.0,5400.0,8.0,5.0


In [8]:
# Ver las columnas del dataset
print(df.columns)

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_date_year',
       'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'adults', 'children', 'babies', 'meal',
       'country', 'market_segment', 'distribution_channel',
       'is_repeated_guest', 'previous_cancellations',
       'previous_bookings_not_canceled', 'reserved_room_type',
       'assigned_room_type', 'booking_changes', 'agent', 'company',
       'days_in_waiting_list', 'customer_type', 'adr',
       'required_car_parking_spaces', 'total_of_special_requests',
       'reservation_status', 'reservation_status_date'],
      dtype='object')


In [9]:
# Revisar la cantidad de valores únicos en algunas columnas
print(df.nunique())

hotel                                2
is_canceled                          2
lead_time                          479
arrival_date_year                    3
arrival_date_month                  12
arrival_date_week_number            53
arrival_date_day_of_month           31
stays_in_weekend_nights             17
stays_in_week_nights                35
adults                              14
children                             5
babies                               5
meal                                 5
country                            177
market_segment                       8
distribution_channel                 5
is_repeated_guest                    2
previous_cancellations              15
previous_bookings_not_canceled      73
reserved_room_type                  10
assigned_room_type                  12
booking_changes                     21
agent                              333
company                            352
days_in_waiting_list               128
customer_type            

**Manejos de valores nulos**

In [10]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
company,6797,112593,94.31
agent,103050,16340,13.69
country,118902,488,0.41
hotel,119390,0,0.0
is_repeated_guest,119390,0,0.0
reservation_status,119390,0,0.0
total_of_special_requests,119390,0,0.0
required_car_parking_spaces,119390,0,0.0
adr,119390,0,0.0
customer_type,119390,0,0.0


In [13]:

# Eliminar filas con valores nulos en columnas específicas
df.dropna(subset=['company'], inplace=True)


In [16]:
df = df.fillna({'children': 0, 'country': 'Desconocido'})

In [22]:
df['agent'] = df['agent'].fillna(moda_agent)


In [23]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
hotel,6797,0,0.0
is_repeated_guest,6797,0,0.0
reservation_status,6797,0,0.0
total_of_special_requests,6797,0,0.0
required_car_parking_spaces,6797,0,0.0
adr,6797,0,0.0
customer_type,6797,0,0.0
days_in_waiting_list,6797,0,0.0
company,6797,0,0.0
agent,6797,0,0.0


**Codificación de Variables Categóricas:**

In [41]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

categorical_cols = ['hotel', 'meal', 'country', 'market_segment', 'distribution_channel', 'customer_type']

# Usar ColumnTransformer para aplicar OneHotEncoding
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(sparse_output=False), categorical_cols)
    ], remainder='passthrough'
)

# Transformar los datos
X = df.drop(columns='adr')  # Excluir la variable objetivo


**Escalado de Características:**

In [42]:
from sklearn.preprocessing import StandardScaler

# Definir columnas numéricas
numeric_cols = ['lead_time', 'stays_in_weekend_nights', 'stays_in_week_nights', 'adults', 'children']

# Aplicar StandardScaler para normalizar las columnas numéricas
scaler = StandardScaler()
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])


**División en Entrenamiento y Prueba**

In [43]:
from sklearn.model_selection import train_test_split

# Separar la variable dependiente (target) y las variables independientes
X = df.drop(columns=['adr'])  # Aquí 'adr' es la variable objetivo
y = df['adr']  # Variable objetivo

# Dividir el dataset en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


**Selección de Modelos y Evaluación**

In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6797 entries, 18 to 119248
Data columns (total 31 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   hotel                           6797 non-null   object 
 1   is_canceled                     6797 non-null   int64  
 2   lead_time                       6797 non-null   float64
 3   arrival_date_year               6797 non-null   int64  
 4   arrival_date_month              6797 non-null   object 
 5   arrival_date_week_number        6797 non-null   int64  
 6   arrival_date_day_of_month       6797 non-null   int64  
 7   stays_in_weekend_nights         6797 non-null   float64
 8   stays_in_week_nights            6797 non-null   float64
 9   adults                          6797 non-null   float64
 10  children                        6797 non-null   float64
 11  babies                          6797 non-null   int64  
 12  meal                            6797