# <center>Organizaci&oacute;n de Datos</center>
#### <center>C&aacute;tedra Ing. Rodriguez, Juan Manuel </center>
## <center>Trabajo Práctico 1 : Reservas de Hotel </center>
#### Grupo 29:
* Alen Davies Leccese - 107084
* Luca Lazcano - 107044
* Nicolas Tonizzo - 107280

#### Imports y configs

Importamos las librerias y creamos el dataframe

In [None]:
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

df = pd.read_csv('./Datasets/hotels_train.csv')
df.drop(columns=['reservation_status_date'], inplace=True)

hotel = df.copy()

## Análisis Exploratorio y Preprocesamiento de Datos

### **Exploración inicial**

#### Primera aproximación a los datos

Primero vemos cómo están organizados los datos, imprimiendo algunas filas:

In [None]:
hotel.sample(5)

Luego vemos el tipo de dato de cada columna y determinamos a qué tipo de variable corresponde, así sabemos el análisis que se le puede efectuar.

In [None]:
hotel.info()

Vemos que hay un mix de variables, cualitativas, ordinales y cuantitativas (discretas y continuas). Se observa que están representadas por varios tipos de datos. Por ejemplo algunas que son de tipo numérico, son cualitativas, como por ejemplo 'agent' y 'company'. El número seguramente representa un índice o id. Otras columnas son "booleanas", el valor numérico representa "verdadero" o "falso". Normalmente un 1 en dicha columna será verdadero, y un 0, falso. Estas columnas son 'is_repeated_guest' e 'is_canceled'.

#### Variables cualitativas

Para las variables cualitativas se pueden determinar los valores posibles, y a qué corresponden.

In [None]:
cualitativas = hotel[['hotel', 'arrival_date_month', 'arrival_date_week_number', 'meal', 'country', 'market_segment', 'distribution_channel', 'is_repeated_guest', 'reserved_room_type', 'assigned_room_type', 'deposit_type', 'agent', 'company', 'customer_type', 'is_canceled']]
cualitativas

La variable 'hotel' puede tomar los siguientes valores:

In [None]:
hotel['hotel'].value_counts()

La variable 'arrival_date_month' puede tomar los siguientes valores:

In [None]:
hotel['arrival_date_month'].value_counts()

La variable 'arrival_date_week_number' puede tomar los siguientes valores:

In [None]:
hotel['arrival_date_week_number'].value_counts().sort_index()


La variable 'meal' puede tomar los siguientes valores:

In [None]:
hotel['meal'].value_counts().sort_index()

La variable 'country' puede tomar los siguientes valores:

In [None]:
hotel['country'].value_counts()

La variable 'market_segment' puede tomar los siguientes valores:

In [None]:
hotel['market_segment'].value_counts()


La variable 'distribution_channel' puede tomar los siguientes valores:

In [None]:
hotel['distribution_channel'].value_counts()


La variable 'is_repeated_guest' puede tomar los siguientes valores:

In [None]:
hotel['is_repeated_guest'].value_counts()

La variable 'reserved_room_type' puede tomar los siguientes valores:

In [None]:
hotel['reserved_room_type'].value_counts().sort_index()

La variable 'assigned_room_type' puede tomar los siguientes valors:

In [None]:
hotel['assigned_room_type'].value_counts().sort_index()


La variable 'deposit_type' puede tomar los siguientes valores:

In [None]:
hotel['deposit_type'].value_counts()

La variable 'agent' puede tomar los siguientes valores:

In [None]:
hotel['agent'].value_counts()

La variable 'company' puede tomar los siguientes valores:

In [None]:
hotel['company'].value_counts()


La variable 'customer_type' puede tomar los siguientes valores:

In [None]:
hotel['customer_type'].value_counts()

La variable 'is_canceled' puede tomar los siguientes valores:

In [None]:
hotel['is_canceled'].value_counts()


#### Variables cuantitativas

Para las variables cuantitativas se pueden calcular las medidas de resumen, "estadísticas", como media, mediana y moda.

In [None]:
cuantitativas = hotel[['lead_time', 'arrival_date_year', 'arrival_date_day_of_month', 'stays_in_weekend_nights', 'stays_in_week_nights', 'adults', 'children', 'babies', 'is_repeated_guest', 'previous_cancellations', 'previous_bookings_not_canceled', 'booking_changes', 'days_in_waiting_list', 'adr', 'required_car_parking_spaces', 'total_of_special_requests']]
cuantitativas.describe()

#### Variables irrelevantes para el análisis

Para el análisis de los datos podemos considerar que la variable 'id' será irrelevante ya que no aporta información sobre las reservas de los hoteles, es solamente un identificador de cada una.

Además de esta, es difícil determinar qué variable será irrelevante, antes de haberlas analizado y visto cómo se relacionan entre ellas y con el target 'is_canceled'.

In [None]:
hotel.drop(columns=['id'], inplace=True)

#### Análisis gráfico distribuciones de las variables

Analizamos la distribución de todas las variables, tanto cualitativas como cuantitativas.

##### *Variables cualitativas*

Primero analizamos la distribucion de las variables cualitativas:

In [None]:
sns.countplot(x='hotel', data=cualitativas)

In [None]:
sns.countplot(x='customer_type', data=cualitativas)

In [None]:
sns.countplot(x='deposit_type', data=cualitativas)

In [None]:
sns.countplot(x='distribution_channel', data=cualitativas)

In [None]:
sns.countplot(x='market_segment', data=cualitativas)

In [None]:
# graficar country ordenados por apariciones, los 20 primeros
sns.countplot(y='country', data=cualitativas, order=cualitativas['country'].value_counts().iloc[:20].index)

In [None]:
# copiar las columnas 'assigned_room_type' y 'reserved_room_type' en un nuevo dataframne
room_types = hotel[['assigned_room_type', 'reserved_room_type']].copy()

room_types_melted = pd.melt(room_types, value_vars=[
                    'reserved_room_type', 'assigned_room_type'])

# plot the histogram using seaborn, ordenar por apariciones
sns.histplot(data=room_types_melted, x='value',
             hue='variable', binwidth=1, multiple='dodge')



In [None]:
# graficar 'is_repeat_guest'
sns.countplot(x='is_repeated_guest', data=cualitativas)


In [None]:
# graficar meal
sns.countplot(x='meal', data=cualitativas)

In [None]:
# graficar is_canceled
sns.countplot(x='is_canceled', data=cualitativas)

##### *Variables cuantitativas*

In [None]:
# graficar 'lead_time'
sns.histplot(hotel['lead_time'], bins=30)

#### Correlaciones entre variables

#### Relación de variables con el target

### **Visualización de los datos**

### **Datos faltantes**

#### Análisis

Para analizar la cantidad de datos faltantes por columna, se utiliza el método isna() combinado con sum().

In [142]:
nulls = hotel.isna().sum()
nulls.reset_index().rename(columns={'index': 'column', 0: 'missing'})

Unnamed: 0,column,missing
0,hotel,0
1,lead_time,0
2,arrival_date_year,0
3,arrival_date_month,0
4,arrival_date_week_number,0
5,arrival_date_day_of_month,0
6,stays_in_weekend_nights,0
7,stays_in_week_nights,0
8,adults,0
9,children,4


#### Revisión y decisión

#### Comparaciones

### **Valores atípicos**

#### Detección

##### Univariada

##### Multivariada

#### Características

#### Tratamiento

## BORRADOR ///

In [None]:
#Datos nulos
hotel.isna().sum()

'company' y 'agent' tienen muchos datos faltantes, puede que sea una variable irrelevante para el análisis

In [None]:
#Datos no nulos
hotel.notna().sum()

In [None]:
#Tipo de dato de las variables
hotel.info()

In [None]:
#Medidas de resumen del dataframe
hotel.describe()

In [None]:
hotel.head()

In [None]:
# Reservas canceladas por hotel
pd.crosstab(hotel['hotel'], hotel['is_canceled'])

City Hotel tiene muchas mas reservas canceladas que el Resort Hotel

In [None]:
# ¿Cuál es la proporción de reservas canceladas en relación con el total de reservas?
prop_cancelaciones = len(hotel[hotel['is_canceled'] == 1]) / len(hotel) *100
print(f"La proporción de reservas canceladas en relación al total de reservas es {prop_cancelaciones:.2f}%")

In [None]:
# ¿Existe alguna relación entre el tiempo en lista de espera y las reservas canceladas?
pd.crosstab(hotel['days_in_waiting_list'], hotel['is_canceled'])

In [None]:
# graficar cancelado vs tiempo de espera
sns.scatterplot(x='days_in_waiting_list', y='is_canceled', data=hotel, hue='is_canceled', alpha=0.1)

In [None]:
# Reservas canceladas por tipo de cliente
pd.crosstab(hotel['customer_type'], hotel['is_canceled']).sort_values(by=1, ascending=False)

In [None]:
# graficareservas canceladas por tipo de cliente
sns.countplot(x='customer_type', data=hotel, hue='is_canceled')

In [None]:
# ¿Cuál es la proporción de reservas canceladas por clientes Transient en relación con el total de reservas realizadas por clientes Transient?
prop_cancelaciones_transient = len(hotel[(hotel['is_canceled'] == 1) & (hotel['customer_type'] == 'Transient')]) / len(hotel[(hotel['customer_type'] == 'Transient')]) *100
print(f"La proporción de reservas canceladas por clientes Transient es {prop_cancelaciones_transient:.2f}%")

In [None]:
# Reservas canceladas por tarifa
pd.crosstab(hotel['adr'], hotel['is_canceled']).sort_values(by=1, ascending=False)

In [None]:
# Graficar canceldas por tarifa
sns.scatterplot(x='adr', y='is_canceled', data=hotel, hue='is_canceled', alpha=0.1)

In [None]:
# Reservas canceladas por pais
pd.crosstab(hotel['country'], hotel['is_canceled']).sort_values(by=1, ascending=False)

In [None]:
# graficar canceladas por 30 primeros paises
pd.crosstab(hotel['country'], hotel['is_canceled']).sort_values(by=1, ascending=False).head(30).plot(kind='bar', figsize=(20,10))


In [None]:
# Reservas canceladas segun si es un cliente repetido
pd.crosstab(hotel['is_repeated_guest'], hotel['is_canceled']).sort_values(by=1, ascending=False)

Si es cliente repetido, no suelen cancelar tantas reservas como si son clientes nuevos

In [None]:
# graficareservas canceladas segun si es un cliente repetido
sns.countplot(x='is_repeated_guest', data=hotel, hue='is_canceled')

In [None]:
# Reservas canceladas segun el tipo de deposito
pd.crosstab(hotel['deposit_type'], hotel['is_canceled']).sort_values(by=1, ascending=False)

In [None]:
# graficareservas canceladas segun el tipo de deposito
sns.countplot(x='deposit_type', data=hotel, hue='is_canceled')

In [None]:
# Reservas canceladas segun el tipo de habitacion
pd.crosstab(hotel['assigned_room_type'], hotel['is_canceled']).sort_values(by=1, ascending=False)

In [None]:
# graficareservas canceladas segun el tipo de habitacion ordendas por orden alfabetico
sns.countplot(x='assigned_room_type', data=hotel, hue='is_canceled', order=sorted(hotel['assigned_room_type'].unique()))

In [None]:
# Reservas canceladas segun el tipo de comida
pd.crosstab(hotel['meal'], hotel['is_canceled']).sort_values(by=1, ascending=False)


In [None]:
# graficareservas canceladas segun el tipo de comida
sns.countplot(x='meal', data=hotel, hue='is_canceled')

In [None]:
# Estado de las reservas segun el tipo de distribucion
pd.crosstab(hotel['distribution_channel'], hotel['is_canceled']).sort_values(by=1, ascending=False)

In [None]:
# graficar reservas canceladas segun el tipo de distribucion
sns.countplot(x='distribution_channel', data=hotel, hue='is_canceled')

In [None]:
# Reservas canceladas segun el tiempo entre la reserva y la llegada
pd.crosstab(hotel['lead_time'], hotel['is_canceled']).sort_values(by=1, ascending=False)

In [None]:
# graficar reservas canceladas segun el tiempo entre la reserva y la llegada
# sns.scatterplot(x='lead_time', y='is_canceled', data=hotel, hue='is_canceled', alpha=0.002)

sns.regplot(x='lead_time', y='is_canceled', data=hotel, logistic=True, y_jitter=0.03)


In [None]:
# ¿Existe alguna relación entre la cantidad de adultos, niños y bebés en una reserva y el estado de la reserva?

pd.crosstab(index=[hotel['adults'], hotel['children'], hotel['babies']], columns=hotel['is_canceled']).sort_values(by=1, ascending=False).head(10)


In [None]:
# Correlacion de pearson de las variables con 'is_canceled'
correlacion = hotel.corr(method='pearson')
correlacion['is_canceled'].sort_values(ascending=False).reset_index()


In [None]:
from pandas.plotting import scatter_matrix

attributes = ["is_canceled", "lead_time", "previous_cancellations", "days_in_waiting_list"]
scatter_matrix(hotel[attributes], figsize=(12, 8))

In [None]:
sns.scatterplot(x='lead_time', y='is_canceled', data=hotel, hue='is_canceled')
plt.gca().set_title('Relación entre el tiempo de espera y el estado de la reserva')
plt.gca().set_xlabel('Tiempo de espera')
plt.gca().set_ylabel('Estado de la reserva')
plt.gca().set_xticks(range(0, 700, 50))
plt.gca().set_yticks(range(0, 2, 1))
plt.show()

In [None]:
sns.countplot(x='previous_cancellations', hue='is_canceled', data=hotel)
plt.show()

In [None]:
# graficar relacion entre 'arrival_date_year' y 'is_canceled'
# sns.countplot(x='arrival_date_year', hue='is_canceled', data=hotel)
# sns.countplot(x='arrival_date_month', hue='is_canceled', data=hotel)
# sns.countplot(x='arrival_date_day_of_month', hue='is_canceled', data=hotel)
sns.countplot(x='arrival_date_week_number', hue='is_canceled', data=hotel)


In [None]:
hotel_reducido = hotel.copy()

# combinar las columnas de fechas en una sola
hotel_reducido['arrival_date'] = hotel_reducido['arrival_date_year'].astype(str) + '-' + hotel_reducido['arrival_date_month'].astype(str) + '-' + hotel_reducido['arrival_date_day_of_month'].astype(str)
# eliminar las columnas de fechas
hotel_reducido.drop(['arrival_date_year', 'arrival_date_month', 'arrival_date_day_of_month'], axis=1, inplace=True)

# convertir la columna 'arrival_date' a tipo datetime
hotel_reducido['arrival_date'] = pd.to_datetime(hotel_reducido['arrival_date'])

hotel_reducido.head()

In [None]:
# graficar la relacion entre 'arrival_date' y 'is_canceled'
sns.scatterplot(x='arrival_date', y='is_canceled', data=hotel_reducido, hue='is_canceled', alpha=0.05)

In [None]:
# graficar la relacion entre 'hotel' y 'is_canceled'
sns.countplot(x='hotel', hue='is_canceled', data=hotel_reducido)

In [None]:
# heatmap de correlacion de pearson


In [None]:
# heatmap hotel y deposit_type
sns.heatmap(pd.crosstab(hotel_reducido['hotel'], hotel_reducido['deposit_type']), annot=True, fmt='d')

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Load your data into a pandas DataFrame
# ...

# Pivot the data to create a matrix with 'hotel' and 'deposit_type' as the row and column indices
# and 'is_canceled' as the values
pivot_df = hotel_reducido.pivot_table(
    index='hotel', columns='deposit_type', values='is_canceled')

# Create the heatmap using Seaborn
sns.heatmap(pivot_df, cmap='coolwarm', annot=True, fmt='.2f')

# Set the plot title and axis labels
plt.title('Cancellation Rates by Hotel and Deposit Type')
plt.xlabel('Deposit Type')
plt.ylabel('Hotel')

# Show the plot
plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

pivot_df = hotel_reducido.pivot_table(
    index='customer_type', columns='deposit_type', values='is_canceled')

# Create the heatmap using Seaborn
sns.heatmap(pivot_df, cmap='coolwarm', annot=True, fmt='.2f')

# Show the plot
plt.show()


In [None]:
hotel_reducido.info()

In [None]:
# dropeamos company xq son la mayoria nulos
hotel_reducido.drop('company', axis=1, inplace=True)
hotel_reducido.info()

In [None]:
# graficar relacion entre 20 agents mas comunes y 'is_canceled'
top_20_agents = hotel_reducido['agent'].value_counts().head(20).index
sns.countplot(x='agent', hue='is_canceled', data=hotel_reducido[hotel_reducido['agent'].isin(top_20_agents)])


In [None]:
# graficar relacion entre 'babies' y 'is_canceled'
sns.countplot(x='babies', hue='is_canceled', data=hotel_reducido)

In [None]:
# graficar relacion entre 'babies' y 'is_canceled', sacanado los registros con 0 'babies'
sns.countplot(x='babies', hue='is_canceled', data=hotel_reducido[hotel_reducido['babies'] != 0])


In [None]:
# graficar relacion entre 'childre' y 'is_canceled'
sns.countplot(x='children', hue='is_canceled', data=hotel_reducido)

In [None]:
# graficar cantidad de bebes por reserva, sacando los registros con 0 'babies'
sns.countplot(x='babies', data=hotel_reducido[hotel_reducido['babies'] > 1])

In [None]:
# graficar cantidad de 'children' por reserva
sns.countplot(x='children', data=hotel_reducido[hotel_reducido['children'] > 3])

In [None]:
# buscar registros con 'children' > 3
hotel_reducido[hotel_reducido['children'] > 3]


In [None]:
# buscar registros con 'babies' > 2
hotel_reducido[hotel_reducido['babies'] > 2]