# Plazas Disponibles Hotelero - arbol_decision

Paso 1: Importar las librerías necesarias

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix

Paso 2: Leer los archivos Excel

In [2]:
# Leer los archivos Excel
#file_path1 = 'data1.xlsx'
#file_path2 = 'data2.xlsx'
#df1 = pd.read_excel(file_path1, sheet_name='Sheet1')
#df2 = pd.read_excel(file_path2, sheet_name='Sheet1')
datos1 = pd.read_excel("../data/external/LIMPIO_16_3_02_Oferta_Hotelera_por-sector_LIMPIO.xlsx", sheet_name="Ushuaia_1", skipfooter=2)
datos2 = pd.read_excel("../data/external/LIMPIO_16_3_02_Oferta_Hotelera_por-sector_LIMPIO.xlsx", sheet_name="Ushuaia_2", skipfooter=2)
print(datos1)

     Periodo             Mes Establecimientos Plazas disponibles  \
0     2008.0           enero               43              96224   
1        NaN         febrero               44              87580   
2        NaN           marzo               44              96069   
3        NaN           abril               43              90570   
4        NaN            mayo               42              90737   
..       ...             ...              ...                ...   
187      NaN      agosto (*)               33             118885   
188      NaN  septiembre (*)               33             115050   
189      NaN      octubre(*)               33             118637   
190      NaN    noviembre(*)               33             113400   
191      NaN    diciembre(*)               33             115613   

    Habitaciones o Unidades disponibles  
0                                 38936  
1                                 34945  
2                                 38998  
3              

In [3]:
print(datos2)

     Periodo             Mes Establecimientos Plazas disponibles  \
0     2008.0           enero              104              70649   
1        NaN         febrero              103              64467   
2        NaN           marzo              103              68359   
3        NaN           abril               94              57410   
4        NaN            mayo               77              43314   
..       ...             ...              ...                ...   
187      NaN      agosto (*)               37              33635   
188      NaN  septiembre (*)               37              34620   
189      NaN      octubre(*)               43              37975   
190      NaN    noviembre(*)               42              35970   
191      NaN    diciembre(*)               42              39742   

    Habitaciones o Unidades disponibles  
0                                 21452  
1                                 19372  
2                                 20864  
3              

Paso 3: Combinar los DataFrames

In [4]:
# Combinar los DataFrames
df = pd.concat([datos1, datos2], ignore_index=True)
print(df)

     Periodo             Mes Establecimientos Plazas disponibles  \
0     2008.0           enero               43              96224   
1        NaN         febrero               44              87580   
2        NaN           marzo               44              96069   
3        NaN           abril               43              90570   
4        NaN            mayo               42              90737   
..       ...             ...              ...                ...   
379      NaN      agosto (*)               37              33635   
380      NaN  septiembre (*)               37              34620   
381      NaN      octubre(*)               43              37975   
382      NaN    noviembre(*)               42              35970   
383      NaN    diciembre(*)               42              39742   

    Habitaciones o Unidades disponibles  
0                                 38936  
1                                 34945  
2                                 38998  
3              

Paso 4: Preprocesar los datos
Convertir columnas a tipo numérico


In [5]:
df['Plazas disponibles'] = pd.to_numeric(df['Plazas disponibles'], errors='coerce')
df['Habitaciones o Unidades disponibles'] = pd.to_numeric(df['Habitaciones o Unidades disponibles'], errors='coerce')
df.dropna(inplace=True)
print(df)



     Periodo    Mes Establecimientos  Plazas disponibles  \
0     2008.0  enero               43             96224.0   
12    2009.0  enero               43             94364.0   
24    2010.0  enero               46            103199.0   
36    2011.0  enero               46            105927.0   
48    2012.0  enero               42            102796.0   
60    2013.0  enero               40             97526.0   
72    2014.0  enero               38             90117.0   
84    2015.0  enero               39            102548.0   
96    2016.0  enero               38            111042.0   
108   2017.0  enero               38            109058.0   
120   2018.0  enero               37            106485.0   
132   2019.0  enero               37            107260.0   
144   2020.0  enero               36            107880.0   
156   2021.0  enero               27             77260.0   
168   2022.0  enero               34            107012.0   
180   2023.0  enero               35    

Convertir la columna de mes a un formato adecuado

In [6]:
#Crear un diccionario para convertir los nombres de los meses a números
month_map = {
    'Enero': 1, 'Febrero': 2, 'Marzo': 3, 'Abril': 4, 'Mayo': 5, 'Junio': 6,
    'Julio': 7, 'Agosto': 8, 'Septiembre': 9, 'Octubre': 10, 'Noviembre': 11, 'Diciembre': 12
}
df['Mes_num'] = df['Mes'].map(month_map)
print(df)

     Periodo    Mes Establecimientos  Plazas disponibles  \
0     2008.0  enero               43             96224.0   
12    2009.0  enero               43             94364.0   
24    2010.0  enero               46            103199.0   
36    2011.0  enero               46            105927.0   
48    2012.0  enero               42            102796.0   
60    2013.0  enero               40             97526.0   
72    2014.0  enero               38             90117.0   
84    2015.0  enero               39            102548.0   
96    2016.0  enero               38            111042.0   
108   2017.0  enero               38            109058.0   
120   2018.0  enero               37            106485.0   
132   2019.0  enero               37            107260.0   
144   2020.0  enero               36            107880.0   
156   2021.0  enero               27             77260.0   
168   2022.0  enero               34            107012.0   
180   2023.0  enero               35    

Codificar variables categóricas

In [7]:
label_encoders = {}
for column in ['Mes', 'Establecimientos']:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column])
    label_encoders[column] = le


In [8]:
# Eliminar filas con valores nulos
df.dropna(inplace=True)

In [9]:
# Verificar que no hay valores nulos en el conjunto de datos
print(df.isnull().sum())

Periodo                                0.0
Mes                                    0.0
Establecimientos                       0.0
Plazas disponibles                     0.0
Habitaciones o Unidades disponibles    0.0
Mes_num                                0.0
dtype: float64


Paso 5: Definir las variables independientes y dependientes

In [10]:
X = df[['Mes_num', 'Establecimientos', 'Habitaciones o Unidades disponibles']]
y = df['Plazas disponibles']

Binarizar la variable dependiente

In [11]:
y = (y > y.median()).astype(int)


In [12]:
# Verificar si hay suficientes muestras para cada clase después de binarizar
print(y.value_counts())

Series([], Name: Plazas disponibles, dtype: int64)


In [13]:
# Verificar si hay suficientes datos para dividir en conjuntos de entrenamiento y prueba
if len(X) < 2 or len(X) < 2:
    raise ValueError("No hay suficientes datos para dividir en conjuntos de entrenamiento y prueba.")

ValueError: No hay suficientes datos para dividir en conjuntos de entrenamiento y prueba.

Paso 6: Dividir los datos en conjunto de entrenamiento y prueba

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



Paso 7: Entrenar el modelo de árbol de decisión

In [None]:
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)


Paso 8: Evaluar el modelo

In [None]:
y_pred = model.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))


Paso 9: Visualizar el árbol de decisión

In [None]:
plt.figure(figsize=(20,10))
plot_tree(model, feature_names=X.columns, class_names=['Bajo', 'Alto'], filled=True)
plt.title('Árbol de decisión para la oferta de plazas disponibles en Ushuaia')
plt.show()
