# Plazas Disponibles Hotelero - regrecion_logistica

Paso 1: Importar las librerías necesarias

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix


Paso 2: Leer los archivos Excel

In [17]:
# Leer los archivos Excel
#file_path1 = 'data1.xlsx'
#file_path2 = 'data2.xlsx'
#df1 = pd.read_excel(file_path1, sheet_name='Sheet1')
#df2 = pd.read_excel(file_path2, sheet_name='Sheet1')
datos1 = pd.read_excel("../data/external/LIMPIO_16_3_02_Oferta_Hotelera_por-sector_LIMPIO.xlsx", sheet_name="Ushuaia_1", skipfooter=2)
datos2 = pd.read_excel("../data/external/LIMPIO_16_3_02_Oferta_Hotelera_por-sector_LIMPIO.xlsx", sheet_name="Ushuaia_2", skipfooter=2)
print(datos1)

     Periodo             Mes Establecimientos Plazas disponibles  \
0     2008.0           enero               43              96224   
1        NaN         febrero               44              87580   
2        NaN           marzo               44              96069   
3        NaN           abril               43              90570   
4        NaN            mayo               42              90737   
..       ...             ...              ...                ...   
187      NaN      agosto (*)               33             118885   
188      NaN  septiembre (*)               33             115050   
189      NaN      octubre(*)               33             118637   
190      NaN    noviembre(*)               33             113400   
191      NaN    diciembre(*)               33             115613   

    Habitaciones o Unidades disponibles  
0                                 38936  
1                                 34945  
2                                 38998  
3              

In [18]:
print(datos2)

     Periodo             Mes Establecimientos Plazas disponibles  \
0     2008.0           enero              104              70649   
1        NaN         febrero              103              64467   
2        NaN           marzo              103              68359   
3        NaN           abril               94              57410   
4        NaN            mayo               77              43314   
..       ...             ...              ...                ...   
187      NaN      agosto (*)               37              33635   
188      NaN  septiembre (*)               37              34620   
189      NaN      octubre(*)               43              37975   
190      NaN    noviembre(*)               42              35970   
191      NaN    diciembre(*)               42              39742   

    Habitaciones o Unidades disponibles  
0                                 21452  
1                                 19372  
2                                 20864  
3              

Paso 3: Combinar los DataFrames
Combinamos los dos DataFrames en uno solo. Puedes usar pd.concat para combinar filas de dos DataFrames.

In [20]:
# Combinar los DataFrames
df = pd.concat([datos1, datos2], ignore_index=True)
print(df)

     Periodo             Mes Establecimientos Plazas disponibles  \
0     2008.0           enero               43              96224   
1        NaN         febrero               44              87580   
2        NaN           marzo               44              96069   
3        NaN           abril               43              90570   
4        NaN            mayo               42              90737   
..       ...             ...              ...                ...   
379      NaN      agosto (*)               37              33635   
380      NaN  septiembre (*)               37              34620   
381      NaN      octubre(*)               43              37975   
382      NaN    noviembre(*)               42              35970   
383      NaN    diciembre(*)               42              39742   

    Habitaciones o Unidades disponibles  
0                                 38936  
1                                 34945  
2                                 38998  
3              

Paso 4: Preprocesar los datos
Convertir columnas a tipo numérico

In [21]:
df['Plazas disponibles'] = pd.to_numeric(df['Plazas disponibles'], errors='coerce')
df['Habitaciones o Unidades disponibles'] = pd.to_numeric(df['Habitaciones o Unidades disponibles'], errors='coerce')
print(df)


     Periodo             Mes Establecimientos  Plazas disponibles  \
0     2008.0           enero               43             96224.0   
1        NaN         febrero               44             87580.0   
2        NaN           marzo               44             96069.0   
3        NaN           abril               43             90570.0   
4        NaN            mayo               42             90737.0   
..       ...             ...              ...                 ...   
379      NaN      agosto (*)               37             33635.0   
380      NaN  septiembre (*)               37             34620.0   
381      NaN      octubre(*)               43             37975.0   
382      NaN    noviembre(*)               42             35970.0   
383      NaN    diciembre(*)               42             39742.0   

     Habitaciones o Unidades disponibles  
0                                38936.0  
1                                34945.0  
2                                38998.0  

Eliminar filas con valores nulos

In [22]:
df.dropna(inplace=True)
print(df)

     Periodo    Mes Establecimientos  Plazas disponibles  \
0     2008.0  enero               43             96224.0   
12    2009.0  enero               43             94364.0   
24    2010.0  enero               46            103199.0   
36    2011.0  enero               46            105927.0   
48    2012.0  enero               42            102796.0   
60    2013.0  enero               40             97526.0   
72    2014.0  enero               38             90117.0   
84    2015.0  enero               39            102548.0   
96    2016.0  enero               38            111042.0   
108   2017.0  enero               38            109058.0   
120   2018.0  enero               37            106485.0   
132   2019.0  enero               37            107260.0   
144   2020.0  enero               36            107880.0   
156   2021.0  enero               27             77260.0   
168   2022.0  enero               34            107012.0   
180   2023.0  enero               35    

Codificar variables categóricas

In [9]:
label_encoders = {}
for column in ['Mes', 'Establecimientos']:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column])
    label_encoders[column] = le



Paso 5: Definir las variables independientes y dependientes

In [23]:
X = df[['Mes', 'Establecimientos', 'Habitaciones o Unidades disponibles']]
y = df['Plazas disponibles']
print(X)

       Mes Establecimientos  Habitaciones o Unidades disponibles
0    enero               43                              38936.0
12   enero               43                              39060.0
24   enero               46                              42656.0
36   enero               46                              41881.0
48   enero               42                              41509.0
60   enero               40                              39618.0
72   enero               38                              36425.0
84   enero               39                              40393.0
96   enero               38                              42842.0
108  enero               38                              42129.0
120  enero               37                              41943.0
132  enero               37                              42687.0
144  enero               36                              43276.0
156  enero               27                              31275.0
168  enero               

In [24]:
print(X)

       Mes Establecimientos  Habitaciones o Unidades disponibles
0    enero               43                              38936.0
12   enero               43                              39060.0
24   enero               46                              42656.0
36   enero               46                              41881.0
48   enero               42                              41509.0
60   enero               40                              39618.0
72   enero               38                              36425.0
84   enero               39                              40393.0
96   enero               38                              42842.0
108  enero               38                              42129.0
120  enero               37                              41943.0
132  enero               37                              42687.0
144  enero               36                              43276.0
156  enero               27                              31275.0
168  enero               

Binarizar la variable dependiente

In [25]:
y = (y > y.median()).astype(int)
print(y)

0      1
12     1
24     1
36     1
48     1
60     1
72     1
84     1
96     1
108    1
120    1
132    1
144    1
156    1
168    1
180    1
192    0
204    0
216    0
228    0
240    0
252    0
264    0
276    0
288    0
300    0
312    0
324    0
336    0
348    0
360    0
372    0
Name: Plazas disponibles, dtype: int32


Paso 6: Dividir los datos en conjunto de entrenamiento y prueba

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Paso 7: Entrenar el modelo de regresión logística

In [13]:
model = LogisticRegression()
model.fit(X_train, y_train)


Paso 8: Evaluar el modelo

In [14]:
y_pred = model.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))


[[4 0]
 [0 3]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         4
           1       1.00      1.00      1.00         3

    accuracy                           1.00         7
   macro avg       1.00      1.00      1.00         7
weighted avg       1.00      1.00      1.00         7

