# Plazas Disponibles Hotelero - regrecion_logistica

Paso 1: Importar las librerías necesarias

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix


Paso 2: Leer los archivos Excel

In [7]:
# Leer los archivos Excel
#file_path1 = 'data1.xlsx'
#file_path2 = 'data2.xlsx'
#df1 = pd.read_excel(file_path1, sheet_name='Sheet1')
#df2 = pd.read_excel(file_path2, sheet_name='Sheet1')
datos1 = pd.read_excel("../data/external/LIMPIO_16_3_02_Oferta_Hotelera_por-sector_LIMPIO.xlsx", sheet_name="Ushuaia_1", skipfooter=2)
datos2 = pd.read_excel("../data/external/LIMPIO_16_3_02_Oferta_Hotelera_por-sector_LIMPIO.xlsx", sheet_name="Ushuaia_2", skipfooter=2)
print(datos1)

     Periodo             Mes Establecimientos Plazas disponibles  \
0       2008           enero               43              96224   
1       2008         febrero               44              87580   
2       2008           marzo               44              96069   
3       2008           abril               43              90570   
4       2008            mayo               42              90737   
..       ...             ...              ...                ...   
187     2023      agosto (*)               33             118885   
188     2023  septiembre (*)               33             115050   
189     2023      octubre(*)               33             118637   
190     2023    noviembre(*)               33             113400   
191     2023    diciembre(*)               33             115613   

    Habitaciones o Unidades disponibles  
0                                 38936  
1                                 34945  
2                                 38998  
3              

In [9]:
print(datos2)

     Periodo             Mes Establecimientos Plazas disponibles  \
0       2008           enero              104              70649   
1       2008         febrero              103              64467   
2       2008           marzo              103              68359   
3       2008           abril               94              57410   
4       2008            mayo               77              43314   
..       ...             ...              ...                ...   
187     2023      agosto (*)               37              33635   
188     2023  septiembre (*)               37              34620   
189     2023      octubre(*)               43              37975   
190     2023    noviembre(*)               42              35970   
191     2023    diciembre(*)               42              39742   

    Habitaciones o Unidades disponibles  
0                                 21452  
1                                 19372  
2                                 20864  
3              

Paso 3: Combinar los DataFrames
Combinamos los dos DataFrames en uno solo. Puedes usar pd.concat para combinar filas de dos DataFrames.

In [12]:
# Combinar los DataFrames
df = pd.concat([datos1, datos2], ignore_index=True)
print(df)

     Periodo             Mes Establecimientos Plazas disponibles  \
0       2008           enero               43              96224   
1       2008         febrero               44              87580   
2       2008           marzo               44              96069   
3       2008           abril               43              90570   
4       2008            mayo               42              90737   
..       ...             ...              ...                ...   
379     2023      agosto (*)               37              33635   
380     2023  septiembre (*)               37              34620   
381     2023      octubre(*)               43              37975   
382     2023    noviembre(*)               42              35970   
383     2023    diciembre(*)               42              39742   

    Habitaciones o Unidades disponibles  
0                                 38936  
1                                 34945  
2                                 38998  
3              

Paso 4: Preprocesar los datos
Convertir columnas a tipo numérico

In [15]:
df['Plazas disponibles'] = pd.to_numeric(df['Plazas disponibles'], errors='coerce')
df['Habitaciones o Unidades disponibles'] = pd.to_numeric(df['Habitaciones o Unidades disponibles'], errors='coerce')
print(df)


     Periodo             Mes Establecimientos  Plazas disponibles  \
0       2008           enero               43             96224.0   
1       2008         febrero               44             87580.0   
2       2008           marzo               44             96069.0   
3       2008           abril               43             90570.0   
4       2008            mayo               42             90737.0   
..       ...             ...              ...                 ...   
379     2023      agosto (*)               37             33635.0   
380     2023  septiembre (*)               37             34620.0   
381     2023      octubre(*)               43             37975.0   
382     2023    noviembre(*)               42             35970.0   
383     2023    diciembre(*)               42             39742.0   

     Habitaciones o Unidades disponibles  
0                                38936.0  
1                                34945.0  
2                                38998.0  

Eliminar filas con valores nulos

In [18]:
df.dropna(inplace=True)
print(df)

     Periodo             Mes Establecimientos  Plazas disponibles  \
0       2008           enero               43             96224.0   
1       2008         febrero               44             87580.0   
2       2008           marzo               44             96069.0   
3       2008           abril               43             90570.0   
4       2008            mayo               42             90737.0   
..       ...             ...              ...                 ...   
379     2023      agosto (*)               37             33635.0   
380     2023  septiembre (*)               37             34620.0   
381     2023      octubre(*)               43             37975.0   
382     2023    noviembre(*)               42             35970.0   
383     2023    diciembre(*)               42             39742.0   

     Habitaciones o Unidades disponibles  
0                                38936.0  
1                                34945.0  
2                                38998.0  

Codificar variables categóricas

In [21]:
label_encoders = {}
for column in ['Mes', 'Establecimientos']:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column])
    label_encoders[column] = le



Paso 5: Definir las variables independientes y dependientes

In [24]:
X = df[['Mes', 'Establecimientos', 'Habitaciones o Unidades disponibles']]
y = df['Plazas disponibles']
print(X)

     Mes  Establecimientos  Habitaciones o Unidades disponibles
0      5                23                              38936.0
1      6                24                              34945.0
2     10                24                              38998.0
3      0                23                              36480.0
4     11                22                              37386.0
..   ...               ...                                  ...
379    2                17                               7936.0
380   17                17                               8070.0
381   15                23                               9052.0
382   13                22                               7890.0
383    4                22                              10385.0

[370 rows x 3 columns]


In [26]:
print(X)

     Mes  Establecimientos  Habitaciones o Unidades disponibles
0      5                23                              38936.0
1      6                24                              34945.0
2     10                24                              38998.0
3      0                23                              36480.0
4     11                22                              37386.0
..   ...               ...                                  ...
379    2                17                               7936.0
380   17                17                               8070.0
381   15                23                               9052.0
382   13                22                               7890.0
383    4                22                              10385.0

[370 rows x 3 columns]


Binarizar la variable dependiente

In [29]:
y = (y > y.median()).astype(int)
print(y)

0      1
1      1
2      1
3      1
4      1
      ..
379    0
380    0
381    0
382    0
383    0
Name: Plazas disponibles, Length: 370, dtype: int32


Paso 6: Dividir los datos en conjunto de entrenamiento y prueba

In [32]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Paso 7: Entrenar el modelo de regresión logística

In [35]:
model = LogisticRegression()
model.fit(X_train, y_train)


Paso 8: Evaluar el modelo

In [38]:
y_pred = model.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))


[[31  3]
 [ 0 40]]
              precision    recall  f1-score   support

           0       1.00      0.91      0.95        34
           1       0.93      1.00      0.96        40

    accuracy                           0.96        74
   macro avg       0.97      0.96      0.96        74
weighted avg       0.96      0.96      0.96        74

