In [10]:
import pandas as pd

In [11]:
df = pd.read_csv("data/ocupacion_hostelera_2024.csv", sep=";", encoding="ISO-8859-1")


In [12]:
df.columns = [
    "territorial",
    "comunidad_autonoma",
    "provincia",
    "indicador",
    "periodo",
    "total"
]

# Mostrar las primeras filas para verificar la estructura limpia
df.head()

Unnamed: 0,territorial,comunidad_autonoma,provincia,indicador,periodo,total
0,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024M12,486.0
1,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024M11,554.0
2,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024M10,661.0
3,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024M09,683.0
4,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024M08,670.0


In [13]:
# Convertir la columna "periodo" a formato de fecha (ejemplo: 2024M12 -> 2024-12-01)
df["periodo"] = df["periodo"].str.replace("M", "-") + "-01"
df["periodo"] = pd.to_datetime(df["periodo"], format="%Y-%m-%d")

# Ver los valores únicos en la columna "indicador" para seleccionar los más relevantes
df["indicador"].unique()

array(['Numero de establecimientos abiertos estimados',
       'Numero de habitaciones estimadas', 'Numero de plazas estimadas',
       'Grado de ocupacion por plazas',
       'Grado de ocupacion por plazas en fin de semana',
       'Grado de ocupacion por habitaciones', 'Personal empleado'],
      dtype=object)

In [14]:
df

Unnamed: 0,territorial,comunidad_autonoma,provincia,indicador,periodo,total
0,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-12-01,486.0
1,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-11-01,554.0
2,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-10-01,661.0
3,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-09-01,683.0
4,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-08-01,670.0
...,...,...,...,...,...,...
667,Total Nacional,Pais Vasco,Pais Vasco,Personal empleado,2024-05-01,4237.0
668,Total Nacional,Pais Vasco,Pais Vasco,Personal empleado,2024-04-01,4321.0
669,Total Nacional,Pais Vasco,Pais Vasco,Personal empleado,2024-03-01,4217.0
670,Total Nacional,Pais Vasco,Pais Vasco,Personal empleado,2024-02-01,3828.0


In [15]:
# Filtrar el dataset solo con los indicadores clave
indicadores_clave = [
    "Grado de ocupacion por plazas",
    "Grado de ocupacion por habitaciones",
    "Numero de plazas estimadas",
    "Numero de establecimientos abiertos estimados"
]

df_filtrado = df[df["indicador"].isin(indicadores_clave)]

df_filtrado.head(n=100)

Unnamed: 0,territorial,comunidad_autonoma,provincia,indicador,periodo,total
0,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-12-01,486.00
1,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-11-01,554.00
2,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-10-01,661.00
3,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-09-01,683.00
4,Total Nacional,Andalucia,Malaga,Numero de establecimientos abiertos estimados,2024-08-01,670.00
...,...,...,...,...,...,...
155,Total Nacional,Andalucia,Sevilla,Grado de ocupacion por habitaciones,2024-01-01,55.68
168,Total Nacional,Balears. Illes,Baleares,Numero de establecimientos abiertos estimados,2024-12-01,153.00
169,Total Nacional,Balears. Illes,Baleares,Numero de establecimientos abiertos estimados,2024-11-01,183.00
170,Total Nacional,Balears. Illes,Baleares,Numero de establecimientos abiertos estimados,2024-10-01,1110.00


In [16]:
df_filtrado = df_filtrado.drop(columns=["territorial", "comunidad_autonoma"])

In [17]:
# Guardar el dataset limpio en un archivo CSV
df_filtrado.to_csv("data/ocupacion_hostelera_2024_clean.csv", index=False)