In [87]:
import pandas as pd

# Definir las rutas a los archivos
ruta_segun_estrellas = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Principales resultados de ocupación hotelera y extrahotelera/1-Viajeros y pernoctaciones en alojamientos turísticos según tipo de establecimiento y procedencia del viajero.csv"
ruta_residencia = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Principales resultados de ocupación hotelera y extrahotelera/2-Estancia media según tipo de alojamiento-20608002.csv"

# Cargar los datos en dataframes
df_viajeros = pd.read_csv(ruta_segun_estrellas, delimiter=';', decimal=',')
df_estancia_media = pd.read_csv(ruta_residencia, delimiter=';', decimal=',')

# Separar las columnas correctamente
df_viajeros[['Periodo', 'Tipo de establecimiento', 'Indicador', 'CCAA', 'Residencia', 'DATA']] = df_viajeros['Periodo,Tipo de establecimiento,Indicador,CCAA,Residencia,DATA'].str.split(',', expand=True)
df_viajeros.drop(columns=['Periodo,Tipo de establecimiento,Indicador,CCAA,Residencia,DATA'], inplace=True)

df_estancia_media[['Periodo', 'Tipo de establecimiento', 'CCAA', 'DATA']] = df_estancia_media['Periodo,Tipo de establecimiento,CCAA,DATA'].str.split(',', expand=True)
df_estancia_media.drop(columns=['Periodo,Tipo de establecimiento,CCAA,DATA'], inplace=True)

# Crear una nueva columna de fecha a partir de 'Periodo'
df_viajeros['Fecha'] = pd.to_datetime(df_viajeros['Periodo'].str[:4] + '-' + df_viajeros['Periodo'].str[5:] + '-01')
df_estancia_media['Fecha'] = pd.to_datetime(df_estancia_media['Periodo'].str[:4] + '-' + df_estancia_media['Periodo'].str[5:] + '-01')

# Convertir la columna DATA a numérico, reemplazando las comas por puntos y forzando la conversión
df_viajeros['DATA'] = pd.to_numeric(df_viajeros['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')
df_estancia_media['DATA'] = pd.to_numeric(df_estancia_media['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Manejar valores nulos
df_viajeros.dropna(inplace=True)
df_estancia_media.dropna(inplace=True)

# Ajustar los valores en la columna DATA dividiéndolos por 10 en df_estancia_media
df_estancia_media['DATA'] = df_estancia_media['DATA'] / 10

# Convertir la columna DATA a int en df_viajeros
df_viajeros['DATA'] = df_viajeros['DATA'].astype(int)

# Convertir la columna DATA a float en df_estancia_media
df_estancia_media['DATA'] = df_estancia_media['DATA'].astype(float)

# Verificar las primeras filas para confirmar la limpieza y ajustes
print("Primeras filas de df_viajeros después de la limpieza y ajustes:")
print(df_viajeros.head())

print("Primeras filas de df_estancia_media después de la limpieza y ajustes:")
print(df_estancia_media.head())

# # Exportar df_viajeros a un archivo CSV asegurando que los números son enteros
# df_viajeros.to_csv('df_viajeros_limpio.csv', index=False)

# # Exportar df_estancia_media a un archivo CSV asegurando que los números son decimales
# df_estancia_media.to_csv('df_estancia_media_limpio.csv', index=False, float_format='%.2f')

print("Archivos exportados con éxito.")


Primeras filas de df_viajeros después de la limpieza y ajustes:
   Periodo Tipo de establecimiento Indicador      CCAA  \
0  1999M01                   TOTAL  Viajeros  La Rioja   
1  1999M01                   TOTAL  Viajeros  La Rioja   
2  1999M01                   TOTAL  Viajeros  La Rioja   
3  1999M01                   TOTAL  Viajeros    Espańa   
4  1999M01                   TOTAL  Viajeros    Espańa   

                Residencia     DATA      Fecha  
0                    TOTAL    16668 1999-01-01  
1     Residentes en Espańa    15676 1999-01-01  
2  No residentes en Espańa      992 1999-01-01  
3                    TOTAL  2834243 1999-01-01  
4     Residentes en Espańa  1738167 1999-01-01  
Primeras filas de df_estancia_media después de la limpieza y ajustes:
    Periodo Tipo de establecimiento      CCAA  DATA      Fecha
0   1999M01                 Hoteles  La Rioja   1.7 1999-01-01
1   1999M01                 Hoteles    Espańa   3.8 1999-01-01
2   1999M01                 Campin

In [None]:
# Definir las rutas a los archivos
ruta_segun_estrellas = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Encuesta de ocupación hotelera de La Rioja/Viajeros y pernoctaciones/1-Viajeros según categoría del establecimiento y residencia del viajero-20602001.csv"
ruta_residencia = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Encuesta de ocupación hotelera de La Rioja/Viajeros y pernoctaciones/5-Viajeros y Pernoctaciones por país de residencia.csv"

# Cargar los datos en dataframes
df_estrellas = pd.read_csv(ruta_segun_estrellas, delimiter=';', decimal=',')
df_residencia = pd.read_csv(ruta_residencia, delimiter=';', decimal=',')

# Crear una nueva columna de fecha a partir de 'Periodo'
df_estrellas['Fecha'] = pd.to_datetime(df_estrellas['Periodo'].str[:4] + '-' + df_estrellas['Periodo'].str[5:] + '-01')
df_residencia['Fecha'] = pd.to_datetime(df_residencia['Periodo'].str[:4] + '-' + df_residencia['Periodo'].str[5:] + '-01')

# Convertir la columna DATA a numérico, reemplazando las comas por puntos y forzando la conversión
df_estrellas['DATA'] = pd.to_numeric(df_estrellas['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')
df_residencia['DATA'] = pd.to_numeric(df_residencia['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Manejar valores nulos
df_estrellas.dropna(inplace=True)
df_residencia.dropna(inplace=True)

# Convertir la columna DATA a int en df_estrellas
df_estrellas['DATA'] = df_estrellas['DATA'].astype(int)

# Convertir la columna DATA a int en df_residencia
df_residencia['DATA'] = df_residencia['DATA'].astype(int)

# Verificar las primeras filas para confirmar la limpieza y ajustes
print("Primeras filas de df_estrellas después de la limpieza y ajustes:")
print(df_estrellas.head())

print("Primeras filas de df_residencia después de la limpieza y ajustes:")
print(df_residencia.head())

# Exportar df_estrellas a un archivo CSV asegurando que los números son enteros
df_estrellas.to_csv('df_estrellas_limpio.csv', index=False)

# Exportar df_residencia a un archivo CSV asegurando que los números son enteros
df_residencia.to_csv('df_residencia_limpio.csv', index=False)

print("Archivos exportados con éxito.")

In [92]:
# Definir las rutas a los archivos
ruta_segun_estrellas = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Encuesta de ocupación hotelera de La Rioja/Viajeros y pernoctaciones/1-Viajeros según categoría del establecimiento y residencia del viajero-20602001.csv"
ruta_residencia = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Encuesta de ocupación hotelera de La Rioja/Viajeros y pernoctaciones/5-Viajeros y Pernoctaciones por país de residencia.csv"

# Cargar los datos en dataframes
df_estrellas = pd.read_csv(ruta_segun_estrellas, delimiter=';', decimal=',')
df_residencia = pd.read_csv(ruta_residencia, delimiter=';', decimal=',')

# Verificar los nombres de las columnas
print("Columnas de df_estrellas:", df_estrellas.columns)
print("Columnas de df_residencia:", df_residencia.columns)

# Separar las columnas adecuadamente
df_estrellas[['Periodo', 'Categoría', 'Residencia viajero', 'DATA']] = df_estrellas['Periodo,Categoría,Residencia viajero,DATA'].str.split(',', expand=True)
df_residencia[['Periodo', 'País de residencia', 'Medida', 'DATA']] = df_residencia['Periodo,País de residencia,Medida,DATA'].str.split(',', expand=True)

# Eliminar la columna original combinada
df_estrellas.drop(columns=['Periodo,Categoría,Residencia viajero,DATA'], inplace=True)
df_residencia.drop(columns=['Periodo,País de residencia,Medida,DATA'], inplace=True)

# Crear una nueva columna de fecha a partir de 'Periodo'
df_estrellas['Fecha'] = pd.to_datetime(df_estrellas['Periodo'].str[:4] + '-' + df_estrellas['Periodo'].str[5:] + '-01')
df_residencia['Fecha'] = pd.to_datetime(df_residencia['Periodo'].str[:4] + '-' + df_residencia['Periodo'].str[5:] + '-01')

# Convertir la columna DATA a numérico, reemplazando las comas por puntos y forzando la conversión
df_estrellas['DATA'] = pd.to_numeric(df_estrellas['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')
df_residencia['DATA'] = pd.to_numeric(df_residencia['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Manejar valores nulos
df_estrellas.dropna(inplace=True)
df_residencia.dropna(inplace=True)

# Convertir la columna DATA a int en df_viajeros
df_estrellas['DATA'] = df_estrellas['DATA'].astype(int)

# Convertir la columna DATA a int en df_estancia_media
df_residencia['DATA'] = df_residencia['DATA'].astype(int)

# Verificar las primeras filas para confirmar la limpieza y ajustes
print("Primeras filas de df_estrellas después de la limpieza y ajustes:")
print(df_estrellas.head())

print("Primeras filas de df_residencia después de la limpieza y ajustes:")
print(df_residencia.head())

# Exportar df_estrellas a un archivo CSV asegurando que los números son enteros
df_estrellas.to_csv('df_estrellas_limpio.csv', index=False)

# Exportar df_residencia a un archivo CSV asegurando que los números son decimales
df_residencia.to_csv('df_residencia_limpio.csv', index=False)

print("Archivos exportados con éxito.")


Columnas de df_estrellas: Index(['Periodo,Categoría,Residencia viajero,DATA'], dtype='object')
Columnas de df_residencia: Index(['Periodo,País de residencia,Medida,DATA'], dtype='object')
Primeras filas de df_estrellas después de la limpieza y ajustes:
   Periodo        Categoría       Residencia viajero     DATA      Fecha
0  2015M01            TOTAL                    TOTAL  2736773 2015-01-01
1  2015M01            TOTAL     Residentes en Espańa  2444523 2015-01-01
2  2015M01            TOTAL  No residentes en Espańa    29225 2015-01-01
3  2015M01  4 y 5 estrellas                    TOTAL    10658 2015-01-01
4  2015M01  4 y 5 estrellas     Residentes en Espańa   923784 2015-01-01
Primeras filas de df_residencia después de la limpieza y ajustes:
   Periodo      País de residencia          Medida     DATA      Fecha
0  2015M01                   TOTAL        Viajeros  2736773 2015-01-01
1  2015M01                   TOTAL  Pernoctaciones  4515939 2015-01-01
2  2015M01    RESIDENTES EN ES