In [1]:
import pandas as pd
import os

In [2]:
# Definir las rutas a los archivos
ruta_viajeros = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Principales resultados de ocupación hotelera y extrahotelera/1-Viajeros y pernoctaciones en alojamientos turísticos según tipo de establecimiento y procedencia del viajero.csv"
ruta_estancia_media = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Principales resultados de ocupación hotelera y extrahotelera/2-Estancia media según tipo de alojamiento-20608002.csv"

# Cargar los datos en dataframes
df_viajeros = pd.read_csv(ruta_viajeros, delimiter=';', decimal=',')
df_estancia_media = pd.read_csv(ruta_estancia_media, delimiter=';', decimal=',')


In [3]:
print("Primeras filas de df_viajeros:")
print(df_viajeros.head())

print("\nPrimeras filas de df_estancia_media:")
print(df_estancia_media.head())


Primeras filas de df_viajeros:
  Periodo,Tipo de establecimiento,Indicador,CCAA,Residencia,DATA
0        1999M01,TOTAL,Viajeros,La Rioja,TOTAL,16668            
1  1999M01,TOTAL,Viajeros,La Rioja,Residentes en ...            
2  1999M01,TOTAL,Viajeros,La Rioja,No residentes ...            
3        1999M01,TOTAL,Viajeros,Espańa,TOTAL,2834243            
4  1999M01,TOTAL,Viajeros,Espańa,Residentes en Es...            

Primeras filas de df_estancia_media:
  Periodo,Tipo de establecimiento,CCAA,DATA
0              1999M01,Hoteles,La Rioja,1.7
1                1999M01,Hoteles,Espańa,3.8
2             1999M01,Camping,La Rioja,1.86
3               1999M01,Camping,Espańa,7.51
4           1999M01,Turismo Rural,La Rioja,


In [4]:
# Separar las columnas correctamente
df_viajeros[['Periodo', 'Tipo de establecimiento', 'Indicador', 'CCAA', 'Residencia', 'DATA']] = df_viajeros['Periodo,Tipo de establecimiento,Indicador,CCAA,Residencia,DATA'].str.split(',', expand=True)

# Eliminar la columna original con datos combinados
df_viajeros.drop(columns=['Periodo,Tipo de establecimiento,Indicador,CCAA,Residencia,DATA'], inplace=True)

# Verificar las primeras filas para confirmar la separación correcta
print("Primeras filas de df_viajeros después de separar columnas:")
print(df_viajeros.head())


Primeras filas de df_viajeros después de separar columnas:
   Periodo Tipo de establecimiento Indicador      CCAA  \
0  1999M01                   TOTAL  Viajeros  La Rioja   
1  1999M01                   TOTAL  Viajeros  La Rioja   
2  1999M01                   TOTAL  Viajeros  La Rioja   
3  1999M01                   TOTAL  Viajeros    Espańa   
4  1999M01                   TOTAL  Viajeros    Espańa   

                Residencia     DATA  
0                    TOTAL    16668  
1     Residentes en Espańa    15676  
2  No residentes en Espańa      992  
3                    TOTAL  2834243  
4     Residentes en Espańa  1738167  


In [5]:
# Separar las columnas correctamente
df_estancia_media[['Periodo', 'Tipo de establecimiento', 'CCAA', 'DATA']] = df_estancia_media['Periodo,Tipo de establecimiento,CCAA,DATA'].str.split(',', expand=True)

# Eliminar la columna original con datos combinados
df_estancia_media.drop(columns=['Periodo,Tipo de establecimiento,CCAA,DATA'], inplace=True)

# Verificar las primeras filas para confirmar la separación correcta
print("Primeras filas de df_estancia_media después de separar columnas:")
print(df_estancia_media.head())


Primeras filas de df_estancia_media después de separar columnas:
   Periodo Tipo de establecimiento      CCAA  DATA
0  1999M01                 Hoteles  La Rioja   1.7
1  1999M01                 Hoteles    Espańa   3.8
2  1999M01                 Camping  La Rioja  1.86
3  1999M01                 Camping    Espańa  7.51
4  1999M01           Turismo Rural  La Rioja      


In [6]:
# Convertir la columna DATA a numérico, reemplazando las comas por puntos y forzando la conversión
df_viajeros['DATA'] = pd.to_numeric(df_viajeros['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Verificar las primeras filas para confirmar la conversión correcta
print("Primeras filas de df_viajeros después de convertir DATA a numérico:")
print(df_viajeros.head())

# Manejar valores nulos
df_viajeros.dropna(inplace=True)

# Verificar si aún hay valores nulos
print("Valores nulos por columna en df_viajeros después de limpiar:")
print(df_viajeros.isnull().sum())


Primeras filas de df_viajeros después de convertir DATA a numérico:
   Periodo Tipo de establecimiento Indicador      CCAA  \
0  1999M01                   TOTAL  Viajeros  La Rioja   
1  1999M01                   TOTAL  Viajeros  La Rioja   
2  1999M01                   TOTAL  Viajeros  La Rioja   
3  1999M01                   TOTAL  Viajeros    Espańa   
4  1999M01                   TOTAL  Viajeros    Espańa   

                Residencia       DATA  
0                    TOTAL    16668.0  
1     Residentes en Espańa    15676.0  
2  No residentes en Espańa      992.0  
3                    TOTAL  2834243.0  
4     Residentes en Espańa  1738167.0  
Valores nulos por columna en df_viajeros después de limpiar:
Periodo                    0
Tipo de establecimiento    0
Indicador                  0
CCAA                       0
Residencia                 0
DATA                       0
dtype: int64


In [7]:
# Convertir la columna DATA a numérico, reemplazando las comas por puntos y forzando la conversión
df_estancia_media['DATA'] = pd.to_numeric(df_estancia_media['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Verificar las primeras filas para confirmar la conversión correcta
print("Primeras filas de df_estancia_media después de convertir DATA a numérico:")
print(df_estancia_media.head())

# Manejar valores nulos
df_estancia_media.dropna(inplace=True)

# Verificar si aún hay valores nulos
print("Valores nulos por columna en df_estancia_media después de limpiar:")
print(df_estancia_media.isnull().sum())


Primeras filas de df_estancia_media después de convertir DATA a numérico:
   Periodo Tipo de establecimiento      CCAA   DATA
0  1999M01                 Hoteles  La Rioja   17.0
1  1999M01                 Hoteles    Espańa   38.0
2  1999M01                 Camping  La Rioja  186.0
3  1999M01                 Camping    Espańa  751.0
4  1999M01           Turismo Rural  La Rioja    NaN
Valores nulos por columna en df_estancia_media después de limpiar:
Periodo                    0
Tipo de establecimiento    0
CCAA                       0
DATA                       0
dtype: int64


In [8]:
# Exportar DataFrames limpios a archivos CSV
df_viajeros.to_csv('viajeros_limpio.csv', index=False)
df_estancia_media.to_csv('estancia_media_limpio.csv', index=False)

print("Archivos CSV exportados correctamente.")


Archivos CSV exportados correctamente.
