In [10]:
import pandas as pd

# Definir las rutas a los archivos
ruta_segun_estrellas = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Principales resultados de ocupación hotelera y extrahotelera/1-Viajeros y pernoctaciones en alojamientos turísticos según tipo de establecimiento y procedencia del viajero.csv"
ruta_residencia = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Principales resultados de ocupación hotelera y extrahotelera/2-Estancia media según tipo de alojamiento-20608002.csv"

# Cargar los datos en dataframes
df_viajeros = pd.read_csv(ruta_segun_estrellas, delimiter=';', decimal=',')
df_estancia_media = pd.read_csv(ruta_residencia, delimiter=';', decimal=',')

# Separar las columnas correctamente
df_viajeros[['Periodo', 'Tipo de establecimiento', 'Indicador', 'CCAA', 'Residencia', 'DATA']] = df_viajeros['Periodo,Tipo de establecimiento,Indicador,CCAA,Residencia,DATA'].str.split(',', expand=True)
df_viajeros.drop(columns=['Periodo,Tipo de establecimiento,Indicador,CCAA,Residencia,DATA'], inplace=True)

df_estancia_media[['Periodo', 'Tipo de establecimiento', 'CCAA', 'DATA']] = df_estancia_media['Periodo,Tipo de establecimiento,CCAA,DATA'].str.split(',', expand=True)
df_estancia_media.drop(columns=['Periodo,Tipo de establecimiento,CCAA,DATA'], inplace=True)

# Crear una nueva columna de fecha a partir de 'Periodo'
df_viajeros['Fecha'] = pd.to_datetime(df_viajeros['Periodo'].str[:4] + '-' + df_viajeros['Periodo'].str[5:] + '-01')
df_estancia_media['Fecha'] = pd.to_datetime(df_estancia_media['Periodo'].str[:4] + '-' + df_estancia_media['Periodo'].str[5:] + '-01')

# Convertir la columna DATA a numérico, reemplazando las comas por puntos y forzando la conversión
df_viajeros['DATA'] = pd.to_numeric(df_viajeros['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')
df_estancia_media['DATA'] = pd.to_numeric(df_estancia_media['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Manejar valores nulos
df_viajeros.dropna(inplace=True)
df_estancia_media.dropna(inplace=True)

# Ajustar los valores en la columna DATA dividiéndolos por 10 en df_estancia_media
df_estancia_media['DATA'] = df_estancia_media['DATA'] / 10

# Convertir la columna DATA a int en df_viajeros
df_viajeros['DATA'] = df_viajeros['DATA'].astype(int)

# Convertir la columna DATA a float en df_estancia_media
df_estancia_media['DATA'] = df_estancia_media['DATA'].astype(float)

# Verificar las primeras filas para confirmar la limpieza y ajustes
print("Primeras filas de df_viajeros después de la limpieza y ajustes:")
print(df_viajeros.head())

print("Primeras filas de df_estancia_media después de la limpieza y ajustes:")
print(df_estancia_media.head())

# # Exportar df_viajeros a un archivo CSV asegurando que los números son enteros
# df_viajeros.to_csv('df_viajeros_limpio.csv', index=False)

# # Exportar df_estancia_media a un archivo CSV asegurando que los números son decimales
# df_estancia_media.to_csv('df_estancia_media_limpio.csv', index=False, float_format='%.2f')

print("Archivos exportados con éxito.")


Primeras filas de df_viajeros después de la limpieza y ajustes:
   Periodo Tipo de establecimiento Indicador      CCAA  \
0  1999M01                   TOTAL  Viajeros  La Rioja   
1  1999M01                   TOTAL  Viajeros  La Rioja   
2  1999M01                   TOTAL  Viajeros  La Rioja   
3  1999M01                   TOTAL  Viajeros    Espańa   
4  1999M01                   TOTAL  Viajeros    Espańa   

                Residencia     DATA      Fecha  
0                    TOTAL    16668 1999-01-01  
1     Residentes en Espańa    15676 1999-01-01  
2  No residentes en Espańa      992 1999-01-01  
3                    TOTAL  2834243 1999-01-01  
4     Residentes en Espańa  1738167 1999-01-01  
Primeras filas de df_estancia_media después de la limpieza y ajustes:
    Periodo Tipo de establecimiento      CCAA  DATA      Fecha
0   1999M01                 Hoteles  La Rioja   1.7 1999-01-01
1   1999M01                 Hoteles    Espańa   3.8 1999-01-01
2   1999M01                 Campin

In [11]:
# Definir las rutas a los archivos
ruta_segun_estrellas = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Encuesta de ocupación hotelera de La Rioja/Viajeros y pernoctaciones/1-Viajeros según categoría del establecimiento y residencia del viajero-20602001.csv"
ruta_residencia = "larioja.org/Turismo/Ocupación turística/Ocupación en establecimientos turísticos de La Rioja/Encuesta de ocupación hotelera de La Rioja/Viajeros y pernoctaciones/5-Viajeros y Pernoctaciones por país de residencia.csv"

# Cargar los datos en dataframes
df_estrellas = pd.read_csv(ruta_segun_estrellas, delimiter=';', decimal=',')
df_residencia = pd.read_csv(ruta_residencia, delimiter=';', decimal=',')

# Verificar los nombres de las columnas
print("Columnas de df_estrellas:", df_estrellas.columns)
print("Columnas de df_residencia:", df_residencia.columns)

# Separar las columnas adecuadamente
df_estrellas[['Periodo', 'Categoría', 'Residencia viajero', 'DATA']] = df_estrellas['Periodo,Categoría,Residencia viajero,DATA'].str.split(',', expand=True)
df_residencia[['Periodo', 'País de residencia', 'Medida', 'DATA']] = df_residencia['Periodo,País de residencia,Medida,DATA'].str.split(',', expand=True)

# Eliminar la columna original combinada
df_estrellas.drop(columns=['Periodo,Categoría,Residencia viajero,DATA'], inplace=True)
df_residencia.drop(columns=['Periodo,País de residencia,Medida,DATA'], inplace=True)

# Crear una nueva columna de fecha a partir de 'Periodo'
df_estrellas['Fecha'] = pd.to_datetime(df_estrellas['Periodo'].str[:4] + '-' + df_estrellas['Periodo'].str[5:] + '-01')
df_residencia['Fecha'] = pd.to_datetime(df_residencia['Periodo'].str[:4] + '-' + df_residencia['Periodo'].str[5:] + '-01')

# Convertir la columna DATA a numérico, reemplazando las comas por puntos y forzando la conversión
df_estrellas['DATA'] = pd.to_numeric(df_estrellas['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')
df_residencia['DATA'] = pd.to_numeric(df_residencia['DATA'].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Manejar valores nulos
df_estrellas.dropna(inplace=True)
df_residencia.dropna(inplace=True)

# Convertir la columna DATA a int en df_viajeros
df_estrellas['DATA'] = df_estrellas['DATA'].astype(int)

# Convertir la columna DATA a int en df_estancia_media
df_residencia['DATA'] = df_residencia['DATA'].astype(int)

# Verificar las primeras filas para confirmar la limpieza y ajustes
print("Primeras filas de df_estrellas después de la limpieza y ajustes:")
print(df_estrellas.head())

print("Primeras filas de df_residencia después de la limpieza y ajustes:")
print(df_residencia.head())

# # Exportar df_estrellas a un archivo CSV asegurando que los números son enteros
# df_estrellas.to_csv('df_estrellas_limpio.csv', index=False)

# # Exportar df_residencia a un archivo CSV asegurando que los números son decimales
# df_residencia.to_csv('df_residencia_limpio.csv', index=False)

print("Archivos exportados con éxito.")


Columnas de df_estrellas: Index(['Periodo,Categoría,Residencia viajero,DATA'], dtype='object')
Columnas de df_residencia: Index(['Periodo,País de residencia,Medida,DATA'], dtype='object')
Primeras filas de df_estrellas después de la limpieza y ajustes:
   Periodo        Categoría       Residencia viajero     DATA      Fecha
0  2015M01            TOTAL                    TOTAL  2736773 2015-01-01
1  2015M01            TOTAL     Residentes en Espańa  2444523 2015-01-01
2  2015M01            TOTAL  No residentes en Espańa    29225 2015-01-01
3  2015M01  4 y 5 estrellas                    TOTAL    10658 2015-01-01
4  2015M01  4 y 5 estrellas     Residentes en Espańa   923784 2015-01-01
Primeras filas de df_residencia después de la limpieza y ajustes:
   Periodo      País de residencia          Medida     DATA      Fecha
0  2015M01                   TOTAL        Viajeros  2736773 2015-01-01
1  2015M01                   TOTAL  Pernoctaciones  4515939 2015-01-01
2  2015M01    RESIDENTES EN ES

In [13]:
df_motivo_viaje = pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Estadística de Movimientos Turísticos en Fronteras para La Rioja/3-Número de turistas según motivo principal del viaje.csv')
df_motivo_viaje.head(), df_motivo_viaje.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Motivo del viaje  32 non-null     object 
 1   Periodo           32 non-null     int64  
 2   DATA              32 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 900.0+ bytes


(  Motivo del viaje  Periodo      DATA
 0            TOTAL     2016  150778.8
 1            TOTAL     2017  124188.8
 2            TOTAL     2018  142926.4
 3            TOTAL     2019  139497.3
 4            TOTAL     2020   45355.2,
 None)

In [21]:
# Convertir la columna 'Periodo' a string, añadir un '-01-01' para convertirlo en una fecha y luego a datetime
df_motivo_viaje ['Fecha'] = pd.to_datetime(df_motivo_viaje ['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_motivo_viaje .head())
print(df_motivo_viaje .info())

  Motivo del viaje  Periodo      DATA      Fecha
0            TOTAL     2016  150778.8 2016-01-01
1            TOTAL     2017  124188.8 2017-01-01
2            TOTAL     2018  142926.4 2018-01-01
3            TOTAL     2019  139497.3 2019-01-01
4            TOTAL     2020   45355.2 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Motivo del viaje  32 non-null     object        
 1   Periodo           32 non-null     int64         
 2   DATA              32 non-null     float64       
 3   Fecha             32 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 1.1+ KB
None


In [17]:
df_via_acceso = pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Estadística de Movimientos Turísticos en Fronteras para La Rioja/1-Número de turistas según via de acceso principal.csv')
df_via_acceso.head(), df_via_acceso.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Via de acceso  24 non-null     object 
 1   Periodo        24 non-null     int64  
 2   DATA           24 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 708.0+ bytes


(  Via de acceso  Periodo      DATA
 0         TOTAL     2016  150778.8
 1         TOTAL     2017  124188.8
 2         TOTAL     2018  142926.4
 3         TOTAL     2019  139497.3
 4         TOTAL     2020   45355.2,
 None)

In [18]:
df_via_acceso['Fecha'] = pd.to_datetime(df_via_acceso['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_via_acceso.head())
print(df_via_acceso.info())

  Via de acceso  Periodo      DATA      Fecha
0         TOTAL     2016  150778.8 2016-01-01
1         TOTAL     2017  124188.8 2017-01-01
2         TOTAL     2018  142926.4 2018-01-01
3         TOTAL     2019  139497.3 2019-01-01
4         TOTAL     2020   45355.2 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Via de acceso  24 non-null     object        
 1   Periodo        24 non-null     int64         
 2   DATA           24 non-null     float64       
 3   Fecha          24 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 900.0+ bytes
None


In [22]:
df_organizacion = pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Estadística de Movimientos Turísticos en Fronteras para La Rioja/5-Número de turistas según organización del viaje.csv')
df_organizacion.head(), df_via_acceso.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Via de acceso  24 non-null     object        
 1   Periodo        24 non-null     int64         
 2   DATA           24 non-null     float64       
 3   Fecha          24 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 900.0+ bytes


(  Forma de organización del viaje  Periodo      DATA
 0                           TOTAL     2016  150778.8
 1                           TOTAL     2017  124188.8
 2                           TOTAL     2018  142926.4
 3                           TOTAL     2019  139497.3
 4                           TOTAL     2020   45355.2,
 None)

In [24]:
df_organizacion ['Fecha'] = pd.to_datetime(df_organizacion ['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_organizacion .head())
print(df_organizacion .info())

  Forma de organización del viaje  Periodo      DATA      Fecha
0                           TOTAL     2016  150778.8 2016-01-01
1                           TOTAL     2017  124188.8 2017-01-01
2                           TOTAL     2018  142926.4 2018-01-01
3                           TOTAL     2019  139497.3 2019-01-01
4                           TOTAL     2020   45355.2 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 4 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   Forma de organización del viaje  24 non-null     object        
 1   Periodo                          24 non-null     int64         
 2   DATA                             24 non-null     float64       
 3   Fecha                            24 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 900.0+ bytes
None


In [25]:
df_alojamiento_principal= pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Estadística de Movimientos Turísticos en Fronteras para La Rioja/2-Número de turistas según alojamiento principal.csv')
df_alojamiento_principal.head(), df_alojamiento_principal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Tipo de alojamiento  24 non-null     object 
 1   Periodo              24 non-null     int64  
 2   DATA                 24 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 708.0+ bytes


(  Tipo de alojamiento  Periodo      DATA
 0               TOTAL     2016  150778.8
 1               TOTAL     2017  124188.8
 2               TOTAL     2018  142926.4
 3               TOTAL     2019  139497.3
 4               TOTAL     2020   45355.2,
 None)

In [26]:
df_alojamiento_principal['Fecha'] = pd.to_datetime(df_alojamiento_principal['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_alojamiento_principal.head())
print(df_alojamiento_principal.info())

  Tipo de alojamiento  Periodo      DATA      Fecha
0               TOTAL     2016  150778.8 2016-01-01
1               TOTAL     2017  124188.8 2017-01-01
2               TOTAL     2018  142926.4 2018-01-01
3               TOTAL     2019  139497.3 2019-01-01
4               TOTAL     2020   45355.2 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Tipo de alojamiento  24 non-null     object        
 1   Periodo              24 non-null     int64         
 2   DATA                 24 non-null     float64       
 3   Fecha                24 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 900.0+ bytes
None


In [31]:
df_num_turis_duracion_viaje= pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Estadística de Movimientos Turísticos en Fronteras para La Rioja/6-Número de turistas según duración del viaje.csv')
df_num_turis_duracion_viaje.head(),df_num_turis_duracion_viaje.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Duración del viaje  24 non-null     object 
 1   Periodo             24 non-null     int64  
 2   DATA                24 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 708.0+ bytes


(  Duración del viaje  Periodo      DATA
 0              TOTAL     2016  150778.8
 1              TOTAL     2017  124188.8
 2              TOTAL     2018  142926.4
 3              TOTAL     2019  139497.3
 4              TOTAL     2020   45355.2,
 None)

In [32]:
df_num_turis_duracion_viaje['Fecha'] = pd.to_datetime(df_num_turis_duracion_viaje['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_num_turis_duracion_viaje.head())
print(df_num_turis_duracion_viaje.info())

  Duración del viaje  Periodo      DATA      Fecha
0              TOTAL     2016  150778.8 2016-01-01
1              TOTAL     2017  124188.8 2017-01-01
2              TOTAL     2018  142926.4 2018-01-01
3              TOTAL     2019  139497.3 2019-01-01
4              TOTAL     2020   45355.2 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Duración del viaje  24 non-null     object        
 1   Periodo             24 non-null     int64         
 2   DATA                24 non-null     float64       
 3   Fecha               24 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 900.0+ bytes
None


In [34]:
# df_motivo_viaje.to_csv('df_motivo_viaje_limpio.csv', index=False)
# df_via_acceso.to_csv('df_via_acceso_limpio.csv', index=False)
# df_organizacion.to_csv('df_organizacion_limpio.csv', index=False)
# df_alojamiento_principal.to_csv('df_alojamiento_principal_limpio.csv', index=False)
# df_num_turis_duracion_viaje.to_csv('df_num_turis_duracion_viaje_limpio.csv', index=False)

### Gastos Turistas Internacionales:

In [33]:
df_gasto_motivo_viaje= pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/3-Gasto de los turistas internacionales según motivo principal del viaje.csv')
df_gasto_motivo_viaje.head(),df_gasto_motivo_viaje.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Motivo del viaje  128 non-null    object 
 1   Indicador         128 non-null    object 
 2   Periodo           128 non-null    int64  
 3   DATA              128 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 4.1+ KB


(  Motivo del viaje    Indicador  Periodo       DATA
 0            TOTAL  Gasto total     2016   93087.88
 1            TOTAL  Gasto total     2017  101962.17
 2            TOTAL  Gasto total     2018  101126.50
 3            TOTAL  Gasto total     2019   98201.73
 4            TOTAL  Gasto total     2020   21835.28,
 None)

In [35]:
df_gasto_motivo_viaje['Fecha'] = pd.to_datetime(df_gasto_motivo_viaje['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_gasto_motivo_viaje.head())
print(df_gasto_motivo_viaje.info())

  Motivo del viaje    Indicador  Periodo       DATA      Fecha
0            TOTAL  Gasto total     2016   93087.88 2016-01-01
1            TOTAL  Gasto total     2017  101962.17 2017-01-01
2            TOTAL  Gasto total     2018  101126.50 2018-01-01
3            TOTAL  Gasto total     2019   98201.73 2019-01-01
4            TOTAL  Gasto total     2020   21835.28 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Motivo del viaje  128 non-null    object        
 1   Indicador         128 non-null    object        
 2   Periodo           128 non-null    int64         
 3   DATA              128 non-null    float64       
 4   Fecha             128 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 5.1+ KB
None


In [36]:
df_gasto_duracion_viaje= pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/6-Gasto de los turistas internacionales según duración del viaje.csv')
df_gasto_duracion_viaje.head(),df_gasto_duracion_viaje.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96 entries, 0 to 95
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Duración del viaje  96 non-null     object 
 1   Indicador           96 non-null     object 
 2   Periodo             96 non-null     int64  
 3   DATA                96 non-null     float64
dtypes: float64(1), int64(1), object(2)
memory usage: 3.1+ KB


(  Duración del viaje    Indicador  Periodo       DATA
 0              TOTAL  Gasto total     2016   93087.88
 1              TOTAL  Gasto total     2017  101962.17
 2              TOTAL  Gasto total     2018  101126.50
 3              TOTAL  Gasto total     2019   98201.73
 4              TOTAL  Gasto total     2020   21835.28,
 None)

In [37]:
df_gasto_duracion_viaje['Fecha'] = pd.to_datetime(df_gasto_duracion_viaje['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_gasto_duracion_viaje.head())
print(df_gasto_duracion_viaje.info())

  Duración del viaje    Indicador  Periodo       DATA      Fecha
0              TOTAL  Gasto total     2016   93087.88 2016-01-01
1              TOTAL  Gasto total     2017  101962.17 2017-01-01
2              TOTAL  Gasto total     2018  101126.50 2018-01-01
3              TOTAL  Gasto total     2019   98201.73 2019-01-01
4              TOTAL  Gasto total     2020   21835.28 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96 entries, 0 to 95
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Duración del viaje  96 non-null     object        
 1   Indicador           96 non-null     object        
 2   Periodo             96 non-null     int64         
 3   DATA                96 non-null     float64       
 4   Fecha               96 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 3.9+ KB
None


In [38]:
df_gasto_segun_residencia= pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/4-Gasto de los turistas internacionales según país de residencia.csv')
df_gasto_segun_residencia.head(),df_gasto_segun_residencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 160 entries, 0 to 159
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País de residencia  160 non-null    object 
 1   Indicador           160 non-null    object 
 2   Periodo             160 non-null    int64  
 3   DATA                160 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 5.1+ KB


(  País de residencia    Indicador  Periodo       DATA
 0              TOTAL  Gasto total     2016   93087.88
 1              TOTAL  Gasto total     2017  101962.17
 2              TOTAL  Gasto total     2018  101126.50
 3              TOTAL  Gasto total     2019   98201.73
 4              TOTAL  Gasto total     2020   21835.28,
 None)

In [39]:
df_gasto_segun_residencia['Fecha'] = pd.to_datetime(df_gasto_segun_residencia['Periodo'].astype(str) + '-01-01')

# Verificar las primeras filas para confirmar la conversión
print(df_gasto_segun_residencia.head())
print(df_gasto_segun_residencia.info())

  País de residencia    Indicador  Periodo       DATA      Fecha
0              TOTAL  Gasto total     2016   93087.88 2016-01-01
1              TOTAL  Gasto total     2017  101962.17 2017-01-01
2              TOTAL  Gasto total     2018  101126.50 2018-01-01
3              TOTAL  Gasto total     2019   98201.73 2019-01-01
4              TOTAL  Gasto total     2020   21835.28 2020-01-01
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 160 entries, 0 to 159
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   País de residencia  160 non-null    object        
 1   Indicador           160 non-null    object        
 2   Periodo             160 non-null    int64         
 3   DATA                160 non-null    float64       
 4   Fecha               160 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 6.4+ KB
None


In [40]:
# df_gasto_motivo_viaje.to_csv('df_gasto_motivo_viaje_limpio.csv', index=False)
# df_gasto_duracion_viaje.to_csv('df_gasto_duracion_viaje_limpio.csv', index=False)
# df_gasto_segun_residencia.to_csv('df_gasto_segun_residencia_limpio.csv', index=False)

### Precios turísticos:

In [41]:
df_adr_revpar= pd.read_csv('larioja.org/Turismo/Precios turísticos/Índice de precios e indicadores de rentabilidad del sector hotelero de La Rioja/2-Adr y RevPar de puntos turísticos por categorías, municipio y meses 20603002.csv')
df_adr_revpar.head(),df_adr_revpar.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6696 entries, 0 to 6695
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Periodo    6696 non-null   object 
 1   Municipio  6696 non-null   object 
 2   Indicador  6696 non-null   object 
 3   Categoría  6696 non-null   object 
 4   DATA       2182 non-null   float64
dtypes: float64(1), object(4)
memory usage: 261.7+ KB


(   Periodo Municipio                                          Indicador  \
 0  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
 1  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
 2  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
 3  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
 4  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
 
               Categoría   DATA  
 0                 TOTAL  56.87  
 1    4 estrellas de oro  77.26  
 2    3 estrellas de oro  51.87  
 3    2 estrellas de oro  42.25  
 4  2 estrellas de plata  47.06  ,
 None)

In [45]:
df_adr_revpar['Fecha'] = pd.to_datetime(df_adr_revpar['Periodo'].str[:4] + '-' + df_adr_revpar['Periodo'].str[5:] + '-01')
df_adr_revpar.dropna(inplace=True)
# Verificar las primeras filas para confirmar la conversión
print(df_adr_revpar.head())
print(df_adr_revpar.info())

   Periodo Municipio                                          Indicador  \
0  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
1  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
2  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
3  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   
4  2016M01  LA RIOJA  Facturación media por cada habitación ocupada ...   

              Categoría   DATA      Fecha  
0                 TOTAL  56.87 2016-01-01  
1    4 estrellas de oro  77.26 2016-01-01  
2    3 estrellas de oro  51.87 2016-01-01  
3    2 estrellas de oro  42.25 2016-01-01  
4  2 estrellas de plata  47.06 2016-01-01  
<class 'pandas.core.frame.DataFrame'>
Index: 2182 entries, 0 to 6678
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Periodo    2182 non-null   object        
 1   Municipio  2182 non-null   object     

In [48]:
df_internacionales_organizacion_viaje= pd.read_csv('larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/5-Gasto de los turistas internacionales según forma organización del viaje.csv')
df_internacionales_organizacion_viaje.head(),df_internacionales_organizacion_viaje.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96 entries, 0 to 95
Data columns (total 4 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Forma de organización del viaje  96 non-null     object 
 1   Indicador                        96 non-null     object 
 2   Periodo                          96 non-null     int64  
 3   DATA                             92 non-null     float64
dtypes: float64(1), int64(1), object(2)
memory usage: 3.1+ KB


(  Forma de organización del viaje    Indicador  Periodo       DATA
 0                           TOTAL  Gasto total     2016   93087.88
 1                           TOTAL  Gasto total     2017  101962.17
 2                           TOTAL  Gasto total     2018  101126.50
 3                           TOTAL  Gasto total     2019   98201.73
 4                           TOTAL  Gasto total     2020   21835.28,
 None)

In [49]:
df_internacionales_organizacion_viaje['Fecha'] = pd.to_datetime(df_internacionales_organizacion_viaje['Periodo'].astype(str) + '-01-01')
df_internacionales_organizacion_viaje.dropna(inplace=True)
# Verificar las primeras filas para confirmar la conversión
print(df_internacionales_organizacion_viaje.head())
print(df_internacionales_organizacion_viaje.info())

  Forma de organización del viaje    Indicador  Periodo       DATA      Fecha
0                           TOTAL  Gasto total     2016   93087.88 2016-01-01
1                           TOTAL  Gasto total     2017  101962.17 2017-01-01
2                           TOTAL  Gasto total     2018  101126.50 2018-01-01
3                           TOTAL  Gasto total     2019   98201.73 2019-01-01
4                           TOTAL  Gasto total     2020   21835.28 2020-01-01
<class 'pandas.core.frame.DataFrame'>
Index: 92 entries, 0 to 95
Data columns (total 5 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   Forma de organización del viaje  92 non-null     object        
 1   Indicador                        92 non-null     object        
 2   Periodo                          92 non-null     int64         
 3   DATA                             92 non-null     float64       
 4   Fecha           

In [50]:
# df_adr_revpar.to_csv('df_adr_revpar_limpio.csv', index=False)
# df_internacionales_organizacion_viaje.to_csv('df_internacionales_organizacion_viaje_limpio.csv', index=False)