In [53]:
import pandas as pd
from pyaxis import pyaxis
import matplotlib.pyplot as plt
import seaborn as sns

In [54]:
def cargar_y_verificar_datos(ruta_archivo):
    # Cargar el archivo CSV en un DataFrame
    df = pd.read_csv(ruta_archivo)
    
    # Mostrar las primeras filas del DataFrame para verificar la carga correcta
    print(f"Primeras filas del archivo {ruta_archivo}:")
    print(df.head())
    
    # Verificar si hay valores nulos
    print(f"\nValores nulos por columna en {ruta_archivo}:")
    print(df.isnull().sum())
    
    # Verificar tipos de datos
    print(f"\nTipos de datos en {ruta_archivo}:")
    print(df.dtypes)
    
    return df

def revisar_proporcion_nulos(df):
    total_valores = df.size
    total_nulos = df.isnull().sum().sum()
    proporcion_nulos = total_nulos / total_valores
    return proporcion_nulos

# Listado de archivos CSV y sus rutas
archivos_csv = {
    "df_precio_hotelero": 'larioja.org/Turismo/Precios turísticos/Índice de precios e indicadores de rentabilidad del sector hotelero de La Rioja/1-indice general y desglose por categorías y meses 20603001.csv',
    "df_adr_revpar": 'larioja.org/Turismo/Precios turísticos/Índice de precios e indicadores de rentabilidad del sector hotelero de La Rioja/2-Adr y RevPar de puntos turísticos por categorías, municipio y meses 20603002.csv',
    "df_ipac": 'larioja.org/Turismo/Precios turísticos/Índices de precios de establecimientos extrahoteleros de La Rioja/Consultas generales/1-Índice de precios de campings (IPAC) desglosado por meses.csv',
    "df_ipap": 'larioja.org/Turismo/Precios turísticos/Índices de precios de establecimientos extrahoteleros de La Rioja/Consultas generales/2-Índice de precios de apartamentos (IPAP) desglosado por tarifa y meses.csv',
    "df_iptr": 'larioja.org/Turismo/Precios turísticos/Índices de precios de establecimientos extrahoteleros de La Rioja/Consultas generales/3-Índice de precios de turismo rural (IPTR) desglosado por tarifa y meses.csv',
    "df_num_empresas": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Número de empresas del sector turístico/1-Número de empresas y locales en el sector turístico.csv',
    "df_afiliados_regimen": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Afiliados a la Seguridad Social del sector turístico/1-Afiliados a la seguridad social en el sector turístico por régimen.csv',
    "df_afiliados_contrato": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Afiliados a la Seguridad Social del sector turístico/2-Afiliados a la seguridad social en el sector turístico por tipo de contrato.csv',
    "df_magnitudes_2015": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Principales macromagnitudes económicas del sector turístico (año 2015 y siguientes)/1-Principales magnitudes en el sector turístico.csv',
    "df_indicadores_2015": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Principales macromagnitudes económicas del sector turístico (año 2015 y siguientes)/2-Principales indicadores en el sector turístico.csv',
    "df_personal_2015": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Principales macromagnitudes económicas del sector turístico (año 2015 y siguientes)/3-Personal ocupado en el sector turístico.csv',
    "df_magnitudes_2008_2014": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Principales macromagnitudes económicas del sector turístico (serie 2008 - 2014)/1-Principales magnitudes en el sector turístico.csv',
    "df_indicadores_2008_2014": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Principales macromagnitudes económicas del sector turístico (serie 2008 - 2014)/2-Principales indicadores en el sector turístico.csv',
    "df_personal_2008_2014": 'larioja.org/Turismo/Indicadores económicos del sector turístico en La Rioja/Indicadores del sector turístico en La Rioja/Principales macromagnitudes económicas del sector turístico (serie 2008 - 2014)/3-Personal ocupado en el sector turístico.csv',
    "df_establecimientos_turisticos": 'larioja.org/Turismo/Directorio de establecimientos turísticos/Directorio de alojamientos turísticos y plazas/Servicios de alojamiento/1-Establecimientos turísticos y capacidad por municipios y tipo de establecimiento.csv',
    "df_hoteles_capacidad": 'larioja.org/Turismo/Directorio de establecimientos turísticos/Directorio de alojamientos turísticos y plazas/Servicios de alojamiento/2-Número de hoteles y capacidad por municipios y categoría.csv',
    "df_apartamentos_capacidad": 'larioja.org/Turismo/Directorio de establecimientos turísticos/Directorio de alojamientos turísticos y plazas/Servicios de alojamiento/5-Número de apartamentos y capacidad por municipios y categoría.csv',
    "df_viviendas_uso_turistico": 'larioja.org/Turismo/Directorio de establecimientos turísticos/Directorio de alojamientos turísticos y plazas/Servicios de alojamiento/6-Número de viviendas de uso turístico por municipios.csv',
    "df_campings_capacidad": 'larioja.org/Turismo/Directorio de establecimientos turísticos/Directorio de alojamientos turísticos y plazas/Servicios de alojamiento/7-Número de campings y capacidad por municipios y categoría.csv',
    "df_casas_rurales_capacidad": 'larioja.org/Turismo/Directorio de establecimientos turísticos/Directorio de alojamientos turísticos y plazas/Servicios de alojamiento/8-Número de casas rurales y capacidad por municipios y categoría.csv',
    "df_plazas_por_habitante": 'larioja.org/Turismo/Directorio de establecimientos turísticos/Directorio de alojamientos turísticos y plazas/Servicios de alojamiento/10-Número de plazas de alojamiento por cada mil habitantes por municipios.csv',
    "df_gasto_via_acceso": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/1-Gasto de los turistas internacionales según via de acceso principal.csv',
    "df_gasto_alojamiento": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/2-Gasto de los turistas internacionales según alojamiento principal.csv',
    "df_gasto_motivo_viaje": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/3-Gasto de los turistas internacionales según motivo principal del viaje.csv',
    "df_gasto_pais_residencia": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/4-Gasto de los turistas internacionales según país de residencia.csv',
    "df_gasto_organizacion_viaje": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/5-Gasto de los turistas internacionales según forma organización del viaje.csv',
    "df_gasto_duracion_viaje": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/6-Gasto de los turistas internacionales según duración del viaje.csv',
    "df_gasto_partidas": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/7-Gasto de los turistas internacionales según partidas de gasto.csv',
    "df_turistas_via_acceso": 'larioja.org/Turismo/Encuestas turísticas/Estadística de Movimientos Turísticos en Fronteras para La Rioja/1-Número de turistas según via de acceso principal.csv',
    "df_turistas_alojamiento": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/2-Gasto de los turistas internacionales según alojamiento principal.csv',
    "df_turistas_motivo_viaje": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/3-Gasto de los turistas internacionales según motivo principal del viaje.csv',
    "df_turistas_pais_residencia": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/4-Gasto de los turistas internacionales según país de residencia.csv',
    "df_turistas_organizacion_viaje": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/5-Gasto de los turistas internacionales según forma organización del viaje.csv',
    "df_turistas_duracion_viaje": 'larioja.org/Turismo/Encuestas turísticas/Encuesta de Gasto Turístico en La Rioja/6-Gasto de los turistas internacionales según duración del viaje.csv'
}

# Cargar y verificar cada archivo CSV
dataframes = {}
for nombre_df, ruta in archivos_csv.items():
    print(f"\nCargando y verificando {nombre_df}...")
    dataframes[nombre_df] = cargar_y_verificar_datos(ruta)
    # Revisar la proporción de nulos
    proporcion_nulos = revisar_proporcion_nulos(dataframes[nombre_df])
    print(f"Proporción de nulos en {nombre_df}: {proporcion_nulos:.2%}")



Cargando y verificando df_precio_hotelero...
Primeras filas del archivo larioja.org/Turismo/Precios turísticos/Índice de precios e indicadores de rentabilidad del sector hotelero de La Rioja/1-indice general y desglose por categorías y meses 20603001.csv:
   Periodo                 Categoría   DATA
0  2016M01                     TOTAL  85.32
1  2016M01        4 estrellas de oro  90.27
2  2016M01        3 estrellas de oro  81.61
3  2016M01         1 estrella de oro  96.86
4  2016M01  2 y 3 estrellas de plata  66.79

Valores nulos por columna en larioja.org/Turismo/Precios turísticos/Índice de precios e indicadores de rentabilidad del sector hotelero de La Rioja/1-indice general y desglose por categorías y meses 20603001.csv:
Periodo       0
Categoría     0
DATA         44
dtype: int64

Tipos de datos en larioja.org/Turismo/Precios turísticos/Índice de precios e indicadores de rentabilidad del sector hotelero de La Rioja/1-indice general y desglose por categorías y meses 20603001.csv:
P

In [55]:
def revisar_estadisticas(df, nombre_df):
    # Revisar estadísticas descriptivas
    print(f"\nEstadísticas descriptivas para {nombre_df}:")
    print(df['DATA'].describe())
    
    # Revisar distribución
    print(f"\nDistribución de DATA en {nombre_df}:")
    print(df['DATA'].value_counts(bins=10))

# Revisar los DataFrames con valores nulos en 'DATA'
dataframes_con_nulos = ['df_precio_hotelero', 'df_adr_revpar', 'df_ipap', 'df_num_empresas', 'df_afiliados_regimen', 
                        'df_establecimientos_turisticos', 'df_hoteles_capacidad', 'df_apartamentos_capacidad', 
                        'df_viviendas_uso_turistico', 'df_campings_capacidad', 'df_casas_rurales_capacidad', 
                        'df_plazas_por_habitante', 'df_gasto_organizacion_viaje']

for nombre_df in dataframes_con_nulos:
    print(f"\nRevisando estadísticas para {nombre_df}...")
    revisar_estadisticas(dataframes[nombre_df], nombre_df)



Revisando estadísticas para df_precio_hotelero...

Estadísticas descriptivas para df_precio_hotelero:
count    621.000000
mean      94.614461
std       14.203714
min       56.140000
25%       85.180000
50%       92.190000
75%      102.510000
max      164.790000
Name: DATA, dtype: float64

Distribución de DATA en df_precio_hotelero:
(88.735, 99.6]       216
(77.87, 88.735]      177
(99.6, 110.465]       96
(110.465, 121.33]     62
(67.005, 77.87]       38
(121.33, 132.195]     16
(56.03, 67.005]        8
(132.195, 143.06]      5
(153.925, 164.79]      3
(143.06, 153.925]      0
Name: count, dtype: int64

Revisando estadísticas para df_adr_revpar...

Estadísticas descriptivas para df_adr_revpar:
count    2182.000000
mean       44.715225
std        23.143824
min         1.150000
25%        26.340000
50%        44.460000
75%        61.297500
max       159.560000
Name: DATA, dtype: float64

Distribución de DATA en df_adr_revpar:
(32.832, 48.673]      545
(48.673, 64.514]      517
(16.991, 

In [56]:
def analisis_descriptivo(df):
    # Estadísticas descriptivas básicas
    print("\nEstadísticas descriptivas:")
    print(df.describe())
    
    # Análisis de las categorías si existen
    if 'Categoría' in df.columns:
        print("\nConteo de categorías:")
        print(df['Categoría'].value_counts())
    
    return df

In [57]:
# Realizar análisis descriptivo para df_precio_hotelero
print("\nAnálisis descriptivo para df_precio_hotelero...")
df_precio_hotelero = analisis_descriptivo(dataframes["df_precio_hotelero"])


Análisis descriptivo para df_precio_hotelero...

Estadísticas descriptivas:
             DATA
count  621.000000
mean    94.614461
std     14.203714
min     56.140000
25%     85.180000
50%     92.190000
75%    102.510000
max    164.790000

Conteo de categorías:
Categoría
TOTAL                       95
4 estrellas de oro          95
3 estrellas de oro          95
1 estrella de oro           95
2 y 3 estrellas de plata    95
1 estrella de plata         95
2 estrellas de oro          95
Name: count, dtype: int64


In [58]:
# Realizar análisis descriptivo para df_adr_revpar
print("\nAnálisis descriptivo para df_adr_revpar...")
df_adr_revpar = analisis_descriptivo(dataframes["df_adr_revpar"])



Análisis descriptivo para df_adr_revpar...

Estadísticas descriptivas:
              DATA
count  2182.000000
mean     44.715225
std      23.143824
min       1.150000
25%      26.340000
50%      44.460000
75%      61.297500
max     159.560000

Conteo de categorías:
Categoría
TOTAL                   1116
4 estrellas de oro      1116
3 estrellas de oro      1116
2 estrellas de oro      1116
2 estrellas de plata    1116
1 estrella de plata     1116
Name: count, dtype: int64


In [59]:
# Realizar análisis descriptivo para df_ipap
print("\nAnálisis descriptivo para df_ipap...")
df_ipap = analisis_descriptivo(dataframes["df_ipap"])



Análisis descriptivo para df_ipap...

Estadísticas descriptivas:
             DATA
count  530.000000
mean    66.336189
std     64.879577
min    -12.870000
25%      3.545000
50%     68.315000
75%    124.695000
max    238.290000


In [60]:
# Realizar análisis descriptivo para df_num_empresas
print("\nAnálisis descriptivo para df_num_empresas...")
df_num_empresas = analisis_descriptivo(dataframes["df_num_empresas"])



Análisis descriptivo para df_num_empresas...

Estadísticas descriptivas:
           Periodo          DATA
count   196.000000    182.000000
mean   2014.500000   5704.247253
std       4.041452   7255.368301
min    2008.000000    177.000000
25%    2011.000000    279.500000
50%    2014.500000   1901.000000
75%    2018.000000  13856.750000
max    2021.000000  20720.000000


In [61]:
# Realizar análisis descriptivo para df_afiliados_regimen
print("\nAnálisis descriptivo para df_afiliados_regimen...")
df_afiliados_regimen = analisis_descriptivo(dataframes["df_afiliados_regimen"])



Análisis descriptivo para df_afiliados_regimen...

Estadísticas descriptivas:
               DATA
count   1224.000000
mean   13379.199346
std    22467.881764
min        1.000000
25%      917.000000
50%     2566.500000
75%    12819.500000
max    88812.000000


In [62]:
# Realizar análisis descriptivo para df_establecimientos_turisticos
print("\nAnálisis descriptivo para df_establecimientos_turisticos...")
df_establecimientos_turisticos = analisis_descriptivo(dataframes["df_establecimientos_turisticos"])


Análisis descriptivo para df_establecimientos_turisticos...

Estadísticas descriptivas:
            Periodo          DATA
count  67200.000000  10776.000000
mean    2016.500000     66.590757
std        4.609807    395.023120
min     2009.000000      1.000000
25%     2012.750000      2.000000
50%     2016.500000      7.000000
75%     2020.250000     18.000000
max     2024.000000   8087.000000


In [63]:
# Realizar análisis descriptivo para df_hoteles_capacidad
print("\nAnálisis descriptivo para df_hoteles_capacidad...")
df_hoteles_capacidad = analisis_descriptivo(dataframes["df_hoteles_capacidad"])


Análisis descriptivo para df_hoteles_capacidad...

Estadísticas descriptivas:
            Periodo         DATA
count  50400.000000  4155.000000
mean    2016.500000   115.810349
std        4.609818   429.686384
min     2009.000000     1.000000
25%     2012.750000     2.000000
50%     2016.500000    16.000000
75%     2020.250000    50.000000
max     2024.000000  5179.000000


In [64]:
# Realizar análisis descriptivo para df_apartamentos_capacidad
print("\nAnálisis descriptivo para df_apartamentos_capacidad...")
df_apartamentos_capacidad = analisis_descriptivo(dataframes["df_apartamentos_capacidad"])


Análisis descriptivo para df_apartamentos_capacidad...

Estadísticas descriptivas:
            Periodo         DATA
count  33600.000000  3705.000000
mean    2016.500000    29.937922
std        4.609841   126.770253
min     2009.000000     1.000000
25%     2012.750000     1.000000
50%     2016.500000     4.000000
75%     2020.250000    16.000000
max     2024.000000  2268.000000


In [65]:
# Realizar análisis descriptivo para df_viviendas_uso_turistico
print("\nAnálisis descriptivo para df_viviendas_uso_turistico...")
df_viviendas_uso_turistico = analisis_descriptivo(dataframes["df_viviendas_uso_turistico"])


Análisis descriptivo para df_viviendas_uso_turistico...

Estadísticas descriptivas:
           Periodo         DATA
count  1225.000000   659.000000
mean   2021.000000    21.578149
std       2.000817   121.414277
min    2018.000000     1.000000
25%    2019.000000     1.000000
50%    2021.000000     2.000000
75%    2023.000000     5.000000
max    2024.000000  1354.000000


In [66]:
# Realizar análisis descriptivo para df_campings_capacidad
print("\nAnálisis descriptivo para df_campings_capacidad...")
df_campings_capacidad = analisis_descriptivo(dataframes["df_campings_capacidad"])


Análisis descriptivo para df_campings_capacidad...

Estadísticas descriptivas:
            Periodo         DATA
count  26250.000000   636.000000
mean    2016.000000   683.408805
std        4.320576  1467.856458
min     2009.000000     1.000000
25%     2012.000000     1.000000
50%     2016.000000    50.500000
75%     2020.000000   580.000000
max     2023.000000  8087.000000


In [67]:
# Realizar análisis descriptivo para df_casas_rurales_capacidad
print("\nAnálisis descriptivo para df_casas_rurales_capacidad...")
df_casas_rurales_capacidad = analisis_descriptivo(dataframes["df_casas_rurales_capacidad"])



Análisis descriptivo para df_casas_rurales_capacidad...

Estadísticas descriptivas:
            Periodo         DATA
count  33600.000000  7743.000000
mean    2016.500000    15.808860
std        4.609841    69.807057
min     2009.000000     1.000000
25%     2012.750000     2.000000
50%     2016.500000     6.000000
75%     2020.250000    12.000000
max     2024.000000  1237.000000


In [68]:
# Realizar análisis descriptivo para df_plazas_por_habitante
print("\nAnálisis descriptivo para df_plazas_por_habitante...")
df_plazas_por_habitante = analisis_descriptivo(dataframes["df_plazas_por_habitante"])


Análisis descriptivo para df_plazas_por_habitante...

Estadísticas descriptivas:
           Periodo          DATA
count  5600.000000   3235.000000
mean   2016.500000    358.862189
std       4.610184   1428.495624
min    2009.000000      0.560000
25%    2012.750000     20.935000
50%    2016.500000     60.610000
75%    2020.250000    195.355000
max    2024.000000  19108.000000


In [69]:
# Realizar análisis descriptivo para df_gasto_organizacion_viaje
print("\nAnálisis descriptivo para df_gasto_organizacion_viaje...")
df_gasto_organizacion_viaje = analisis_descriptivo(dataframes["df_gasto_organizacion_viaje"])


Análisis descriptivo para df_gasto_organizacion_viaje...

Estadísticas descriptivas:
           Periodo           DATA
count    96.000000      92.000000
mean   2019.500000   14476.781087
std       2.303316   32579.192184
min    2016.000000       3.330000
25%    2017.750000      30.572500
50%    2019.500000     283.240000
75%    2021.250000    1293.632500
max    2023.000000  108604.090000


In [70]:
# Realizar análisis descriptivo para df_turistas_via_acceso
print("\nAnálisis descriptivo para df_turistas_via_acceso...")
df_turistas_via_acceso = analisis_descriptivo(dataframes["df_turistas_via_acceso"])


Análisis descriptivo para df_turistas_via_acceso...

Estadísticas descriptivas:
           Periodo          DATA
count    24.000000      24.00000
mean   2019.500000   72898.11250
std       2.340568   39208.20834
min    2016.000000   11436.00000
25%    2017.750000   47273.55000
50%    2019.500000   64304.20000
75%    2021.250000   90512.67500
max    2023.000000  150778.80000


In [71]:
# Realizar análisis descriptivo para df_turistas_alojamiento
print("\nAnálisis descriptivo para df_turistas_alojamiento...")
df_turistas_alojamiento = analisis_descriptivo(dataframes["df_turistas_alojamiento"])



Análisis descriptivo para df_turistas_alojamiento...

Estadísticas descriptivas:
           Periodo           DATA
count    96.000000      96.000000
mean   2019.500000   13833.271875
std       2.303316   28074.829713
min    2016.000000       2.040000
25%    2017.750000      40.905000
50%    2019.500000     298.230000
75%    2021.250000    3148.860000
max    2023.000000  108604.090000


In [72]:
# Realizar análisis descriptivo para df_turistas_motivo_viaje
print("\nAnálisis descriptivo para df_turistas_motivo_viaje...")
df_turistas_motivo_viaje = analisis_descriptivo(dataframes["df_turistas_motivo_viaje"])


Análisis descriptivo para df_turistas_motivo_viaje...

Estadísticas descriptivas:
           Periodo           DATA
count   128.000000     128.000000
mean   2019.500000   10435.615859
std       2.300291   23606.841971
min    2016.000000       1.700000
25%    2017.750000      48.230000
50%    2019.500000     336.085000
75%    2021.250000    1958.697500
max    2023.000000  108604.090000


In [73]:
# Realizar análisis descriptivo para df_turistas_pais_residencia
print("\nAnálisis descriptivo para df_turistas_pais_residencia...")
df_turistas_pais_residencia = analisis_descriptivo(dataframes["df_turistas_pais_residencia"])


Análisis descriptivo para df_turistas_pais_residencia...

Estadísticas descriptivas:
           Periodo           DATA
count   160.000000     160.000000
mean   2019.500000   11257.188937
std       2.298482   24219.948480
min    2016.000000       3.600000
25%    2017.750000      51.275000
50%    2019.500000     379.030000
75%    2021.250000    2461.740000
max    2023.000000  108604.090000


In [74]:
# Realizar análisis descriptivo para df_turistas_organizacion_viaje
print("\nAnálisis descriptivo para df_turistas_organizacion_viaje...")
df_turistas_organizacion_viaje = analisis_descriptivo(dataframes["df_turistas_organizacion_viaje"])


Análisis descriptivo para df_turistas_organizacion_viaje...

Estadísticas descriptivas:
           Periodo           DATA
count    96.000000      92.000000
mean   2019.500000   14476.781087
std       2.303316   32579.192184
min    2016.000000       3.330000
25%    2017.750000      30.572500
50%    2019.500000     283.240000
75%    2021.250000    1293.632500
max    2023.000000  108604.090000


In [75]:
# Realizar análisis descriptivo para df_turistas_duracion_viaje
print("\nAnálisis descriptivo para df_turistas_duracion_viaje...")
df_turistas_duracion_viaje = analisis_descriptivo(dataframes["df_turistas_duracion_viaje"])


Análisis descriptivo para df_turistas_duracion_viaje...

Estadísticas descriptivas:
           Periodo           DATA
count    96.000000      96.000000
mean   2019.500000   13831.165417
std       2.303316   29116.168370
min    2016.000000       1.450000
25%    2017.750000      45.920000
50%    2019.500000     274.795000
75%    2021.250000    2051.420000
max    2023.000000  108604.090000


In [76]:
def limpiar_datos(df, columnas_fecha, columnas_float, metodo_imputacion):
    # Convertir columnas a formato de fecha si existen
    for columna in columnas_fecha:
        if columna in df.columns:
            df[columna] = pd.to_datetime(df[columna], format='%YM%m', errors='coerce')
    
    # Convertir columnas a float si existen
    for columna in columnas_float:
        if columna in df.columns:
            df[columna] = pd.to_numeric(df[columna], errors='coerce')
    
    # Imputar valores nulos en la columna 'DATA' según el método seleccionado
    if 'DATA' in df.columns:
        if metodo_imputacion == 'media':
            df['DATA'].fillna(df['DATA'].mean(), inplace=True)
        elif metodo_imputacion == 'mediana':
            df['DATA'].fillna(df['DATA'].median(), inplace=True)
        elif metodo_imputacion == 'moda':
            df['DATA'].fillna(df['DATA'].mode()[0], inplace=True)
    
    # Verificar si hay valores nulos después de la conversión
    print(f"\nValores nulos después de la conversión en {df.columns.tolist()}:")
    print(df.isnull().sum())
    
    return df

# Listado de DataFrames con sus métodos de imputación
dataframes_info = {
    "df_precio_hotelero": {"columnas_fecha": ["Periodo"], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_adr_revpar": {"columnas_fecha": ["Periodo"], "columnas_float": ["DATA"], "metodo_imputacion": "media"},
    "df_ipap": {"columnas_fecha": ["Periodo"], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_num_empresas": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_afiliados_regimen": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_establecimientos_turisticos": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_hoteles_capacidad": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_apartamentos_capacidad": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_viviendas_uso_turistico": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_campings_capacidad": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_casas_rurales_capacidad": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_plazas_por_habitante": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"},
    "df_gasto_organizacion_viaje": {"columnas_fecha": [], "columnas_float": ["DATA"], "metodo_imputacion": "mediana"}
}

# Limpiar cada DataFrame con el método de imputación adecuado
for nombre_df, info in dataframes_info.items():
    print(f"\nLimpiando {nombre_df}...")
    dataframes[nombre_df] = limpiar_datos(dataframes[nombre_df], info['columnas_fecha'], info['columnas_float'], info['metodo_imputacion'])



Limpiando df_precio_hotelero...

Valores nulos después de la conversión en ['Periodo', 'Categoría', 'DATA']:
Periodo      0
Categoría    0
DATA         0
dtype: int64

Limpiando df_adr_revpar...

Valores nulos después de la conversión en ['Periodo', 'Municipio', 'Indicador', 'Categoría', 'DATA']:
Periodo      0
Municipio    0
Indicador    0
Categoría    0
DATA         0
dtype: int64

Limpiando df_ipap...

Valores nulos después de la conversión en ['Periodo', 'Tarifa', 'Variable', 'DATA']:
Periodo     0
Tarifa      0
Variable    0
DATA        0
dtype: int64

Limpiando df_num_empresas...

Valores nulos después de la conversión en ['Grupo actividad sector turístico', 'Indicador', 'Periodo', 'DATA']:
Grupo actividad sector turístico    0
Indicador                           0
Periodo                             0
DATA                                0
dtype: int64

Limpiando df_afiliados_regimen...

Valores nulos después de la conversión en ['Grupo actividad sector turístico', 'Régimen de a

### Análisis y Justificación de los Métodos de Imputación
Imputación por Mediana: Este método fue elegido en la mayoría de los casos debido a la presencia de valores extremos y distribuciones sesgadas. La mediana es robusta frente a estos problemas y proporciona una mejor representación central para datos no simétricos.

Imputación por Media: Se utilizó en df_adr_revpar debido a que, a pesar de la alta varianza, se quería reflejar la tendencia general de los datos. Sin embargo, puede que no sea la opción ideal debido a la sensibilidad de la media a los valores extremos.

### Recomendaciones
- Dataframes con Menos del 5% de Nulos
Eliminar Filas con Nulos: En este caso, dado que la proporción de nulos es baja, eliminar filas con nulos puede ser la opción más sencilla y no debería afectar significativamente los análisis posteriores. Esta opción es adecuada para los dataframes como df_precio_hotelero, df_ipap, df_num_empresas, df_afiliados_regimen, y df_gasto_organizacion_viaje.
- Dataframes con Más del 5% de Nulos
Imputación Avanzada (k-NN, Imputación Múltiple): Para los dataframes con una mayor proporción de nulos, como df_establecimientos_turisticos o df_hoteles_capacidad, utilizar métodos avanzados de imputación puede ayudar a preservar la integridad de los datos. Estos métodos son especialmente útiles si la variable DATA tiene relaciones significativas con otras variables en el dataset.
