In [9]:
import pandas as pd
import os

In [10]:
# RENOMBRAR CCAA PARA PODER GRAFICAR EN CONJUNTO

mapeo_ccaa = {
    "com.madrid": "Madrid",
    "comunidad de madrid": "Madrid",
    "madrid": "Madrid",
    "com.valenciana": "Comunidad Valenciana",
    "comunidad valenciana": "Comunidad Valenciana",
    "comunitat valenciana": "Comunidad Valenciana",
    "valencia": "Comunidad Valenciana",
    "castilla la mancha": "Castilla - La Mancha",
    "comunidad foral de navarra": "Navarra",
    "c.f.navarra": "Navarra",
    "comunidad de navarra": "Navarra",
    "navarra": "Navarra",
    "baleares": "Illes Balears",
    "illes balears": "Illes Balears",
    "castilla y león": "Castilla y León",
    "cataluña": "Cataluña",
    "principado de asturias": "Principado de Asturias",
    "asturias": "Principado de Asturias",
    "región de murcia": "Región de Murcia",
    "murcia": "Región de Murcia",
    "país vasco": "País Vasco",
    "la rioja": "La Rioja",
    "ceuta": "Ceuta",
    "melilla": "Melilla",
    "transito": None}

In [11]:
def renombrar_ccaa(texto):
    if pd.isna(texto):
        return texto
    texto = texto.strip().lower()
    return mapeo_ccaa.get(texto, texto.title())

In [12]:
# CÓDIGO REUTILIZABLE

def cargar_csv(nombre_archivo):
    ruta = os.path.join("./data", nombre_archivo)
    return pd.read_excel(ruta)

In [13]:
def limpiar(df, columna_ccaa, columnas_num=None):
    df = df.copy()
    df[columna_ccaa] = df[columna_ccaa].apply(renombrar_ccaa)
    if columnas_num:
        for col in columnas_num:
            if col in df.columns:
                df[col] = df[col].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
                df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0)
    return df

In [14]:
# CARGAR 

df_internacional = pd.read_excel("./data/FRONTUR_DL.xlsx")
df_nacional = pd.read_excel("./data/TURISMO_INTERNO_PROV_CCAA_DL.xlsx")
df_gasto = pd.read_excel("./data/GASTO_TPV_DESTINO_CCAA_MES_DL.xlsx")

In [15]:
# LIMPIAR Y RENOMBRAR

df_internacional = limpiar(df_internacional, "CCAA_DESTINO", ["VISITANTES"])
df_nacional = limpiar(df_nacional, "CCAA_DESTINO", ["TURISTAS"])
df_gasto = limpiar(df_gasto, "CCAA_DESTINO", ["GASTO"])

In [16]:
# ELIMINAR FILAS CON CCAA None

df_internacional = df_internacional[df_internacional["CCAA_DESTINO"].notna()]
df_nacional = df_nacional[df_nacional["CCAA_DESTINO"].notna()]
df_gasto = df_gasto[df_gasto["CCAA_DESTINO"].notna()]

In [17]:
# FILTRAR AÑOS PARA QUE COINCIDAN A PARTIR DE 2019

df_internacional = df_internacional[df_internacional["AÑO"] >= 2019]
df_nacional = df_nacional[df_nacional["AÑO"] >= 2019]
df_gasto = df_gasto[df_gasto["AÑO"] >= 2019]

In [18]:
# AGRUPAR SUMANDO

df_internacional_sumado = df_internacional.groupby(["AÑO", "CCAA_DESTINO"], as_index=False)["VISITANTES"].sum()
df_nacional_sumado = df_nacional.groupby(["AÑO", "CCAA_DESTINO"], as_index=False)["TURISTAS"].sum()
df_gasto_sumado = df_gasto.groupby(["AÑO", "CCAA_DESTINO"], as_index=False)["GASTO"].sum()

In [19]:
# RENOMBRAR COLUMNAS

df_internacional_sumado.rename(columns={"AÑO": "Año", "CCAA_DESTINO": "CCAA", "VISITANTES": "Turistas_Internacionales"}, inplace=True)
df_nacional_sumado.rename(columns={"AÑO": "Año", "CCAA_DESTINO": "CCAA", "TURISTAS": "Turistas_Nacionales"}, inplace=True)
df_gasto_sumado.rename(columns={"AÑO": "Año", "CCAA_DESTINO": "CCAA", "GASTO": "Gasto"}, inplace=True)

In [20]:
# MERGE DATAFRAMES

df_final = df_internacional_sumado.merge(df_nacional_sumado, how="outer", on=["Año", "CCAA"]).merge(df_gasto_sumado, how="outer", on=["Año", "CCAA"])

In [21]:
# NaNs POR 0

df_final.fillna(0, inplace=True)

In [22]:
df_final

Unnamed: 0,Año,CCAA,Turistas_Internacionales,Turistas_Nacionales,Gasto
0,2019,Andalucía,14652617.0,40609516.0,2.502729e+09
1,2019,Aragón,853190.0,8464283.0,3.744974e+08
2,2019,Canarias,13860630.0,3594802.0,7.364008e+08
3,2019,Cantabria,419761.0,4738769.0,1.852133e+08
4,2019,Castilla - La Mancha,264722.0,17516749.0,6.144751e+08
...,...,...,...,...,...
128,2025,Melilla,589.0,44345.0,5.890543e+06
129,2025,Navarra,1567395.0,1053054.0,1.005016e+08
130,2025,País Vasco,4603828.0,2927097.0,2.937720e+08
131,2025,Principado de Asturias,93765.0,1218067.0,1.076262e+08


In [23]:
def invertir_columnas(df, año):
    df_año = df[df["Año"] == año].copy()
    print(f"{len(df_año)} filas para el año {año}")
    return df_año.set_index("CCAA")[["Turistas_Internacionales", "Turistas_Nacionales", "Gasto"]].T

In [24]:
df_reorganizado = invertir_columnas(df_final, 2024)
df_reorganizado

19 filas para el año 2024


CCAA,Andalucía,Aragón,Canarias,Cantabria,Castilla - La Mancha,Castilla y León,Cataluña,Ceuta,Comunidad Valenciana,Extremadura,Galicia,Illes Balears,La Rioja,Madrid,Melilla,Navarra,País Vasco,Principado de Asturias,Región de Murcia
Turistas_Internacionales,16343210.0,712851.0,16036490.0,530871.0,236646.0,2007017.0,28434560.0,64048.0,12312560.0,1368929.0,4542561.0,15684140.0,160307.0,8886161.0,29078.0,3811245.0,10429850.0,340715.0,1179558.0
Turistas_Nacionales,72061460.0,15913720.0,7246561.0,8582125.0,29761460.0,37035120.0,56281660.0,367856.0,37771480.0,9866701.0,21616290.0,5809212.0,4217006.0,41144210.0,237701.0,5504122.0,13981230.0,7049120.0,7142906.0
Gasto,4071951000.0,585997500.0,1308736000.0,308994100.0,1001943000.0,1395073000.0,5439457000.0,23096660.05,2910655000.0,239247400.0,682446200.0,2012715000.0,208150400.0,3799204000.0,6450267.42,524453300.0,734294300.0,204297200.0,719138200.0


In [25]:
# GUARDAR LOS DATAFRAMES DE INTERÉS

df_final.to_csv("./data/df_final.csv", index=False)
df_reorganizado.to_csv("./data/df_reorganizado.csv")