I've been practicing sports practically my entire life, including running (either as a complement to the sport I practice or as a focus on it).
Every year I meet new people who are either jumping on the running bandwagon or bringing it up in conversation because it's something people think I'm interested in (and I am).
And every year, these people tell me the same thing: "Running is in, there's a boom right now."
A boom that's been happening every year since 2013?
Since when?
Is there a trend, or is running really a fad?
This study aims to:
- Analyze Google searches for running and related topics.
- Economic and social analysis: Does being unemployed affect starting to run? Does having more purchasing power affect starting to run?

Running in Spain: Fad or trend?

1. Data search and extraction

In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
import time

# Diccionarios para guardar los datos
datos_totales = {}

# Range of years to srape
años = range(2000, 2025)  # Desde el año 2000 hasta el 2024

# Bucle para recorrer cada año
for año in años:
    url = f"https://datosmacro.expansion.com/pib/espana-comunidades-autonomas?anio={año}"
    response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})

 
    soup = BeautifulSoup(response.content, "html.parser")
    table = soup.find("table")
        
    for row in table.find_all("tr")[1:]:  # Omitimos la cabecera
        cols = row.find_all("td")
        if len(cols) > 1:
            comunidad = cols[0].text.strip()
            pib_crudo = cols[2].text.strip()
                    
    # Guardar los datos en el diccionario
        if año not in datos_totales:
            datos_totales[año] = []
            datos_totales[año].append({
                "Comunidad Autónoma": comunidad,
                "PIB anual (€)": pib_crudo
            })

# Convertir el diccionario a un DataFrame
df_PIB = pd.DataFrame([
    {"Año": año, **dato}
    for año, datos in datos_totales.items()
    for dato in datos
])

display(df_PIB.head(10))

Unnamed: 0,Año,Comunidad Autónoma,PIB anual (€)
0,2000,Andalucía [+],86.332 M€
1,2001,Andalucía [+],93.964 M€
2,2002,Andalucía [+],101.269 M€
3,2003,Andalucía [+],110.094 M€
4,2004,Andalucía [+],119.027 M€
5,2005,Andalucía [+],129.256 M€
6,2006,Andalucía [+],139.373 M€
7,2007,Andalucía [+],149.010 M€
8,2008,Andalucía [+],152.247 M€
9,2009,Andalucía [+],145.802 M€


In [2]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
import time

# Diccionarios para guardar los datos
datos_totales = {"PIB_anual": {}, "PIB_per_capita": {}}

# Range of years to scrape
años = range(2000, 2025)  # Desde el año 2000 hasta el 2024

# Bucle para recorrer cada año
for año in años:
    url = f"https://datosmacro.expansion.com/pib/espana-comunidades-autonomas?anio={año}"
    response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
    soup = BeautifulSoup(response.content, "html.parser")
    
    # Encontrar todas las tablas
    tablas = soup.find_all("table")
    
    # Procesar la primera tabla (PIB anual)
    if len(tablas) > 0:
        table_pib_anual = tablas[0]
        for row in table_pib_anual.find_all("tr")[1:]:  # Omitimos la cabecera
            cols = row.find_all("td")
            if len(cols) > 1:
                comunidad = cols[0].text.strip()
                pib_crudo = cols[2].text.strip()
                
                # Guardar los datos en el diccionario
                if año not in datos_totales["PIB_anual"]:
                    datos_totales["PIB_anual"][año] = []
                datos_totales["PIB_anual"][año].append({
                    "Comunidad Autónoma": comunidad,
                    "PIB anual (€)": pib_crudo
                })
    
    # Procesar la segunda tabla (PIB per cápita)
    if len(tablas) > 1:
        table_pib_per_capita = tablas[1]
        for row in table_pib_per_capita.find_all("tr")[1:]:  # Omitimos la cabecera
            cols = row.find_all("td")
            if len(cols) > 1:
                comunidad = cols[0].text.strip()
                pib_per_capita = cols[2].text.strip()
                
                # Guardar los datos en el diccionario
                if año not in datos_totales["PIB_per_capita"]:
                    datos_totales["PIB_per_capita"][año] = []
                datos_totales["PIB_per_capita"][año].append({
                    "Comunidad Autónoma": comunidad,
                    "PIB per cápita (€)": pib_per_capita
                })

# Convertir los diccionarios a DataFrames
df_PIB_anual = pd.DataFrame([
    {"Año": año, **dato}
    for año, datos in datos_totales["PIB_anual"].items()
    for dato in datos
])

df_PIB_per_capita = pd.DataFrame([
    {"Año": año, **dato}
    for año, datos in datos_totales["PIB_per_capita"].items()
    for dato in datos
])

# Mostrar los primeros registros de ambos DataFrames
display(df_PIB_anual.head(10))
display(df_PIB_per_capita.head(10))

Unnamed: 0,Año,Comunidad Autónoma,PIB anual (€)
0,2000,Andalucía [+],86.332 M€
1,2000,Aragón [+],20.043 M€
2,2000,Asturias [+],14.267 M€
3,2000,Cantabria [+],7.945 M€
4,2000,Ceuta [+],1.017 M€
5,2000,Castilla y León [+],35.646 M€
6,2000,Castilla-La Mancha [+],21.714 M€
7,2000,Canarias [+],25.962 M€
8,2000,Cataluña [+],122.057 M€
9,2000,Extremadura [+],10.745 M€


Unnamed: 0,Año,Comunidad Autónoma,PIB per cápita (€)
0,2000,Andalucía [+],11.823 €
1,2000,Aragón [+],16.692 €
2,2000,Asturias [+],13.382 €
3,2000,Cantabria [+],14.891 €
4,2000,Ceuta [+],14.350 €
5,2000,Castilla y León [+],14.445 €
6,2000,Castilla-La Mancha [+],12.431 €
7,2000,Canarias [+],15.570 €
8,2000,Cataluña [+],19.383 €
9,2000,Extremadura [+],10.145 €


In [3]:
#Unir los dos dataframes por la columna "Año" y "Comunidad Autónoma"
df_completo = pd.merge(df_PIB_anual, df_PIB_per_capita, on=["Año", "Comunidad Autónoma"], how="outer")
display(df_completo.head())

Unnamed: 0,Año,Comunidad Autónoma,PIB anual (€),PIB per cápita (€)
0,2000,Andalucía [+],86.332 M€,11.823 €
1,2000,Aragón [+],20.043 M€,16.692 €
2,2000,Asturias [+],14.267 M€,13.382 €
3,2000,Canarias [+],25.962 M€,15.570 €
4,2000,Cantabria [+],7.945 M€,14.891 €


In [4]:
df_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 475 entries, 0 to 474
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Año                 475 non-null    int64 
 1   Comunidad Autónoma  475 non-null    object
 2   PIB anual (€)       475 non-null    object
 3   PIB per cápita (€)  475 non-null    object
dtypes: int64(1), object(3)
memory usage: 15.0+ KB


In [5]:
#Cambiar nombre de las columnas "Comunidad Autónoma" a "CCAA"
df_completo.rename(columns={"Comunidad Autónoma": "CCAA"}, inplace=True)

# Asegurarse de que los valores de la columna "PIB anual (€)" sean cadenas antes de limpiar y convertir
df_completo["PIB anual (€)"] = (
	df_completo["PIB anual (€)"]
	.astype(str)
	.str.replace("\xa0", "")  # Eliminar espacios no separables
	.str.replace("M€", "")  # Eliminar el sufijo "M€"
	.str.replace(",", ".")  # Reemplazar coma por punto para números decimales
	.astype(float)  # Convertir a float
)
df_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 475 entries, 0 to 474
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Año                 475 non-null    int64  
 1   CCAA                475 non-null    object 
 2   PIB anual (€)       475 non-null    float64
 3   PIB per cápita (€)  475 non-null    object 
dtypes: float64(1), int64(1), object(2)
memory usage: 15.0+ KB


In [6]:
# Modificamos el tipo de dato de la columna "PIB per cápita (€)" a float
df_completo["PIB per cápita (€)"] = (
	df_completo["PIB per cápita (€)"]
	.astype(str)
	.str.replace("\xa0", "")  # Eliminar espacios no separables
	.str.replace("€", "")  # Eliminar el sufijo "M€"
	.str.replace(",", ".")  # Reemplazar coma por punto para números decimales
	.astype(float)  # Convertir a float
)
df_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 475 entries, 0 to 474
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Año                 475 non-null    int64  
 1   CCAA                475 non-null    object 
 2   PIB anual (€)       475 non-null    float64
 3   PIB per cápita (€)  475 non-null    float64
dtypes: float64(2), int64(1), object(1)
memory usage: 15.0+ KB


In [7]:
#Ver los valores de la columna "CCAA"
df_completo["CCAA"].unique()

array(['Andalucía [+]', 'Aragón [+]', 'Asturias [+]', 'Canarias [+]',
       'Cantabria [+]', 'Castilla y León [+]', 'Castilla-La Mancha [+]',
       'Cataluña [+]', 'Ceuta [+]', 'Comunidad Valenciana [+]',
       'Comunidad de Madrid [+]', 'Extremadura [+]', 'Galicia [+]',
       'Islas Baleares [+]', 'La Rioja [+]', 'Melilla [+]', 'Navarra [+]',
       'País Vasco [+]', 'Región de Murcia [+]'], dtype=object)

In [8]:
#Modificar los nombres de las comunidades autónomas para que sean más legibles
df_completo["CCAA"] = df_completo["CCAA"].replace({
    "Andalucía [+]": "Andalucia",
    "Aragón [+]": "Aragon",
    "Asturias [+]": "Asturias",
    "Canarias [+]": "Canarias", 
    "Cantabria [+]": "Cantabria",
    "Castilla y León [+]": "CastillaLeon",
    "Castilla-La Mancha [+]": "CastillaLaMancha",
    "Cataluña [+]": "Catalunya",
    "Ceuta [+]": "Ceuta",
    "Comunidad Valenciana [+]": "ComunidadValenciana",
    "Comunidad de Madrid [+]": "Madrid",
    "Extremadura [+]": "Extremadura",
    "Galicia [+]": "Galicia",
    "Islas Baleares [+]": "Baleares",
    "La Rioja [+]": "LaRioja",
    "Melilla [+]": "Melilla",
    "Navarra [+]": "Navarra",
    "País Vasco [+]": "PaisVasco",
    "Región de Murcia [+]": "Murcia",
})

display(df_completo)

Unnamed: 0,Año,CCAA,PIB anual (€),PIB per cápita (€)
0,2000,Andalucia,86.332,11.823
1,2000,Aragon,20.043,16.692
2,2000,Asturias,14.267,13.382
3,2000,Canarias,25.962,15.570
4,2000,Cantabria,7.945,14.891
...,...,...,...,...
470,2024,LaRioja,10.618,32.828
471,2024,Melilla,1.750,20.479
472,2024,Navarra,25.041,37.088
473,2024,PaisVasco,87.857,39.547


In [9]:
#Convertir la columna "Año" a tipo datetime
df_completo["Año"] = pd.to_datetime(df_completo["Año"], format="%Y")

df_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 475 entries, 0 to 474
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Año                 475 non-null    datetime64[ns]
 1   CCAA                475 non-null    object        
 2   PIB anual (€)       475 non-null    float64       
 3   PIB per cápita (€)  475 non-null    float64       
dtypes: datetime64[ns](1), float64(2), object(1)
memory usage: 15.0+ KB


In [10]:
#Guardar el dataframe en un archivo CSV
df_completo.to_csv("PIB_CCAA_0024.csv", index=False, sep=";")

Preparar los datos para observar datos estadísticos

In [11]:
#read the csv file
df_completo = pd.read_csv("PIB_CCAA_0024.csv", sep=";")
df_completo.info()
df_completo.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 475 entries, 0 to 474
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Año                 475 non-null    object 
 1   CCAA                475 non-null    object 
 2   PIB anual (€)       475 non-null    float64
 3   PIB per cápita (€)  475 non-null    float64
dtypes: float64(2), object(2)
memory usage: 15.0+ KB


Unnamed: 0,Año,CCAA,PIB anual (€),PIB per cápita (€)
0,2000-01-01,Andalucia,86.332,11.823
1,2000-01-01,Aragon,20.043,16.692
2,2000-01-01,Asturias,14.267,13.382
3,2000-01-01,Canarias,25.962,15.57
4,2000-01-01,Cantabria,7.945,14.891
5,2000-01-01,CastillaLeon,35.646,14.445
6,2000-01-01,CastillaLaMancha,21.714,12.431
7,2000-01-01,Catalunya,122.057,19.383
8,2000-01-01,Ceuta,1.017,14.35
9,2000-01-01,ComunidadValenciana,62.532,15.185


In [12]:
# Verificar los nombres de las columnas
print(df_completo.columns)

Index(['Año', 'CCAA', 'PIB anual (€)', 'PIB per cápita (€)'], dtype='object')


In [13]:
#Sumar los valores de las columnas "PIB anual (€)" y "PIB per cápita (€)" por año por CCAA
df_suma = df_completo.groupby(["Año"]).agg({"PIB anual (€)": "sum", "PIB per cápita (€)": "sum"}).reset_index()
df_suma

Unnamed: 0,Año,PIB anual (€),PIB per cápita (€)
0,2000-01-01,1565.781,297.134
1,2001-01-01,2591.459,317.231
2,2002-01-01,1696.189,333.69
3,2003-01-01,802.11,350.524
4,2004-01-01,859.37,368.969
5,2005-01-01,927.347,390.732
6,2006-01-01,1004.06,415.389
7,2007-01-01,1076.603,436.659
8,2008-01-01,1111.436,444.873
9,2009-01-01,1071.963,425.142


In [14]:
# Añadir una columna llamada CCAA a este dataframe, donde todos los valores sean "Total"
df_suma["CCAA"] = "Total"
#Reordenar las columnas para que sea igual que el dataframe original
df_suma = df_suma[["Año", "CCAA", "PIB anual (€)", "PIB per cápita (€)"]]
#Concatenar el dataframe original con el nuevo dataframe
df_completo = pd.concat([df_completo, df_suma], ignore_index=True)
#Mostrar el dataframe completo
display(df_completo)

Unnamed: 0,Año,CCAA,PIB anual (€),PIB per cápita (€)
0,2000-01-01,Andalucia,86.332,11.823
1,2000-01-01,Aragon,20.043,16.692
2,2000-01-01,Asturias,14.267,13.382
3,2000-01-01,Canarias,25.962,15.570
4,2000-01-01,Cantabria,7.945,14.891
...,...,...,...,...
495,2020-01-01,Total,1128.020,432.250
496,2021-01-01,Total,1234.238,472.532
497,2022-01-01,Total,1372.302,523.370
498,2023-01-01,Total,1496.913,563.453


In [15]:
#Guardar el csv con el nuevo dataframe
df_completo.to_csv("PIB_CCAA_0024_cleaned.csv", index=False, sep=";")

In [16]:
#Load the data
df_PIB = pd.read_csv("PIB_CCAA_0024_cleaned.csv", sep=";")

In [17]:
df_PIB.info()
df_PIB.describe()
display(df_PIB.head(10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Año                 500 non-null    object 
 1   CCAA                500 non-null    object 
 2   PIB anual (€)       500 non-null    float64
 3   PIB per cápita (€)  500 non-null    float64
dtypes: float64(2), object(2)
memory usage: 15.8+ KB


Unnamed: 0,Año,CCAA,PIB anual (€),PIB per cápita (€)
0,2000-01-01,Andalucia,86.332,11.823
1,2000-01-01,Aragon,20.043,16.692
2,2000-01-01,Asturias,14.267,13.382
3,2000-01-01,Canarias,25.962,15.57
4,2000-01-01,Cantabria,7.945,14.891
5,2000-01-01,CastillaLeon,35.646,14.445
6,2000-01-01,CastillaLaMancha,21.714,12.431
7,2000-01-01,Catalunya,122.057,19.383
8,2000-01-01,Ceuta,1.017,14.35
9,2000-01-01,ComunidadValenciana,62.532,15.185


In [18]:
df_PIB.sample(20)

Unnamed: 0,Año,CCAA,PIB anual (€),PIB per cápita (€)
461,2024-01-01,CastillaLeon,70.876,29.698
326,2017-01-01,Canarias,43.036,20.296
255,2013-01-01,Ceuta,1.455,17.229
143,2007-01-01,Madrid,194.151,31.555
305,2016-01-01,Aragon,34.542,26.243
472,2024-01-01,Navarra,25.041,37.088
49,2002-01-01,Extremadura,12.697,12.0
202,2010-01-01,Galicia,56.787,20.488
76,2004-01-01,Andalucia,119.027,15.561
199,2010-01-01,ComunidadValenciana,101.87,20.419


In [28]:
# Asegurarse de que la columna "Año" sea de tipo string antes de aplicar .str
df_PIB["Año"] = df_PIB["Año"].astype(str).str[:4]
display(df_PIB.head(5))

AttributeError: 'SeriesGroupBy' object has no attribute 'astype'

In [26]:
#Guardar el valor de la columna "Año" como un entero
df_PIB["Año"] = df_PIB["Año"].astype(int)
df_PIB.info()
df_PIB

AttributeError: 'SeriesGroupBy' object has no attribute 'astype'