In [1]:
import pandas as pd
from pathlib import Path
import warnings

In [2]:
# Suppress potential future warnings from pandas
warnings.simplefilter(action='ignore', category=FutureWarning)

# --- Configuration ---
# Use Path for OS compatibility. '../' goes up one level from the 'notebooks' folder to the project root.
PROJECT_ROOT = Path("..") 
ANALYTICS_DATA_DIR = PROJECT_ROOT / "data" / "analytics"

# --- Pick a file to inspect ---
file_to_check = "CCAA Castilla-La Mancha/Diario_Mes_demographics_analysis.parquet"
file_path = ANALYTICS_DATA_DIR / file_to_check

# --- Load the data ---
print(f"Loading data from: {file_path}")
df = pd.read_parquet(file_path)

# --- Inspect the DataFrame ---
print("\nShape (rows, columns):", df.shape)
print("\nColumns:", df.columns.to_list())

# Display the first 5 rows
df.head(20)

Loading data from: ..\data\analytics\CCAA Castilla-La Mancha\Diario_Mes_demographics_analysis.parquet

Shape (rows, columns): (810, 15)

Columns: ['mes', 'etiquetadelmes', 'origen', 'categoriadelvisitante', 'volumen_total', 'volumen_edad_18-24', 'volumen_edad_25-34', 'volumen_edad_35-44', 'volumen_edad_45-54', 'volumen_edad_55-64', 'volumen_edad_65 o más', 'volumen_edad_<18', 'volumen_genero_h', 'volumen_genero_m', 'volumen_genero_nr']


Unnamed: 0,mes,etiquetadelmes,origen,categoriadelvisitante,volumen_total,volumen_edad_18-24,volumen_edad_25-34,volumen_edad_35-44,volumen_edad_45-54,volumen_edad_55-64,volumen_edad_65 o más,volumen_edad_<18,volumen_genero_h,volumen_genero_m,volumen_genero_nr
0,202206,2022 junio,Extranjero,En tránsito,1282114,,,,,,,,,,
1,202206,2022 junio,Extranjero,Excursionista,271725,,,,,,,,,,
2,202206,2022 junio,Extranjero,Excursionista recurrente,32843,,,,,,,,,,
3,202206,2022 junio,Extranjero,Habitualmente presente,27505,,,,,,,,,,
4,202206,2022 junio,Extranjero,Habitualmente presente en tránsito,6520,,,,,,,,,,
5,202206,2022 junio,Extranjero,Residente,167068,,,,,,,,,,
6,202206,2022 junio,Extranjero,Residente en tránsito,9343,,,,,,,,,,
7,202206,2022 junio,Extranjero,Turista,262038,,,,,,,,,,
8,202206,2022 junio,Extranjero,Turista en tránsito,123965,,,,,,,,,,
9,202206,2022 junio,Local,En tránsito,111566,3271.0,11402.0,15822.0,13680.0,10898.0,13392.0,11857.0,44598.0,35682.0,42.0


In [5]:
# Suma total
total_volumen = filtered_df['volumen_total'].sum()

# Suma por categoría de visitante
sum_by_category = filtered_df.groupby('categoriadelvisitante')['volumen_total'].sum()

# Mostrar resultados
print("DataFrame filtrado:")
print(filtered_df)

print(f"\nSuma total de 'volumen_total': {total_volumen}")

print("\nSuma de 'volumen_total' por categoriadelvisitante:")
print(sum_by_category)

DataFrame filtrado:
       mes etiquetadelmes      origen   categoriadelvisitante  volumen_total
3   202206     2022 junio  Extranjero  Habitualmente presente          27505
5   202206     2022 junio  Extranjero               Residente         167068
12  202206     2022 junio       Local  Habitualmente presente         572885
14  202206     2022 junio       Local               Residente       44214962
21  202206     2022 junio     NoLocal  Habitualmente presente        2021751
23  202206     2022 junio     NoLocal               Residente        5349251

Suma total de 'volumen_total': 52353422

Suma de 'volumen_total' por categoriadelvisitante:
categoriadelvisitante
Habitualmente presente     2622141
Residente                 49731281
Name: volumen_total, dtype: int64
