# A.1 Explore the data and choose the KPI’s

In this notebook, we will explore the available datasets, choose 3 and then identify key performance indicators (KPIs) that can help us understand the business better.

In [1]:
import polars as pl
import glob
import json
import matplotlib.pyplot as plt
import seaborn as sns

from pathlib import Path

In [2]:
DATA_PATH = Path("../../data/")

# Individual datasets
sets = {
    "cs": "cultural-sites",
    "ide": "idealista",
    "in": "incidences",
    "inc": "income",
    "lt": "lookup_tables",
    "po": "price_opendata",
    "un": "unemployment",
}

In [17]:
def read_many(path: Path, file_pattern: str = "*.csv") -> pl.DataFrame:
    queries = []
    f_path = Path(path) if not isinstance(path, Path) else path
    for file in f_path.glob(file_pattern):
        if "csv" in file_pattern:
            q = pl.scan_csv(file)
        elif "json" in file_pattern:
            q = pl.scan_ndjson(file)
        else:
            raise FileExistsError("Only csv and json supported.")
        queries.append(q)

    dataframes = pl.collect_all(queries)

    return pl.concat(dataframes, how="diagonal_relaxed")

In [4]:
def describe_df(df: pl.DataFrame) -> None:
    with pl.Config(tbl_cols=-1, tbl_width_chars=-1):
        print(df.describe())
    print("\n")
    print(df.glimpse())

## Cultural sites

In [5]:
df_cs = read_many(DATA_PATH / sets["cs"])
describe_df(df_cs)

shape: (9, 33)
┌────────────┬─────────────────────────┬─────────────────────────────┬───────────────────────┬─────────────────────┬──────────────────────┬────────────────────┬────────────────────────┬────────────────┬─────────────────┬─────────────────┬─────────────────────────┬──────────────────┬───────────────────────────────┬─────────────┬────────────────┬────────────────────────┬───────────────────────┬───────────────────────┬────────────────┬───────────────────────────┬────────────┬─────────────────────────────────┬───────────────────┬────────────────────────────┬──────────────────┬──────────────────────────┬────────────────────────────┬─────────────────────┬───────────────┬─────────────────────────────┬────────────────────┬─────────────────────┐
│ statistic  ┆ addresses_roadtype_name ┆ addresses_end_street_number ┆ values_attribute_name ┆ addresses_road_name ┆ values_category      ┆ addresses_zip_code ┆ values_value           ┆ addresses_town ┆ geo_epgs_4326_y ┆ geo_epgs_4326_x ┆

## Idealista

In [19]:
df_ide = read_many(DATA_PATH / sets["ide"], "*.json")
describe_df(df_ide)

PanicException: called `Result::unwrap()` on an `Err` value: ComputeError(ErrString("Struct array must be created with a DataType whose physical type is Struct"))

## Incidences

In [6]:
df_in = read_many(DATA_PATH / sets["in"])
describe_df(df_in)

shape: (9, 27)
┌────────────┬────────────────┬─────────────────────┬────────────────────┬─────────────────────────────────┬─────────────────┬─────────────┬─────────────┬──────────────────────────────┬──────────────┬──────────────┬─────────────┬───────────────┬─────────────────┬────────────┬─────────────────────────────────┬───────────────┬────────────────────┬───────────┬───────────────┬───────────────┬────────────────┬───────────────────┬────────────┬────────────┬─────────────┬────────────────────┐
│ statistic  ┆ CODI_DISTRICTE ┆ DISTRICTE           ┆ ANY_DATA_TANCAMENT ┆ DETALL                          ┆ BARRI           ┆ FITXA_ID    ┆ LATITUD     ┆ AREA                         ┆ COORDENADA_Y ┆ COORDENADA_X ┆ LONGITUD    ┆ DIA_DATA_ALTA ┆ CANALS_RESPOSTA ┆ NUMERO     ┆ ELEMENT                         ┆ SECCIO_CENSAL ┆ MES_DATA_TANCAMENT ┆ TIPUS_VIA ┆ ANY_DATA_ALTA ┆ MES_DATA_ALTA ┆ SUPORT         ┆ CARRER            ┆ CODI_BARRI ┆ _id        ┆ TIPUS       ┆ DIA_DATA_TANCAMENT │
│ ---

## Income

In [7]:
df_inc = read_many(DATA_PATH / sets["inc"])
describe_df(df_inc)

shape: (9, 8)
┌────────────┬─────────────┬────────────────┬─────────────────────┬────────────┬─────────────────┬──────────────┬───────────────────────────┐
│ statistic  ┆ Any         ┆ Codi_Districte ┆ Nom_Districte       ┆ Codi_Barri ┆ Nom_Barri       ┆ Població     ┆ Índex RFD Barcelona = 100 │
│ ---        ┆ ---         ┆ ---            ┆ ---                 ┆ ---        ┆ ---             ┆ ---          ┆ ---                       │
│ str        ┆ f64         ┆ f64            ┆ str                 ┆ f64        ┆ str             ┆ f64          ┆ str                       │
╞════════════╪═════════════╪════════════════╪═════════════════════╪════════════╪═════════════════╪══════════════╪═══════════════════════════╡
│ count      ┆ 811.0       ┆ 811.0          ┆ 811                 ┆ 811.0      ┆ 811             ┆ 811.0        ┆ 811                       │
│ null_count ┆ 0.0         ┆ 0.0            ┆ 0                   ┆ 0.0        ┆ 0               ┆ 0.0          ┆ 0                   

## Lookup tables

In [12]:
df_lt = read_many(DATA_PATH / sets["lt"])
describe_df(df_lt)

shape: (9, 9)
┌────────────┬─────────────────────┬─────────────────┬───────────────────────┬─────────────────────┬─────────────┬───────────────────────────┬───────────────────────────────┬─────────────────┐
│ statistic  ┆ district            ┆ neighborhood    ┆ district_n_reconciled ┆ district_n          ┆ district_id ┆ neighborhood_n_reconciled ┆ neighborhood_n                ┆ neighborhood_id │
│ ---        ┆ ---                 ┆ ---             ┆ ---                   ┆ ---                 ┆ ---         ┆ ---                       ┆ ---                           ┆ ---             │
│ str        ┆ str                 ┆ str             ┆ str                   ┆ str                 ┆ str         ┆ str                       ┆ str                           ┆ str             │
╞════════════╪═════════════════════╪═════════════════╪═══════════════════════╪═════════════════════╪═════════════╪═══════════════════════════╪═══════════════════════════════╪═════════════════╡
│ count      ┆ 127   

## Price opendata

In [16]:
df_po = read_many(DATA_PATH / sets["po"], "*.json")
describe_df(df_po)

..\..\data\price_opendata
[WindowsPath('../../data/price_opendata/price_opendata_neighborhood.json')]
shape: (9, 6)
┌────────────┬───────────┬─────────────────┬─────────────┬─────────────────────┬──────┐
│ statistic  ┆ _id       ┆ neigh_name      ┆ district_id ┆ district_name       ┆ info │
│ ---        ┆ ---       ┆ ---             ┆ ---         ┆ ---                 ┆ ---  │
│ str        ┆ f64       ┆ str             ┆ f64         ┆ str                 ┆ f64  │
╞════════════╪═══════════╪═════════════════╪═════════════╪═════════════════════╪══════╡
│ count      ┆ 73.0      ┆ 73              ┆ 73.0        ┆ 73                  ┆ 73.0 │
│ null_count ┆ 0.0       ┆ 0               ┆ 0.0         ┆ 0                   ┆ 0.0  │
│ mean       ┆ 37.0      ┆ null            ┆ 6.246575    ┆ null                ┆ null │
│ std        ┆ 21.217131 ┆ null            ┆ 2.807633    ┆ null                ┆ null │
│ min        ┆ 1.0       ┆ Baró de Viver   ┆ 1.0         ┆ Ciutat Vella        ┆ null │
│ 25

## Unemployment

In [20]:
df_un = read_many(DATA_PATH / sets["un"], "*.json")
describe_df(df_un)

shape: (9, 5)
┌────────────┬─────────────────────────────────┬──────────┬────────┬───────┐
│ statistic  ┆ help                            ┆ success  ┆ result ┆ error │
│ ---        ┆ ---                             ┆ ---      ┆ ---    ┆ ---   │
│ str        ┆ str                             ┆ f64      ┆ f64    ┆ f64   │
╞════════════╪═════════════════════════════════╪══════════╪════════╪═══════╡
│ count      ┆ 13                              ┆ 13.0     ┆ 12.0   ┆ 1.0   │
│ null_count ┆ 0                               ┆ 0.0      ┆ 1.0    ┆ 12.0  │
│ mean       ┆ null                            ┆ 0.923077 ┆ null   ┆ null  │
│ std        ┆ null                            ┆ null     ┆ null   ┆ null  │
│ min        ┆ https://opendata-ajuntament.ba… ┆ 0.0      ┆ null   ┆ null  │
│ 25%        ┆ null                            ┆ null     ┆ null   ┆ null  │
│ 50%        ┆ null                            ┆ null     ┆ null   ┆ null  │
│ 75%        ┆ null                            ┆ null     ┆ nu