In [1]:
import pandas as pd
import yaml

In [2]:
features_df = pd.read_excel("../../data/features.xlsx", "Catalogo esteso")

In [3]:
features_df

Unnamed: 0,Nome,Gruppi,Descrizione,Dettagli,Quando utilizzare,Parametri,Complessità computazionale
0,"count_above(x, t)",conteggio,Indica la percentuale di valori nella serie te...,,Può essere utilizzata per individuare anomalie...,t: valore di soglia oltre cui (compreso il val...,
1,count_above_mean(x),conteggio,Indica il numero di valori nella serie tempora...,Questo valore rappresenta quanti punti dati ne...,Rilevamento di picchi: Puoi utilizzare questa ...,,
2,"count_below(x, t)",conteggio,Indica la percentuale di valori nella serie te...,,Rilevamento delle valli: Puoi utilizzare quest...,t: valore di soglia sotto il quale (compreso i...,
3,count_below_mean(x),conteggio,Indica il numero di valori nella serie tempora...,Questo valore rappresenta quanti punti dati ne...,Fornisce un'indicazione sulla frequenza con cu...,,
4,"range_count(x, min, max)",conteggio,Indica quanti valori nella serie temporale si ...,Questo valore rappresenta il numero di punti d...,Filtraggio dei dati: Puoi utilizzare questa fe...,min: limite inferiore dell'intervallo (incluso...,
5,"number_peaks(x, n)",conteggio,Indica il numero di picchi nella serie tempora...,Questo valore rappresenta quanti punti dati ne...,Rilevamento di anomalie: Questa feature può es...,n: rappresenta il supporto del picco. Un picco...,
6,"number_crossing_m(x, m)",conteggio,Indica il numero di attraversamenti nella seri...,Un attraversamento è definito come due valori ...,Utilizzi questa feature quando vuoi analizzare...,m: rappresenta la soglia per l'attraversamento.,
7,"value_count(x, value)",conteggio,Indica quante volte il valore specificato valu...,,Questa feature si calcola quando si cerca un e...,value: valore del numero da contare all'intern...,
8,sum_values(x),statistica di base,Indica la somma dei valori nella serie temporale.,Questo valore rappresenta l'ammontare compless...,,,complessità molto bassa
9,absolute_maximum(x),statistica di base,Indica il valore assoluto più alto nella serie...,Questo valore rappresenta l'ampiezza massima d...,,,complessità molto bassa


In [4]:
def split_and_strip(data, sep="\n"):
    return [item.strip() for item in data.split(sep)]

tags_unique = set()
for gruppo in features_df["Gruppi"]:
    tags_unique.add(gruppo)

tags = [{"name": tag, "description": ""} for tag in tags_unique]

features = []
for idx, feature in features_df.iterrows():
    feature_dict = {
        "name": feature["Nome"],
        "tags": split_and_strip(feature["Gruppi"]),
        "description": feature["Descrizione"],
    }

    if not pd.isna(feature["Parametri"]):
        parameters = []
        for parameter in split_and_strip(feature["Parametri"]):
            parameter_name, parameter_description = parameter.split(":", 1)
            parameters.append({"name": parameter_name.strip(), "description": parameter_description.strip()})
        feature_dict["parameters"] = parameters
    if not pd.isna(feature["Dettagli"]):
        feature_dict["details"] = feature["Dettagli"]
    if not pd.isna(feature["Quando utilizzare"]):
        feature_dict["when"] = feature["Quando utilizzare"]

    features.append(feature_dict)

data = {
    "tags": tags,
    "features": features,
}

with open('../../data/features.yml', 'w', encoding="utf-8") as file:
    yaml.dump(data, file, allow_unicode=True)