In [None]:
import pandera.pandas as pa

from archaeo_super_prompt.dataset.load import MagohDataset

ds = MagohDataset(200, 0.8, True)

In [None]:
ds.intervention_data["university.Numero di saggi"] = ds.intervention_data["university.Numero di saggi"].astype('UInt32')

In [None]:
ds.intervention_data["university.Geologico"] = ds.intervention_data["university.Geologico"].astype('boolean')

In [None]:
for i, k in enumerate(ds.intervention_data.keys()):
    print(k, end="\t")
    if (-1)%3 == i%3:
        print()
filtered_df = ds.intervention_data.filter(
    regex="^(scheda_intervento.id|(university|building|check).*)"
)
filtered_df.keys()

In [None]:
print(pa.infer_schema(filtered_df))

In [None]:
def negativeFloatColumn():
    return pa.Column(float, pa.Check.lt(0.000001), nullable=True)


schema = pa.DataFrameSchema(
    {
        'scheda_intervento.id': pa.Column(int),
        'university.Sigla': pa.Column(str, nullable=True),
        'university.Comune': pa.Column(str, nullable=True),
        'university.Ubicazione': pa.Column(str, nullable=True),
        'university.Indirizzo': pa.Column(str, nullable=True),
        'university.Località': pa.Column(str, nullable=True),
        'university.Data intervento': pa.Column(str, nullable=True),
        'university.Tipo di intervento': pa.Column(str, nullable=True),
        'university.Durata': pa.Column(str, nullable=True),
        'university.Eseguito da': pa.Column(str, nullable=True),
        'university.Direzione scientifica': pa.Column(str, nullable=True),
        'university.Estensione': pa.Column(str, nullable=True),
        'university.Numero di saggi': pa.Column('UInt32', nullable=True),
        'university.Profondità massima': negativeFloatColumn(),
        'university.Geologico': pa.Column('boolean', nullable=True),
        'university.OGD': pa.Column(str, nullable=True),
        'university.OGM': pa.Column(str, nullable=True),
        'university.Profondità falda': negativeFloatColumn(),
        'check.Preistoria': pa.Column(bool),
        'check.Età Protostorica': pa.Column(bool),
        'check.Età Etrusca': pa.Column(bool),
        'check.Età Romana': pa.Column(bool),
        'check.Età Tardoantica': pa.Column(bool),
        'check.Alto Medioevo': pa.Column(bool),
        'check.Basso Medioevo': pa.Column(bool),
        'check.Età Moderna': pa.Column(bool),
        'check.Età Contemporanea': pa.Column(bool),
        'check.Non identificati': pa.Column(bool),
        'building.Istituzione': pa.Column(str, nullable=True),
        'building.Funzionario competente': pa.Column(str, nullable=True),
        'building.Tipo di documento': pa.Column(str, nullable=True),
        'building.Protocollo': pa.Column(str, nullable=True),
        'building.Data Protocollo': pa.Column(str, nullable=True)
    })
validated_ds = schema.validate(filtered_df)

In [None]:
validated_ds

In [None]:
serie = pa.SeriesSchema({
    pa.SeriesSchema(
        {
        "scheda_intervento.id": pa.Column(int),
        "university.Sigla": pa.Column(str, nullable=True),
        "university.Comune": pa.Column(str, nullable=True),
        "university.Ubicazione": pa.Column(str, nullable=True),
        "university.Indirizzo": pa.Column(str, nullable=True),
        "university.Località": pa.Column(str, nullable=True),
        "university.Data intervento": pa.Column(str, nullable=True),
        "university.Tipo di intervento": pa.Column(str, nullable=True),
        "university.Durata": pa.Column(str, nullable=True),
        "university.Eseguito da": pa.Column(str, nullable=True),
        "university.Direzione scientifica": pa.Column(str, nullable=True),
        "university.Estensione": pa.Column(str, nullable=True),
        "university.Numero di saggi": pa.Column('UInt32', pa.Check.ge(0), nullable=True),
        "university.Profondità massima": _negativeFloatColumn(),
        "university.Geologico": pa.Column("boolean", nullable=True),
        "university.OGD": pa.Column(str, nullable=True),
        "university.OGM": pa.Column(str, nullable=True),
        "university.Profondità falda": _negativeFloatColumn(),
        "check.Preistoria": pa.Column(bool),
        "check.Età Protostorica": pa.Column(bool),
        "check.Età Etrusca": pa.Column(bool),
        "check.Età Romana": pa.Column(bool),
        "check.Età Tardoantica": pa.Column(bool),
        "check.Alto Medioevo": pa.Column(bool),
        "check.Basso Medioevo": pa.Column(bool),
        "check.Età Moderna": pa.Column(bool),
        "check.Età Contemporanea": pa.Column(bool),
        "check.Non identificati": pa.Column(bool),
        "building.Istituzione": pa.Column(str, nullable=True),
        "building.Funzionario competente": pa.Column(str, nullable=True),
        "building.Tipo di documento": pa.Column(str, nullable=True),
        "building.Protocollo": pa.Column(str, nullable=True),
        "building.Data Protocollo": pa.Column(str, nullable=True),
    }

    nullable=False,
    unique=False,
    name="my_series")
})