# Gestion des données tabulaires

Les données tabulaires (ensemble de données regroupées par colonnes et par lignes) sont universelles et omniprésentes. On les retrouve aussi bien dans nos listes de courses, nos listes de taches, la gestion comptable et le suivi des processus.

Des outils dédiés leurs sont consacrés (les tableurs) et elles sont à la base également de solutions élaborées comme par exemple pour le stockage (les 'tables' des bases de données relationnelles) et pour le traitement (les 'dataFrame' Pandas) de gros volumes de données.

Pourtant, malgré cette importante popularité, il n'existe que très peu d'outils permettant de comprendre, d'analyser et d'exploiter la structuration de ce type de données.

L'objet de cet article est donc de vous présenter l'apport de ce type d'outil.

## Que trouve-t-on dans un tableau ?

La première structure identifiable est évidente : les lignes et les colonnes !
Néanmoins, ces deux notions ne sont pas équivalentes, les colonnes représentent la 'sémantique' des données et les lignes représentent les objets rangés suivant cette structuration définie par les colonnes.

Si l'on observe maintenant comment sont utilisés les tableaux, on peut identifier trois usages principaux :
- la classification : Il s'agit de regrouper les objets par catégories afin de pouvoir par exemple en faire une exploitation statistique,
- le croisement : Il consiste à représenter toutes les combinaisons entre deux paramètres comme par exemple dans les représentations matricielles
- la caractérisation : Elle correspond à la documentation de propriétés définies.

> Prenons un exemple :
>
>|id|produit|aliment	|quantité	|prix|année|disponibilité|
|:----:|:----:|:----:|:----:|:----:|:----:|:----:|
|11|pomme|fruit	|1 kg	|1	|2022|oui|
|12|pomme|fruit	|10 kg	|9|2022|oui|
|13|orange|fruit	|1 kg|2|2022|non|
|14|orange|fruit	|10 kg	|18	|2022|non|
|15|piment|légume	|1 kg	|1.5|2022|oui|
|16|piment|légume	|10 kg|13|2022|non|
|17|banane|fruit	|1 kg	|0.5|2022|oui|
|18|banane|fruit	|10 kg	|4|2022|oui|
>
>Il s'agit d'une liste de prix de différents aliments en fonction d'un conditionnement pour l'année 2022.
>
> On retrouve ici :
> - la classification : entre les produits et les aliments, 
> - le croisement : entre les produits et les quantités
> - la caractérisation : la disponibilité du produit

On peut noter que les deux usages de classification et de croisement conduisent à dupliquer fortement les informations avec les risques d'erreurs associés.

## Analyse des colonnes

Les relations entre deux colonnes peuvent être qualifiées et mesurées en fonction de ces trois usages. Ceci permet par exemple de contrôler qu'une exigence est bien respectée.

en caractérisant . On peut ainsi 

In [3]:
from observation import Ilist

tarif = Ilist.obj([['id', [11, 12, 13, 14, 15, 16, 17, 18]],
               ['produit', ['pomme', 'pomme', 'orange', 'orange', 'piment', 'piment', 'banane', 'banane']],
               ['aliment', ['fruit', 'fruit', 'fruit', 'fruit', 'légume', 'légume', 'fruit', 'fruit']],
               ['quantité', ['1 kg', '10 kg', '1 kg', '10 kg', '1 kg', '10 kg', '1 kg', '10 kg']],
               ['prix', [1, 10, 2, 20, 1.5, 15, 0.5, 5]],
               ['année', [2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022]],
               ['disponibilité', ['oui', 'oui','non','non','oui','non','oui','oui']]])
id, produit, aliment, quantite, prix, annee, dispo = tarif.lindex

aliment.isderived(produit)

True