# Les [dataclasses](https://docs.python.org/3/library/dataclasses.html)

L'extension [dataclasses](https://docs.python.org/3/library/dataclasses.html) fournit un [décorateur](https://pythonbasics.org/decorators/) qui ajoute des fonctionalités aux classes gérant des données. Je recommande le tutoriel de la chaîne [Arjan Code](https://www.youtube.com/watch?v=vRVVyl9uaZc) dont j'ai repris ici les principales idées. Ce tutoriel a ensuite et complété par une autre [vidéo](https://www.youtube.com/watch?v=CvQ7e6yUtnw&list=TLPQMjkwNDIwMjPRbzQzf9qtfw&index=1).

On part d'une classe servant à enregistrer des personnages (par exemple d'un jeu de rôle).

In [None]:
class Person:
    name: str
    job: str
    age: int

    def __init__(self, name, job, age):
        self.name = name
        self.job = job
        self.age = age

person1= Person("Gerald", "Witcher", 30)
person2 = Person("Jennifer", "Sorceress", 25)
person3 = Person("Jennifer", "Sorceress", 25)

print(person2)
print(person2 == person3)

<__main__.Person object at 0x7fb7ce7a7cd0>
False


Maintenant en utilisant le décorateur `dataclass`, nous modifions le comportement de cette classe. Par exemple, nous n'avons plus besoin de déclarer le constructeur, qui trivial à définir pour les objets devant contenir essentiellemnt des données.

In [None]:
from dataclasses import dataclass

@dataclass
class Person:
    name: str
    job: str
    age: int

person1= Person("Gerald", "Witcher", 30)
person2 = Person("Jennifer", "Sorceress", 25)
person3 = Person("Jennifer", "Sorceress", 25)

print(person2)
print(person2 == person3)

Person(name='Jennifer', job='Sorceress', age=25)
True


D'une part on économise l'écriture du constructeur, qui est finalement très banale, d'autre part le fonction `print` donne un résultat plus intéressant, car au lieu du pointeur sur l'objet, on a son contenu et enfin, deux objets ayant le même contenu sont déclarés identiques.


On peut aussi définir une relation d'ordre pour les objets.

In [None]:
from dataclasses import dataclass, field

@dataclass (order = True)
class Person:
    sort_index: int = field(init = False, repr=False)
    name: str
    job: str
    age: int

    def __post_init__(self):
        self.sort_index = self.age

person1= Person("Gerald", "Witcher", 30)
person2 = Person("Jennifer", "Sorceress", 25)
person3 = Person("Jennifer", "Sorceress", 25)

print(person2)
print(person2 == person3)
print(person1 > person2)

Person(name='Jennifer', job='Sorceress', age=25)
True
True


On peut aussi définir des paramètres par défaut.

In [None]:
from dataclasses import dataclass, field

@dataclass (order = True)
class Person:
    sort_index: int = field(init = False, repr=False)
    name: str
    job: str
    age: int
    strength: int = 100

    def __post_init__(self):
        self.sort_index = self.strength

person1= Person("Gerald", "Witcher", 30, strength=99)
person2 = Person("Jennifer", "Sorceress", 25)
person3 = Person("Jennifer", "Sorceress", 25)

print(person1)
print(person2)
print(person2 == person3)
print(person1 > person2)

Person(name='Gerald', job='Witcher', age=30, strength=99)
Person(name='Jennifer', job='Sorceress', age=25, strength=100)
True
False


On peut aussi geler les données

In [None]:
from dataclasses import dataclass, field

@dataclass (order = True, frozen = True)
class Person:
    sort_index: int = field(init = False, repr=False)
    name: str
    job: str
    age: int
    strength: int = 100

    def __post_init__(self):
        object.__setattr__(self, 'sort_index', self.strength)

person1= Person("Gerald", "Witcher", 30, strength=99)
person2 = Person("Jennifer", "Sorceress", 25)
person3 = Person("Jennifer", "Sorceress", 25)

print(person1)
print(person2)
print(person2 == person3)
print(person1 > person2)

Person(name='Gerald', job='Witcher', age=30, strength=99)
Person(name='Jennifer', job='Sorceress', age=25, strength=100)
True
False


Enfin l'utilisation de la méthode standard pour imprimer un objet.

In [1]:
from dataclasses import dataclass, field

@dataclass (order = True, frozen = True)
class Person:
    sort_index: int = field(init = False, repr=False)
    name: str
    job: str
    age: int
    strength: int = 100

    def __post_init__(self):
        object.__setattr__(self, 'sort_index', self.strength)

    def __str__(self):
        return f'{self.name}, {self.job}, {self.strength}'

person1= Person("Gerald", "Witcher", 30, strength=99)
person2 = Person("Jennifer", "Sorceress", 25)
person3 = Person("Jennifer", "Sorceress", 25)

print(person1)
print(person2)
print(person2 == person3)
print(person1 > person2)

Gerald, Witcher, 99
Jennifer, Sorceress, 100
True
False


# Autre introduction

Cette introduciton est faite en suivant ce [tutoriel de ArjanCodes](https://www.youtube.com/watch?v=CvQ7e6yUtnw&list=TLPQMjkwNDIwMjPRbzQzf9qtfw&index=1).

In [6]:
import random
import string

def generate_id() -> str:
    return "".join(random.choices(string.ascii_uppercase, k=12))

class Person:
    def __init__(self, name:str, address:str):
        self.name=name
        self.address = address
    
    # pour améliorer l'impression de cet objet
    def __str__(self) -> str:
        return f"{self.name}, {self.address}"

person = Person(name="John", address="123 Main St")
print(person)

John, 123 Main St


La maintenance et l'évolution de cette classe est compliquée car à chaque nouveau champ, il faudra modifier le constructeur `__init__` et la méthode d'impression `__str__`. 

L'utilisation de l'extension `dataclass` va simplifier beaucoup, tout en renforçant la lisibilité.

In [8]:
import random
import string

from dataclasses import dataclass

def generate_id() -> str:
    return "".join(random.choices(string.ascii_uppercase, k=12))

@dataclass
class Person:
    name: str
    address: str

person = Person(name="John", address="123 Main St")
print(person)

Person(name='John', address='123 Main St')


La commande  `field` va permettre d'améliorer en prévoyant soit une fonction d'initialisation pour certain champs ou en leur donnant des listes individualisées. À chaque fois ces initialisations par défaut peuvent être surchargées au moment de l'initialisation de l'instance d'un objet.

In [13]:
import random
import string

from dataclasses import dataclass, field

def generate_id() -> str:
    return "".join(random.choices(string.ascii_uppercase, k=12))

@dataclass
class Person:
    name: str
    address: str
    active: bool = True
    email_addresses: list[str] = field(default_factory=list)
    id: str= field(default_factory=generate_id)

person = Person(name="John", address="123 Main St")
print(person)
person2 = Person(name="Arjan", address="", active=False, id="ARJAN")
print(person2)

Person(name='John', address='123 Main St', active=True, email_addresses=[], id='LJNAVNZGZGMV')
Person(name='Arjan', address='', active=False, email_addresses=[], id='ARJAN')


Si on veut par exemple empêcher un utilisateur de définir lui même un `id`, on peut utiliser l'argument optionnel `init=` de la méthode `field`.

In [14]:
import random
import string

from dataclasses import dataclass, field

def generate_id() -> str:
    return "".join(random.choices(string.ascii_uppercase, k=12))

@dataclass
class Person:
    name: str
    address: str
    active: bool = True
    email_addresses: list[str] = field(default_factory=list)
    id: str= field(init=False, default_factory=generate_id)

person = Person(name="John", address="123 Main St")
print(person)

person2 = Person(name="Arjan", address="", active=False, id="ARJAN")
print(person2)

Person(name='John', address='123 Main St', active=True, email_addresses=[], id='BOGTFFZNHNEH')


TypeError: Person.__init__() got an unexpected keyword argument 'id'

Si on veut initialiser en utilisant les valeurs utilisées à l'initialisation. On utilise pour cela la méthode `__post_init__`. On peut assi exclure certaine donnée plutôt interne avec l'option `repr=False`. On applique ceci ici pour construire une chaîne qui servira à faire des recherches dans la liste des personnes.

In [17]:
import random
import string

from dataclasses import dataclass, field

def generate_id() -> str:
    return "".join(random.choices(string.ascii_uppercase, k=12))

@dataclass
class Person:
    name: str
    address: str
    active: bool = True
    email_addresses: list[str] = field(default_factory=list)
    id: str= field(init=False, default_factory=generate_id)
    _search_string: str = field(init=False, repr=False)

    def __post_init__(self) -> None:
        self._search_string = f"{self.name} {self.address}"

person = Person(name="John", address="123 Main St")
print(person)


Person(name='John', address='123 Main St', active=True, email_addresses=[], id='OAHTIKBBEPHU')


On peut aussi geler la définition des objets définis par la dataclass avec l'option `frozen` passée à `@dataclass`. On peut alors juste définir, mais plus changer les données une fois définies.

In [None]:
import random
import string

from dataclasses import dataclass, field

def generate_id() -> str:
    return "".join(random.choices(string.ascii_uppercase, k=12))

@dataclass(frozen = False)
class Person:
    name: str
    address: str
    active: bool = True
    email_addresses: list[str] = field(default_factory=list)
    id: str= field(init=False, default_factory=generate_id)
    _search_string: str = field(init=False, repr=False)

    def __post_init__(self) -> None:
        self._search_string = f"{self.name} {self.address}"

person = Person(name="John", address="123 Main St")
print(person)

L'option `kw_only=True` force l'utilisation des noms des paramètres pendant l'initialisation.

L'option `slots=True` permet d'accélérer la recherche des données. (sinon ce sont des dictionaires). Mais si on fait des héritages multiples, cette technique ne marche pas.
