# Notebook séance 13

[Avoir la classe avec les objets](https://python.sdv.univ-paris-diderot.fr/19_avoir_la_classe_avec_les_objets/) en Python.


Une classe permet de regrouper des fonctionalités sur un objet.

Le paradigme objet change le point de vue par rapport au paradigme impératif : on *invoque* des méthodes sur des objets, ces méthodes agissent sur l'*instance* de l'objet.

Par exemple, la télévision de madame X et une télévision de monsieur Y sont toutes les deux des télévisions, et possèdent toutes les deux un bouton marche-arrêt. Mais lorsque j'appuie sur le bouton marche-arrêt de la télévision de madame X j'agis bien sur la télévision de madame X, pas sur celle de monsieur Y.

L'ensemble des méthodes disponibles sur un objet correspond aux interactions possibles avec cet objet.

Pour poursuivre sur l'exemple, je peux agir sur une télévision en l'allumant, en l'éteignant, en changeant de chaîne, en augmentant le volume ou en le diminuant, en coupant le son, etc.

## Exemple

On a ci-dessous une classe `DNA` permettant de *modéliser* une séquence d'ADN. On souhaite interagir avec un objet de type `DNA` avec les méthodes suivantes : calculer le taux de GC, calculer la séquence complémentaire inversée, en obtenir la représentation sous forme de chaîne de caractères.

In [1]:
class DNA:
    
    # attribut de classe
    __COMPLEMENT = { 'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C' }
    
    # constructeur
    def __init__(self, seq):
        # self = l'instance actuelle de l'objet
        """
        Parameters
        ----------
        seq : String
            seq is a string made of letters 'A', 'C', 'G', 'T'
        """
        # l'attribut __seq de moi-même devient égal à seq
        self.__seq = seq
        # il est préfixé par __ pour indiquer qu'il est privé : 
        # un utilisateur d'une instance de la classe DNA ne pourra
        # pas y accéder
    
    # des méthodes publiques
    def gc_rate(self):
        """
        Returns
        -------
        double
            GC rate of the DNA sequence
        """
        n = 0
        # self.__seq : le __seq de moi-même
        for nuc in self.__seq:
            if nuc in ['C','G']:
                n += 1
        return n / len(self.__seq)
    
    def revcomp(self):
        """
        Returns
        -------
        DNA
            a fresh DNA sequence which is the reverse complement of this object
        """
        seqrevcomp = ""
        for nuc in self.__seq:
            seqrevcomp += self.__complement(nuc)
        return DNA(seqrevcomp[::-1])

    def to_string(self):
        """
        Returns
        -------
        String
            a string representation of the DNA sequence
        """
        return self.__seq
    
    # des méthodes privées
    def __complement(self,nuc):
        """
        Parameters
        ----------
        nuc : String
            a nucleotide given as a string of one letter (A,T,C,G) 
        Returns
        -------
        String
            the base complement as a string of one letter (A,T,C,G)
        """
        return self.__COMPLEMENT[nuc]

In [2]:
s = "ATCGACTGC"
# pour créer une instance d'un objet, 
# on donne le nom de la classe et entre parenthèses 
# les paramètres du constructeur
seq = DNA(s)
print(seq.gc_rate())
print(seq.to_string())

# option 2 : on crée une nouvelle instance
rev = seq.revcomp()
print(rev.to_string())
print(seq.to_string())

print(rev)
print(seq)

0.5555555555555556
ATCGACTGC
GCAGTCGAT
ATCGACTGC
<__main__.DNA object at 0x103322a60>
<__main__.DNA object at 0x103344cd0>


In [3]:
isinstance(seq,DNA)

True

In [4]:
isinstance(rev,DNA)

True

## La méthode spéciale `__init__`

C'est le **constructeur**. Il sert à initialiser une **instance** de l'objet.

Regardons ce qui se passe dans PythonTutor, pour le code suivant.

[lien vers PythonTutor](http://pythontutor.com/visualize.html#code=class%20DNA%3A%0A%20%20%20%20%0A%20%20%20%20__COMPLEMENT%20%3D%20%7B%20'A'%3A%20'T',%20'T'%3A%20'A',%20'C'%3A%20'G',%20'G'%3A%20'C'%20%7D%0A%20%20%20%20%0A%20%20%20%20def%20__init__%28self,%20seq%29%3A%0A%20%20%20%20%20%20%20%20%22%22%22%0A%20%20%20%20%20%20%20%20Parameters%3A%0A%20%20%20%20%20%20%20%20seq%20%3A%20String%0A%20%20%20%20%20%20%20%20%20%20%20%20seq%20is%20a%20string%20made%20of%20letters%20'A',%20'C',%20'G',%20'T'%0A%20%20%20%20%20%20%20%20%22%22%22%0A%20%20%20%20%20%20%20%20self.__seq%20%3D%20seq%0A%20%20%20%20%0A%20%20%20%20def%20gc_rate%28self%29%3A%0A%20%20%20%20%20%20%20%20n%20%3D%200%0A%20%20%20%20%20%20%20%20for%20nuc%20in%20self.__seq%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20if%20nuc%20in%20%5B'C','G'%5D%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20n%20%2B%3D%201%0A%20%20%20%20%20%20%20%20return%20n%20/%20len%28self.__seq%29%0A%20%20%20%20%0A%20%20%20%20def%20revcomp%28self%29%3A%0A%20%20%20%20%20%20%20%20seqrevcomp%20%3D%20%22%22%0A%20%20%20%20%20%20%20%20for%20nuc%20in%20self.__seq%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20seqrevcomp%20%2B%3D%20self.__complement%28nuc%29%0A%20%20%20%20%20%20%20%20return%20DNA%28seqrevcomp%5B%3A%3A-1%5D%29%0A%0A%20%20%20%20def%20__complement%28self,nuc%29%3A%0A%20%20%20%20%20%20%20%20return%20self.__COMPLEMENT%5Bnuc%5D%0A%20%20%20%20%20%20%20%20%0A%20%20%20%20%20%20%20%20%0Aif%20__name__%20%3D%3D%20%22__main__%22%3A%0A%20%20%20%20s1%20%3D%20%22ATCGACTGC%22%0A%20%20%20%20seq1%20%3D%20DNA%28s1%29%0A%20%20%20%20s2%20%3D%20%22ATTTCGAGGAGC%22%0A%20%20%20%20seq2%20%3D%20DNA%28s2%29&cumulative=false&heapPrimitives=nevernest&mode=edit&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false)

In [5]:
s1 = "ATCGACTGC"
seq1 = DNA(s1)
s2 = "ATTTCGAGGAGC"
seq2 = DNA(s2)

A partir des instances on peut **invoquer** des méthodes.

[lien vers PythonTutor](http://pythontutor.com/visualize.html#code=class%20DNA%3A%0A%20%20%20%20%0A%20%20%20%20__COMPLEMENT%20%3D%20%7B%20'A'%3A%20'T',%20'T'%3A%20'A',%20'C'%3A%20'G',%20'G'%3A%20'C'%20%7D%0A%20%20%20%20%0A%20%20%20%20def%20__init__%28self,%20seq%29%3A%0A%20%20%20%20%20%20%20%20%22%22%22%0A%20%20%20%20%20%20%20%20Parameters%3A%0A%20%20%20%20%20%20%20%20seq%20%3A%20String%0A%20%20%20%20%20%20%20%20%20%20%20%20seq%20is%20a%20string%20made%20of%20letters%20'A',%20'C',%20'G',%20'T'%0A%20%20%20%20%20%20%20%20%22%22%22%0A%20%20%20%20%20%20%20%20self.__seq%20%3D%20seq%0A%20%20%20%20%0A%20%20%20%20def%20gc_rate%28self%29%3A%0A%20%20%20%20%20%20%20%20n%20%3D%200%0A%20%20%20%20%20%20%20%20for%20nuc%20in%20self.__seq%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20if%20nuc%20in%20%5B'C','G'%5D%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20n%20%2B%3D%201%0A%20%20%20%20%20%20%20%20return%20n%20/%20len%28self.__seq%29%0A%20%20%20%20%0A%20%20%20%20def%20revcomp%28self%29%3A%0A%20%20%20%20%20%20%20%20seqrevcomp%20%3D%20%22%22%0A%20%20%20%20%20%20%20%20for%20nuc%20in%20self.__seq%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20seqrevcomp%20%2B%3D%20self.__complement%28nuc%29%0A%20%20%20%20%20%20%20%20return%20DNA%28seqrevcomp%5B%3A%3A-1%5D%29%0A%0A%20%20%20%20def%20__complement%28self,nuc%29%3A%0A%20%20%20%20%20%20%20%20return%20self.__COMPLEMENT%5Bnuc%5D%0A%20%20%20%20%20%20%20%20%0A%20%20%20%20%20%20%20%20%0Aif%20__name__%20%3D%3D%20%22__main__%22%3A%0A%20%20%20%20s1%20%3D%20%22ATCGACTGC%22%0A%20%20%20%20seq1%20%3D%20DNA%28s1%29%0A%20%20%20%20s2%20%3D%20%22ATTTCGAGGAGC%22%0A%20%20%20%20seq2%20%3D%20DNA%28s2%29%0A%20%20%20%20%0A%20%20%20%20print%28seq1.gc_rate%28%29%29%0A%20%20%20%20seq3%20%3D%20seq1.revcomp%28%29%0A%20%20%20%20&cumulative=false&heapPrimitives=nevernest&mode=edit&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false)

## Les attributs et méthodes préfixées par `__`

C'est une convention Python de préfixer par `__` les attributs et méthodes qu'on ne veut pas exposer aux utilisateurs de notre classe : on appelle cela les attributs et les méthodes **privées**.

Si un attribut est privé, on n'y a accès qu'à "l'intérieur de la classe".

In [6]:
seq1.__seq

AttributeError: 'DNA' object has no attribute '__seq'

Mais dans une méthode de la classe DNA on peut bien sûr accéder à `self.__seq`.

## Les méthodes spéciales `__len__, __str__, __repr__`

Il existe des méthodes spéciales en Python qui permettent d'avoir une écriture simplifiée pour accéder à la longueur ou à l'affichage.

In [7]:
s = "ATCGACTGC"
seq = DNA(s)
print(seq)

<__main__.DNA object at 0x1033448b0>


In [8]:
s = "ATCGACTGC"
seq = DNA(s)
print(seq.__seq)

AttributeError: 'DNA' object has no attribute '__seq'

In [9]:
s = "ATCGACTGC"
seq = DNA(s)
seq.__COMPLEMENT

AttributeError: 'DNA' object has no attribute '__COMPLEMENT'

In [10]:
# les commentaires sont supprimés pour simplifier la lecture
class DNA:
    
    __COMPLEMENT = { 'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C' }
    
    def __init__(self, seq):
        self.__seq = seq
    
    def gc_rate(self):
        n = 0
        for nuc in self.__seq:
            if nuc in ['C','G']:
                n += 1
        return n / len(self.__seq)
    
    def revcomp(self):
        seqrevcomp = ""
        for nuc in self.__seq:
            seqrevcomp += self.__complement(nuc)
        return DNA(seqrevcomp[::-1])

    def __complement(self,nuc):
        return self.__COMPLEMENT[nuc]
    
    # vient remplacer la méthode toString() que nous avions réalisée
    def __str__(self):
        # attend qu'on retourne une chaîne de caractères
        return self.__seq
    
    def __repr__(self):
        # attend qu'on retourne une chaîne de caractères
        return "{}, {}".format(self.__seq, self.gc_rate())

Utilise `__str__`

In [11]:
s = "ATCGACTGC"
seq = DNA(s)
print(seq)

ATCGACTGC


In [12]:
str(seq)

'ATCGACTGC'

Utilise `___repr__`

In [13]:
seq

ATCGACTGC, 0.5555555555555556

In [14]:
repr(seq)

'ATCGACTGC, 0.5555555555555556'

C'est la même chose sur tous les objets Python.

In [15]:
l = [1,2,3]
repr(l)

'[1, 2, 3]'

On ajoute une méthode pour obtenir la longueur d'une séquence d'ADN.

In [16]:
class DNA:
    
    __COMPLEMENT = { 'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C' }
    
    def __init__(self, seq):
        """
        Parameters:
        seq : String
            seq is a string made of letters 'A', 'C', 'G', 'T'
        """
        self.__seq = seq
    
    def gc_rate(self):
        n = 0
        for nuc in self.__seq:
            if nuc in ['C','G']:
                n += 1
        return n / len(self.__seq)
    
    def revcomp(self):
        seqrevcomp = ""
        for nuc in self.__seq:
            seqrevcomp += self.__complement(nuc)
        return DNA(seqrevcomp[::-1])
    
    def length(self):
        return len(self.__seq)

    def __complement(self,nuc):
        return self.__COMPLEMENT[nuc]
    
    def __str__(self):
        # attend qu'on retourne une chaîne de caractères
        return self.__seq

In [17]:
s = "ATCGACTGC"
seq = DNA(s)
seq.length()

9

In [18]:
len(seq)

TypeError: object of type 'DNA' has no len()

On utilise la méthode spéciale `__len__`.

In [19]:
class DNA:
    
    __COMPLEMENT = { 'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C' }
    
    def __init__(self, seq):
        """
        Parameters:
        seq : String
            seq is a string made of letters 'A', 'C', 'G', 'T'
        """
        self.__seq = seq
    
    def gc_rate(self):
        n = 0
        for nuc in self.__seq:
            if nuc in ['C','G']:
                n += 1
        return n / len(self.__seq)
    
    def revcomp(self):
        seqrevcomp = ""
        for nuc in self.__seq:
            seqrevcomp += self.__complement(nuc)
        return DNA(seqrevcomp[::-1])
    
    def __complement(self,nuc):
        return self.__COMPLEMENT[nuc]
    
    def __str__(self):
        # attend qu'on retourne une chaîne de caractères
        return self.__seq
    
    # vient remplacer length()
    def __len__(self):
        return len(self.__seq)

In [20]:
s = "ATCGACTGC"
seq = DNA(s)
len(seq)

9

Bien souvent `repr` et `str` retournent la même chose. On s'attend à ce qu'on puisse faire des choses avec la chaîne de caractères retournée par `str` (par exemple l'inclure dans des affichages formatés) alors que pas nécessairement pour `repr`.

Remarquez qu'ici ma programmation n'est pas très efficace : ma séquence d'ADN ne change jamais et pourtant à chaque fois que je demande le taux de GC je le recalcule. J'aurais pu sauvegarder sa valeur dans un attribut, mais dans ce cas il faut faire attention si jamais on ajoute une méthode qui modifie la séquence.

## Exercices

### Modélisation des protéines

Ecrire une classe `Protein` dans un fichier `protein.py` qui permette de modéliser des protéines et des méthodes permettant de :
- créer une protéine à partir d'une chaîne de caractères (c'est donc le constructeur)
- obtenir sa longueur, une représentation sous forme de chaîne de caractères
- une méthode `count` permettant d'obtenir le nombre d'occurrences d'un acide aminé passé en paramètre

#### Utiliser la classe `Protein`

On va maintenant utiliser la classe `Protein` dans un script Python, i.e. un programme principal, avec un main.

Pour pouvoir le faire il va falloir *importer* la classe `Protein`, en Python on dit aussi importer un module. Cela se fait grâce à l'instruction 
```
from protein import Protein
```
en début du script qui indique qu'on souhaite disposer le classe `Protein`qui est stockée dans le fichier `protein.py`.


Puis reprendre la fonction de calcul des fréquences d'acides aminés qui produit un dictionnaire mais cette fois qui prendra en paramètre une `Protein`.

```python
def freq_aa (p):
    """
    Parameters
    ----------
    p : Protein
        a protein sequence
        
    Returns
    -------
    dict
        frequency of each aa in `p`
    """
```

### Modélisation des annotations d'un fichier GenBank

Grâce au travail que vous avez réalisé sur la lecture d'un fichier GenBank, proposer une modélisation des annotations (*features*) d'une séquence (on stockera uniquement le type d'annotation, ses coordonnées, son strand).

- Proposez des méthodes qu'on aimerait fournir à l'utilisateur d'une telle classe
- Proposez les attributs qui permettent de stocker les informations nécessaires
- Ecrire la documention de chacune des méthodes
- Ecrire le code de chacune des méthodes

### Modélisation d'une fabrique d'ADN

On souhaite avoir une classe `DNAFactory` qui permette par ses méthodes de créer des séquences d'ADN :
- la méthode `readFasta` retourne un objet DNA représentant la séquence contenu dans le fichier passé en paramètre,
- la méthode `random` retourne un objet DNA représentant une séquence aléatoire dont la longueur est passée en paramètre,

Voici un exemple d'utilisation :
```python
f = DNAFactory()
# lit la sequence dans le fichier et retourne
f.readFasta('NC_000059.fasta')
# crée une séquence aléatoire de 1000 bases
f.random(1000)
```

Utiliser cette fabrique, et la classe `DNA`, pour écrire un script `DNAinfo.py` qui permet d'afficher dans le terminal le taux de GC et la longueur d'une séquence d'ADN contenu dans un fichier FASTA dont le nom est passé en argument de la ligne de commande.

```shell
$ python3 DNAinfo.py NC_000059.fasta
11954 36.18
```

Modifier la méthode `random` pour qu'elle prenne un second paramètre, optionnel, qui précise le taux de GC de la séquence aléatoire.