# **Python pour la Data Science**
## **Classes et modules**

## **Introduction**
En Python et dans de nombreux autres langages de programmation, la **programmation orientée objet** consiste à créer des **classes** d’objets qui contiennent des informations spécifiques et des outils adaptés à leur manipulation.

**Tous les outils** que nous utilisons pour faire de la Data Science et que vous verrez plus tard (Arrays Numpy, DataFrames pandas, Modèles de scikit-learn, Figures matplotlib,...) sont construits de cette manière.
Comprendre les mécaniques des objets Python et savoir les utiliser est essentiel pour exploiter toutes les fonctionnalités de ces outils.

## **1. Les Classes**

Une classe d'objets contient 3 types d'éléments **fondamentaux** :

- Un **constructeur** : une fonction qui permet d'**initialiser** un objet de la classe.
- Des **attributs** : Des variables **spécifiques** à l'objet créé permettant de définir ses **propriétés**.
- Des **méthodes** : Des fonctions spécifiques à la classe qui permettent d'interagir avec un objet.

Pour comprendre les classes d'objets, faisons une analogie avec une voiture.

Les voitures sont une classe d'objets désignant des véhicules à roues motorisés et destinés au transport terrestre.

On suppose que le **constructeur** de la classe des voitures est une **usine** qui les produit.
À partir des **attributs** souhaités pour la voiture comme la **couleur**, le **modèle** ou la **cylindrée**, l'usine doit être capable de produire une voiture qui correspond aux caractéristiques données.

Ainsi, l'usine est analogue à une **fonction** qui prend en **argument** les **attributs** de la voiture et **retourne** la voiture **construite** et prête à l'emploi.

![constructor](https://github.com/diaBabPro/colabs/blob/main/constructor.png?raw=true)

Les **méthodes** de la voiture sont les commandes permettant d'accélérer ou de freiner le véhicule. Ces commandes sont analogues à des **fonctions** qui prennent en argument la **pression** sur la pédale et **appliquent** une accélération à la voiture.

En Python, une classe est définie avec la clause **`class`**. Cette clause permet de débuter un bloc de codes où nous pouvons définir le constructeur de la classe et ses méthodes.

La définition du constructeur se fait avec la méthode nommée **`__init__`** qui nous permet d'initialiser les **attributs** de l'objet que nous voulons construire (attention au fait qu'il y a 2 underscores avant et 2 underscores après init) :

```python
# Définition de la classe Car
   class Car:
      # Définition du constructeur de la classe Car
      def __init__(self, color, model, horsepower):
          # Initialisation des attributs de la classe avec les arguments du constructeur
          self.color = color
          self.model = model
          self.horsepower = horsepower
```

L'argument **`self`** correspond à l'**objet appelant la méthode**. Cet argument nous permet d'accéder aux attributs de l'objet au sein de la méthode.

**Toutes les méthodes** d'une classe doivent avoir comme **premier argument** l'argument **`self`** car les méthodes d'une classe reçoivent systématiquement l'objet qui les appelle en argument.

Nous pouvons définir d'autres méthodes au sein de cette classe :

```python
# Définition de la classe Car
  class Car:
      # Définition du constructeur de la classe Car
      def __init__(self, color, model, horsepower):
         # Initialisation des attributs de la classe avec les arguments du constructeur
         self.color = color
         self.model = model
         self.horsepower = horsepower

      # Définition d'une méthode permettant de changer la couleur d'une voiture
      def change_color(self, new_color):
          self.color = new_color
```

Pour créer un objet de cette classe, nous devons utiliser la syntaxe suivante :

```python
 # Création d'un objet de la classe Car
   aventador = Car(color = "orange",
                   model = "Aventador",
                   horsepower = 700)
```

Pour créer l'objet, `Car` s'utilise comme une fonction. En fait, Python fait appel à la méthode `__init__` de la classe `Car` en lui renseignant les arguments que nous avons utilisés dans la "fonction" `Car`.
C'est pourquoi on appelle aussi la fonction Car() le constructeur de la classe.

Le processus de construction d'un objet et d'assignation à une variable s'appelle l'**instanciation**.

On dit que `aventador` est une **instance** de la classe `Car`.

En vous inspirant de la classe `Car` définie ci-dessus :

- **(a)** Définir une nouvelle classe `Complexe` à 2 attributs :

  - **partie_re** qui contient la partie réelle du `Complexe`.

  - **partie_im** qui contient la partie imaginaire du `Complexe`.

- **(b)** Définir dans la classe `Complexe` une méthode `afficher` ne prenant pas d'arguments à part `self` permettant d'afficher un `Complexe` sous sa forme algébrique  𝑎+𝑏𝑖
  où  𝑎
  est la partie réelle d'un complexe et  𝑏
  sa partie imaginaire.

>Il faudra adapter cette méthode au signe de la partie imaginaire (L'affichage devrait donner `4 - 2i`, `6 + 2i`, `5`).

- **(c)** Instancier deux `Complexe` correspondant au nombres complexes  4+5𝑖
  et  3−2𝑖
  puis les afficher avec la méthode `afficher`.

In [5]:
# A & B
class Complexe:
      """
      La classe Complexe permet de construire un nombre complexe.

      Paramètres
      ----------
      partie_re : Entier : Partie réelle du nombre complexe.
      partie_im : Entier : Partie imaginaire du nombre complexe.

      Exemple
      -------
      complexe1 = Complexe(4, 5)
      complexe2 = Complexe(3, -2)
      """

      def __init__(self, partie_re, partie_im):
         # Initialisation des attributs de la classe avec les arguments du nombre complexe
         self.partie_re = partie_re
         self.partie_im = partie_im

      def afficher(self):
         """
         Méthode permettant d'afficher un complexe sous sa forme algébrique.
         """
         if self.partie_im >= 0:
          print(str(self.partie_re) + " + " + str(self.partie_im) + "i")
         else:
          print(str(self.partie_re) + " - " + str(abs(self.partie_im)) + "i")

# C
complexe1 = Complexe(4, 5)
complexe2 = Complexe(3, -2)
complexe1.afficher()
complexe2.afficher()

4 + 5i
3 - 2i


## **2. Classes et Documentations**

Pour être utilisable, une classe doit toujours être **proprement documentée**.
Comme pour les fonctions, l'écriture de la documentation d'une classe commence et termine avec trois guillemets `"""` :
```python
 class Car:
       """
       La classe Car permet de construire une voiture.

       Paramètres
       ----------
       color : Chaîne de caractères : Couleur de la voiture.
       model : Chaîne de caractères : Modèle de la voiture.
       horsepower : Entier : Puissance de la voiture.

       Exemple
       -------
       aventador = Car(color = "orange", model = "Aventador", horsepower = 700)
       """
     def __init__(self, color, model, horsepower):
          self.color = color
          self.model = model
          self.horsepower = horsepower

     def change_color(self, new_color):
         """
          Modifie la couleur d'une voiture.

          Paramètres
          ----------
          new_color : Chaîne de caractères : Nouvelle couleur de la voiture.
          """
          self.color = new_color
```

À présent, lorsqu'un utilisateur a besoin d'aide pour utiliser cette classe, il peut utiliser la fonction **`help`** pour afficher sa documentation :

```python

  help(Car)
   class Car(builtins.object)
    |  Car(color, model, horsepower)
    |  
    |  La classe Car permet de construire une voiture.
    |  
    |  Paramètres
    |  ----------
    |  color : Chaîne de caractères : Couleur de la voiture.
    |  model : Chaîne de caractères : Modèle de la voiture.
    |  horsepower : Entier : Cylindrée de la voiture.
    |  
    |  Exemple
    |  -------
    |  aventador = Car(color = "orange", model = "Aventador", horsepower = 700)
    |  
    |  Methods defined here:
    |  
    |  __init__(self, color, model, horsepower)
    |      Initialize self.  See help(type(self)) for accurate signature.
    |  
    |  change_color(self, new_color)
    |      Modifie la couleur d'une voiture.
    |      
    |      Paramètres
    |      ----------
    |      new_color : Chaîne de caractères : Nouvelle couleur de la voiture.

```

L'intérêt d'une documentation est d'être **lue et comprise par d'autres utilisateurs**.
Elle nous permet aussi de comprendre l'intérêt d'une méthode que nous avions définie et dont nous avons oublié l'utilité.

La documentation est la **première** ressource à consulter pour comprendre comment manipuler une classe.
Toutes les classes que vous utiliserez dans votre formation ont des documentations très complètes. Néanmoins, elles peuvent être difficiles à comprendre avec peu d'expérience.

Nous disposons de la liste `u = [1, 9, -3, 3, -5, 4, -4, 7, 3, 4, 5, 0, 8, 7, -1, -3, 7, 6, 0, 2]`.

- **(a)** À l'aide de la fonction **`help`**, trouver une méthode de la classe des listes permettant de trier la liste `u` puis afficher `u` triée.
- **(b)** Trouver une méthode permettant de supprimer tous les éléments de la liste `u`.

In [10]:
u = [1, 9, -3, 3, -5, 4, -4, 7, 3, 4, 5, 0, 8, 7, -1, -3, 7, 6, 0, 2]

# On peut afficher la documentation d'une classe à partir d'une instance
help(u)

# A
u.sort()
print(u)

# B
u.clear()
print(u)

Help on list object:

class list(object)
 |  list(iterable=(), /)
 |  
 |  Built-in mutable sequence.
 |  
 |  If no argument is given, the constructor creates a new empty list.
 |  The argument must be an iterable if specified.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iadd__(self, value, /)
 |      Implement self+=value.
 |  
 |  __imul__(self, value, /)
 |      Implement self*=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate sign

## **3. Les Modules**
Un module (aussi connu sous le nom *package* ou *librairie*) est un fichier Python contenant des définitions de classes et de fonctions.

Les modules permettent de réutiliser des fonctions déjà écrites sans avoir à les copier.

Les modules sont facilement partageables et en général les modules se spécialisent dans des tâches très spécifiques comme :

- La manipulation de données (`pandas`).
- Le calcul optimisé (`numpy`).
- Le traçage de graphiques (`matplotlib`).
- Le machine learning (`scikit-learn`).
Toutes les tâches de Data Science que vous verrez dans votre formation dépendent de modules écrits par d'autres développeurs.
Ces modules font toute la richesse du langage Python et l'absence de ces modules ferait de Python un langage sous-optimal pour la Data Science.

Il existe de nombreux langages de programmation plus performants que Python. Néanmoins, tant que les modules que nous utilisons ne seront pas disponibles dans ces langages, il sera très difficile de migrer.

Afin d'importer un module, il faut utiliser le mot-clé **`import`** :

```python
  # On importe toute la librairie Numpy
   import numpy
```
Pour utiliser une fonction de ce module, il faut y accéder en passant par le module :

```python
   x = 0

   # La fonction 'cos' de numpy permet de calculer le cosinus d'un nombre
   print(numpy.cos(x))
   >>> 1.0
```

Il n'est pas très pratique de devoir écrire `numpy` à chaque fois que nous voulons utiliser une fonction de ce module.
Pour cela, nous pouvons **abréger** son nom à l'aide du mot clé **`as`** :

```python

 # On importe numpy et on abrège son nom avec 'np'
   import numpy as np

   x = 0
   print(np.cos(x))
   >>> 1.0

```
On dit que `np` est l'alias de `numpy`.

Cette pratique est très souvent utilisée. Dans le reste de votre formation, vous verrez très souvent les instructions :

```python
import numpy as np
   import pandas as pd
   import matplotlib.pyplot as plt
```

Si on ne souhaite pas importer le module entièrement, il est possible de n'importer que quelques fonctions ou classes du module à l'aide du mot-clé **`from`** :

```python
  # On n'importe que les fonctions cos, sin et exp du module numpy
   from numpy import cos, sin, exp
```

- **(a)** Importer la fonction **`load_boston`** du module **`sklearn.datasets`**.
- **(b)** Dans une variable nommée `boston_dataset`, stocker ce que renvoie la fonction `load_boston` lorsqu'elle est lancée sans arguments. De quel type est cette variable ?

In [17]:
# A
from sklearn.datasets import fetch_openml

# B
boston_dataset = fetch_openml(data_id=43465)
print(type(boston_dataset))

<class 'sklearn.utils._bunch.Bunch'>


La variable `boston_dataset` se comporte comme un **dictionnaire**.
On rappelle qu'un dictionnaire est une structure de données où les données sont indexées par des clés. Pour accéder à une clé d'un dictionnaire, il suffit de renseigner la clé entre crochets :

```python
un_dictionnaire['clé']
```

Le dictionnaire `boston_dataset` contient 4 clés :

- `'data'` : Le jeu de données immobilier de Boston. Il contient des caractéristiques sur des biens immobiliers.
- `'target'` : Le prix de ces biens immobiliers. L'objectif du jeu de données est de déterminer le prix de vente d'un bien immobilier en fonction de ses caractéristiques.
- `'feature_names'` : Les noms donnés aux caractéristiques des biens immobiliers.
- `'DESCR'` : Un texte qui décrit le jeu de données et ses variables.

- **(c)** Dans une variable `X`, stocker la valeur associée à la clé **`'data'`** du dictionnaire `boston_dataset`.
- **(d)** Dans une variable `feature_names`, stocker la valeur associée à la clé **`'feature_names'`** du dictionnaire `boston_dataset`.

In [18]:
# C
X = boston_dataset['data']

# D
feature_names = boston_dataset['feature_names']

>Nous allons maintenant instancier un objet de la classe `DataFrame` qui est très utile pour visualiser et traiter des jeux de données.

- **(e)** Importer le module `pandas` sous l'alias **`pd`**.
- **(f)** Instancier un objet de la classe `DataFrame` à l'aide du constructeur `pd.DataFrame()`. Cet objet sera nommé **`df`** et les arguments du constructeur seront **`data = X, columns = feature_names`**.
- **(g)** Afficher les 10 premières lignes du `DataFrame` `df` en appelant sa **méthode** **`head`** avec l'argument **`n = 10`**.

In [19]:
# E
import pandas as pd

# F
df = pd.DataFrame(data = X, columns = feature_names)

# G
df.head(n = 10)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33
5,0.02985,0.0,2.18,0.0,0.458,6.43,58.7,6.0622,3.0,222.0,18.7,394.12,5.21
6,0.08829,12.5,7.87,0.0,0.524,6.012,66.6,5.5605,5.0,311.0,15.2,395.6,12.43
7,0.14455,12.5,7.87,0.0,0.524,6.172,96.1,5.9505,5.0,311.0,15.2,396.9,19.15
8,0.21124,12.5,7.87,0.0,0.524,5.631,100.0,6.0821,5.0,311.0,15.2,386.63,29.93
9,0.17004,12.5,7.87,0.0,0.524,6.004,85.9,6.5921,5.0,311.0,15.2,386.71,17.1


Vous venez d'importer et afficher votre premier jeu de données à l'aide des modules `sklearn.datasets` et `pandas`.

Comme vous le verrez dans la suite de votre formation, la classe `DataFrame` de `pandas` est une classe beaucoup plus pratique que la classe des listes ou des dictionnaires pour manipuler des données tabulaires.
C'est un des outils fondamentaux de l'analyse de données avec Python.

## **Conclusion**

Vous avez à présent acquis les bases de Python.
Vous pourrez désormais découvrir les excellents modules disponibles sur Python.

La suite de votre formation portera sur l'introduction et l'approfondissement de modules spécialisés pour la Data Science.
Ceci vous donnera les meilleurs outils existants pour le traitement et l'analyse de données et vous permettra de mener à bien vos projets data.