# Manipuler les données en Python

## Programmation orientée objet

Python permet de définir des classes d'objets à l'aide du mot clé **class**. Il est d'usage de commencer le nom de la classe par une majuscule. 

La déclaration des champs et méthodes de la classe sont indentés d'au moins un niveau par rapport au mot clé class.

In [11]:
class Personne:
    
    version = 1
    
    def set_nom(self, nouveau_nom):
        self.nom = nouveau_nom
    def set_prenom(self, nouveau_prenom):
        self.prenom = nouveau_prenom
    def set_age(self, nouvel_age):
        self.age = nouvel_age

Il n'est pas nécessaire de déclarer les champs de l'objet au préalable, on peut juste les utiliser :
- les champs dont la valeur est partagée par toutes les instances de la classe sont initialisés directement dans le contexte de la classe (ex : version ci-dessus)
- les champs qui prennent une valeur différente dans chacune des instances de la classe sont accessibles via le **premier paramètre self** passé implicitement aux méthodes de l'objet (ex : nom)

Python **ne permet pas de limiter la visibilité** des champs d'un objet : il n'existe pas de moyen de rendre un champ privé ou protégé pour assurer l'encapsulation de détails d'implémentation.

Il n'est pas obligatoire de déclarer explicitement un **constructeur** pour une classe, mais on le peut le faire en définissant **une méthode \_\_init\_\_(self)**.

On instancie un objet en mentionnant le nom de la classe et en appelant son constructeur par défaut, ou un constructeur avec des paramètres :

In [12]:
pers = Personne() 
pers.set_nom("Dupont")
pers.nom

'Dupont'

In [13]:
class Personne:
    
    version = 2
           
    def __init__(self, nom, prenom, age):
        self.nom = nom
        self.prenom = prenom
        self.age = age

In [14]:
pers = Personne("Dupont", "Jean", 40)
pers.age

40

## Programmation fonctionnelle

En Python, une variable peut faire référence à une fonction. Une fonction peut donc être passée en paramètre à une autre fonction.

La fonction **map()** prend par exemple une fonction comme 1er paramètre, une collection de données comme 2ème paramètre, puis exécute de manière répétée la fonction sur la collection de données d'entrée, pour obtenir une collection de résultats :

In [15]:
def square(x):
    return x**2

mafonction = square

results = map(mafonction, (1,2,3,4))

for val in results:
    print(val)

1
4
9
16


En réalité, la fonction map() ne retourne pas directement une collection de résultats, mais un **iterateur de type map** :

In [16]:
results_iterator = map(mafonction, (1,2,3,4))
print(results_iterator)

<map object at 0x00000182A147F400>


Cet objet peut être utilisé de manière répétée dans une boucle pour récupérer un à un les résultats, qui sont **calculés juste au moment où on en a besoin** :

In [17]:
next(results_iterator)

1

In [18]:
next(results_iterator)

4

Ce motif de programmation permet de manipuler les données de manière très efficace : consommation mémoire réduite, quantité de calculs limitée au strict nécessaire.

## Lambdas

Le mot clé **lambda** permet de déclarer une fonction :
- sans nom
- dont le code se limite à **une seule expression**
- directement à l'emplacement où un paramètre de type fonction est attendu

Le mot clé lambda est suivi d'une liste de noms de paramètres séparés par des virgules, puis du caractère :, puis de l'expression qui calcule le résultat en fonction des paramètres.

In [20]:
results = map(lambda x : x**2, (1,2,3,4))

for result in results:
    print(result)

1
4
9
16


In [23]:
results = map(lambda a,b : a+b, (1,2,3), (4,5,6))

for result in results:
    print(result)

5
7
9


## List comprehensions

Python définit une **syntaxe abrégée pour définir des séquences** appelée "list comprehensions".

Par exemple, la séquence de nombres pairs créée par le programme ci-dessous :

In [24]:
nombres_pairs = []
for i in range(0,10):
    if i % 2 == 0:
        nombres_pairs.append(i)
        
nombres_pairs

[0, 2, 4, 6, 8]

Peut être générée par la syntaxe beaucoup plus compacte :

In [26]:
nombres_pairs = [i for i in range(0,10) if i % 2 ==0]

nombres_pairs

[0, 2, 4, 6, 8]

Cette syntaxe n'est pas seulement plus compacte, elle apporté également des **gains de performance**.

Autre exemple illustrant comment générer une séquence à partir de deux variables :

In [28]:
sommes = [a+b for a in (1,2,3) for b in (4,5,6)]

sommes

[5, 6, 7, 6, 7, 8, 7, 8, 9]

## Mise en forme de texte

Python 3 utilise l'encodage de caractères Unicode par défaut, ce qui permet de manipuler les caractères de toutes les langues et cultures, ainsi que des symboles comme les emojis par exemple.

La fonction **format()** définit une syntaxe pour insérer et mettre en forme des données dans un fragment de texte.

On utilise des **accolades** pour marquer l'endroit où des valeurs doivent être insérées dans un message :

In [1]:
data = { "prenom":"Jean", "nom":"Dupont", "age":40 }
message = "M {} est agé de {} ans"
print( message.format( data["nom"], data["age"] ) )

M Dupont est agé de 40 ans


Un nombre optionnellement spécifié entre accolades permet de **référencer l'une ou l'autre des variables** passées en paramètres de la fonction format, et on peut le compléter d'une clé ou d'un index pour **accéder aux valeurs contenues dans les variables de type collection** :

In [2]:
naissance = (10, 2, 1978)
message2 = "{0[prenom]} {0[nom]} est né le {1[0]}/{1[1]}/{1[2]}"
print(message2.format( data, naissance ))

Jean Dupont est né le 10/2/1978


A l'intérieur des accolades, des éléments de syntaxe situés après le caractère : permettent de **définir la mise en forme des valeurs insérées** :
- valeur numérique : nombre de chiffres et de décimales, présence d'un signe, groupement des chiffres, mode d'affichage
- valeur textuelle : taille du texte et alignement dans la taille réservée

In [3]:
message3 = "M {:*<10} est agé de {:06.2f} ans"
print( message3.format( data["nom"], data["age"] ) )

M Dupont**** est agé de 040.00 ans


Toutes les possibilités offertes par la syntaxe utilisée par la fonction format() sont décrites en détails dans la documentation de référence : [format specification mini language](https://docs.python.org/3/library/string.html#format-specification-mini-language).

## Dates et heures

Voici un aperçu des fonctions de manipulation des heures et dates en Python :

In [4]:
import time as tm
import datetime as dt

La fonction **time()** retourne la date et l'heure actuelles mesurées en nombre de secondes écoulées depuis le 1er janvier 1970 :

In [5]:
tm.time()

1524170396.4424794

La classe **datetime** permet de convertir ce compteur de temps technique en année, mois, jour, heure, minutes, secondes :

In [6]:
now = dt.datetime.fromtimestamp(tm.time())
now

datetime.datetime(2018, 4, 19, 22, 39, 59, 115520)

In [7]:
now.year, now.month, now.day, now.hour, now.minute, now.second

(2018, 4, 19, 22, 39, 59)

La fonction **timedelta()** permet de manipuler des durées, qui peuvent être ajoutées ou soustraites à une date :

In [8]:
semaine = dt.timedelta(weeks=1)
semaine

datetime.timedelta(7)

In [9]:
semaineprochaine = dt.date.today() + semaine
semaineprochaine

datetime.date(2018, 4, 26)

In [10]:
dt.date.today() < semaineprochaine

True

## Fichiers de données CSV

Les données sont souvent stockées dans des fichiers lisibles pour les humains au format suivant :
- on stocke un tableau de données par fichier
- les valeurs contenues dans les cellules du tableau sont écrites sous forme de chaines de caractères
- le caractère **virgule est réservé** pour séparer les colonnes du tableau
- le caractère **saut de ligne est réservé** pour séparer les lignes du tableau
- la première ligne du fichier spécifie le nom de chaque colonne

Les tableaux Excel peuvent lus et enregistrés au format CSV.

Le **module csv** du langage Pyhton fournit des fonctions pour lire et écrire facilement les fichiers au format CSV :

In [30]:
import csv

# Ouverture du fichier "annonces_immo" et lecture des lignes du tableau
with open("annonces_immo.csv") as csvfile:
    dictreader = csv.DictReader(csvfile)
    lignes = list(dictreader)
    
# Nombre de lignes lues
print(len(lignes))

# Chaque ligne est un dictionnaire (nom de colonne, valeur cellule)
print(type(lignes[0]))

# Affichage des noms de colonnes et des valeurs des cellules
for cellule in lignes[0].items():
    print(cellule)

1819
<class 'collections.OrderedDict'>
('crawlSource', 'LOGIC_IMMO')
('url', '')
('marketingType', 'SALE')
('department', 'NOUVELLE_CALEDONIE')
('departmentCode', '988')
('adCount', '0')


La structure de données **set** permet de stocker un ensemble non ordonné de valeurs distinctes.

Elle est utilisée ci-dessous pour obtenir la liste des valeurs distinctes de la colonne "crawlSource" du tableau :

In [31]:
sources = set(ligne["crawlSource"] for ligne in lignes)
sources

{'ACHETER_LOUER',
 'ANNONCES_JAUNES',
 'A_VENDRE_A_LOUER',
 'BELLES_DEMEURES',
 'BIEN_ICI',
 'EXPLORIMMO',
 'FNAIM',
 'IMMONOT',
 'LE_BON_COIN',
 'LOGIC_IMMO',
 'LUX_RESIDENCE',
 'OUEST_FRANCE_IMMO',
 'PARU_VENDU',
 'PROPRIETES_DE_FRANCE',
 'SE_LOGER',
 'SUPER_IMMO',
 'TOP_ANNONCES'}

Les fonctions du module csv sont décrites plus en détails dans la documentation de référence : [library csv](https://docs.python.org/3/library/csv.html).