# 1.Les ensembles (set)

Un ensemble en python (***set***) est une structure pouvant contenir plusieurs données, mais contrairement aux listes, ces données sont uniques et non ordonnées. Il n'y a pas de moyen d'accéder à une donnée en particulier en utilisant son numéro d'index.

Les ensembles sont par contre extrèmement efficaces pour la recherche d'un élément : Contrairement aux listes dans lesquelles une recherche impose de parcourir tous les éléments, les ensembles utilisent des techniques d'optimisation (table de hachage) rendant la recherche très performante.

Voici quelques illustrations de l'utilisation des ***set***

In [4]:
# créer un un ensemble

ensemble = {1,5,9,5,1,2,4}
print(ensemble)

{1, 2, 4, 5, 9}


Comme on peut le voir, les éléments en doubles dans *ensemble* ont été éliminés et l'ordre affiché n'est pas celui dans lequel les éléments ont été saisis.

In [5]:
# essayons quelque chose...

ensemble[3]

TypeError: ignored

l'accès aux éléments par indice comme pour les listes n'est pas possible, cela n'a tout simpliement pas de sens.

## Conversion list $\iff $ set

In [6]:
liste = [1,5,9,5,1,2,4]
ensemble = set(liste)
print(ensemble)

{1, 2, 4, 5, 9}

In [7]:
ensemble = {1, 9, 5, 4, 2}
liste = list(ensemble)
liste

[1, 2, 4, 5, 9]

## Méthodes sur les ensembles

### ajout et retrait : add et remove

In [8]:
ensemble = {1, 9, 5, 4, 2}
ensemble.add(18)
ensemble.remove(9)
print(ensemble)

{1, 2, 4, 5, 18}


> Attention de bien tester si un élément est dans l'ensemble avant la suppression car sinon...

In [9]:
ensemble.remove(3)

KeyError: ignored

et du coup ...
### Tester si un élément est présent dans un ensemble : in

In [10]:
print(ensemble)
print(3 in ensemble)
print(18 in ensemble)

{1, 2, 4, 5, 18}
False
True


### Longueur et ensemble vide


In [11]:
vide = set()
vide.add(3)
vide.remove(3)

# Calculer le nb d'éléments d'un ensemble
len(vide)

0

### Exercice 1
1. Créer une fonction **ensembleCarres** prenant en paramètre un entier $n$ e renvoyant un ensemble contenant les carrés des entiers de 1 à $n$


In [12]:
def ensembleCarres(n):
    return {i**2 for i in range(1,n+1)}

In [13]:
ec = ensembleCarres(10)
assert len(ec)==10
assert 64 in ec

2. Créez une liste l de carrés jusqu'à un million.
3. Créez un ensemble s de carrés jusqu'à un million.
4. Recherchez si  874466246641  est un carré

In [14]:
ec = ensembleCarres(1000000)
liste = list(ec)



In [15]:
%%time
assert 874466246641 in ensembleCarres(1000000)

CPU times: user 502 ms, sys: 48.6 ms, total: 550 ms
Wall time: 554 ms


In [16]:
%%time
assert 874466246641 in list(ensembleCarres(1000000))

CPU times: user 611 ms, sys: 12.8 ms, total: 624 ms
Wall time: 625 ms


### quelques autres méthodes sur les set

    s.isdisjoint(s2)
    s.issubset(s2)
    s.issuperset(s2)
    s <= s2 : inclusion (pareil avec s >= s2).
    s < s2 : inclusion stricte (pareil avec s >= s2).
    set.union(s1, s2, s3) : renvoie la réunion de plusieurs sets.
    set.intersection(s1, s2, s3) : renvoie l'intersection de plusieurs sets

### Exercice 2 : le paradoxe des anniversaires

Dans une classe, quelle est la probabilité pour que 2 élèves fêtent leurs anniversaires le même jour? Avec 365 jours par an, une trentaine d'élèves dans la classe, on se dit qu'elle doit être faible...

1. Ecrire une fonction qui retourne une date d'anniversaire tirée au hasard sous la forme "jour-mois"
2. Ecrire une fonction qui simule une classe de N élèves de NSI, et qui retourne "True" si tous les élèves ont une date d'anniversaire différente (on pourra vérifier que l'*ensemble* des dates d'anniversaire contient bien exactement N valeurs)
3. Réaliser une simulation sur 1000 classes de 24 élèves, quelle est la probabilité que les 24 élèves aient tous une date d'anniversaire différents ?
4. En réalisant des simulations de 1000 classes, présenter la probabilité que les N élèves aient tous une date d'anniversaire différents, pour N allant de 1 à 35.

In [17]:
import random

def anniv():
    jour = random.randint(1, 31)
    mois = random.randint(1,12)
    return str(jour)+"-"+str(mois)

def classe(taille):
    ensemble = set()
    for i in range(taille):
        date = anniv()
        if (date in ensemble):
            return False
        ensemble.add(date)
    return True
    

def simulation(N):
    nbr = 0
    for i in range(1000):
        if (classe(N) == False):
            nbr = nbr + 1
    return nbr / 1000

for i in range(1, 36):
    print(i,"-->", simulation(i)*100,"%")


1 --> 0.0 %
2 --> 0.0 %
3 --> 0.6 %
4 --> 1.4000000000000001 %
5 --> 1.6 %
6 --> 4.5 %
7 --> 5.800000000000001 %
8 --> 7.9 %
9 --> 9.6 %
10 --> 12.2 %
11 --> 13.8 %
12 --> 16.900000000000002 %
13 --> 17.299999999999997 %
14 --> 21.8 %
15 --> 25.3 %
16 --> 27.1 %
17 --> 30.2 %
18 --> 32.4 %
19 --> 37.8 %
20 --> 43.3 %
21 --> 42.9 %
22 --> 46.6 %
23 --> 49.4 %
24 --> 55.1 %
25 --> 56.599999999999994 %
26 --> 59.699999999999996 %
27 --> 64.5 %
28 --> 66.2 %
29 --> 67.4 %
30 --> 70.89999999999999 %
31 --> 71.5 %
32 --> 74.0 %
33 --> 77.10000000000001 %
34 --> 79.0 %
35 --> 79.3 %


# 2. Les dictionnaires


## Rappels sur les dictionnaires

Dans cette partie, nous allons fabriquer un carnet d'adresse pour stocker des contacts. 

### Fabrication d'un contact 

Chaque contact sera un dictionnaire dont les clés seront :
- `nom` : Nom et prénom du contact
- `tel` : N° de téléphone
- `rue` : adresse complète
- `code` : code postal
- `ville` : ville
- `naissance` : date de naissance

Créez un dictionnaire nommé `contact` correspondant au contact suivant :
> Margaret Costa-Royer<br/>
> 08 06 18 37 28<br/>
> 93, avenue Bruneau<br/>
> 13749 Perrot

In [None]:
contact = {"nom":"Margaret Costa-Royer", 
           "tel":"08 06 18 37 28", 
           "rue":"93, avenue Bruneau", 
           "code":"13749", 
           "ville":"Perrot", 
           "naisance":""}
# raise NotImplementedError()

In [None]:
# Vérification
assert contact["nom"] == "Margaret Costa-Royer"
assert contact["tel"] == "08 06 18 37 28"
assert contact["ville"] == "Perrot"

Ajouter une nouvelle entrée "passwd" dans le contact ayant pour valeur 's75JWikE&o'

In [None]:
contact["passwd"] = "s75JWikE&o"
# YOUR CODE HERE
# raise NotImplementedError()

In [None]:
# Vérification
assert contact["passwd"] == 's75JWikE&o'

### Génération automatique d'un contact

Ecrire une fonction `genere_contact()`
- qui ne prend aucun paramètre
- qui renvoie un dictionnaire possédant les mêmes clés que le contact ci-dessus, y compris "passwd"

On pourra utiliser le module faker de python dont un exemple d'utilisation est donné dans la cellile ci-dessous.

In [2]:
!pip install faker

Collecting faker
[?25l  Downloading https://files.pythonhosted.org/packages/9d/3c/4fc4a53a24c0ae040616815eb18e73b00832d2eb9275da3837c8345c68a6/Faker-4.1.3-py3-none-any.whl (1.0MB)
[K     |████████████████████████████████| 1.0MB 2.8MB/s 
Installing collected packages: faker
Successfully installed faker-4.1.3


In [3]:
from faker import Faker

fake = Faker("fr_FR") # Générateur de données personnelles pour un français

print(fake.name())
print(fake.phone_number())
print(fake.street_address())
print(fake.postcode(), fake.city())
print(fake.password())

Jeanne Labbe
02 17 61 76 17
78, boulevard Voisin
94618 Sainte BenjaminBourg
%jar1$Hb^7


In [21]:
from faker import Faker
import random
fake = Faker("fr_FR") # Générateur de données personnelles pour un français

def genere_contact(): 
    global fake
    contact = {"nom":fake.name(), 
           "tel":fake.phone_number(), 
           "rue":fake.street_address(), 
           "code":fake.postcode(), 
           "ville": fake.city(), 
           "naisance": str(random.randint(1960,2000)),
           "passwd": fake.password()}
    return contact
    # YOUR CODE HERE
    # raise NotImplementedError()

In [22]:
contact1 = genere_contact()
assert type(contact1["nom"]) == str
assert "ville" in contact1

## Mise en pratique

### Fabrication du carnet d'adresse

Tout est à présent en place pour que nous puissions fabriquer notre carnet d'adresse.

#### Première implémentation

Dans une première approche, nous allons considérer que le carnet d'adresse sera une liste de contacts, chaque contact étant un dictionnaire dont la structure a été définie à la section précédente.

Fabriquez une fonction `genere_carnet1`
- prenant en paramètre le nombre `n` de contacts à générer
- renvoyant une **liste** de `n` contacts générés aléatoirement.

In [24]:
def genere_carnet1(n):
    """Renvoie une liste de n contacts aléatoires"""
    contacts = []
    for i in range(n):
      contacts.append(genere_contact())
    return contacts
    # YOUR CODE HERE
    # raise NotImplementedError()

In [25]:
# vérification

carnet1 = genere_carnet1(10)
assert type(carnet1) == list
assert "nom" in carnet1[3]

Ecrire à présent une fonction `est_present`
- prenant 2 paramètres : un nom et un carnet d'adresse
- renvoyant `True` si le nom figure dans le carnet d'adresse, `False` sinon

In [29]:
def est_present(nom, carnet):
    """Teste si nom est présent dans le carnet d'adresse"""
    for contact in carnet:
      if contact["nom"] == nom:
        return True
    return False
    # YOUR CODE HERE
    #raise NotImplementedError()

In [30]:
# Vérification

carnet1 = genere_carnet1(10)
nom = carnet1[-1]["nom"]
assert est_present(nom, carnet1)
assert not est_present("Lecluse Olivier", carnet1)

#### Mesure de performance de la recherche

Nous allons regarder ici comment évolue la vitesse de recherche en fonciton de la taille du carnet d'adresse. On utilisera pour cela la fonction magique de *jupyter* : `%%timeit`.
Etudiez la cellule suivante :

In [31]:
# Fabrication d'un carnet de 100 contacts
carnet1 = genere_carnet1(100)
nom = carnet1[-1]["nom"]  # On récupère un nom du carnet
print(nom)

Roland Barbier


In [32]:
%%timeit

# On mesure le temps d'une recherche
est_present(nom, carnet1) 

The slowest run took 4.02 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 4.74 µs per loop


Vous lisez sous la cellule le temps de recherche.

A présent, on refait l'expérience pour 1000 contacts dans le carnet d'adresse.

In [33]:
carnet1 = genere_carnet1(1000)
nom = carnet1[-1]["nom"]  # On récupère un nom du carnet
print(nom)

Marcel Brunel


In [34]:
%%timeit

# On mesure le temps d'une recherche dans ce carnet
est_present(nom, carnet1)

10000 loops, best of 3: 46.7 µs per loop


#### Seconde implémentation

Vous devez avoir constaté ci-dessus que le temps de recherche est proportionnel à la taille du carnet d'adresse : si celui-ci contient 10 fois plus de contact, la recherche peut être jusqu'à 10 fois plus longue.

Nous allons changer d'approche et fabriquer un carnet d'adresse sous forme d'un dictionnaire dont les clés seront les **noms** et les valeurs seront les fiches contacts. Ainsi notre carnet d'adresse sera un dictionnaire dont les valeurs seront des dictionnaires !

Fabriquez une fonction `genere_carnet2`
- prenant en paramètre le nombre n de contacts à générer
- renvoyant un **dictionnaire** de `n` contacts générés aléatoirement

In [35]:
def genere_carnet2(n):
    """Renvoie un dictionnaire de n contacts aléatoires"""
    contacts = {}
    for i in range(n):
      nouveau = genere_contact()
      contacts[nouveau["nom"]] = nouveau
    return contacts
    # YOUR CODE HERE
    raise NotImplementedError()

In [37]:
# Vérification

carnet2 = genere_carnet2(10)
assert type(carnet2) == dict
nom = list(carnet2.keys())[-1]
assert type(carnet2[nom]) == dict

#### Mesure de performance de la recherche

Nous allons regarder pour cette nouvelle implémentation comment évolue la vitesse de recherche en fonction de la taille du carnet d'adresse. Validez les 2 cellules suivantes.

In [38]:
# Fabrication d'un carnet de 100 contacts
carnet2 = genere_carnet2(100)
nom = list(carnet2.keys())[-1] # On récupère un nom du carnet
print(nom)

Renée du Germain


In [39]:
%%timeit

nom in carnet2                 # On le recherche

The slowest run took 23.30 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 47.6 ns per loop


On constate déjà que la recherche est plus rapide que pour la première implémentation du carnet à l'aide d'un tableau.

Refaisons l'expérience avec 100 fois plus de contacts dans le carnet !!

In [40]:
# Fabrication d'un carnet de 10000 contacts
carnet2 = genere_carnet2(10000)
nom = list(carnet2.keys())[-1] # On récupère un nom du carnet
print(nom)

Gérard Caron


In [41]:
%%timeit

nom in carnet2           # On le recherche

The slowest run took 35.96 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 44.8 ns per loop


## Conclusion

Vous le constatez d'après les expériences ci-dessus : le temps de recherche dans le dictionnaire est pratiquement indépendant du nombre d'entrées dans ce dictionnaires, car en multipliant le nombre de contacts par 100, le temps est resté pratiquement identique alors que dans le cas de la recherche dans un tableau, celui-ci est proportionnel à la longueur du tableau.

Le dictionnaire est donc une structure de données optimisée pour la recherche sur les clés.