# Les ensembles (ou set)

> __Remarque :__ ce notebook n'est pas particulièrement difficile mais il est clairement hors programme de première. Il est donc réservé aux élèves les plus avancés sur la progression.

Un ensemble (de type `set` en Python) est un type construit qui peut __stocker des valeurs, sans ordre, et sans répétition__. 

Un ensemble stocke des valeurs, sans ordre défini, et ne contient pas de données en double (la tentative d'insertion d'une donnée déjà présente est sans effet). Un ensemble est un objet __mutable__.

Contrairement à la plupart des autres types de conteneurs __les ensembles sont plus utilisés pour tester l'appartenance d'une valeur à cet ensemble que pour en extraire des données__.

## Comments _construire_ un ensemble ?

Il est très simple de créer un dictionnaire, il suffit de lui __affecter une suite de valeurs, séparées par des virgules, le tout entre accolades__.

### Créer un dictionnaire manuellement, en extension

In [None]:
heteroclite = {'marc', 12, 'pierre', (1, 2, 3), 'pierre'}
print(heteroclite)

On obtient une structure de données comprenant des __valeurs__. On remarque toutefois que la valeur `pierre` n'a été incluse qu'une seule fois alors qu'on avait essayé de la stocker en double.

On constate alors que l'on a bien crée une variable de type `set` :

In [None]:
print(f'La variable "heteroclite" est de type {type(heteroclite)}')

### Créer un ensemble _en compréhension_

De la même manière que pour les autres types construits, on peut créer un ensemble en compréhension.

In [None]:
set_puissances = {2 ** i for i in range(8)}
print(set_puissances)

### Créer un ensemble à partir d'un tableau existant

On peut créer un dictionnaire à partir d'un tableau, ou un tuple, en utilisant la fonction [`set()`](https://www.w3schools.com/python/ref_func_set.asp).

In [None]:
heteroclite2 = set(['marc', 12, 'pierre', (1, 2, 3), 'pierre'])
print(heteroclite2)

> __Remarque :__ la syntaxe pour créer un ensemble vide est particulière puisque l'instruction __`set_vide = {}` crée un dictionnaire__ plutôt qu'un ensemble.

Voir l'exemple ci-dessous...

In [None]:
set_vide = {}
print(type(set_vide))

Pour créer un __ensemble vide, il faut utiliser la fonction [`set()`](https://www.w3schools.com/python/ref_func_set.asp)__.

In [None]:
set_vide = set()
print(type(set_vide))

### Opérations simples sur les ensembles

In [None]:
# pour rappel
heteroclite

##### Test d'appartenance

In [None]:
(1, 2, 3) in heteroclite

##### Dimension de l'ensemble

In [None]:
len(heteroclite)

##### Manipulations

In [None]:
ensemble = {1, 2, 1}
ensemble

In [None]:
# pour nettoyer
ensemble.clear()
ensemble

In [None]:
# ajouter un element
ensemble.add(1)
ensemble

In [None]:
# fusionner tous les elements d'un autre *ensemble*
ensemble.update({2, (1, 2, 3), (1, 3, 5)})
ensemble

In [None]:
# enlever un element avec discard
ensemble.discard((1, 3, 5))
ensemble

In [None]:
# discard fonctionne même si l'élément n'est pas présent
ensemble.discard('foo')
ensemble

In [None]:
# enlever un élément avec remove
ensemble.remove((1, 2, 3))
ensemble

In [None]:
# contrairement à discard, l'élément doit être présent,
# sinon il y a une exception
try:
    ensemble.remove('foo')
except KeyError as e:
    print("remove a levé l'exception", e)

La capture d'exception avec `try` et `except`  sert à capturer une erreur d'exécution du programme (que l'on appelle exception) pour continuer le programme. Le but de cet exemple est simplement de montrer (d'une manière plus élégante que de voir simplement le programme planter avec une exception non capturée) que l'expression `ensemble.remove('foo')` génère une exception. Si ce concept vous paraît obscur, pas d'inquiétude, nous l'aborderons cette semaine et nous y reviendrons en détail en semaine 6.

In [None]:
# pop() ressemble à la méthode éponyme sur les listes
# sauf qu'il n'y a pas d'ordre dans un ensemble
while ensemble:
    element = ensemble.pop()
    print("element", element)
print("et bien sûr maintenant l'ensemble est vide", ensemble)

### Opérations classiques sur les ensembles

Donnons-nous deux ensembles simples :

In [None]:
A2 = set([0, 2, 4, 6])
print('A2', A2)
A3 = set([0, 6, 3])
print('A3', A3)

N'oubliez pas que les ensembles, comme les dictionnaires, ne sont **pas ordonnés**.

**Remarques** :

* les notations des opérateurs sur les ensembles rappellent les opérateurs "bit-à-bit" sur les entiers ;
* ces opérateurs sont également disponibles sous la forme de méthodes.

##### Union

In [None]:
A2 | A3

##### Intersection

In [None]:
A2 & A3

##### Différence

In [None]:
A2 - A3

In [None]:
A3 - A2

## Exercices d'application sur les ensembles

### Gandhi VS Confucius

Voici une citation de Gandhi :

_La vie est un mystère qu'il faut vivre, et non un problème à résoudre._

Créer un ensemble `set_gandhi` qui répertorie toutes les caractères utilisés pour cette citation. 

On doit obtenir un set de la forme : `{'m', 'à', '.', ...}`

Faire de même avec cette citation du philosophe Confucius : _Je ne cherche pas à connaître les réponses, je cherche à comprendre les questions._

In [None]:
citation_gandhi = "La vie est un mystère qu'il faut vivre,\
 et non un problème à résoudre."

citation_confucius = "Je ne cherche pas à connaître les réponses,\
je cherche à comprendre les questions."

set_gandhi = {lettre for lettre in citation_gandhi}
print (set_gandhi)
set_confucius = {lettre for lettre in citation_confucius}
print (set_confucius)

Utiliser vos deux ensembles `set_gandhi` et `set_confucius` pour répondre aux questions suivantes:

1. Toutes les voyelles ont-elles été utilisées pour chacune des citations ?
2. Quelles sont les caractères communs aux deux citations ?
3. Quels sont tous les caratères utilisés pour l'ensemble des deux citations ?
4. Quels sont les caractères uniques à l'une ou l'autre des citations ?

In [None]:
#1. Toutes les voyelles ont-elles été utilisées pour chacune des citations ?

set_voyelles = {'a', 'e', 'i', 'o', 'u', 'y'}
print(f"Voyelles non utilisées par Gandhi : {set_voyelles - set_gandhi}")
print(f"Voyelles non utilisées par Confucius : {set_voyelles - set_confucius}")

#2. Quelles sont les caractères communs aux deux citations ?

print(f"Caractères communs : {set_gandhi & set_confucius}")


#3. Quels sont tous les caratères utilisés pour l'ensemble des deux citations ?

print(f"Tous les caractères : {set_gandhi | set_confucius}")

#4. Quels sont les caractères uniques à l'une ou l'autre des citations ?

print(f"Caractères uniques à Gandhi : {set_gandhi - set_confucius}")
print(f"Caractères uniques à Confucius : {set_confucius - set_gandhi}")

### M. Proust VS J. Vernes

Certaines oeuvres sont librement et gratuitement téléchargeable sur [Gallica](https://gallica.bnf.fr/ark:/12148/bpt6k1049566j.texteImage), en particulier celles entrées dans [le domaine public](https://fr.wikipedia.org/wiki/Domaine_public_en_droit_de_la_propri%C3%A9t%C3%A9_intellectuelle_fran%C3%A7ais).

Utiliser les fichiers mis à votre disposition "du_cote_de_chez_swann.txt" et "20000_lieux.txt", pour __créer deux ensembles (`set_proust` et `set_vernes`) contenant tous les mots utilisés dans ces deux livres__.

> __Remarque :__ on ne se préoccupera pas de la casse. Il est donc conseillé de changer toutes les majuscules en minuscules avec la fonction [.lower()](https://www.w3schools.com/python/ref_string_lower.asp).

In [None]:
set_proust = set()
with open('du_cote_de_chez_swann.txt', 'r', encoding='utf-8') as f:
    for ligne in f:
        minus_ligne = ligne.lower()   
        mots_ligne = minus_ligne.split(' ')
        mots_ligne = [mot.strip() for mot in mots_ligne]    # Supprime les \n
        mots_ligne = [mot.strip('.') for mot in mots_ligne] # Supprime les .
        set_ligne = set(mots_ligne)
        set_proust.update(set_ligne)
print(set_proust)

set_vernes = set()
with open('20000_lieux.txt', 'r', encoding='utf-8') as f:
    for ligne in f:
        minus_ligne = ligne.lower()   
        mots_ligne = minus_ligne.split(' ')
        mots_ligne = [mot.strip() for mot in mots_ligne]
        mots_ligne = [mot.strip('.') for mot in mots_ligne]
        set_ligne = set(mots_ligne)
        set_vernes.update(set_ligne)
print(set_vernes)

Utiliser vos deux ensembles `set_proust` et `set_vernes` pour répondre aux questions suivantes:

1. Quel auteur utilise le plus de mots différents dans ces deux ouvrages ?
2. Quel pourcentage de mots sont communs aux deux ouvrages ?
3. Quels quantité de mots sont ne sont utilisés que dans l'un ou l'autre des ouvrages ?

In [None]:
# 1.
print(f"Marcel Proust utilise {len(set_proust)} mots différents")
print(f"Jules Vernes utilise {len(set_vernes)} mots différents")

# 2.
pourcentage = len(set_proust & set_vernes) / len(set_proust | set_vernes) * 100
print(f"Ils ont {round(pourcentage, 1)} % de mots en commun")

# 3.
nb_mots = len(set_proust - set_vernes) + len(set_vernes - set_proust)
print(f"Il y a {nb_mots} mots qui ne sont utilisés que dans l'un ou l'autre des ouvrages")

In [None]:
# Alternative : nettoyer les mots en retirant les "d'", "l'",...

set_proust_2 = {mot for mot in set_proust if "'" not in mot}
set_proust_2.update({mot[2:] for mot in set_proust if "'" in mot})
print(set_proust_2)

set_vernes_2 = {mot for mot in set_vernes if "'" not in mot}
set_vernes_2.update({mot[2:] for mot in set_vernes if "'" in mot})
print(set_vernes_2)

In [None]:
# 1.
print(f"Marcel Proust utilise {len(set_proust_2)} mots différents")
print(f"Jules Vernes utilise {len(set_vernes_2)} mots différents")

# 2.
pourcentage = len(set_proust_2 & set_vernes_2) / len(set_proust_2 | set_vernes_2) * 100
print(f"Ils ont {round(pourcentage, 1)} % de mots en commun")

# 3.
nb_mots = len(set_proust_2 - set_vernes_2) + len(set_vernes_2 - set_proust_2)
print(f"Il y a {nb_mots} mots qui ne sont utilisés que dans l'un ou l'autre des ouvrages")

---
[![Licence CC BY NC SA](https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png "licence Creative Commons CC BY-NC-SA")](http://creativecommons.org/licenses/by-nc-sa/3.0/fr/)
<p style="text-align: center;">Auteur : David Landry, Lycée Clemenceau - Nantes</p>
<p style="text-align: center;">D'après des documents partagés par...</p>
<p style="text-align: center;"><a  href=https://www.fun-mooc.fr/courses/course-v1:UCA+107001+session02/about>Thierry Parmentelat et Arnaud Legout</a></p>
<p style="text-align: center;"><a  href=https://framagit.org/coubertin_nsi/nsi_1_courses>Lionnel Conoir</a></p>
<p style="text-align: center;"><a  href=https://gallica.bnf.fr/>La bibliothèque Gallica</a></p>