# Ensembles (Sets) en Python

Dans cette section, nous allons explorer les **ensembles** (sets), une structure de données en Python qui représente une collection non ordonnée et sans doublons. Nous couvrirons leurs propriétés et les opérations comme l’union et l’intersection, avec des explications détaillées, des exemples pratiques, des tests et des erreurs intentionnelles pour illustrer les concepts.

## Qu’est-ce qu’un Ensemble ?
Un **ensemble** est une structure de données :
- non-ordonnée
- d’éléments uniques
- Dont les éléments sont Hashables (ils peuvent passer a travers une fonction de ***Hashing*** qui retourne un ***hash***, c'est a dire un code unique). N'importe quel nombre ou mot comme le mot `pomme` sont hashable, ainsi n'importe quel tuple `(1, 2, 3)`. en Revanche une liste ne l'est pas



## Pourquoi Utiliser les Ensembles ?

Les ensembles (`set`) sont une structure spécialisée pour gérer des éléments uniques. Voici leurs cas d’usage et avantages :

### Cas d’Usage
- **Élimination des doublons** : Supprimer les éléments répétés d’une liste rapidement.
- **Opérations mathématiques** : Union, intersection, différence entre collections.
- **complexité O(1)** : Comme leurs éléments sont hashables, il est tres rapide d'ajouter, d'enlever, ou de trouver un élément dans un set.



### Par Rapport à d’Autres Structures
- **Vs Listes** : Les listes conservent l’ordre et les doublons mais sont lentes pour les tests d’appartenance (O(n)), tandis que les sets sont rapides (O(1)) et uniques.
- **Vs Dictionnaires** : Les dictionnaires associent des valeurs à des clés, alors que les sets ne stockent que des éléments sans valeurs associées.
- **Vs Tuples** : Les tuples sont immuables et ordonnés mais ne gèrent pas l’unicité ni les opérations d’ensemble.

### Exemple Pratique
Un set est parfait pour trouver les éléments communs entre deux listes (ex. : amis en commun), où une liste nécessiterait des boucles imbriquées coûteuses. Ou encore pour supprimer les doublons d’une liste en une seule ligne.

Commençons par les bases !

## Création et Propriétés des Ensembles

Les ensembles sont créés avec `{}` ou `set()`. Leurs principales propriétés sont :
1. **Unicité** : Pas de doublons.
2. **Non ordonnés** : L’ordre des éléments n’est pas garanti.
3. **Éléments immuables** : Pas de listes ou dictionnaires comme éléments.

### Syntaxe
```python
mon_set = {element1, element2}
# ou
mon_set = set(iterable)
```

In [30]:
nombres = {2, 3, 4, 3}  # Les doublons sont ignorés
print("Nombres :", nombres) 

Nombres : {2, 3, 4}


In [31]:
set_vide = set()
print("Ensemble vide :", type(set_vide))

Ensemble vide : <class 'set'>


In [32]:
mauvais_set = {1, [2, 3]}  # Erreur : TypeError: unhashable type: 'list'

TypeError: unhashable type: 'list'

In [None]:
# Ensemble à partir d’une liste
fruits = set(["pomme", "banane", "pomme", "orange"])
print("Fruits :", fruits)

In [None]:
# Solution : Utiliser des tuples
set_valide = {1, (2, 3)}
print("Set valide :", set_valide)

## Manipulation des Ensembles

Les ensembles permettent d’ajouter ou supprimer des éléments avec des méthodes.

### Méthodes de Base
- `add(x)` : Ajoute `x` à l’ensemble.
- `remove(x)` : Supprime `x` (erreur si absent).
- `discard(x)` : Supprime `x` (pas d’erreur si absent).
- `pop()` : Supprime et retourne un élément aléatoire.

### Exemple
Modifions un ensemble.

In [None]:
couleurs = {"rouge", "bleu", "vert", "orange"}

In [None]:
# Ajouter avec add
couleurs.add("violet")
print("Après add :", couleurs)

Après add : {'rouge', 'bleu', 'violet'}


In [None]:
# Supprimer avec remove
couleurs.remove("bleu")
print("Après remove :", couleurs)

Après remove : {'rouge', 'violet'}


In [None]:
# Erreur si élément absent avec remove
couleurs.remove("jaune") 

KeyError: 'jaune'

In [None]:
# Solution : Utiliser discard
couleurs.discard("rouge")  # Pas d’erreur
print("Après discard (absent) :", couleurs) 

Après discard (absent) : {'violet'}


In [None]:
# Supprimer avec pop (aléatoire)
couleur_supprimee = couleurs.pop()
print("Couleur supprimée :", couleur_supprimee)
print("Après pop :", couleurs) 

Couleur supprimée : bleu
Après pop : {'rouge', 'orange', 'vert'}


## Opérations sur les Ensembles

Les ensembles supportent des opérations mathématiques :
- **Union** (`|` ou `union()`) : Tous les éléments des deux ensembles.
- **Intersection** (`&` ou `intersection()`) : Éléments communs.
- **Différence** (`-` ou `difference()`) : Éléments dans un ensemble mais pas l’autre.
- **Différence symétrique** (`^` ou `symmetric_difference()`) : Éléments dans un seul des deux ensembles.

### Exemple
Effectuons ces opérations.

In [None]:
Alice = {"Paris", "Londres", "Madrid", "Geneve", "Marseille", "Berlin"}
Pierre = {"Londres", "Strasbourg", "Lyon", "Paris", "Marseille", "Rome"}

In [None]:
# Union
union = Alice | Pierre
print("Union (|):", union)

Union (|): {'Strasbourg', 'Berlin', 'Lyon', 'Geneve', 'Londres', 'Madrid', 'Marseille', 'Rome', 'Paris'}


In [None]:
union_method = Alice.union(Pierre)
print(union_method) 

{'Strasbourg', 'Berlin', 'Lyon', 'Geneve', 'Londres', 'Madrid', 'Marseille', 'Rome', 'Paris'}


In [None]:
# Intersection
intersection = Alice & Pierre
print("Intersection (&) :", intersection)

Intersection (&) : {'Londres', 'Marseille', 'Paris'}


In [None]:
intersection_method = Alice.intersection(Pierre)
print(intersection_method)

{'Londres', 'Marseille', 'Paris'}


In [None]:
# Différence
difference = Pierre - Alice
print("Différence (-) :", difference) 

Différence (-) : {'Strasbourg', 'Lyon', 'Rome'}


In [None]:
difference_method = Alice.difference(Pierre)
print(difference_method)

{'Geneve', 'Berlin', 'Madrid'}


In [None]:
# Différence symétrique
sym_diff = Alice ^ Pierre
print("Différence symétrique (^) :", sym_diff) 

Différence symétrique (^) : {'Strasbourg', 'Berlin', 'Lyon', 'Geneve', 'Madrid', 'Rome'}


In [None]:
sym_diff_method = Alice.symmetric_difference(Pierre)
print(sym_diff_method)

{'Strasbourg', 'Berlin', 'Lyon', 'Geneve', 'Madrid', 'Rome'}


## Itérations sur les Ensembles

Les ensembles sont itérables avec une boucle `for`, mais l’ordre n’est pas garanti.

### Exemple
Parcourons un ensemble.

In [None]:
jours = {"lundi", "mardi", "mercredi"}

for jour in jours:
    print(f"Jour : {jour}")

Jour : mardi
Jour : mercredi
Jour : lundi


## Exercices

voici 2 textes, donner la ***liste*** des mots qu'ils ont en commun (en ne gardant que les mots qui font plus de 3 lettres)

In [33]:
text_1 = "Linear regression analysis is used to predict the value of a variable based on the value of another variable. The variable you want to predict is called the dependent variable. The variable you are using to predict the other variable's value is called the independent variable. This form of analysis estimates the coefficients of the linear equation, involving one or more independent variables that best predict the value of the dependent variable. Linear regression fits a straight line or surface that minimizes the discrepancies between predicted and actual output values. There are simple linear regression calculators that use a “least squares” method to discover the best-fit line for a set of paired data. You then estimate the value of X (dependent variable) from Y (independent variable)."

text_2 = "Logistic regression is a supervised machine learning algorithm widely used for binary classification tasks, such as identifying whether an email is spam or not and diagnosing diseases by assessing the presence or absence of specific conditions based on patient test results. This approach utilizes the logistic (or sigmoid) function to transform a linear combination of input features into a probability value ranging between 0 and 1. This probability indicates the likelihood that a given input corresponds to one of two predefined categories. The essential mechanism of logistic regression is grounded in the logistic function's ability to model the probability of binary outcomes accurately."

In [37]:
set1 = set(text_1.split())
set2 = set(text_2.split())
set3 = set1 & set2
[mot for mot in set3 if len(mot) > 3]

['between', 'used', 'that', 'based', 'linear', 'This', 'value', 'regression']

## Correction

In [38]:
mots_1 = text_1.split()
set_mots_1 = set(mots_1)

mots_2 = text_2.split()
set_mots_2 = set(mots_2)


print(set_mots_1 & set_mots_2) # il s'agit pour le moment d'un set

{'between', 'used', 'is', 'a', 'The', 'that', 'one', 'for', 'to', 'based', 'linear', 'This', 'or', 'the', 'of', 'value', 'on', 'regression', 'and'}


In [39]:
liste_mots_communs = list(set_mots_1 & set_mots_2) # le résultat final doit etre une liste, donc nous convertissons le set en list


résultat = [mot for mot in liste_mots_communs if len(mot) > 3] # on filtre les mots en commun de plus de 3 lettres.


print(résultat)

['between', 'used', 'that', 'based', 'linear', 'This', 'value', 'regression']


## Conclusion

Cette section vous a permis de maîtriser :
- La **création** et les **propriétés** des ensembles (unicité, non ordonnés).
- La **manipulation** avec `add`, `remove`, `discard`, `pop`.
- Les **opérations** comme l’union, l’intersection, la différence.
- L’**itération** sur les éléments.

Les ensembles sont idéaux pour éliminer les doublons ou analyser des relations entre collections. Expérimentez avec les exemples pour approfondir vos compétences !