### defaultdict


In [19]:
document="""Imagine that you’re trying to count the words in a document. An obvious approach is
to create a dictionary in which the keys are words and the values are counts. As you check each word, you can increment its count if it’s already in the dictionary and add
it to the dictionary if it’s not"""
word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

In [20]:
word_counts2 = {}     # You could also use the “forgiveness is better than permission” approach and just handle the exception from trying to look up a missing key
for word in document:
    try:
        word_counts2[word] += 1
    except KeyError:
        word_counts2[word] = 1

In [21]:
word_counts3 = {}                     #On utilise get qui gère automatiquement les clés manquantes
for word in document:
    previous_count = word_counts3.get(word, 0)
    word_counts3[word] = previous_count + 1

Le mieux c'est d'utiliser un **default dict**. Un default dict c'est comme un dico normal sauf que lorsqu'on essaie de chercher une valeur avec une clé qui n'existe pas ça va créer la clé avec une valeur  qui est prédéfinie avec la fonction defaultdict(25) par ex. Ca donne:


In [29]:
from collections import defaultdict
word_counts4 = defaultdict(int) # int() produces 0
for word in document:
    word_counts[word] += 1

    #bien entendu ce mot n'est pas dans le dictionnaire mais il va l'initialiser avec 0
word_counts4["tamere"]

0

In [50]:
#They can also be useful with list or dict or even your own functions:

dd_list = defaultdict(list) # list() produces an empty list
dd_list[2].extend([1,5]) # now dd_list contains {2: [1,5]}

print(dd_list)
dd_dict = defaultdict(dict) # dict() produces an empty dict
dd_dict["Joel"]["City"] = "Seattle" # { "Joel" : { "City" : Seattle"}}

dd_pair = defaultdict(lambda: [0, 0])
dd_pair[2][1] = 1 # now dd_pair contains {2: [0,1]}

defaultdict(<class 'list'>, {2: [1, 5]})


### Counter

Un counter transforme une séquence de valeurs en un defaultdict(int) qui compte les valeurs de chaque clé.


In [37]:
from collections import Counter
c = Counter([0, 1, 2, 0]) # c is (basically) { 0 : 2, 1 : 1, 2 : 1 }

In [51]:
#This gives us a very simple way to solve our word_counts problem:
word_counts5 = Counter(document)

#A Counter instance has a most_common method that is frequently useful:
# print the 10 most common words and their counts

for word, count in word_counts5.most_common(10):
    print (word, count)

  52
t 25
i 21
a 20
o 20
n 19
e 19
c 15
r 14
d 12


### **Sets**

C'est une autre structure de données qui permet de représenter une collection d'éléments disctincts

On les utilise pour deux raisons principales:

-  "in is" est une opération très rapide sur les sets. SI on a une large collection d'items pour voir si ils sont dans tel objet, les set sont plus appropriés que les listes. 
-  Trouver les les items distincts dans une collection


In [47]:
s=set()
s.add(1) # s is now { 1 }
s.add(2) # s is now { 1, 2 }
s.add(2) # s is still { 1, 2 }
len(s) # equals 2
2 in s # equals True
3 in s # equals False

#raison 1
stopwords_list = ["a","an","at"]+ ["yet", "you"] #+ centaines de mots
"zip" in stopwords_list # False, but have to check every element
stopwords_set = set(stopwords_list)
"zip" in stopwords_set # very fast to check

#raison 2

item_list = [1, 2, 3, 1, 2, 3]
num_items = len(item_list) # 6
item_set = set(item_list) # {1, 2, 3}
num_distinct_items = len(item_set) # 3
distinct_item_list = list(item_set) # [1, 2, 3]

False

Python a une fonction **all** qui prend  une liste et renvoie True si tous les éléments sont **véridiques** et une fonction **any** qui renvoie True quand au moins un élément est véridique

In [49]:
all([True, 1, { 3 }]) # True
all([True, 1, {}]) # False, {} is falsy because empty
any([True, 1, {}]) # True, True is truthy 
all([]) # True, no falsy elements in the list
any([]) # False, no truthy elements in the list

True

### List comprehensions

Le meilleur moyen pythonique de transformer une liste en une liste (faire des opérations éléments par éléments et garder le type list), c'est les **list comprehensions**

In [None]:
even_numbers = [x for x in range(5) if x % 2 == 0] # [0, 2, 4]
squares = [x * x for x in range(5)] # [0, 1, 4, 9, 16]
even_squares = [x * x for x in even_numbers] # [0, 4, 16]

# You can similarly turn lists into dictionaries or sets:
square_dict = { x : x * x for x in range(5) } # { 0:0, 1:1, 2:4, 3:9, 4:16 }
square_set = { x * x for x in [1, -1] } # { 1 }

#If you don’t need the value from the list, it’s conventional to use an underscore as the
#variable:
zeroes = [0 for _ in even_numbers] # has the same length as even_numbers

#A list comprehension can include multiple fors:
pairs = [(x, y)
for x in range(10)
for y in range(10)] # 100 pairs (0,0) (0,1) ... (9,8), (9,9)


### Générateurs et itérateurs

Le pb avec les listes c'est qu'elles peuvent devenir très grosses. Un range (1 million) crée une liste d'1M d'éléments. Si j'ai besoin d'en utiliser un à la fois, ça peut devenir très gourmand et inéficace. 
Un générateur est qqch sur lequel je peux itérer mais dont les valeurs sont générées seulement quand j'en ai besoin (lazily).

Un des moyens de créer des générateurs c'est d'utiliser l'opérateur yield 



In [59]:
def lazy_range(n):
    """a lazy version of range"""
    i = 0
    while i < n:
        yield i
        i += 1
        
for i in lazy_range(10):
    print(i)

0
1
2
3
4
5
6
7
8
9


L'inconvénient avec la laziness c'est qu'on peut itéré sur un générateur seulement une fois. Si on a besoin d'itérer sur qqch plusieurs fois il faudra soit recréer le générateur à chaque fois ou utiliser une liste

Le second moyen de créer des générateurs c'est en utilisant des for comprehension dans des parenthèses:

In [None]:
lazy_evens_below_20 = (i for i in lazy_range(20) if i % 2 == 0)

### OOP

Imaginons qu'on avait pas la classe set en built in.
On va créer notre propre class set

On devra être capable d'y ajouter des choses, les supprimer, et vérifier si ils contiennent certaines valeurs. 

In [61]:
# by convention, we give classes PascalCase names
class Set:
# these are the member functions
# every one takes a first parameter "self" (another convention)
# that refers to the particular Set object being used
    def __init__(self, values=None):
        """This is the constructor.
        It gets called when you create a new Set.
        You would use it like
        s1 = Set() # empty set
        s2 = Set([1,2,2,3]) # initialize with values"""
        self.dict = {} # each instance of Set has its own dict property
    # which is what we'll use to track memberships
        if values is not None:
            for value in values:
                self.add(value)
    def __repr__(self):
        """this is the string representation of a Set object
            if you type it at the Python prompt or pass it to str()"""
        return "Set: " + str(self.dict.keys())
        # we'll represent membership by being a key in self.dict with value True
    def add(self, value):
        self.dict[value] = True
    # value is in the Set if it's a key in the dictionary
    
    def contains(self, value):
        return value in self.dict
    
    def remove(self, value):
        del self.dict[value]
        
        