<a href="https://colab.research.google.com/github/pat-ch0/NumPy-intro/blob/main/Exercices_Big_O_checkpoint.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Exemples de Big O

Dans la première partie de la section sur les exemples de Big-O, nous allons passer en revue diverses itérations des différentes fonctions Big-O.

Commençons par quelques exemples simples et explorons ce qu'est leur Big-O.

# O(1) Constant

In [2]:
def func_constant(values):
    '''
    Prints first item in a list of values.
    '''
    print(values[0])

func_constant([1,2,3])

1


Notez que cette fonction est constante car, quelle que soit la taille de la liste, la fonction ne prendra jamais qu'une seule étape, dans ce cas 1, en imprimant la première valeur de la liste. Ainsi, nous pouvons voir ici qu'une liste d'entrée de 100 valeurs n'imprimera qu'un seul élément, une liste de 10 000 valeurs n'imprimera qu'un seul élément et une liste de n valeurs n'imprimera qu'un seul élément !

## O(n) Linéaire

In [3]:
def func_lin(lst):
    '''
    Takes in list and prints out all values
    '''
    for val in lst:
        print(val)

func_lin([1,2,3])

1
2
3


Quelles est la complexité de cette fonction ?

## O(n^2) Quadratique

In [4]:
def func_quad(lst):
    '''
    Prints pairs for every item in list.
    '''
    for item_1 in lst:
        for item_2 in lst:
            print(item_1,item_2)

lst = [0, 1, 2, 3]

func_quad(lst)

0 0
0 1
0 2
0 3
1 0
1 1
1 2
1 3
2 0
2 1
2 2
2 3
3 0
3 1
3 2
3 3


Notez que nous avons maintenant deux boucles, l'une imbriquée dans l'autre.
Cela signifie que pour une liste de n éléments, nous devrons effectuer n opérations pour chaque élément de la liste !

Cela signifie qu'au total, nous effectuerons n fois n assignations, soit n^2.

Donc, une liste de 10 éléments aura 10^2, soit 100 opérations.

Vous pouvez voir à quel point cela peut devenir dangereux pour les entrées très volumineuses !

C'est pourquoi il est si important d'être conscient de Big-O en Big Data !

En effet, le Big Data fait référence à des ensembles de données extrêmement volumineux et complexes qui ne peuvent pas être facilement gérés ou analysés avec des outils et méthodes de traitement de données traditionnels.

Il représente un défi majeur pour les entreprises et les organisations, mais offre également un potentiel considérable pour l'innovation et la croissance.

### Caractéristiques principales du Big Data :

* **Volume :** Le Big Data implique d'énormes quantités de données, souvent mesurées en téraoctets, pétaoctets ou même exaoctets.
* **Vélocité :** Les données sont générées et doivent être traitées à une vitesse très rapide, souvent en temps réel.
* **Variété :** Le Big Data se présente sous différentes formes, y compris des données structurées (bases de données), non structurées (texte, images, vidéos) et semi-structurées (fichiers JSON, XML).
* **Véracité :** La qualité et la fiabilité des données sont essentielles pour prendre des décisions éclairées. Le Big Data peut contenir des données bruitées, incomplètes ou incohérentes, ce qui nécessite des techniques de nettoyage et de validation des données.
* **Valeur :** L'objectif principal du Big Data est d'extraire des informations précieuses et exploitables à partir de ces données massives pour améliorer la prise de décision, optimiser les processus et créer de nouvelles opportunités commerciales.

______
## Calcul de l'échelle de Big-O

Dans cette section, nous allons discuter de la façon dont les termes insignifiants sont ignorés dans la notation Big-O.

Lorsqu'il s'agit de la notation Big O, nous ne nous intéressons qu'aux termes les plus significatifs. Rappelez-vous qu'à mesure que l'entrée augmente, seuls les termes qui croissent le plus rapidement auront de l'importance. Si vous avez déjà suivi un cours de calcul, cela vous rappellera la notion de limite à l'infini. Voyons un exemple de la façon d'ignorer les constantes :

In [5]:
def print_once(lst):
    '''
    Prints all items once
    '''
    for val in lst:
        print(val)

In [6]:
print_once(lst)

0
1
2
3


Quelles est la complexité de cette fonction ?

Qu'en est-il des exemples suivants ?

In [None]:
def print_3(lst):
    '''
    Prints all items three times
    '''
    for val in lst:
        print val

    for val in lst:
        print val

    for val in lst:
        print val

In [None]:
print_3(lst)

0
1
2
3
0
1
2
3
0
1
2
3


Voyons un exemple plus complexe de ceci :

In [None]:
def comp(lst):
  '''
  This function prints the first item 0(1)
  Then it prints the first 1/2 of the list 0(n/2)
  Then prints a string 10 times O(10)
  '''
  print lst[0]

  midpoint = len(lst)/2

  for val in lst[:midpoint]:
    print val

  for x in range(10):
    print 'number'

In [None]:
lst = [1,2,3,4,5,6,7,8,9,10]

comp(lst)

1
1
2
3
4
5
number
number
number
number
number
number
number
number
number
number


Quelles est la complexité de cette fonction ?

## Pire Cas vs Meilleur Cas

Souvent, nous ne nous préoccupons que du pire cas possible d'un algorithme, mais lors d'un entretien, il est important de garder à l'esprit que les scénarios du pire cas et du meilleur cas peuvent avoir des temps Big-O complètement différents.

Par exemple, considérons la fonction suivante :

In [None]:
def matcher(lst,match):
    '''
    Given a list lst, return a boolean indicating if match item is in the list
    '''
    for item in lst:
        if item == match:
            return True
    return False

In [None]:
lst

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
matcher(lst,1)

True

In [None]:
matcher(lst,11)

False

Quelles est la complexité de ces fonctions ?

Enfin, introduisons le concept de complexité spatiale.

## Complexité Spatiale

Souvent, nous nous préoccupons également de la quantité de mémoire/espace utilisée par un algorithme. La notation de la complexité spatiale est la même, mais au lieu de vérifier le temps des opérations, nous vérifions la taille de l'allocation de mémoire.

Voyons quelques exemples :

In [13]:
def printer(n=10):
    '''
    Prints "hello world!" n times
    '''
    for x in range(n):
        print('Hello World!')

In [14]:
printer()

Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!


Notez comment nous n'assignons la variable 'hello world!' qu'une seule fois, et non à chaque impression.

Quelles sont les complexités spatiales et temporelles de cette fonction ?

Voyons un exemple de complexité spatiale **O(n)** :

In [None]:
def create_list(n):
  new_list = []

  for num in range(n):
    new_list.append('new')

  return new_list

In [None]:
print create_list(5)

['new', 'new', 'new', 'new', 'new']


Notez comment la taille de l'objet new_list évolue avec l'entrée **n**, cela montre qu'il s'agit d'un algorithme O(n) en ce qui concerne la complexité **spatiale**.
_____

C'est tout pour cette leçon, avant de continuer, assurez-vous de terminer le devoir à la maison ci-dessous :

# Devoir

Votre devoir à la maison après cette leçon est de lire les explications fantastiques de Big-O à ces deux sources :

* [Big-O Notation Explained](http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o/487278#487278)

* [Big-O Examples Explained](http://stackoverflow.com/questions/2307283/what-does-olog-n-mean-exactly)

O(1) Constant

In [None]:
def func_constant(values):
  print values[0]

On dit que cette fonction a une complexité temporelle de O(1), également appelée **Temps Constant**. En effet, quelle que soit la taille de la liste d'entrée (`values`), la fonction effectue toujours la même opération unique : saisir le premier élément et l'afficher. Le temps nécessaire à l'exécution de cette fonction reste constant, quelle que soit la taille de l'entrée.

In [None]:
lst = [1,2,3]
func_constant(lst)

1


O(n) Linéaire

In [None]:
def func_lin(lst):

  for val in lst:
    print val

Cette fonction a une complexité temporelle de O(n), également appelée **Temps Linéaire**.

**Pourquoi?**

*  La boucle itère sur chaque élément de la liste d'entrée `lst`.
*  Si la liste a **n** éléments, la boucle s'exécutera **n** fois.
*  Par conséquent, le temps nécessaire à l'exécution de la fonction est directement proportionnel au nombre d'éléments dans la liste d'entrée.

**Exemple** :

*  Si `lst` a 3 éléments, la boucle s'exécutera 3 fois.
*  Si `lst` a 100 éléments, la boucle s'exécutera 100 fois.
À mesure que la taille de l'entrée (lst) augmente, le nombre d'opérations effectuées par la fonction augmente au même rythme. C'est ce qui définit une complexité temporelle linéaire.

In [None]:
func_lin(lst)

1
2
3


O(n²) Quadratique

In [None]:
def func_quad(lst):

  for item_1 in lst:
    for item_2 in lst:
      print item_1,item_2

**Pourquoi est-ce O(n²) ?**

* **Taille de l'entrée** : Supposons que la liste d'entrée `lst` ait `n` éléments.
*  **Boucle externe** : La boucle externe s'exécutera `n` fois (une fois pour chaque élément de la liste).
*  **Boucle interne** : Pour chaque itération de la boucle externe, la boucle interne s'exécute également `n` fois.
*  **Opérations totales** : Cela se traduit par un total de n * n (ou n^2) opérations exécutées.

Le temps d'exécution de la fonction augmente proportionnellement au carré de la taille de l'entrée. Si la liste a 3 éléments, elle effectue environ 3\*3 = 9 opérations. Si la liste a 10 éléments, elle effectue environ 10*10 = 100 opérations.

**Importance de comprendre O(n^2)**

Une complexité temporelle quadratique peut devenir inefficace très rapidement à mesure que la taille de l'entrée augmente. Il est essentiel d'en tenir compte lorsque l'on traite de grands ensembles de données, car le temps d'exécution peut augmenter considérablement, ce qui a un impact sur les performances.



In [None]:
lst = [1,2,3]

func_quad(lst)

1 1
1 2
1 3
2 1
2 2
2 3
3 1
3 2
3 3


In [None]:
def print_once(lst): # O(n)

  for val in lst:
    print val

In [None]:
print_once(lst)

1
2
3


In [None]:
def print_2(lst): #O(n) O(2n)

  for val in lst:
    print val

  for val in lst:
    print val

In [None]:
print_2(lst)

1
2
3
1
2
3


# O(1 + n/2 + 10)

In [None]:
def comp(lst):

  print lst[0] # O(1)

  #### 0(n/2) ... 0( 1/2 * n )
  midpoint = len(lst)/2

  for val in lst[:midpoint]:
    print val
  ####

  for x in range(10): # 0(10)
    print 'hello world'

In [None]:
lst = [1,2,3,4,5,6,7,8,9,10]

comp(lst)

1
1
2
3
4
5
hello world
hello world
hello world
hello world
hello world
hello world
hello world
hello world
hello world
hello world


# O(n)

In [None]:
def matcher(lst,match):

  for item in lst:
    if item == match:
      return True

  return False

La complexité temporelle de cette fonction est généralement considérée comme **O(n)**. Voici pourquoi :

**Pire cas O(n)** : Si l'élément `match` ne se trouve pas dans la liste ou se trouve à la toute fin, la fonction devra parcourir chaque élément de la `lst` avant de renvoyer `False`.

**Meilleur cas O(1)** : Si l'élément `match` est trouvé au début de la `lst`.

En général, vous considéreriez le cas moyen comme étant O(n) car, en moyenne, vous vous attendriez à parcourir environ la moitié de la liste.

En substance, cette fonction effectue une recherche linéaire, ce qui signifie qu'elle examine chaque élément de la liste un par un jusqu'à ce qu'elle trouve la valeur souhaitée ou atteigne la fin. C'est un algorithme courant et fondamental utilisé pour la recherche dans les structures de données.

In [None]:
lst

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
matcher(lst,1) #O(1)

True

In [None]:
matcher(lst,11) #O(n)

False

In [None]:
def create_list(n):

  new_list = []

  for num in range(n):
    new_list.append('new')

  return new_list

**Pourquoi O(n) ?**

La complexité spatiale de cette fonction est **O(n)** car la quantité de mémoire qu'elle utilise est directement proportionnelle à l'entrée `n`.

*  Lorsque `n` augmente, la taille de `new_list` augmente linéairement. Si `n` est 5, la liste contiendra 5 éléments. Si `n` est 1000, elle contiendra 1000 éléments.
*  Cette relation linéaire entre l'entrée et la mémoire utilisée classe la fonction comme ayant une complexité spatiale O(n).

En termes plus simples, plus l'entrée `n` est grande, plus la fonction a besoin de mémoire pour stocker la liste résultante.

In [None]:
create_list(5)

['new', 'new', 'new', 'new', 'new']

In [None]:
def printer(n):

  for x in range(10): # Time Complexity O(n)
    print 'Hello World!' # Space Complexity O(1)

In [None]:
printer(10)

Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!


`Complexité temporelle`

*  **Définition** : La complexité temporelle mesure le temps qu'un algorithme prend pour s'exécuter en fonction de la taille de l'entrée.
*  **Focus** : Elle se concentre sur le nombre d'opérations effectuées par l'algorithme (comparaisons, assignations, opérations arithmétiques, etc.).
*  **Notation** : On utilise la notation Big O (ex: O(n), O(n^2), O(log n)) pour exprimer la complexité temporelle.
*  **Objectif** : L'objectif est d'estimer combien de temps un algorithme prendra à s'exécuter pour des entrées de différentes tailles.

**Complexité spatiale**

*  **Définition** : La complexité spatiale mesure la quantité de mémoire qu'un algorithme utilise en fonction de la taille de l'entrée.
*  **Focus** : Elle se concentre sur l'espace mémoire utilisé par l'algorithme pour stocker des données, des variables, et d'autres structures.
*  **Notation** : On utilise également la notation Big O pour exprimer la complexité spatiale.
*  **Objectif** : L'objectif est d'estimer combien de mémoire un algorithme aura besoin pour s'exécuter pour des entrées de différentes tailles.

**En résumé** :

*  **Complexité temporelle** : Combien de temps prend l'algorithme ?
*  **Complexité spatiale** : Combien de mémoire utilise l'algorithme ?

Exemple :

Imaginez un algorithme qui trie une liste de nombres.

*  **Complexité temporelle** : Elle serait liée au nombre de comparaisons et d'échanges effectués pour trier la liste.
*  **Complexité spatiale** : Elle serait liée à la quantité de mémoire supplémentaire utilisée par l'algorithme pendant le tri (par exemple, si l'algorithme crée une nouvelle liste pour stocker les nombres triés).

**Pourquoi ces deux complexités sont-elles importantes ?**

En informatique, il est crucial de choisir des algorithmes efficaces à la fois en termes de temps et d'espace. Un algorithme peut être rapide mais utiliser beaucoup de mémoire, ou inversement. L'analyse de la complexité temporelle et spatiale aide à prendre des décisions éclairées sur le choix des algorithmes en fonction des contraintes de ressources.