# Premiers pas dans la programmation avec python


## Quelques notions générales (pas propres à Python)

Dans n'importe quel langage de programmation, on distingue  
<ul>
<li> les <b>variables</b>: symbole utilisé pour stocker une valeur en mémoire
<li> des <b>valeurs</b>: "données" attachées à des variables (il en existe de multiples formes)
</ul>

En d'autres termes, les variables "portent" les valeurs que l'on leur attribut. En python, on associe les valeurs aux variables à l'aide du symbole =

In [4]:
a = 3
print(a)

3


On donne ainsi à <b>a </b> (variable) la valeur 3. Notez qu'une variable peut changer de valeur comme de chemise. Il suffit pour cela de la définir de nouveau:

In [5]:
a = 4
print(a)

4


Pour des raisons presque logiques, l'interpréteur de votre script (ce qui l'exécute pour faire faire les calcul par votre CPU) est incapable de vous retourner les valeurs d'une variable non-définie. Normal, vous ne l'avez pas encore définie (c'est ce que vous retournera l'interpréteur: <code>name 'b' is not defined</code>)!

In [3]:
print(b)

NameError: name 'b' is not defined

Venons en aux valeurs, mainenant. Dans un langage <a href = "https://fr.wikipedia.org/wiki/Typage_fort">typé</a> comme python (et bien d'autre), chaque valeur possède un <b>type</b>. Nous citerions principalement i) les entiers (int pour "integers"), ii) les nombres réels (ou float pour "flottant") et iii) les chaînes de caractère (str pour "string") et les iv) booléens (valeurs Vrai/Faux: bool)

In [6]:
a = 3
b = 3.14
c = "trois"
d = True

On peut à tout moment s'assurer du type d'une variable avec la fonction <b>type()</b>

In [7]:
print("type de a: ",type(a))
print("type de b: ",type(b))
print("type de c: ",type(c))
print("type de d: ",type(d))

type de a:  <class 'int'>
type de b:  <class 'float'>
type de c:  <class 'str'>
type de d:  <class 'bool'>


## Opérations 
Il est possible d'effectuer des opérations simples (notament mathématiques) sur des variables définies. Par chance, la syntaxe de python est très proches de celle de nos mathématiques "humaines".......

In [8]:
a , b = 3, 4
c = "Supercalifragi"
d = "listicexpialidocious"

In [9]:
a - b, a+b, a*b

(-1, 7, 12)

...... avec toutefois quelques nuances propres à la logique de notre langage et le type de variables en question. En effet, + appliqué à des <b>str</b> ne correspond pas à une <b>somme arithmétique</b> mais à une <b>concatenation de chaines de caratères</b>

In [10]:
c +d

'Supercalifragilisticexpialidocious'

Il n'est, du coup, pas possible de faire: (du fait que ça n'a pas de sens)

In [11]:
c-d

TypeError: unsupported operand type(s) for -: 'str' and 'str'

## La notion de structure de donnée (tuples, listes et dictionnaires)

Nous avons jusqu'à présent vu comment associer des valeurs à une variable. Mais nombreux sont les cas où nous avons besoin de "stocker" plusieurs valeurs au "même endroit" (i.e. dans la même variable). C'est ici que les <a href="https://fr.wikipedia.org/wiki/Structure_de_donn%C3%A9es">structures de données</a> interviennent.

In [14]:
a = 2.5,4,3    # ces deux définitions sont totalement équivalentes
b = (2,4,3)

In [18]:
print(a)

(2.5, 4, 3)


De même que l'on peut classer de la paperasse selon différentes logiques (ordre temporel, arboresence, etc), de même peut on structurer des valeurs d'après des structures plus ou moins complèxes. La plus simple, est de concevoir une simple collection, ce que nous venons de faire en définissant <b>b</b>

In [19]:
print(type(b))

<class 'tuple'>


b est un <a href="https://fr.wikipedia.org/wiki/N-uplet">tuple</a>, une simple collection de valeurs organisées d'après leur ordre dans la définition. On peut ainsi "extraire" les membres de cette collection par leur position (<b>Attention</b>: on compte à partir de 0)

In [20]:
b[0]

2

Le problème des <b>tuples</b>, c'est qu'une fois la position d'une valeur fixée, il devient impossible de la changer à moins de définir de nouveau tout le tuple. Les <b>listes</b> offrent davantage de souplesse. En python, on défini une liste à l'aide des symboles []

In [20]:
c = [1,6,7,4]

print(type(c))
print(c[1])

<class 'list'>
6


et les différentes méthodes de cette objet permettront d'inverser l'ordre des éléments....

In [21]:
c.reverse()
c

[4, 7, 6, 1]

.... de mélanger ses éléments..... (<a href="https://www.tutorialspoint.com/python/number_shuffle.htm"> lien</a>)

In [22]:
random.shuffle(c)

NameError: name 'random' is not defined

Oups, que s'est-il passé? Nous venons d'appeler une fonction random.shuffle alors que l'interpréteur python ne sait pas ce qu'est "random". C'est normal car shuffle est une fonction issue de random, qui est une <a href="https://fr.wikipedia.org/wiki/Biblioth%C3%A8que_logicielle"> librairie</a> (i.e. une collection de fonctions courantes ou de routine dont l'importation permet de se dispenser d'avoir à les réécrire à chaque fois). En python, on importe une librairie avec la commande <b>import</b>

In [23]:
import random
random.shuffle(c)
c

[6, 4, 7, 1]

Nous reviendrons à la question des librairies et leur rôle central dans le développement de programme spécialisés dans i) le calcul, ii) l'analyse de données, iii) le développement web , iv) les requêtes réseaux, etc etc

La structuration par ordre, c'est bien gentil mais ça a ses limites (notamment lorsque l'on veut retrouver les données). Et si nous organisions nos valeurs à l'aide d'index ou de clefs . On obtient alors un dictionnaire (que l'on définit avec des {} en python)

In [24]:
d = {"un": 3 , "deux": 2, "trois": 9, "soleil!": 10}
type(d)

dict

In [26]:
d["trois"]

9

## Boucles et conditions

### Les boucles: le moteur de nos scripts
Maintenant que nous disposons de structure de données, voyons comment automatiser des opérations sur leurs éléments (principale raison pour laquelle nous codons). Nous allons pour cela utiliser des boucles <b>For</b> et des boucles <b>While</b>. Commençons par les boucles <b>For</b>

In [27]:
A = [1, 3, 8, 5, 4]
a = [7,4,8,4]

for i in A:     # pour chaque i dans A
    print(i**2) # imprime i au carré

1
9
64
25
16


In [29]:
i

4

Toute boucle a un <b>début</b> et une <b>fin</b> matérialisés de diverses manières selon les langage. En python, une boucle commence après : et s'étend sur toutes lignes <b>indentées</b> (aka. décallées par rapport au début de la ligne). Python est donc un <b>langage sensible à l'indentation</b>
<code>
boucle: 
  dans la boucle
  dans la boucle
  dans la boucle

pas dans la boucle
</code>

Il pourrait être plus intéressant de stocker ces valeurs dans une autre liste (avec la méthode "append") pour nous en resservir plus tard.

In [30]:
A = [1, 3, 8, 5, 3]
B = []  # on crée une liste vide

for i in A:     # pour chaque i dans a
    p = i**2      # calcul son carré
    B.append(p)   # ajoute p à la liste B

print (B)

[1]
[1, 9]
[1, 9, 64]
[1, 9, 64, 25]
[1, 9, 64, 25, 9]


<b>While</b> répond à une logique différente. Au lieu d'itérer une opération pour tous les éléments d'une liste, <b>While</b> effectue une opération jusqu'à ce qu'une condition soit satisfaite

In [32]:
B = []
x=0
while x < 50: # tant que x est inférieur à 50
    B.append(x) # 
    x = x+3 # x prend alors la précédente valeur de x + 3 (on réalise ainsi une incrémentation)
    #print(B)
    
print(B)

['toto', 'marie', 'paul', 0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48]


In [33]:
B= []
for i in range(50): 
    if i%3 == 0:
        B.append(i)

print(B)

[0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48]


In [45]:
C =[x for x in range(50) if x%3==0]
print(C)

[0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48]


[Exercice] définissez par compréhension l'ensemble-produit (aka produit cartésien) des deux ensembles suivants.

In [35]:
A = ["roi","dame","valet","9","8","7"]
B = ["pique","coeur","trefle","carreau"]

Cartesien = [(i,j) for i in A for j in B]
'''
for i in A:
    for j in B:
        Cartesien.append((i,j))
'''

print(Cartesien)

[('roi', 'pique'), ('roi', 'coeur'), ('roi', 'trefle'), ('roi', 'carreau'), ('dame', 'pique'), ('dame', 'coeur'), ('dame', 'trefle'), ('dame', 'carreau'), ('valet', 'pique'), ('valet', 'coeur'), ('valet', 'trefle'), ('valet', 'carreau'), ('9', 'pique'), ('9', 'coeur'), ('9', 'trefle'), ('9', 'carreau'), ('8', 'pique'), ('8', 'coeur'), ('8', 'trefle'), ('8', 'carreau'), ('7', 'pique'), ('7', 'coeur'), ('7', 'trefle'), ('7', 'carreau')]


### Les conditions: le volant de nos script

Nous avons vu que les boucles while reposent sur des conditions d'arrêt (ce sans quoi elles tourneraient sans fin).  Prenons, pour changer, des chaines de caractères pour illustrer le fonctionnement des conditions.  

In [54]:
a = "Alexandre"
b = "Bethsabée"
c = "Pierre"

print (bool(a == b))
print (bool(len(a) == len(b)))

False
True


In [44]:
a = "Alexandre"
b = "Bethsabée"
c = "Pierre"

if len(b)<len(a):
    print(b, " est plus court que ", a)
elif len(b)==len(a):
    print(b, " et de même longueur que ",a)

Bethsabée  et de même longueur que  Alexandre


In [53]:
L = [1,2,3,4,5,6,7,8,9]


for n in L:
    if (n%2!=0) and (n%3!=0): 
        print(n, " n'est ni multiple de 2 ni de 3") 
    else: 
        if n%2==0:
            print(n,' est multiple de 2')
        if n%3==0: 
            print(n, ' est multiple de 3')

'''
for n in L:
    if (n%2==0) or (n%3==0):
        if n%2==0:
            print(n,' est multiple de 2')
        if n%3==0: 
            print(n, ' est multiple de 3')
    else:
        print(n, " n'est ni multiple de 2 ni de 3")



for n in L:
    if n%2==0:
        print(n,' est multiple de 2')
    if n%3==0:
        print(n, ' est multiple de 3')
    else: 
        print(n, " n'est ni multiple de 2 ni de 3")
'''

1  n'est ni multiple de 2 ni de 3
2  n'est ni multiple de 2 ni de 3
3  n'est ni multiple de 2 ni de 3
4  n'est ni multiple de 2 ni de 3
5  n'est ni multiple de 2 ni de 3
6  est multiple de 2
6  est multiple de 3
7  n'est ni multiple de 2 ni de 3
8  n'est ni multiple de 2 ni de 3
9  n'est ni multiple de 2 ni de 3


'\nfor n in L:\n    if (n%2==0) or (n%3==0):\n        if n%2==0:\n            print(n,\' est multiple de 2\')\n        if n%3==0: \n            print(n, \' est multiple de 3\')\n    else:\n        print(n, " n\'est ni multiple de 2 ni de 3")\n\n\n\nfor n in L:\n    if n%2==0:\n        print(n,\' est multiple de 2\')\n    if n%3==0:\n        print(n, \' est multiple de 3\')\n    else: \n        print(n, " n\'est ni multiple de 2 ni de 3")\n'

[exercice 1] A l'aide des boucles et des conditions, réalisez un programme capable d'identifier les noms de plus de 5 lettres de la liste et de les ajouter à la liste NomsLongs

In [155]:
noms = ["luc","pierre", "jade", "alex", "alexandre", "marie", "marine"]
NomsLongs = []
NomsCourts = []
NomsMoyens = []

for n in noms:
    if len(n)>5:
        NomsLongs.append(n)
    elif 4<=len(n)<=5:
        NomsMoyens.append(n)
    else:
        NomsCourts.append(n)

print("longs: ",NomsLongs)
print("courts: ",NomsCourts)
print("moyens: ",NomsMoyens)

longs:  ['pierre', 'alexandre', 'marine']
courts:  ['luc']
moyens:  ['jade', 'alex', 'marie']


In [57]:
NomsLongs = [n for n in noms if len(n)>5]

[exercice 2] A l'aide d'une boucle, trouvez tous les entiers multiples de 11 compris entre 0 et 1000

In [60]:
D =[]
for i in range(1000):
    if i%11 ==0:
        D.append(i)

print(D)

[0, 11, 22, 33, 44, 55, 66, 77, 88, 99, 110, 121, 132, 143, 154, 165, 176, 187, 198, 209, 220, 231, 242, 253, 264, 275, 286, 297, 308, 319, 330, 341, 352, 363, 374, 385, 396, 407, 418, 429, 440, 451, 462, 473, 484, 495, 506, 517, 528, 539, 550, 561, 572, 583, 594, 605, 616, 627, 638, 649, 660, 671, 682, 693, 704, 715, 726, 737, 748, 759, 770, 781, 792, 803, 814, 825, 836, 847, 858, 869, 880, 891, 902, 913, 924, 935, 946, 957, 968, 979, 990]


[Exercice 3] Essayons maintenant d'implémenter un algorithme simple comme un détecteur palindrome (ex: "sms" et "xanax" sont des palindromes). On peut imaginer différentes procédures mais la plus simple serait, pour une chaine de caractères quelconque de longueur n, de vérifier que 
<ul>
<li> 1      ==     n
<li>   2    ==    n-1
<li> etc etc
</ul>
A la moindre exception, le mot n'est pas un palindrome (on utilisera alors *break* pour mettre fin à la boucle). Nous allons de plus gagner du temps en créant une <b>fonction</b> qui nous dispensera de réécrire le code pour chaque mot à tester. Une fonction se définit avec <b>def</b>, ":" et une indentation.

In [157]:
s = "xenax"

def Palindrome_detect(mot):
    for c in range(len(mot)//2):
        if mot[c] != mot[-c-1]: 
            return "ceci n'est pas un palindrome"
            break
        
    return "ceci est un palindrome"

Palindrome_detect(s)

"ceci n'est pas un palindrome"

[exercice 4] Vous disposez d'un <b> dictionnaire </b> contenant le statut (ouvert/fermé) de chaque port d'un server. A l'aide d'une boucle For, "testez" chaque port pour afficher son statut

In [10]:
ports = {21: "open", 22: "open", 443: "open", 6112: "close", 1521: "open", 636: "close", 88: "open"}

for p in ports.keys():
    print(p,"\t:",ports[p])

# CODE À COMPLÉTER

dict_values(['close', 'open', ['a'], 456, 'open', {'u': 65, 't': 78}, 'close'])


[Exercice 4 bis] même chose mais n'affichez que les ports ouverts et dans l'orde (utilisez la fonction sorted())

In [106]:
ports = {20: "open", 21: "open", 443: "open", 6112: "close", 1521: "open", 636: "close", 88: "open"}

for p in sorted(ports.keys()):
    if ports[p]=="open":
        print(p)

20
21
88
443
1521


## Approfondissements: conditions, complémentaires et enchâssement.

Nous ne nous sommes jusqu'à présent contenté que de cas simples qui associaient une condition unique à une boucle unique. Un langage comme python offre toutefois bien plus de souplesse en cas de besoin. Prenons un exemple.

In [1]:
a = 5 

if a > 10: 
    print("a est suppérieur à 10")
else: 
    print("a est inférieur à 10")

a est inférieur à 10


Mettons que nous voulions récupérer l'ensemble des nombres < 100 à la fois multiple de 5 et de 3. Une manière de penser l'opération consiste à prendre chaque nombre les uns après les autres, vérifier si ils sont multiples de 5 et, si ils le sont, vérifier s'ils sont également multiples de 3

In [None]:
T = []
for n in range(1,100):
    if n%5 == 0:
        if n%3 == 0: 
            T.append(n)
T

In [59]:
T = []
for n in range(1,100):
    if n%5 == 0 and n%3 == 0: 
        T.append(n)
T

[15, 30, 45, 60, 75, 90]

In [None]:
T = [n for n in range(1,100) if n%5 == 0 and n%3 == 0]
T

Notez l'enchassement de la condition "if n%3 == 0" dans la condition "if n%5 == 0": la première n'est vérifié que si la seconde l'est. De même que l'on peut combiner des conditions les unes dans les autres, de même peut on enchasser les boucles. 

Pensez à problème combinatoire comme l'axiomatisation des mathématiques Shadoks

![Mathématiques Shadoks](http://jean-luc.bregeon.pagesperso-orange.fr/Page%200-20_fichiers/image001.gif)

In [None]:
Digits = ["Ga", "Bu", "Zo", "Meu"]

for n in Digits:
    for m in Digits:
        print(n+m)

[Exercice 5] réalisez un convertisseur Shadok (nombres arabes vers Shadok). Vous aurez besoin de la division euclidienne ("//": 13//3 = 4). Il existe deux manières de penser l'opération. La première est <b>récursive</b> (appeler la fonction dans la fonction)....

In [169]:
DigitDict = {0:"Ga", 1:"Bu", 2:"Zo", 3:"Meu"}

def RecursShadok(n):
    if n == 0:
        return ""
    else:
        return RecursShadok(n//4) + DigitDict[n%4]
    


In [170]:
RecursShadok(15) # doit vous renvoyer "GaMeuMeu"



'MeuMeu'

In [182]:
def recursive_to_zero(n):
    if n ==0: 
        pass
    else:
        #print(n)
        return go_to_zero(n-1)


def iterative_to_zero(n):
    while n>0: 
        n = n-1
    return print(n, " c'est bon!!!!!!!")

In [184]:
import time

start = time.time()
for i in range(10):
    iterative_to_zero(100)

end = time.time()


print("j'ai mis ", end-start,"ms ")

0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
0  c'est bon!!!!!!!
j'ai mis  0.0012979507446289062 ms 


..... la seconde, conceptuellement plus simple, est <b>itérative</b>

In [162]:
DigitDict = {0:"Ga", 1:"Bu", 2:"Zo", 3:"Meu"}

def IterShadok(n):
    results = []
    while n!= 0: # boucle while  n !=O
        results.append(n%4)  ## on fait n%base -> on l'ajoute à results     
        n = n//4 ## on finit par dire (pour le tour suivant) que n = produit

    results.reverse() # inverser l'ordre des éléments de results 
    results = [DigitDict[x] for x in results]
    results = "".join(results)
    
    return results # on return results
    
    

In [164]:
IterShadok(573) # doit renvoyer Meu Ga

je pars de:  573
573 //4=  143 + 1
j'ajoute:  1  à la liste de mes restes
pour le tour d'après, n=  143
###########FIN#DU#TOUR#########
je pars de:  143
143 //4=  35 + 3
j'ajoute:  3  à la liste de mes restes
pour le tour d'après, n=  35
###########FIN#DU#TOUR#########
je pars de:  35
35 //4=  8 + 3
j'ajoute:  3  à la liste de mes restes
pour le tour d'après, n=  8
###########FIN#DU#TOUR#########
je pars de:  8
8 //4=  2 + 0
j'ajoute:  0  à la liste de mes restes
pour le tour d'après, n=  2
###########FIN#DU#TOUR#########
je pars de:  2
2 //4=  0 + 2
j'ajoute:  2  à la liste de mes restes
pour le tour d'après, n=  0
###########FIN#DU#TOUR#########


'ZoGaMeuMeuBu'

In [87]:
type((1))

int

### Une histoire de noms

<ul>
<li> créez une liste de noms
<li> identifez tous les noms qui commencent par une lettre de votre choix. Ajoutez ces noms à un liste vide que vous allez creer
<li> énumérez tous les couples possibles. une personne ne peut pas être en couple avec soi même (prop non reflexive) et couple(a,b) = couple (b,a) (prop anti-symétrique). Ajoutez ces paires de couples à un liste ()
<li> la même chose, mais pour tous les noms compris entre 4 et 7 lettres
</ul>

### Génération aléatoire (Fuzz \nn/)

<ul>
<li> créez une liste de symboles hexadécimaux (0 -> F)
<li> à l'aide de **random.choice()**, constituez une liste de 128 symboles
<li> affichez l'ensemble de ces caractères groupés par deux
<li>
</ul>


In [23]:
noms=["Adelle","Kader","Marie","Piotr","Abdel","Steve","Cornelius","Claire","Gwendoline"]

#l = [n for n in noms if n[0]=="C"] 

couples = [(noms[i],j) for i in range(len(noms)) for j in noms[i+1:]]
'''
for i in noms:
    for j in noms:
        if i !=j:
            if (j,i) not in couples:
                couples.append((i,j))     

for i in range(len(noms)):
    for j in noms[i+1:]:
        couples.append((noms[i],j))
'''
print(couples)

[('Adelle', 'Kader'), ('Adelle', 'Marie'), ('Adelle', 'Piotr'), ('Adelle', 'Abdel'), ('Adelle', 'Steve'), ('Adelle', 'Cornelius'), ('Adelle', 'Claire'), ('Adelle', 'Gwendoline'), ('Kader', 'Marie'), ('Kader', 'Piotr'), ('Kader', 'Abdel'), ('Kader', 'Steve'), ('Kader', 'Cornelius'), ('Kader', 'Claire'), ('Kader', 'Gwendoline'), ('Marie', 'Piotr'), ('Marie', 'Abdel'), ('Marie', 'Steve'), ('Marie', 'Cornelius'), ('Marie', 'Claire'), ('Marie', 'Gwendoline'), ('Piotr', 'Abdel'), ('Piotr', 'Steve'), ('Piotr', 'Cornelius'), ('Piotr', 'Claire'), ('Piotr', 'Gwendoline'), ('Abdel', 'Steve'), ('Abdel', 'Cornelius'), ('Abdel', 'Claire'), ('Abdel', 'Gwendoline'), ('Steve', 'Cornelius'), ('Steve', 'Claire'), ('Steve', 'Gwendoline'), ('Cornelius', 'Claire'), ('Cornelius', 'Gwendoline'), ('Claire', 'Gwendoline')]


In [54]:
import random
L= ["0","1","2","3","4","5","6","7","8","9","a","b","c","d","e","f"]
fuz=[]

for i in range(128):
    r=random.choice(L)
    fuz.append(r)

#print(fuz)

for i in range(len(fuz)//8):
    print("".join(fuz[8*i:8*i+8]))




297934ab
08c89f04
9e5a30ac
f8c995e7
ea2a1fac
7348917f
922811ca
6ae17327
439c33e9
9e583f1d
d7197284
5e4cc866
929c0a1b
e4a36fb4
3941881a
4a57bf4e


## Librairies: utilisation et création
Outre une syntaxe simple, le principal atout de python réside dans son choix de librairies spécialisées dans un grand nombre de domaines. Pour importer une librairie, il suffit de:

In [None]:
import pandas                    #importe la librairie pandas
from sklearn import linear_model # importe le module "modèle linéaire" de la librairie Sklearn
import numpy as np               # importe la librairie numpy qui sera désigné par "np" (pratique pour éviter les scripts trop verbeux)

data = np.random.rand(3,2)       #génère une matrice de données aléatoire de 3 lignes et 2 colonnes
print(data)

Il existe plusieurs manières d'installer des librairies python. La plus simple consiste à exécuter

<code>pip3 install nom-de-la-librairie</code>

dans votre terminal

Gardez à l'esprit qu'il n'existe pas de différence ontologique entre un <b>script</b> et un <b>module</b>. Une <b>librairie</b> est un ensemble de <b>module</b>. La librairie sklearn est en fait un dossier qui contient un fichier .py linear_model vers lequel pointe le PATH de votre interpréteur Python (à défaut, dans le dossier courant). En conséquence, vous pouvez aisément vous créer vos propres modules et librairies.

Nous allons créer une librairie appelée <b>libPerso</b> avec un module <b>nlp</b> doté d'une fonction capable de compter les mots d'une chaîne de caractères. Voici ce que doit contenir votre nlp.py. Il vous suffira ensuite d'ajouter ce fichier dans un dossier appelé libPerso dans le dossier courant. Petite subtilité supplémentaire, le dossier <b>libPerso</b> devra contenir un fichier vide appelé <b>__init__.py</b> pour que l'interpréteur sache qu'il s'agit d'une librairie.

In [None]:
import re                # analyse d'expression régulière
def WordCount(string):
    count = len(re.findall(r'\w+', string))
    return(count)

Il vous suffira ensuite d'ajouter ce fichier dans un dossier appelé libPerso dans le dossier courant. Petite subtilité supplémentaire, le dossier <b>libPerso</b> devra contenir un fichier vide appelé $__init__.py$ pour que l'interpréteur sache qu'il s'agit d'une librairie.

Vérifions que cela marche

In [None]:
from libPerso import nlp

## Allons plus loin dans les Structures et algorithmes

Jusque là, nous sommes restés cantonés à des cas concrets. Mais la manière de concevoir un algorithme peut être décrite i) abstraitement ii) relativement à la structuration de données. Commençons par le commencement: 

### Recherche sur liste

On parle de listes pour toute structure de données organisée de manière unidimensionnel (e.g. ordre des items, lignes d'un fichier de log, etc etc).

Une première manière de rechercher un élément consiste à parcourir l'intégralité de la liste à sa recherche. On parle de **recherche linéaire**. Concevez un semblable algorithme pour trouver le seul nom de 4 lettres de la liste.

In [2]:
noms = ["pierre","karl","isaiah","marie","claire", "carole","luc"]

match = []  # liste dans laquelle ajouter

for n in noms:  # itération
    if len(n) ==4:
        match.append(n)
    print('OK')
    

OK
OK
OK
OK
OK
OK
OK


Ce type d'algorithme oblige à parcourir l'intégralité de la liste. Si 100 entrées, complexité de 100, si n entrées, complexité de n. On parle alors d'un algorithme de complexité n.

Selon les situations, il peut être plus rapide de procéder d'une autre manière. Par exemple, dans le cas ou les données seraient *ordonnées*, il est possible d'utiliser un algorithme de **recherche binaire**. O(log n)

![binary research](https://upload.wikimedia.org/wikipedia/commons/thumb/8/83/Binary_Search_Depiction.svg/1200px-Binary_Search_Depiction.svg.png)

Modifiez l'algorithme précédent afin de trouver le nom de 4 lettres

In [5]:
noms = ["luc","karl","marie","pierre","jeanne","isaiah","claire", "carole"]
match =[]

while True:
    nom_actuel = noms[len(noms)//2]
    print(nom_actuel)
    if len(nom_actuel)==4:
        match.append(nom_actuel)
        break
    else: 
        if len(nom_actuel)>4:
            noms = noms[:len(noms)//2]
        if len(nom_actuel)<4:
            noms = noms[len(noms)//2:]

print(match)

jeanne
marie
karl
['karl']


In [11]:
# même chose mais pour trouver un nombre compris entre 0 et 100 (on cherche 63)

nombres = list(range(101))
match = []

while True:
    nb_actuel = nombres[len(nombres)//2]
    print(nb_actuel)
    if nb_actuel==98:
        match.append(nb_actuel)
        break
    else: 
        if nb_actuel>98:
            nombres = nombres[:len(nombres)//2]
        if nb_actuel<98:
            nombres = nombres[len(nombres)//2:]

print(match)

50
75
88
94
97
99
98
[98]


### Algorithme de tri (sorting)

Une autre importante famille de taches consiste à trier, classer des données dans une structure. Comment feriez-vous pour ordonner les noms (ou nombres) de la liste? Plein de manière. L'une d'elle est un [tri par insertion](https://fr.wikipedia.org/wiki/Tri_par_insertion). On commence par le plus à gauche, et on le considère comme rangé. Puis on prend celui d'après. S'il est plus grand que le nombre déjà rangé, on le range après, sinon avant. Pour les suivants, même logique: on regarde la dernière valeur rangée. Si plus petit, on regarde la valeur d'avant, si plus petit, celle d'avant, si plus petit, celle d'avant, etc etc 

![tri par insertion](http://www.russika.ru/userimages/2014_01_24_21_28_770818091.gif)


In [89]:
import random
numbers = [random.randint(1,50) for i in range(20)] # une liste de 20 nombre aléatoires

In [90]:
def insertionSort(alist):   
    for index in range(1,len(alist)): # NB on commence par 1 et non par 0 (car nous allons ranger tous les autres relativement au premier)
          
        nb_actuel = alist[index] # pour passer chaque nb de la liste en revue
        position = index      # on fixe sa position à son index dans la liste
        
        while position >0 and alist[position-1]>nb_actuel: # tant que l'élément d'avant est plus grand que la valeur actuelle
            alist[position]=alist[position-1]     # on met sur cette position la valeur de la position juste avant
            position = position-1               # et on se décalle d'un rang vers la gauche
        
        alist[position]=nb_actuel  # quand enfin nous n'avons pas d'élément plus grand à gauche, on met sur cet emplacement la valeur actuelle

            
            # je range l'élément à cet endroit là
        # BIS REPETITA AD LIB

In [91]:
print(numbers)
insertionSort(numbers)


[19, 31, 26, 25, 36, 42, 2, 3, 44, 31, 18, 20, 42, 16, 28, 43, 12, 4, 32, 3]


In [92]:
print(numbers)

[2, 3, 3, 4, 12, 16, 18, 19, 20, 25, 26, 28, 31, 31, 32, 36, 42, 42, 43, 44]


Une autre forme d'algorithme de tri couramment utilisé est le [tri à bulles](https://fr.wikipedia.org/wiki/Tri_%C3%A0_bulles)

![tri à bulle](http://www.algolist.net/img/sorts/bubble-sort-1.png)

In [121]:
numbers = [random.randint(1,50) for i in range(20)] # une liste de 20 nombre aléatoires
print(numbers)

[47, 9, 16, 14, 8, 9, 1, 17, 42, 47, 19, 37, 32, 12, 10, 45, 12, 24, 24, 15]


In [149]:
noms = ["pierre","karl","isaiah","marie","claire", "carole","luc"]

In [152]:
def bubblesort(alist,mode="alpha"):
    # if len(alist[i+1])<len(alist[i]):
    while True:
        swap = ""
        for i in range(len(alist)-1):
            if mode == "size":
                if len(alist[i+1])<len(alist[i]):
                    swap = alist[i]
                    alist[i] = alist[i+1]
                    alist[i+1] = swap
            else:
                if alist[i+1]<alist[i]:
                    swap = alist[i]
                    alist[i] = alist[i+1]
                    alist[i+1] = swap
        if swap == "":
            break
    return alist
        

In [153]:
noms = bubblesort(noms, "siz")
print(noms)

['carole', 'claire', 'isaiah', 'karl', 'luc', 'marie', 'pierre']


Un autre standard d'algorithme de tri n'est autre que le [tri-fusion](https://fr.wikipedia.org/wiki/Tri_fusion). Il consiste à spliter la liste en sublists, elles même en sublist etc puis à stacker ces éléments dans l'ordre en remontant les degrés de complexité. 

![merge sort](https://upload.wikimedia.org/wikipedia/commons/6/60/Mergesort_algorithm_diagram.png)

![merge_sort2](https://upload.wikimedia.org/wikipedia/commons/c/c5/Merge_sort_animation2.gif)

NB: cet algorithme se prête très bien à une approche récurssive (mais vous pouvez faire autrement)
