# Python: concepts fondamentaux et révisions diverses

<a href="https://docs.python.org/3/library/index.html"> documentation officielle </a>

## La syntaxe de base: variables, listes, etc etc

Python est un langage orienté objet à typage fort. Explicitons cette notion

In [8]:
a = 3  #on attribue a une variable a la valeur 3
b = 5
c = 5.0
x = "longtemps, "
y = "je me suis couché de bonne heure"

print(a+b)
print(a*b)
print(a/b)
print(x+y)

8
15
0.6
longtemps, je me suis couché de bonne heure


Tout se passe bien jusque là. Essayons autre chose

In [3]:
print(a+y)

TypeError: unsupported operand type(s) for +: 'int' and 'str'

L'interpréteur n'est pas content du tout. Nous lui avons demandé une opération sur deux objets de natures différentes: un entier naturel ('int') et une chaîne de caractère ('str'). C'est un langage fortement typé puisque l'interpréteur détecte ces erreurs. "Oui mais on ne lui a rien précisé!!!" . Qu'importe, Python interprète le type des variables à mesure qu'on les lui donne. En python tout possède un type. On peut s'en assurer de la manière suiante.

<a href="https://docs.python.org/3/library/stdtypes.html"> Plus d'infos sur les types </a>

In [4]:
print(a, 'est un ', type(a))
print(c, 'est un ', type(c))
print(x, 'est une ', type(x))

3 est un  <class 'int'>
5.0 est un  <class 'float'>
longtemps,  est une  <class 'str'>


## listes, tuples et dictionnaires


Il existe différentes structures de données en python. Nativement (i.e. sans aucune librairie spécifique) on compte ces trois principales.
<ul>
<li> <a href = "https://docs.python.org/3/tutorial/datastructures.html">Les listes  </a>
<li> <a href = "https://docs.python.org/2/tutorial/datastructures.html#tuples-and-sequences">les tuples  </a>
<li> <a href = "https://docs.python.org/2/tutorial/datastructures.html#dictionaries">les dictionnaires  </a>
</ul>

In [6]:
AA = [a,b,c] # est une liste   (délimité par [])
BB = (a,b,c) # est un tuple    (délimité par ())
CC = {'premier': a, 'second':b, 'troisième':c} # est un dictionnaire (délimité par {})

print(AA, type(AA))
print(BB, type(BB))
print(CC, type(CC))

[3, 5, 5.0] <class 'list'>
(3, 5, 5.0) <class 'tuple'>
{'premier': 3, 'second': 5, 'troisième': 5.0} <class 'dict'>


La méthode pour extraire des données des dictionnaires diffère de celle pour les tuples et listes (NB, on compte à partir de 0)

In [16]:
print(AA[0],'     ',BB[1],'     ',CC['troisième'])

3       5       5.0


Les opérations de manipulation de ces structures de données diffèrent aussi quelque peu

In [25]:
print(list(reversed(AA)))
print(list(reversed(BB)))
print(list(reversed(CC)))

[5.0, 5, 3]
[5.0, 5, 3]


TypeError: argument to reversed() must be a sequence

Et oui, la notion d'ordre n'a pas de sens pour un dictionnaire (C'est d'ailleurs tout l'intérêt de la chose: l'indicage ne dépend pas de l'ordre). En revanche, la longueur de ces objets se mesure de la même manière avec len()

In [27]:
if len(AA)==len(BB)==len(CC): 
    print('Okay')
    print(len(AA))


Okay
3


Voyons maintenant comment ajouter ou enlever des éléments d'une liste

In [5]:
a = [1,2,9,7.1,8,5,4,5,5.1]
del a[-1] # enlève le dernier élément de la liste
print(a)
del a[0] # enlève le premier élément de la liste
print(a)

a.append(8) # ajoute 8 à la fin de la liste
print(a)

[1, 2, 9, 7.1, 8, 5, 4, 5]
[2, 9, 7.1, 8, 5, 4, 5]
[2, 9, 7.1, 8, 5, 4, 5, 8]


Une fonction intéressante de listes est la possibilité de les <a href="http://apprendre-python.com/page-comprehension-list-listes-python-cours-debutants"> définir"par compréhension"</a> (i.e. circonscrire ses éléments d'après une condition plutôt que par énumération). Voyons d'abord comment utiliser les conditions

## Boucles et conditions
Nous avons maintenant les outils de base pour implémenter quelques algorithmes simples à l'aide de boucles et de conditions. Il existe deux types de boucles. <b>for</b>  itère une opération un nombre de fois défini, <b>while</b> itère jusqu'à ce qu'une condition soit remplie (gare à ne pas créer de boucles infinies). Les deux méthodes suivantes se valent.

In [34]:
i = 0                  # initialisation
while i < 10:          # tant que i est strictement inférieur à 10
    print(i)
    i = i+1

print("##########")

for i in range(10):    # pour chaque i de 0 à 10
    print(i)           # imprime i

0
1
2
3
4
5
6
7
8
9
##########
0
1
2
3
4
5
6
7
8
9


Deux remarques importantes sur ce qui précède. 
<ul>
<li> le scope des bloucles est matérialisé par l'<b>indentation des lignes</b> qui suit ":". En d'autres termes, ce qui indique à l'interpréteur que telle ou telle ligne est comprise dans la boucle, ce n'est pas la présence de caractères comme ( ou [ mais l'espacement. Pour fermer une boucle, il suffit de s'aligner de nouveau sur la première colonne
<li> remarquez que le "i" de la deuxième boucle (la boucle for) ne part pas de neuf mais bien de 0. Cela tient au fait que, dans ce contexte, est une <b>variable locale</b> dont le sens est fixé à l'intérieur de la boucle en question
</ul>

[Exercice] Essayons maintenant d'implémenter un algorithme simple comme un détecteur palindrome (ex: "sms" et "xanax" sont des palindromes). On peut imaginer différentes procédures mais la plus simple serait, pour une chaine de caractères quelconque de longueur n, de vérifier que 
<ul>
<li> 1      ==     n
<li>   2    ==    n-1
<li> etc etc
</ul>
A la moindre exception, le mot n'est pas un palindrome. Nous allons de plus gagner du temps en créant une <b>fonction</b> qui nous dispensera de réécrire le code pour chaque mot à tester. Une fonction se définit avec <b>def</b>, ":" et une indentation.

In [43]:
def PalindromeDetect(mot):
    # CODE A COMPLÉTER

PalindromeDetect("xanax")
PalindromeDetect("solo")
PalindromeDetect("sememes")

xanax
OK
OK
solo
ce n'est pas un palindrome
sememes
OK
OK
OK
OK


Revenons maintenant la définition des listes par compréhension.  

In [11]:
carres = [x**2 for x in range(10)] # comprendre ainsi: l'"ensemble des carrés des x compris dans l'interval de 0 à 10"

print(carres)

# mettons que seuls les nombres inférieurs à 40 nous intéressent

carre40 = [x for x in carres if x<40]
print(carre40)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
[0, 1, 4, 9, 16, 25, 36]


[Exercice]: définissez par compréhension l'ensemble-produit (aka <a href = "https://fr.wikipedia.org/wiki/Produit_cart%C3%A9sien">produit cartésien</a>) des deux ensembles suivants.

In [15]:
A = [1,1,5,88,57,4]
B = ["a",5,7,"e"]

Cartesien = None #CODE A COMPLÉTER
print(Cartesien)

[(1, 'a'), (1, 5), (1, 7), (1, 'e'), (1, 'a'), (1, 5), (1, 7), (1, 'e'), (5, 'a'), (5, 5), (5, 7), (5, 'e'), (88, 'a'), (88, 5), (88, 7), (88, 'e'), (57, 'a'), (57, 5), (57, 7), (57, 'e'), (4, 'a'), (4, 5), (4, 7), (4, 'e')]


Testons maintenant quelques conditions usuelles avec un dictionnaire

In [14]:
dictionnary = {'sam': 15,'tom': 14,'bob': 11,'luc': 15,'marc': 9,'jean': 8}

print(bool(dictionnary["sam"]>dictionnary["tom"]))

print(bool(dictionnary["tom"]<dictionnary["bob"]))

print(bool(dictionnary["sam"]>=dictionnary["luc"]))

print(bool(dictionnary["sam"]!=dictionnary["luc"]))

True
False
True
False


## Librairies: utilisation et création
Outre une syntaxe simple, le principal atout de python réside dans son choix de librairies spécialisées dans un grand nombre de domaines. Pour importer une librairie, il suffit de:

In [1]:
import pandas                    #importe la librairie pandas
from sklearn import linear_model # importe le module "modèle linéaire" de la librairie Sklearn
import numpy as np               # importe la librairie numpy qui sera désigné par "np" (pratique pour éviter les scripts trop verbeux)

data = np.random.rand(3,2)       #génère une matrice de données aléatoire de 3 lignes et 2 colonnes
print(data)

[[ 0.98784243  0.64429725]
 [ 0.68986038  0.08789651]
 [ 0.22369941  0.39752248]]


Il existe plusieurs manières d'installer des librairies python. La plus simple consiste à exécuter

<code>pip3 install nom-de-la-librairie</code>

dans votre terminal

Gardez à l'esprit qu'il n'existe pas de différence ontologique entre un <b>script</b> et un <b>module</b>. Une <b>librairie</b> est un ensemble de <b>module</b>. La librairie sklearn est en fait un dossier qui contient un fichier .py linear_model vers lequel pointe le PATH de votre interpréteur Python (à défaut, dans le dossier courant). En conséquence, vous pouvez aisément vous créer vos propres modules et librairies.

Nous allons créer une librairie appelée <b>libPerso</b> avec un module <b>nlp</b> doté d'une fonction capable de compter les mots d'une chaîne de caractères. Voici ce que doit contenir votre nlp.py. Il vous suffira ensuite d'ajouter ce fichier dans un dossier appelé libPerso dans le dossier courant. Petite subtilité supplémentaire, le dossier <b>libPerso</b> devra contenir un fichier vide appelé <b>__init__.py</b> pour que l'interpréteur sache qu'il s'agit d'une librairie.

In [None]:
import re                # analyse d'expression régulière
def WordCount(string):
    count = len(re.findall(r'\w+', string))
    return(count)

Il vous suffira ensuite d'ajouter ce fichier dans un dossier appelé libPerso dans le dossier courant. Petite subtilité supplémentaire, le dossier <b>libPerso</b> devra contenir un fichier vide appelé $__init__.py$ pour que l'interpréteur sache qu'il s'agit d'une librairie.

Vérifions que cela marche

In [6]:
from libPerso import nlp

Yeah!!!!!

In [11]:
testString = x+y
print(testString)
print("nombre de mots: ", nlp.WordCount(testString))

longtemps, je me suis couché de bonne heure
nombre de mots:  8


## Exercices Types
A l'aide du dictionnaire précédent, créez une fonction capable de:
<ul>
<li> de trouver le nom associé à la meilleur note
<li> de trouver le nom associé à la moins bonne note
</ul>

In [16]:
# indications
grades = {'sam': 15,'tom': 14,'bob': 11,'luc': 15,'marc': 9,'jean': 8,'paul': 11 }

notes = grades.items()
print(notes)
print(max(notes))
print(min(notes))

print(list(grades.keys())[list(grades.values()).index(9)])

# /indications

def Synthesis(d): 
    #CODE A COMPLÉTER

Synthesis(grades)

dict_items([('luc', 15), ('bob', 11), ('jean', 8), ('paul', 11), ('marc', 9), ('sam', 15), ('tom', 14)])
('tom', 14)
('bob', 11)
marc
la (les) tête(s) d'ampoule:  ['luc', 'sam']
le (les) cancre(s):  ['jean']


(None, None)

Implémentez une fonction capable de vérifier si un entier quelconque est ou non premier. Vous définirez pour cela l'ensemble de ses diviseurs par compréhension. Utilisez l'opérateur modulo (x % y -> reste de la division de x par y)

In [38]:
def IsPrime(n): 
    #CODE A COMPLÉTER

print(IsPrime(8))
print(IsPrime(1))
print(IsPrime(25))
print(IsPrime(43))

False
True
False
True


A l'aide de cette fonction, définissez l'ensemble des entiers premiers inférieurs à 200

In [47]:
FirstPrime = None #CODE A COMPLÉTER
 

In [48]:
FirstPrime

[0,
 1,
 2,
 3,
 5,
 7,
 11,
 13,
 17,
 19,
 23,
 29,
 31,
 37,
 41,
 43,
 47,
 53,
 59,
 61,
 67,
 71,
 73,
 79,
 83,
 89,
 97,
 101,
 103,
 107,
 109,
 113,
 127,
 131,
 137,
 139,
 149,
 151,
 157,
 163,
 167,
 173,
 179,
 181,
 191,
 193,
 197,
 199]

Implémentez un générateur de nombre aléatoire (ou plus justement pseudo-aléatoire) à la John von Neumann (voir cette page pour <a href="https://en.wikipedia.org/wiki/Middle-square_method">la methode MID square</a>)

## Introduction à Numpy

Numpy est une librairie pour le calcul matriciel <a href="http://www.numpy.org/">doc Officielle</a>

In [52]:
import numpy as np

a = np.random.rand(10,3)
print(a)
print(type(a))

[[ 0.64982682  0.7740051   0.48861264]
 [ 0.22769872  0.35466188  0.97157599]
 [ 0.84185602  0.21725457  0.30831631]
 [ 0.72240377  0.49360872  0.52645135]
 [ 0.86503211  0.12189178  0.36107385]
 [ 0.23269584  0.19484991  0.95419278]
 [ 0.63781087  0.93638835  0.85650591]
 [ 0.84304177  0.97078066  0.67444343]
 [ 0.81298435  0.70755928  0.36086732]
 [ 0.30268361  0.28981986  0.67155052]]
<class 'numpy.ndarray'>


a est un objet de type particulier (<a href= "https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html">une matrice </a>) avec ses méthodes et propriétés propres. Nous serons souvent amenés à uiliser ces objets plutôt que des listes en raison de la possibilité qu'elles offres de grouper des données de manière multi-dimensionnelle.......

In [55]:
print(a.shape)
print(a.ndim)

(10, 3)
2


..... et effectuer des opérations vraiment simplement

In [57]:
b = a+1 # ajouter 1 à chaque élément de la matrice
b

array([[ 1.64982682,  1.7740051 ,  1.48861264],
       [ 1.22769872,  1.35466188,  1.97157599],
       [ 1.84185602,  1.21725457,  1.30831631],
       [ 1.72240377,  1.49360872,  1.52645135],
       [ 1.86503211,  1.12189178,  1.36107385],
       [ 1.23269584,  1.19484991,  1.95419278],
       [ 1.63781087,  1.93638835,  1.85650591],
       [ 1.84304177,  1.97078066,  1.67444343],
       [ 1.81298435,  1.70755928,  1.36086732],
       [ 1.30268361,  1.28981986,  1.67155052]])

In [58]:
c = np.multiply(a,b)
c

array([[ 1.07210172,  1.373089  ,  0.72735495],
       [ 0.27954543,  0.48044693,  1.9155359 ],
       [ 1.55057759,  0.26445411,  0.40337525],
       [ 1.24427099,  0.73725828,  0.80360238],
       [ 1.61331266,  0.13674938,  0.49144817],
       [ 0.2868432 ,  0.2328164 ,  1.86467663],
       [ 1.04461357,  1.8132115 ,  1.5901083 ],
       [ 1.5537612 ,  1.91319576,  1.12931737],
       [ 1.47392789,  1.20819943,  0.49109254],
       [ 0.39430098,  0.37381541,  1.12253062]])

Exercice: créez une matrice aléatoire 3D de forme (128,128,3) sur laquelle vous exécuterez une i) multiplication par 255 (avec *, pas avec "np.multiply(,)" (je reviendrai sur la différence)) puis ii) une <a href="https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.log.html">fonction log</a> puis iii) un arrondi à l'entier inférieur

In [63]:
a = np.random.rand(128,128,3)
a = a*255
a = np.log(a)
a = np.round(a)
a

array([[[ 5.,  4.,  3.],
        [ 5.,  4.,  4.],
        [ 5.,  3.,  5.],
        ..., 
        [ 6.,  5.,  5.],
        [ 5.,  5.,  4.],
        [ 5.,  5.,  4.]],

       [[ 4.,  5.,  4.],
        [ 5.,  5.,  5.],
        [ 4.,  4.,  5.],
        ..., 
        [ 5.,  5.,  5.],
        [ 5.,  4.,  5.],
        [ 5.,  5.,  5.]],

       [[ 1.,  5.,  4.],
        [ 5.,  5.,  5.],
        [ 3.,  3.,  4.],
        ..., 
        [ 5.,  5.,  5.],
        [ 5.,  3.,  5.],
        [ 5.,  5.,  5.]],

       ..., 
       [[ 5.,  5.,  5.],
        [ 5.,  4.,  4.],
        [ 4.,  3.,  5.],
        ..., 
        [ 5.,  5.,  5.],
        [ 5.,  5.,  2.],
        [ 3.,  4.,  5.]],

       [[ 4.,  5.,  4.],
        [ 5.,  5.,  6.],
        [ 5.,  5.,  5.],
        ..., 
        [ 4.,  4.,  5.],
        [ 5.,  2.,  4.],
        [ 5.,  5.,  5.]],

       [[ 4.,  4.,  4.],
        [ 6.,  3.,  5.],
        [ 5.,  5.,  4.],
        ..., 
        [ 5.,  4.,  5.],
        [ 5.,  4.,  5.],
        [ 5.,  5.,

NB: un array numpy peut contenir autre chose que de données numériques.

In [6]:
abc = np.array(["a","d","e","s"])
print(abc)


['a' 'd' 'e' 's']


En soi, rien ne vous empèche de concevoir des matrices plus complexes en spécifiant les différents type de données (nous verrons au cours prochain l'intérêt de procéder de la sorte)

In [8]:
dt = np.dtype([('name', np.unicode_, 16), ('grades', np.float64, (2,))]) # données structurées comprenant i)un chaîne de 16 caractères max et ii) un flottant
x = np.array([('Sarah', (8.0, 7.0)), ('John', (6.0, 7.0))], dtype=dt)
print(x[1])
print(x[1]["name"])

('John', [ 6.,  7.])
John


[exercice] Forts de cette découverte, nous allons pouvoir revenir à l'un de nos exercices précédents. À l'aide des données contenues dans cet array, identifier le meilleur et le moins bon élève SANS AUCUNE BOUCLE à l'aide de la fonction <a href="https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.sort.html"> np.sort</a>