<a href="https://colab.research.google.com/github/titsitits/UNamur_Python_Analytics/blob/master/3_Advanced_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Mickaël Tits
CETIC
mickael.tits@cetic.be

# Gestion d'exceptions
Comme dans la plupart des langages de programmations, lorsqu'une instruction ne peut être correctement effectuée, l'interpréteur renvoie un message d'erreur, et s'arrête. On appelle ça une **exception**. Le message d'erreur est en général une source d'information importante pour le développeur, car il permet de comprendre le bug et ainsi de le résoudre.

On peut cependant contourner une exception pour permettre au programme de continuer, en définissant un comportement spécifique à adopter lorsqu'une exception survient.

In [1]:
#Exemple d'exception
x = 0
inverse = 1/x

ZeroDivisionError: ignored

* On peut rediriger toute exception:

In [5]:
x = 0
try:
  inverse = 1/x
except:
  inverse = float("inf")  
print(inverse)

inf


* On peut vérifier quel type d'exception est survenue de cette manière:

In [6]:
try:
  inverse = 1/x
except Exception as e:
  print(e)
  inverse = float("inf")  
print(inverse)

division by zero
inf


* On peut aussi gérer un type d'exception spécifique, pour modifier le comportement de façon pertinente selon le type d'exception.
* Ca permet d'éviter de laisser passer un bug inattendu, ce qui rendrait le débogage plus compliqué

In [7]:
try:
  inverse = 1/y
except ZeroDivisionError as e:
  inverse = float("inf")
print(inverse)

NameError: ignored

# Fonctions

* Les fonctions permettent de rendre le code modulaire (on ne réécrit pas 50x la même chose)
* On définit d'abord une fonction, avant de pouvoir l'appeler. Pour la définir:
  * on utilise le mot-clé "def"
  * on définit l'étiquette et les arguments de la fonctions (appelés **signature** de la fonction). E.g.: def my_function(x):
  * on écrit ensuite dans un bloc indenté les instructions de la fonction  
  * le mot-clé "return" permet de renvoyer un résultat de la fonction et de sortir de la fonction. Ce mot-clé peut être utilisé plusieurs fois (par exemple pour retourner un résultat différent selon une condition)
  


In [42]:
def factorial(n):
  
  """
  Cette fonction permet de calculer le factoriel de n
  """
  
  f = 1

  for i in range(1,n+1): 
    f = f * i 

  return f

print(factorial(2), factorial(3), factorial(20) )


2 6 2432902008176640000


* Les variables définies dans une fonction n'existe que lors de l'exécution de cette fonction
* Les traitements effectués sur les variables ne sont valables que durant l'éxécution de la fonction

In [43]:
x = 1
y = 2

def my_function():  
   
  print('x inside function =', x) #utilise la variable définie en-dehors de la fonction  

  try:
    print(y)
  except Exception as exc:
    print(exc)
  #print(y) #renvoie une erreur car une fonction locale du même nom est déclarée après  
  y = 4
  print('y inside function =', y) #imprime la variable locale
  
  z = 3 
  print('z inside function =', z) #imprime la variable locale
  

my_function()


print('x outside function =', x)
print('y outside function =', y)
try:
  print(z)
except Exception as exc:
  print(exc)
#print(z) # renvoie une erreur car la variable n'est pas définie en-dehors de la fonction



x inside function = 1
local variable 'y' referenced before assignment
y inside function = 4
z inside function = 3
x outside function = 1
y outside function = 2
name 'z' is not defined


* On peut définir plusieurs arguments
* On peut définir des aguments par défaut
* Lors de l'appel de la fonction, on peut assigner uniquement certains arguments en utilisant leur identifiant

In [17]:
def my_function(param1, param2 = "param2", param3 = "param3", param4 = "param4"):
  
    print(param1, param2, param3, param4)

try:
  my_function()
except Exception as e:
  print("Exception:", e)

my_function(1)
my_function(1, 2)
my_function(1, param3 = 2)


Exception: my_function() missing 1 required positional argument: 'param1'
1 param2 param3 param4
1 2 param3 param4
1 param2 2 param4


#Objets
* En Python, tout est objet, que ce soit les types de base, les collections d'objets (les conteneurs), et même les fonctions.
* On peut par exemple créer une liste contenant un ensemble de fonctions (pour par exemple manipuler efficacement un pipeline d'opérations, ou pour stocker ensemble des fonctions ad-hoc, des paramètres et des résutlats de ces fonctions).

In [34]:
def square(x):
  return x**2
def cube(x):
  return x**3
  
my_list = [square, cube]
operands = [4,5]
operations = [my_list, operands]

print(operations)

print( [[func(op) for func in operations[0]] for op in operations[1]])

[[<function square at 0x7f2210a38730>, <function cube at 0x7f2210a387b8>], [4, 5]]
[[16, 64], [25, 125]]


## Objets de base: mutables et immuables

In [0]:
#La plupart des types de base sont immuables (int, float, bool, string, tuple)

my_int1 = 1
#On crée une nouvelle étiquette (référence) vers l'objet 1
my_int2 = my_int1

print( id(my_int1) , id(my_int2) )

#L'objet entier est immuable, donc lorsqu'on veut modifier my_int2, l'objet 1 n'est pas modifié en mémoire. A la place, l'étiquette "my_int2" est réassignée vers un nouvel objet en mémoire (en l'occurrence un objet de type entier et de valeur égale à 2)
my_int2 += 1

print( id(my_int1) , id(my_int2) )

In [0]:
#Les liste sont des objets mutables, contrairement aux types de base et aux tuples


my_list1 = [1,2,3,4]
my_list2 = my_list1
my_list2[0] = 0
my_list2.append(5)

print(my_list1,  my_list2)

#En fait, la variable "my_list1" est une étiquette vers un objet (une liste dans ce cas) un mémoire. "my_list2" pointe vers le même objet.
print(id(my_list1), id(my_list2))


In [0]:
my_list2 += [1]

print(my_list1,  my_list2)
print(id(my_list1), id(my_list2))

In [0]:
#Opérateur "=" : réassignation de la variable "my_list2" vers un autre objet
my_list2 = [1]

print(my_list1,  my_list2)
print(id(my_list1), id(my_list2))

In [83]:
#Les dictionnaires sont aussi des objets mutables

#Création d'un dictionnaire en utilisant des accolades {}
my_dict1 = {'a':1,'b':2}

#Nouvelle référence vers le même dictionnaire
my_dict2 = my_dict1

#Modification du dictionnaire
my_dict2['c'] = 3

print(my_dict1)

{'a': 1, 'b': 2, 'c': 3}


## Attributs et méthodes
* Chaque objet peut contenir des attributs, et des méthodes qui permettent de réaliser des instructions prenant en compte du contexte de l'objet (c'est-à-dire de ses attributs)

In [99]:
my_float = 4.2
help(my_float)

Help on float object:

class float(object)
 |  float(x) -> floating point number
 |  
 |  Convert a string or number to a floating point number, if possible.
 |  
 |  Methods defined here:
 |  
 |  __abs__(self, /)
 |      abs(self)
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __divmod__(self, value, /)
 |      Return divmod(self, value).
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __float__(self, /)
 |      float(self)
 |  
 |  __floordiv__(self, value, /)
 |      Return self//value.
 |  
 |  __format__(...)
 |      float.__format__(format_spec) -> string
 |      
 |      Formats the float according to format_spec.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getformat__(...) from builtins.type
 |      float.__getformat__(typestr) -> string
 |      
 |      You probably don't want to use thi

In [96]:
#Attributs d'un float
print(my_float.real, my_float.imag)

4.2 0.0


In [102]:
#Une méthode d'un float
my_float = 4.0
my_float.is_integer()

True

In [103]:
print(dir(my_list))

['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']


In [107]:
my_list.index(2, 5)

6

## Les Classes
* Les classes permettent de créer des nouveaux types d'objets


In [0]:
# Type de données personnalisé ?


class Personne: #Par convention, on donne généralement une majuscule aux identifiants des classes, pour les distinguer des fonctions
  
  #cette méthode est appelée par défaut lorsqu'on crée un nouvel objet (une instance) de cette classe
  def __init__(self, prenom, nom, age):
    
    #On crée les attributs de la classe
    self.prenom = prenom
    self.nom = nom
    self.age = age

  #Les méthodes d'une classe sont des fonctions internes qui permettent d'effectuer des traitements qui peuvent faire intervenir les attributs de la classe
  def display(self):
    
    print("Je m'appelle %s %s et j'ai %d ans" % (self.prenom, self.nom, self.age))

#On crée un nouvel objet de type personne
paul = Personne("Paul","Pasteur", 42)

print( type(paul) )

#On appelle une méthode de cet objet
paul.display()

#L'objet est mutable donc on crée ici une référence vers le même objet
pierre = paul
pierre.prenom = "Pierre"

paul.display()
pierre.display()



In [0]:
#Pour créer une copie d'un objet mutable, on peut utiliser un module Python de base: copy.copy
from copy import copy



#On crée un nouvel objet de type personne
paul = personne("Paul","Pasteur", 42)

pierre = copy(paul)
pierre.prenom = "Pierre"

paul.display()
pierre.display()

In [0]:

paul.job = "pasteurisateur"
print(paul.job)

In [0]:
id(paul)

# Un exemple concret: un peu de Natural Language Processing (NLP), et de nutrition

In [121]:
#extract singular versions of words in text (defaults plurals and exceptions are used, but you can override default rules)
def singulize(string, pluriels = None, exceptions = None):
  
  """
  Extract singular versions of words in text (defaults plurals and exceptions are used, but you can override default rules)
  Default plurals: {'ois':'ois','s':'','eaux':'eau','aux':'al','x':''}
  Default exceptions: {'os':'os','chacals':'chacal','souris':'souris','rabais':'rabais','prix':'prix', 'taux':'taux','rhinoceros':'rhinoceros','jus':'jus','noix':'noix','mais':'mais'}

  """

  #singulize (french ad-hoc method...)
  #règles du pluriel
  if pluriels is None:
      pluriels = {'ois':'ois','s':'','eaux':'eau','aux':'al','x':''}
  #exceptions
  if exceptions is None:
      exceptions = {'os':'os','chacals':'chacal','souris':'souris','rabais':'rabais','prix':'prix', 'taux':'taux','rhinoceros':'rhinoceros','jus':'jus','noix':'noix','mais':'mais', 'chips':'chips'}

  def singulize_word(word):

      if word in exceptions:

          return exceptions[word]

      isplural = [word.endswith(k) for k in pluriels]

      if any(isplural):

          #take first key
          keyid = isplural.index(True)
          key = list(pluriels)[keyid]

          #to replace last occurence, we reverse all strings and replace first occurrence
          return word[::-1].replace(key[::-1], pluriels[key][::-1], 1)[::-1]

      return word

  return ' '.join([singulize_word(word) for word in string.split()])



#remove stopwords from text (defaults stopwords are used but you can override default rules)
def remove_stopwords(string, stopwords = None):
      
  """
  Remove stopwords from text (defaults stopwords are used but you can override default rules)
  Default stopwords: ['de','du','le','les','aux','la','des', 'a', 'une', 'un', 'au','d','l']
  """
  #remove stopwords
  if stopwords is None:
      stopwords = ['de','du','le','les','aux','la','des', 'a', 'à', 'une', 'un', 'au','d','l']

  string = string.replace("d'","")
  string = string.replace("l'","")        
  return ' '.join([word for word in string.split() if word not in (stopwords)])



class Aliment:
  

  def __init__(self, nom, poids, calories_per_100g):
    
    self.nom = nom
    self.poids = poids
    self.cal = calories_per_100g
    
    self.simplify_name()

  def simplify_name(self):
    
    self.nom = singulize( remove_stopwords(self.nom) )
    self.nom = self.nom.capitalize()
    
  def totcal(self):
    
    return self.poids*self.cal/100
  
  def display(self):
    
    print("%s: %d cal/100g, %d g, calories totales: %d" % (self.nom, self.cal, self.poids, self.totcal()) )


sentence1 = "cake à la banane noix de cajou"
sentence2 = "cakes aux bananes et aux noix de cajou"

sentence1 = singulize( remove_stopwords(sentence1) )
sentence2 = singulize( remove_stopwords(sentence1) )



print(sentence1)
print(sentence2)

if sentence1 == sentence2:
  print("Les phrases sont identiques")
  

  
pomme = Aliment("des pommes", poids = 150, calories_per_100g = 52)
paquet_chips = Aliment("chips", poids = 120, calories_per_100g = 536)
cake = Aliment(sentence1, poids = 75, calories_per_100g = 320)


pomme.display()
paquet_chips.display()
cake.display()

aliments = [pomme, paquet_chips, cake]
allcals = [item.totcal() for item in aliments]
mincals = min(allcals)
best = allcals.index(mincals)

print("Aliment le plus léger:", aliments[best].nom)

cake banane noix cajou
cake banane noix cajou
Les phrases sont identiques
Pomme: 52 cal/100g, 150 g, calories totales: 78
Chips: 536 cal/100g, 120 g, calories totales: 643
Cake banane noix cajou: 320 cal/100g, 75 g, calories totales: 240
Aliment le plus léger: Pomme
