# De SAS à python, quelle approche ?

Le passage de SAS à Python mérite une reflexion importante.

En effet, chaque outil a ses propres forces et faiblesses.

### Quand passe-t-on de SAS à Python ?


1. Lorsque les achats décident de ne plus payer de licence SAS !!!
2. Lorsqu'on veut traiter des données non structurées
3. Lorsqu'on désire automatiser des traitements complexes
4. Lorsqu'on veut utiliser des méthodes de data science avancées

# Est-ce que c'est économique de passer de SAS à python ?

**A long terme OUI**

Mais cela a des impacts importants sur l'organisation d'une structure :

- Montée en compétence des équipes data
- Prise en charge de la maintenance par les équipes SI
- Tout n'est pas implémenté en python, il va falloir repenser certains codes
- Python n'est qu'un langage de programmation et non un logiciel intégrant plusieurs niveaux

Cela a aussi de forts avantages :

- Attractivité de l'organisation pour de nouveaux profils data
- Ecosystème open source et extrêmement bien documenté
- Outils modernes et intégrés


## Si vous êtes habitué à SAS, qu'est-ce qui va changer ?

- L'interface de développement
  - Elles sont multiples en python


- La gestion des tables
  - En python, pas de tables stockées "en dur", tout est chargé en mémoire --> besoin de plus de mémoire RAM sur les machines ou serveurs
  - C'est au développeur de gérer la mémoire utilisée


- La gestion des environnements
  - Python et ses packages évoluent vite, les versions changent
  - Il faut être vigilant sur les outils utilisés
  

- Il faut penser très vite en mode "macro"
  - Le passage d'un script à une fonction (macro) est extrêmement simple
  

Comme évoqué plus tôt, l'objectif n'est en général pas de traduire mot à mot un projet SAS en python mais refléchir à son évolution.

## Les principes

En python, tout passe par des fonctions et des classes. Plus d'étapes Data ou de procédure proc, votre code ressemblera à ça :

`x = ma_fonction(arg1, arg2...)` 

Attention `x` n'est pas équivalent à `X` (python est sensible à la casse).

Le signe `=` permet d'instancier (ou de créer) des objets, ainsi on aura :

In [None]:
chaine1 = "Python"

Ceci permet de créer un objet qui stocke une chaîne de caractère et qu'on pourra réutiliser dans notre code.

Pour connaître son type, on utilise :

In [None]:
type(chaine1)

Pour afficher l'objet, on utilise la fonction `print()`

In [None]:
print(chaine1)

# Les types en Python

Les types de base :
- int
- float
- boolean
- string

En Python pas besoin de déclarer le type de données, le langage s’en charge tout seul

Python est basé sur un typage fort - une fois un objet d'un type donné, Python ne l'adapte pas

Pour connaître le type d’une variable, on utilise : type(nom_de_variable)


In [None]:
nom_de_variable = "python"
print(type(nom_de_variable))

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Définir quatre variables distinctes, un entier <code>entier1</code>, un float <code>float1</code>, un booléen <code>bool1</code> et une chaîne de caractère <code>chaine1</code> et affichez-les dans la console.</li>
        <li><em>Indice :</em> Les booléen s'écrivent <code>True</code> et <code>False</code></li>
    </ul>
</div>

In [None]:
entier1 = None
float1 = None
bool1 = None
chaine1 = None

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(entier1)==int, "entier1 n'est pas un entier"
assert type(float1)==float, "float1 n'est pas un float"
assert type(bool1)==bool, "bool1 n'est pas un booléen"
assert type(chaine1)==str, "chaine1 n'est pas une chaîne de caractère"
print("Bravo !")

# Les opérations arithmétiques

- +
- -
- *
- /
- ** (puissance)
- % (modulo)

# Les chaînes de caractères

### 3 codages équivalents :

In [None]:
print("Python",'Python',"""Python""")

De nombreuses opérations sur les chaînes : 

In [None]:
chaine1 = "Python"
print(len(chaine1), chaine1.lower(), chaine1.upper(), str(chaine1))

Que fait chacune de ces commandes ? (essayez d'expliquer en quelques mots)

**Remarque :** On a deux différences importantes
    
- `len(chaine1)` est un appel à la fonction `len()` qui prend comme paramètre un objet
- `chaine1.lower()` est un appel à la méthode `lower()` de l'objet `chaine1`

La méthode `.lower()` est une fonction qui ne peut s'appliquer que sur un objet chaîne de caractère.

*Attention :* ne pas oublier les `()` après `lower` qui indique que c'est une méthode.

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Définir une variable comprenant la chaîne 'Python pour la Science', utilisez des opérations sur les chaînes pour construire la chaîne 'PYTHON POUR LA DATA SCIENCE'</li>
        <li><em>Indice :</em> Il faut d'abord ajouter le terme 'data' puis mettre en majuscules</li>
    </ul>
</div>

In [None]:
chaine_python = 'Python pour la Science'

*Indice :* il faut d'abord ajouter le terme data puis mettre en majuscule

In [None]:
chaine_python2 = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert chaine_python2 == 'PYTHON POUR LA DATA SCIENCE', "la réponse est fausse"
print("Bravo !")

### Chaîne de caractères (suite)

Pour intégrer des valeurs spécifiques dans une phrase, on utilisera ce qu'on appelle des f-string ou la méthode `.format()`

Si on veut intégrer d'autres types, on utilisera la méthode `.format()` et le codage `{}` dans la chaîne

In [None]:
print("La liste {} est utilisée".format([4.5,3.6,6]))

A partir de python 3.7, on peut utiliser les f-string

In [None]:
name = "Emmanuel"
hello = f"Hello! My name is {name}"
print(hello)

# Les collections d’objet sous Python

Il existe 3 structures principales de données sous Python :
- Les tuples : suite de valeurs immuable définie par `( )`
- Les listes : suite de valeurs modulable définie par `[ ]`
- Les dictionnaires : valeurs indexées clé – valeur défini par `{ }` 

**Toutes ces structures permettent de stocker n'importe quel type d'objet.**
    
En Python, quelle que soit la structure, on utilise `[ ]` pour accéder à un élément d’une structure


- Dans un tuple : `tup1[0]` permet d’accéder au premier élément


# Les tuples

- On ne peut pas modifier un tuple une fois créé

**Attention sous Python, le premier indice est toujours le 0**

In [None]:
#on définit un tuple
tu = (1,3,5,7)
#on peut rechercher sa taille
print(len(tu))
#on accès aux indices en utilisant []
tu2=tu[1:3]
print(tu2)

# Les listes

Une liste est un tuple de taille dynamique et modifiable

Les listes sont définies avec des `[ ]`

Les méthodes sur les listes comprennent :
- `.append()`			ajoute une valeur en fin de liste
- `.insert(i,val)`		insert une valeur à l’indice i
- `.pop(i)`			extrait la valeur de l’indice i
- `.reverse()`			inverse la liste
- `.extend()` 			étend la liste

**Attention la plupart des méthodes des listes modifient la liste.**

**Exercice:**
    
Créez une liste `liste1` composée de 5 éléments, affichez la longueur de la liste.

In [None]:
liste1 = ____

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert len(liste1) == 5
print("Bravo !")

# Les listes (suite)

On peut faire des recherché plus avancées dans les listes :
- `val in list` renvoie `True` si la valeur `val` est dans la liste `list`
- `.index(val)` renvoie l'indice de la valeur `val`
- `.count(val)` renvoie le nombre d'occurrence de `val`
- `.remove(val)` retire la valeur `val` de la liste (que la 1ère)

Pour supprimer une liste ou un élément d’une liste, on utilise la commande `del`


# Les dictionnaires

Il s'agit d’une collection d’objets non ordonnés associant les notions "clé – valeur".

In [None]:
dico = {'data_eleves':[5,10,15], 'data_etabl':[2,3,6,9], 'data_acad':[4,7,8]}

In [None]:
# On utilise pour afficher la liste des clés et des valeurs
print(dico.keys())
print(dico.values())

In [None]:
# On accède aux valeurs par clé
print(dico["data_eleves"])

# Les opérateurs booléens

- `not`, `and` et `or`
- Ordres de priorité
    - `not`
    - `and`
    - `or`

In [None]:
print(not True)
print(True or False)
print(True and False)
print(not True and False)
print(not True or False)

# Les opérateurs pour les conditions

Permet de mettre en place des conditions

In [None]:
bool1=1
if bool1 is True:
    print("C'est vrai")
elif bool1 is False:
    print("C'est faux")
else:
    print("bool1 n'est pas un booléen")


- Attention dans une condition, si on teste l'égalité des valeurs, il faut utiliser == (les autres opérateurs sont <, <=, >, >=, !=)
- Il existe aussi l'opérateur is qui est très important en Python (lisibilité)
    - Il permet de tester non pas uniquement les valeurs mais les objets similaires ( True == 1 est vrai mais True is 1 est faux) 
- Veillez à bien respecter l’indentation


# La boucle for

- Les boucles for de Python ont une structure spécifique
- L'itérateur prend comme valeur les éléments d'une liste
- Structure :
```
for indice in sequence:
    instructions
```
- On peut utiliser `break` pour casser une boucle 

- `while` peut aussi être utilisé


In [None]:
for col in ["a","b","c"]:
    print(col)

In [None]:
for i in range(5):
    print(i)

**La boucle de Python est un outil à manier avec parcimonie (elle est très lente)**

L'utilisation de `range(n)` permet de créer une liste de valeur de 0 à **n-1** :

**Exercice :**
    
    
Créer une boucle permettant d’afficher des phrases avec une valeur différente à chaque boucle "Nous sommes ...", "lundi", "mardi"...

In [None]:
liste_jours = ["lundi", "mardi", "mercredi"]

In [None]:
# remplacez les ___ par du code
for ___ in ____:
    print(_____)

Si c'est trop facile : Essayez d'afficher "Nous sommes lundi et il fait 15 degrés" et répétez pour chaque jour

In [None]:
liste_temperatures = [15,20,10]

# La List Comprehension : combiner des boucles et des listes

On peut définir des listes de manière plus complexe :

In [None]:
listinit = [2,5,7,12]

In [None]:
res = [x**2 for x in listinit if (x % 2 == 0)] 

Ce code permet de construire une liste en une seule ligne.

La liste construire `res` rassemble les valeurs paires au carré.

**Exercice :**
    
A partir d’une liste de valeurs en degrés celsius `[0, 10, 20, 35]`, créez une liste en degrés fahrenheits sachant que la formule de transfert est `(9/5*temp+32)`

In [None]:
liste_celsius = [0, 10, 20, 35]

In [None]:
liste_fahr = ____

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert liste_fahr == [32, 50, 68, 95]
print("Bravo !")

# Les fonctions 

- Les niveaux d’une fonction dépendent de l’indentation
- On définit une fonction avec `def fonction():`
- Le contenu de la fonction suit
- La valeur que retourne la fonction est définie par `return` 
- Les commentaires liés à une fonction sont inclus dans un docstring (commentaire utilisant `"""`) 


In [None]:
def affichage_produit(val1,val2):
    """Cette fonction affiche le produit de 2 valeurs"""
    return val1*val2

In [None]:
produit = affichage_produit(4,6)
print(produit)

Une fonction peut avoir de multiples arguments dont des argument facultatifs (avec des valeurs par défaut) :

In [None]:
def test(a ,b ,c=3):
    return a+b+c

**Exercice :** Remplacez `___` par la valeur attendue

In [None]:
assert test(2,3) == ___
print("Bravo !")

In [None]:
assert test(2,3,4) == ___
print("Bravo !")

On peut avoir un nombre indéfini d’arguments en utilisant `*args` (ils sont rassemblés dans un tuple)

In [None]:
def test2(a, b, *args):
    val=0
    for i in args:
        val+=i
    return a+b+val

**Exercice :** Remplacez `___` par la valeur attendue

In [None]:
assert test2(2,4,6,8) == ___
print("Bravo !")

In [None]:
assert test2(2,4) == ____
print("Bravo !")

On peut aussi stocker les options d'une fonction dans un dictionnaire avec `**kwargs`

## Exercices récapitulatifs :

**Exercice :** Créez la condition suivante :<br>
Si "python" est compris dans la chaîne `chaine_python`,<br>
renvoie la chaîne "bravo !"<br>
Sinon, renvoyez la chaîne "autre"
    
*Indice :* on va utiliser la commande `in`, on utilise `"mot" in chaine`

In [None]:
def python_in_str(_____):
    ____
    return ____

In [None]:
assert python_in_str("la data avec python") == "bravo !"
print("Bravo !")

**Exercice :**

Construire une fonction prenant en entrée deux listes et qui retourne la moyenne de tous les éléments des deux listes (une seule valeur)


In [None]:
def ma_moyenne(liste1, liste2):
    """ Cette fonction renvoie la moyenne de tous les éléments de deux listes"""
    _____
    return ______

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert ma_moyenne([1,2,3],[4,5,6]) == 3.5
print("Bravo !")

**Exercice facultatif :**
    
Essayez de construire une fonction calculant la moyenne de plus de 2 listes

**Exercice :** Automatisation de récupératoin de fichiers

On veut créer une fonction en python pour récupérer la liste de tous les fichiers d'un type spécifique dans un répertoie


In [None]:
# indice, on peut utliser ce code qui renvoie tous les fichier d'un répertoire :
import os
fichiers = os.listdir("./data")
print(fichiers)

In [None]:
def recup_fichiers(_____):
    # 1. on récupère la liste des fichiers
    ______
    # 2. on sélectionne uniquement les fichiers avec l'extension (on peut faire une boucle et une condition)
    ______
    return ______

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert "Advertising.csv" in recup_fichiers("./data", ".csv")
print("Bravo !")

# Les packages et les modules en Python

- Il s’agit d’un ensemble de fonctions qui pourront être appelées d’un autre programme

- On utilise :
```
import nom_pkg
```
- Si on utilise `as nm` par exemple, ceci permet de raccourcir l'appel aux fonctions du package
- On peut utiliser `from mon_pkg import *`, dans ce cas plus de préfixes mais attention aux conflits
- On peut aussi utiliser des fonctions ou des classes spécifiques (plus besoin de préfixe)
```
from pandas import Series
```

*Si on cherche des informations sur un module, on peut utiliser `dir()` et `help()`*

# La gestion des exceptions

- Python possède un système pour gérer les exceptions
- On utilise `try:` et `except:`
- On peut intercepter différents types d’erreurs
    - `NameError`, `TypeError`, `ZeroDivisionError`
- Si on ne veut rien faire dans l’exception on peut utiliser le mot clé `pass`



In [None]:
def ma_fonction(val):
    try:
        print(val**2)
    except TypeError:
        print("Erreur mauvais type de données")

**Exercices :**
    
Créer une gestion d’exception pour une fonction prenant en entrée deux valeurs puis divisez-les, utiliser les différentes erreurs d’exceptions

https://docs.python.org/3/library/exceptions.html