# TP noté - À envoyer par mail à luc.lesoil@irisa.fr avant le 15 février 2021

Pensez à renommer votre fichier NOM_PRÉNOM.ipynb (ou autre extension) pour éviter de vous retrouver avec la note d'un autre!

Quelques conseils:
- Les réponses demandent toujours au moins une ligne de code
- Commentez les parties complexes et discutez vos résultats
- Avant d'envoyer votre travail, pensez à redémarrer le noyau puis exécuter toutes les cellules pour éviter des étourderies de dernière minute
- Pour les figures, pensez à mettre un titre et à nommer les axes
- Le travail est personnel, sauf si vous m'avez explicitement envoyé un travail en binôme par mail. Je serai plus exigeant avec les travaux de binôme
- Ne restez pas bloqués sur un exercice si vous n'y arrivez pas, passez aux autres!
- Si vous modifiez le jeu de données 'retraite.csv', joignez-le au mail.

Bon courage!

### Importez toutes les libraries du notebook dans la prochaine cellule

Si vous avez importé une librairie un peu particulière, merci de m'indiquer comment l'installer!

In [9]:
import numpy as np

# Exercice 1 - Déchiffrement de PlayFair

Le message *break_me* a été chiffré à l'aide du chiffrement de PlayFair (voir https://fr.wikipedia.org/wiki/Chiffre_de_Playfair ).

L'objectif de l'exercice est de le déchiffrer à l'aide de la clef *playFair*.

Pour commencer, voici une explication imagée du déchiffrage :

https://www.youtube.com/watch?v=JMkGYoT3-Rw#t=3m45s -> 5m20s.

In [2]:
# le message à casser
break_me = "gk gvmxh hmx fbsv aixagk"

# la clef associée au chiffrement
playFair = np.array([['f','a','i','r','p'],
                     ['l','y','o','g','b'],
                     ['n','c','x','q','t'],
                     ['k','d','j','e','h'],
                     ['w','u','s','v','m']])        

Je vous propose de suivre les différentes questions pour résoudre l'exercice, mais vous êtes libres de faire vos propres choix d'implémentation si vous êtes à l'aise.

### 1) Introduction 

#### 1) a-] Définissez une fonction *cut_couple*  qui prend une chaine de caractère *msg* en entrée, le découpe en couple de lettres, puis renvoie une liste contenant des couples de lettres. 

On supprimera les espaces pour simplifier le problème. Si le nombre de lettres de la chaine de caractère est impair, on rajoutera le caractère x en bout de chaine.

> **Exemple** : `cut_couple("coupez moi")` renverra `['co', 'up', 'ez', 'mo', 'ix']`

In [48]:
def cut_couple(string):
    
    if type(string) is not str:
        print("Error : introduisez un string en parametre s'il vous plait")
        return
    
    ls = string.split()
    localString = ''.join(ls)
    
    ls = localString.split(',')
    localString = ''.join(ls)
    
    ls = localString.split('.')
    localString = ''.join(ls)
    
    ls = localString.split('-')
    localString = ''.join(ls)
    
    ls = localString.split('_')
    localString = ''.join(ls)
    
    ls = localString.split('*')
    localString = ''.join(ls)
    
    ls = localString.split('/n')
    localString = ''.join(ls)
    
    strLength = len(localString)
    listS = []
    i = 0
    
    # cas string pair
    if strLength % 2 == 0:
        while i < strLength:
            listS.append(localString[i:i+2])
            i = i + 2
        return listS
    
    # cas string impair
    while i < strLength-1:
        listS.append(localString[i:i+2])
        i = i + 2
        
    listS.append(localString[strLength-1]+'x')
    
    return listS
    

        
        


['ee', 'rr', 'ff', 'Dx']

In [49]:
cut_couple("coupez moi")

['co', 'up', 'ez', 'mo', 'ix']

#### 1) b-] Créez un dictionnaire *positions* contenant la position (index_ligne, index_colonne) de chaque lettre présente dans playFair.

> **Exemple** : la lettre 'i' a pour coordonnées ($x_{i}$,$y_{i}$) = (0,2)

In [71]:
positions = dict(
f = (0,0),
a = (0, 1),
i = (0, 2),
r = (0, 3),
p = (0, 4),
l = (1, 0),
y = (1, 1),
o = (1, 2),
g = (1, 3),
b = (1, 4),
n = (2, 0),
c = (2, 1),
x = (2, 2),
q = (2, 3),
t = (2, 4),
k = (3, 0),
d = (3, 1),
j = (3, 2),
e = (3, 3),
h = (3, 4),
w = (4, 0),
u = (4, 1),
s = (4, 2),
v = (4, 3),
m = (4, 4)    
)


In [72]:
positions

{'f': (0, 0),
 'a': (0, 1),
 'i': (0, 2),
 'r': (0, 3),
 'p': (0, 4),
 'l': (1, 0),
 'y': (1, 1),
 'o': (1, 2),
 'g': (1, 3),
 'b': (1, 4),
 'n': (2, 0),
 'c': (2, 1),
 'x': (2, 2),
 'q': (2, 3),
 't': (2, 4),
 'k': (3, 0),
 'd': (3, 1),
 'j': (3, 2),
 'e': (3, 3),
 'h': (3, 4),
 'w': (4, 0),
 'u': (4, 1),
 's': (4, 2),
 'v': (4, 3),
 'm': (4, 4)}

#### 1) c-] Définissez une fonction *concat_couple*  qui prend une liste de chaines de caractère *list_couple* en entrée, et renvoie une chaine de caractère. 

In [69]:
def concat_couple(strList):
    
    strResult = ''.join(strList)
    return strResult
    
concat_couple(['hel','lo',' ','py', 'th','on'])   

'hello python'

### 2) Travaillez la clef playFair

Différents cas :

#### 2) a-] "Si les deux lettres du couple sont situées sur la même ligne, alors on renvoie les deux lettres situées à gauche." Définissez une fonction *simple_case* qui prend un tableau *tab* et une chaine de caractères contenant un couple de lettre *couple*. La fonction renverra une chaine de caractère contenant le couple de lettres décodé.

> **Exemple** : Le tableau `['f','a','i','r','p']` et le couple de lettres `'pa'` sont donnés en entrée à la fonction *simple_case*. Comme `'r'` est à gauche de `'p'` dans le tableau, on remplace `'p'` par la lettre `'r'`. De même, la lettre `'a'` est remplacée par `'f'`.  Donc, `simple_case(['f','a','i','r','p'], 'pa')` renverra `'rf'`. 

> **Aide** : La première lettre du tableau (ici `'f'`) sera remplacée par la dernière du tableau (ici `'p'`). Donc `simple_case(['f','a','i','r','p'], 'fr')` renverra `'pi'`. 



In [15]:
def simple_case(tab,string):
    stringResult = ''
    tabE = tab
    
    if type(tab) is not list or type(string) is not str:
        print("Error : must use valid data")
        return
    
    if len(tab) != 5:
        print("Error : list length must be equal to 5")
        return
    
    if len(string) != 2:
        print("Error : string length must be equal to 2")
        return
    
    i = 0
    while i < 2:
        
        if tab.index(string[i]) == 0:
            stringResult = stringResult + tab[len(tab)-1]
        else:
            stringResult = stringResult + tab[tab.index(string[i])-1]
        
        i = i + 1
    
    return stringResult
    

In [16]:
simple_case(['f','a','i','r','p'], 'pa')

'rf'

In [17]:
simple_case(['f','a','i','r','p'], 'fr')

'pi'

Dans le cas où les deux lettres ne sont pas sur les mêmes lignes/colonnes, on renvoie les deux lettres situées dans les coins opposés du rectangle formé par les lettres initiales.

#### 2) b-] Définissez une fonction get_opposite_couple(couple) qui prend une chaine de caractère contenant un couple de lettres en entrée, et renvoie les lettres situées dans les coins opposés.

In [10]:
playFair = np.array([['f','a','i','r','p'],
                     ['l','y','o','g','b'],
                     ['n','c','x','q','t'],
                     ['k','d','j','e','h'],
                     ['w','u','s','v','m']])

> **Exemple** : Si le couple `'fy'` est donné en entrée, on isole le carré délimité par les lettres `'f'` et `'y'`, contenant les lettres `'f'` et `'a'` en première ligne, puis `'l'` et `'y'` en seconde ligne. Le premier coin opposé à `'f'` en première ligne est délimité par `'a'`, on remplace `'f'` par `'a'`. Le second coin est délimité par `'l'`, on remplace `'y'` par `'l'`. Donc, `get_opposite_couple('fy')` renverra `'al'`. De même, `get_opposite_couple('fq')` renverra `'rn'`.

> **Aide** :  On pourra s'aider du dictionnaire *positions* créé en 1) b-]. Par exemple, en notant ($x_{f}$, $y_{f}$) les positions de `'f'` dans le tableau playFair et ($x_{q}$, $y_{q}$) celles de `'q'`, on souhaite juste renvoyer le couple de lettres aux indexes ($x_{f}$, $y_{q}$) = ($x_{r}$, $y_{r}$) et ($x_{q}$, $y_{f}$) =  ($x_{n}$, $y_{n}$).

In [12]:
get_opposite_couple('fy')

'al'

In [13]:
get_opposite_couple('fq')

'rn'

### 3) Déchiffrer break_me

On pourra définir une fonction prenant un message :
- Pour chaque couple de lettres isolées en 1), déterminer si ces lettres sont sur la même ligne/colonne
- Si oui, appliquer 2)a-] sur la bonne ligne/colonne
- Sinon, appliquer 2)b-]
- Stocker les résultats, recomposer la chaine de caractère, et la retourner.

Affichez *break_me* déchiffrée! Quelle phrase était codée à l'origine?

> **Bonus** : Gardez en mémoire les espaces! Adaptez les questions 1)a-] et 1)c-] pour reconstituer le message original.

# Exercice 2

♩ Toss a coin to your teacher ♩

### 1) Définissez une classe CoinToss qui lance virtuellement une pièce.

La classe CoinToss aura au minimum:
- un argument *coinValue*. Il sera initialisé à 'Pile' ou 'Face' avec une probabilité $\frac{1}{2}$ si le constructeur ne donne pas de valeur par défaut à coinValue. Si la valeur est renseignée dans le constructeur, elle sera affectée à *coinValue*.
- un getter et un setter associés à *coinValue*.
- une méthode *toss*, qui réinitialisera la valeur de *coinValue*.

### 2) Définissez une classe FakeCoinToss, qui lancera virtuellement une pièce non équilibrée.

La classe FakeCoinToss héritera de CoinToss.

On surchargera la méthode *toss* pour qu'elle réinitialise la pièce 7 fois sur 10 à 'Pile', et trois fois sur 10 à 'Face'.

### 3) Lancez 100 fois une pièce avec CoinToss, définie à la question 1, et 100 fois avec FakeCoinToss, définie à la question 2.

Vérifiez que vous obtenez bien un nombre de 'Pile' et de 'Face' cohérent avec les consignes.

# Problème

Vous aurez besoin du dataset 'retraite.csv'. Ce jeu de données est généré à la main. Il contient de (fausses) données sur le parcours professionel de plusieurs (fausses) personnes.

Description des variables:
- **prenom** contient le prénom de la personne considérée (un prénom est associé à une personne)
- **revenus_bruts** contient les revenus bruts des personnes
- **mois** contient le mois associé à ces revenus
- **annee** contient l'année associée à ces revenus
- **cotisation** contient vrai si la personne cotise pour sa retraite à ce moment-là

### 1) Importez le jeu de données, puis affichez les cinq premières lignes

### 2) Description des données

#### 2) a-]  Quel est le type de la variable cotisation? Affichez le en console

#### 2) b-]  Affichez les dimensions du dataframe

#### 2) c-]  Combien de prénoms différents contient le dataset?

### 3) Extraction des données et statistiques descriptives

#### 3) a-]  Quelle période couvre le dataset?

#### 3) b-]  Quelle est la moyenne des revenus bruts?

#### 3) c-]  Quels ont été les revenus bruts de Patrick en janvier 1979?

#### 3) d-]  Quel montant brut a touché Catherine sur toute l'année 1983?

### 4) Transformation des données

#### 4) a-] Créez un dataset contenant les revenus bruts annuels moyens de Patrick. 

#### 4) b-] Créez une variable revenus_nets à l'aide de la variable revenus_bruts. 

Pour grossièrement passer d'un salaire brut à un salaire net, il faut retrancher 23% du salaire brut pour un employé du privé et 15% pour un employé de la fonction publique.

Patrick est employé de la fonction publique, les autres sont employés dans le privé.

### 5) Visualisation graphique

#### 5) a-] Affichez un boxplot comparant les distributions de salaires nets des différentes personnes du dataset. 

#### 5) b-] Comparez les variations de salaires (écart-type) par personne. Quelle personne a les revenus les plus fluctuants d'après le graphique? Quelle personne a les revenus les plus fluctuants en écart-type? Comment expliquez-vous cette différence?

### 6) Méthodes statistiques


Pour cette question, utilisez les données de la question 4a!

#### 6) a-] Modéliser l'évolution du salaire de Patrick au cours du temps à l'aide d'une régression. 

#### 6) b-] Pouvez-vous prédire ce que gagnera Patrick (en brut) s'il est toujours dans la fonction publique dans 10 ans? 

#### 6) c-] Quelle est la valeur de son augmentation annuelle? 

#### 6) d-] Affichez le R² associé à la régression; le modèle vous parait-il correct? Affichez la droite de régression pour vérifier!

Commentez ces résultats.