# Notions avancées en Python

On aimerait améliorer notre chargement de données pour analyser uniquemement un pays

Pour cela on va voir quelques notions qu'on a pas encore vu :

- compréhension de liste
- gestion des exceptions
- création de class
- construction d'un module

Et si on a le temps les commandes magiques.

Notre point de départ : un script comme celui de la semaine dernière bricolé

Notre point d'arrivé : cacher un peu tout ça

## 0. Chargement des données & recodage

In [1]:
import pandas as pd

pd.options.mode.chained_assignment = None  # default='warn'
import pyshs
import matplotlib.pyplot as plt
import pyreadstat


def question(v, meta):
    return meta.column_names_to_labels[v]


def modalites(v, meta):
    return meta.value_labels[meta.variable_to_label[v]]


df, meta = pyreadstat.read_sav("./wgm-full-wave2-public-file.sav")

# Sélection de la suisse
data = df[df["COUNTRYNEW"] == "Switzerland"]

data["poids"] = data["WGT"]
data["pays"] = data["COUNTRYNEW"]
data["age"] = data["Age"].fillna("NA")
data["age_reco"] = pd.cut(
    data["Age"],
    [0, 35, 45, 55, 65, 100],
    labels=["1-[15-35[", "2-[35-45[", "3-[45-55[", "4-[55-65[", "5-[65-75]"],
)
data["genre"] = data["Gender"].replace({1.0: "1-Male", 2.0: "2-Female"})
data["education"] = data["Education"].replace(modalites("Education", meta))
data["revenus"] = data["Household_Income"].replace(
    {1.0: "Q1", 2.0: "Q2", 3: "Q3", 4: "Q4", 5: "Q5"}
)


reco = {
    1: "1-A lot",
    2: "2-Some",
    3: "3-Not much/at all",
    4: "3-Not much/at all",
    99: "4-NA",
}
data["connaissance_science"] = data["W1"].replace(reco)
data["comprendre_science"] = data["W2"].replace(reco)
data["education_science"] = data["W3"].replace(modalites("W3", meta))
data["confiance_hopital"] = data["W4"].replace(reco)
data["confiance_science"] = data["W6"].replace(reco)

### Est-ce qu'un pays est dans la liste ?

Notion de list comprehension

In [2]:
pays = df["COUNTRYNEW"].unique()

In [3]:
pays

array(['United States', 'Egypt', 'Morocco', 'Lebanon', 'Saudi Arabia',
       'Jordan', 'Turkey', 'Indonesia', 'Bangladesh', 'United Kingdom',
       'France', 'Germany', 'Netherlands', 'Belgium', 'Spain', 'Italy',
       'Poland', 'Hungary', 'Czech Republic', 'Romania', 'Sweden',
       'Greece', 'Denmark', 'Iran', 'Hong Kong', 'Japan', 'China',
       'India', 'Venezuela', 'Brazil', 'Mexico', 'Nigeria', 'Kenya',
       'Tanzania', 'Israel', 'Ghana', 'Uganda', 'Benin', 'South Africa',
       'Canada', 'Australia', 'Philippines', 'Sri Lanka', 'Vietnam',
       'Thailand', 'Cambodia', 'Laos', 'Myanmar', 'New Zealand',
       'Ethiopia', 'Mali', 'Senegal', 'Zambia', 'South Korea', 'Taiwan',
       'Georgia', 'Kazakhstan', 'Kyrgyzstan', 'Moldova', 'Russia',
       'Ukraine', 'Burkina Faso', 'Cameroon', 'Zimbabwe', 'Costa Rica',
       'Albania', 'Algeria', 'Argentina', 'Austria', 'Bahrain', 'Bolivia',
       'Bosnia Herzegovina', 'Bulgaria', 'Chile', 'Colombia',
       'Congo Brazzaville'

Une boucle très courante:

In [4]:
ma_nouvelle_liste = []

for p in pays:
    if "united" in p.lower(): 
        ma_nouvelle_liste.append(p)

ma_nouvelle_liste

['United States', 'United Kingdom', 'United Arab Emirates']

1. on boucle sur tous les éléments.
2. optionel: on ignore certains éléments. (aka "filter")
3. transformations (aka "map"):

   - optionel: on transforme les éléments qui restent (aka "map")
   - les opérations sur chaque élement sont indépendantes

Pour parcourir une liste et filtrer par exemple que les pays qui ont dans le nom "United" on peut faire une boule mais on peut aussi utiliser la list comprehension

In [5]:
[p for p in pays]

['United States',
 'Egypt',
 'Morocco',
 'Lebanon',
 'Saudi Arabia',
 'Jordan',
 'Turkey',
 'Indonesia',
 'Bangladesh',
 'United Kingdom',
 'France',
 'Germany',
 'Netherlands',
 'Belgium',
 'Spain',
 'Italy',
 'Poland',
 'Hungary',
 'Czech Republic',
 'Romania',
 'Sweden',
 'Greece',
 'Denmark',
 'Iran',
 'Hong Kong',
 'Japan',
 'China',
 'India',
 'Venezuela',
 'Brazil',
 'Mexico',
 'Nigeria',
 'Kenya',
 'Tanzania',
 'Israel',
 'Ghana',
 'Uganda',
 'Benin',
 'South Africa',
 'Canada',
 'Australia',
 'Philippines',
 'Sri Lanka',
 'Vietnam',
 'Thailand',
 'Cambodia',
 'Laos',
 'Myanmar',
 'New Zealand',
 'Ethiopia',
 'Mali',
 'Senegal',
 'Zambia',
 'South Korea',
 'Taiwan',
 'Georgia',
 'Kazakhstan',
 'Kyrgyzstan',
 'Moldova',
 'Russia',
 'Ukraine',
 'Burkina Faso',
 'Cameroon',
 'Zimbabwe',
 'Costa Rica',
 'Albania',
 'Algeria',
 'Argentina',
 'Austria',
 'Bahrain',
 'Bolivia',
 'Bosnia Herzegovina',
 'Bulgaria',
 'Chile',
 'Colombia',
 'Congo Brazzaville',
 'Croatia',
 'Cyprus',
 'Do

In [6]:
[p for p in pays if "united" in p.lower()]

['United States', 'United Kingdom', 'United Arab Emirates']

In [7]:
[len(p) for p in pays]

[13,
 5,
 7,
 7,
 12,
 6,
 6,
 9,
 10,
 14,
 6,
 7,
 11,
 7,
 5,
 5,
 6,
 7,
 14,
 7,
 6,
 6,
 7,
 4,
 9,
 5,
 5,
 5,
 9,
 6,
 6,
 7,
 5,
 8,
 6,
 5,
 6,
 5,
 12,
 6,
 9,
 11,
 9,
 7,
 8,
 8,
 4,
 7,
 11,
 8,
 4,
 7,
 6,
 11,
 6,
 7,
 10,
 10,
 7,
 6,
 7,
 12,
 8,
 8,
 10,
 7,
 7,
 9,
 7,
 7,
 7,
 18,
 8,
 5,
 8,
 17,
 7,
 6,
 18,
 7,
 11,
 7,
 7,
 5,
 6,
 4,
 7,
 11,
 6,
 9,
 15,
 8,
 5,
 9,
 8,
 10,
 7,
 5,
 9,
 6,
 8,
 4,
 8,
 6,
 8,
 8,
 11,
 10,
 7,
 20,
 7,
 10,
 6]

In [8]:
[len(p) for p in pays if "united" in p.lower()]


[13, 14, 20]

### dict comprehension

In [9]:
#dictionary
{'United States':13, 'United Kingdom':14}

{'United States': 13, 'United Kingdom': 14}

In [10]:
{p:len(p) for p in pays if ' ' in p}

{'United States': 13,
 'Saudi Arabia': 12,
 'United Kingdom': 14,
 'Czech Republic': 14,
 'Hong Kong': 9,
 'South Africa': 12,
 'Sri Lanka': 9,
 'New Zealand': 11,
 'South Korea': 11,
 'Burkina Faso': 12,
 'Costa Rica': 10,
 'Bosnia Herzegovina': 18,
 'Congo Brazzaville': 17,
 'Dominican Republic': 18,
 'El Salvador': 11,
 'Ivory Coast': 11,
 'North Macedonia': 15,
 'United Arab Emirates': 20}

### Gestion des erreurs

SI maintenant on voulait faire un petit script qui prend en entrée le nom d'un pays et renvoie la statistique associée

In [11]:
p = input("Nom du pays :")
print(data[data["COUNTRYNEW"] == p]["confiance_science"].value_counts()).loc["1-A lot"]

Nom du pays :narnia
Series([], Name: confiance_science, dtype: int64)


AttributeError: 'NoneType' object has no attribute 'loc'

Il peut y avoir des erreurs dans un programme, comment les gérer ?

- Les erreurs ont un type
- il est possible de les "attraper"

In [12]:
p = input("Nom du pays :")
try:
    print(data[data["COUNTRYNEW"] == p]["confiance_science"].value_counts()).loc[
        "1-A lot"
    ]
except AttributeError:
    print("Un souci dans le code: un attribut n'existe pas")

Nom du pays :
Series([], Name: confiance_science, dtype: int64)
Un souci dans le code: un attribut n'existe pas


## Zoology

Différents types d'erreur:

```python
>>> object.existe_pas  # AttributeError
```

- Soit `object` n'est pas ce que vous pensez, 
- Faute de frappe sur `existe_pas`
- `hasattr(object, 'existe_pas')`


```python
>>> import math
... math.sqrt('bonjour') # TypeError
```    

```
with open('./existe_pas') as f:
    ...
```

`FileNotFoundError` - le fichier n'existe pas.


```python
d = {'UK':2}
d['Uk'] # KeyError
```

```python
>>> d.get('Uk', None)
```
or 
```python
if "Uk" in d
```

### Améliorer notre code : créer nos objets

Dans le cas précédent on charge un fichier SPSS, on manipule les données et les métadonnées, et souvent on ne s'intéresse qu'à un pays. Est-ce qu'on pourrait faire directement un objet qui fait tout ça ?

In [14]:
class StatsPays:
    def __init__(self, filename, name):
        df, meta = pyreadstat.read_sav(filename)
        self.data = df[df["COUNTRYNEW"] == name]
        self.meta = meta

Par _convention_, les class sont en `CamelCase`. On parse de la `class`, ou du `type` d'un object.

les `methodes`, sont des fonctions dont la définition est indentée de 4 espace, et qui prennent en premier argument l'`instance` courante (l'objet spécifique en cours d'existence). Qui est appelée self.

Les méthodes qui commencent et finissent par `__`, sont spéciales. En particulier `__init__` qui est appelée quand vous créez un object (dit autrement : quand une instance de la classe est créé, elle appelle d'abord `__init__`).


On peut rajouter des méthodes à notre objet, par ex nos deux fonctions

In [38]:
"""
This will become a module.

For now it is in a notebook, but we'll put it in 
a .py file, and import it.

"""

import pyreadstat

class StatsPays:
    def __init__(self, filename, name):
        """
        Parameters
        ----------
        filename : str
            the file we load data from
        name: str
            the country of interest.
        
        """
        df, meta = pyreadstat.read_sav(filename)
        self.data = df[df["COUNTRYNEW"] == name]
        self.meta = meta

    def question(self, v):
        return self.meta.column_names_to_labels[v]

    def modalites(self, v):
        return self.meta.value_labels[meta.variable_to_label[v]]

In [14]:
suisse = StatsPays('wgm-full-wave2-public-file.sav', "Switzerland")

In [15]:
type(suisse)

__main__.StatsPays

In [16]:
isinstance(suisse, StatsPays)

True

In [17]:
isinstance(suisse, int)

False

In [18]:
suisse.question("W2")

'How Much You Understand the Meaning of Science and Scientists'

On peut intégrer tous les recodages dans notre objet

### Création d'un module

tout le code qu'on a là, on le réutilise de fichier en fichier

On peut le mettre dans un fichier .py et le charger, qui rend disponible notre objet

Dans le dossier courant, créer un ficher ``mon_module.py``.

In [40]:
from mon_module import StatsPays

In [41]:
StatsPays

mon_module.StatsPays

changement de `mon_module` necessite un redémarage du kernel.

In [45]:
!tree ~/dev/pyshs-bib/

[01;34m/Users/bussonniermatthias/dev/pyshs-bib/[00m
├── Exemple\ PySHS.ipynb
├── LICENSE
├── README.md
├── pyproject.toml
└── pyshs.py

0 directories, 5 files


### Syntaxe: les décorateurs

Les décorateur sont des utilitaires qui permettent de "modifier" des fonctions. Leur syntaxe est:

(en fait, la fonction est appelée dans une autre fonction)

In [5]:
from dec import time_me

@time_me
def compute(q):
    suisse = StatsPays('wgm-full-wave2-public-file.sav',"Switzerland")
    return suisse.question(q)

compute('W2')


compute called on 2022-05-08T15:07:11.946755
compute done on 2022-05-08T15:07:12.631600 after 0:00:00.684845


## Les formules magiques

Un mot sur les magics : https://ipython.readthedocs.io/en/stable/interactive/magics.html

Cas de %time et %timeit pour le temps d'exécution

### Syntax, \*args, \*\*kwargs

Question: comment implemeter max ?

```python
>>> max(66, 48, 86, 95, 49)
95

>>> max(90, 40, 93, 88, 90,  9, 72, 35,  4, 87)
90
```


Vous ne savez pas combien de paramètres `max()` prends:

```python
def max(a, b, c, d, e, f, g, h, i, j, k, l, m ...):
    ...

```

solution 1:
 - max prends un liste:
 
```python
def max(ma_liste):
    ...
    
max([66, 48, 86, 95, 49])
```




In [34]:
def my_max(*args):
    print(args, isinstance(args, tuple))


In [35]:
my_max(1,2,3,4,5)

(1, 2, 3, 4, 5) True


In [37]:
first, *middle,penultimate, last = [1,2,3,4,5,6]
print(first)
print(middle)
print(penultimate)
print(last)

1
[2, 3, 4]
5
6
