# Les bases en Python pour automatiser Excel


Cours de programmation en Python pour le master ___ a GEM. 

Annee scolaire: Semestre 2, 2023/2024 

Intervenant: Arthur Sarazin 

Date: 19/03/2024

## Format VS. Type de données

Quand Excel nous demande de spécifier le **format** d'une cellule 👇


Python nous permet d'assigner des **types** à nos données. Les types les plus courants sont :

- **Entiers (int)** : Les entiers sont des nombres entiers sans décimales. Par exemple : `5`, `10`, `-3`.
```python
3
```

- **Nombres à virgule flottante (float)** : Les nombres à virgule flottante représentent des nombres décimaux. Par exemple : `3.14`, `2.71828`, `-0.5`.
```python
12.1
```

- **Chaînes de caractères (str)** : Les chaînes de caractères sont utilisées pour représenter du texte. Elles peuvent être entourées de guillemets simples `'` ou doubles `"`. Par exemple : `'Bonjour'`, `"Python est génial"`.
```python
'mots'
```

- **Booléens (bool)** : Les booléens représentent les valeurs de vérité `True` (vrai) ou `False` (faux). Ils sont souvent utilisés pour des opérations de contrôle de flux comme les conditions. Par exemple : `True`, `False`.
```python
True
False
```

- **Listes (list)** : Les listes sont des collections ordonnées d'éléments, qui peuvent être de différents types. Elles sont définies entre crochets `[]` et les éléments sont séparés par des virgules. Par exemple : `[1, 2, 3]`, `['a', 'b', 'c']`.
```python
[3, 2, 1]
```

- **Tuples (tuple)** : Les tuples sont similaires aux listes, mais ils sont immuables, ce qui signifie qu'ils ne peuvent pas être modifiés une fois créés. Ils sont définis entre parenthèses `()` et les éléments sont séparés par des virgules. Par exemple : `(1, 2, 3)`, `('a', 'b', 'c')`.
```python
(1, 2)
```

- **Ensembles (set)** : Les ensembles sont des collections non ordonnées d'éléments uniques. Ils sont définis entre accolades `{}` et les éléments sont séparés par des virgules. Par exemple : `{1, 2, 3}`, `{'a', 'b', 'c'}`.
```python
{2, 4, 1}
```

- **Dictionnaires (dict)** : Les dictionnaires sont des collections d'éléments associatifs, où chaque élément est une paire clé-valeur. Ils sont définis entre accolades `{}`, avec chaque paire clé-valeur séparée par deux points `:` et les paires séparées par des virgules. Par exemple : `{'nom': 'Jean', 'âge': 30, 'ville': 'Paris'}`.
```python
{'ville':'Paris', 'Population':12}
```


## Tableur VS. Structures de données

Quand Excel nous fait interagir avec des **tableurs** 👇

<img src="media/tableurs.png" width="500"/>

Python nous fait plutôt manipuler des **structures de données** 👇 

In [4]:
# des listes
l = list([1001,"Mark",55,"Italy", 4.5, "Europe"])
print(l)

[1001, 'Mark', 55, 'Italy', 4.5, 'Europe']


In [14]:
# des tuples
t = (1001,"Mark",55,"Italy", 4.5, "Europe")
print(t)

(1001, 'Mark', 55, 'Italy', 4.5, 'Europe')


In [10]:
# des dictionnaires
d = {1001:{'name':'Mark', 'age':55,'country':'Italy','score':'4.5', 'continent':'Europe'}}
print(d)

{1001: {'name': 'Mark', 'age': 55, 'country': 'Italy', 'score': '4.5', 'continent': 'Europe'}}


In [1]:
# des sets
s = set(["Europe", "America","America", "Europe"])
print(s)

{'America', 'Europe'}


*Exercice 1* 
--
Creer un dictionnaire qui comprend le nom d'une ville, sa population et sa superficie. 

In [8]:
# SOLUTION 
dict_ville = {'Grenoble':{'Population': 160000, 'Superficie':12000}}
dict_ville['Grenoble']

{'Population': 160000, 'Superficie': 12000}

*Exercice 2*
--
Creer un dictionnaire qui comprend deux pays et une ville par pays (un niveau suplementaire), de telle maniere qu'en selectionnant un pays, on obtient un dictionnaire des villes du pays. 

In [7]:
# SOLUTION
dict_pays = {'FR': {'Grenoble':{'Population': 160000, 'Superficie':12000},
                    'Voiron':{'Population': 20000, 'Superficie':1000}},
             'NL':{'La Haye':{'Population': 180000, 'Superficie':18000}}
            }

print(dict_pays['FR'])
print(dict_pays['FR']['Grenoble'])

{'Grenoble': {'Population': 160000, 'Superficie': 12000}, 'Voiron': {'Population': 20000, 'Superficie': 1000}}
{'Population': 160000, 'Superficie': 12000}


# Lignes/colonnes VS. Index

Quand Excel nous fait interagir avec **des lignes et des colonnes** 👇

<img src="media/lignes_colonnes.png" width="500"/>

Python nous fait manipuler des éléments présents au sein des structures de données et identifiables grâce à leur **index** 👇

<img src="media/index.png" width="500"/>

In [19]:
print(l[0])

1001


In [21]:
print(t[1])

Mark


In [23]:
print(d[1001])

{'name': 'Mark', 'age': 55, 'country': 'Italy', 'score': '4.5', 'continent': 'Europe'}


# Ajouter/Supprimer VS. Slicing

Quand Excel nous amène à **ajouter/supprimer** des lignes et colonnes pour sélectionner un sous-ensemble de données 👇

<img src="media/ajout:suppression.png" width="500"/>

Python nous permet de **découper** (_slice_) des sous-ensembles de données en utilisant l'index 👇

In [29]:
print(l[0:3])

[1001, 'Mark', 55]


In [30]:
print(t[1:4])

('Mark', 55, 'Italy')


*Exercice 3* 
-- 

En prenant la liste suivante, selectioner la deuxieme et troisieme valeurs: l1 = [12, 23, 12, 56, 23] 

In [10]:
#SOLUTION 
l1 = [12, 23, 12, 56, 23]
print(l1[1:3])

[23, 12]


*Exercice 4* 
-- 

Creer une nouvelle liste contenant 1, 2 et 7 et ajoutez le resultat de l'exercice 3 a la fin de cette liste. 

In [13]:
# WRONG SOLUTION 
l2 = [1,2,7] 
l2.append(l1[1:3])
print(l2)

# SOLUTION 
l2 = [1,2,7] 
l2.append(l1[1])
l2.append(l1[2])
print(l2)

[1, 2, 7, [23, 12]]
[1, 2, 7, 23, 12]


<img src="media/format.png" width="500"/>

## Verifier le type d'une donnee

In [5]:
print(type(l[0]))

NameError: name 'l' is not defined

In [36]:
print(type(l[1]))

<class 'str'>


In [34]:
print(type(l[0:1]))

<class 'list'>


## Ajouter des conditions

Nous pouvons ajouter des conditions pour gerer plusieurs cas de figure. 

Les types d'operateurs sont: 

```python 
x == y # x est egal a y 
x != y # x est different de y
x > y # x est superieur a y 
x >= y # x est superieur ou egal a y 
x in y # Si y est une liste, tuple ou ensemble, alors x est contenu dans y
x not in y # idem mais non contenu 
```


Nous pouvons aussi combiner des conditions: 

```python
x == y and z > k 
x == y or z > k 
```

In [14]:
x = 1
y = 2 

if x == y:
    print('Ils sont identiques!')
else:
    print('Ils sont differents!')

Ils sont differents!


In [16]:
z = 5
if x != y and x < z:
    print('Bravo!')
else: 
    print('Dommage!')

Bravo!


*Exercice 5*
--

Creer deux variables: 
    - x qui est un entier 
    - l3 qui est une liste de 3 entiers 

Creer une condition qui verifie si x fait parti de la liste. Si oui, imprimer: "X est compris dans L", si non imprimer: "X n'est pas compris dans L"

In [19]:
# SOLUTION 
x = 6
l3 = [2 , 3, 5]

if x in l3: 
    print('X est compris dans L')
else: 
    print('X n\'est pas compris dans L')

X n'est pas compris dans L


## La magie des boucles 

Les boucles sont fondamentales pour automatiser des processus. 

Iterer sur une liste des valeurs: 

```python
for name in ['Mathis', 'Geoffrey', 'Dylan']:
    # do something 


for number in [1,2,3,4,5]: 
    # do something 

for number in range(1, 100, 1):
    # number was iterer de 1 jusqu'a 99, et avance de 1 a chaque iteration 
```


Iterer jusqu'a ce qu'une valeur soit atteinte: 
```python
while error > 10: 
    # do something
```

Attention: Haut-risque de faire une boucle infinie! 



*Exercice 6*
--

Creer une boucle 'for' qui itere sur une liste de prenoms et qui regarde si le nom est 'Arthur'. Si le nom est 'Arthur', arreter la boucle et imprimer "reussit!". Si le nom n'est pas Arthur, imprimer "La recherche continue..."

In [29]:
#SOLUTION
prenoms = ['Mathis', 'Daniel', 'Arthur', 'Ben']
for prenom in prenoms:
    if prenom == 'Arthur':
        print('Reussit!')
        break 
    else: 
        print('La recherche continue...')

La recherche continue...
La recherche continue...
Reussit!


## Combiner les listes et les boucles pour accelerer le programme! 

Nested loops: Boucles for ou while a l'interieur d'une liste

```python
[number**2 for number in range(10)] 

[word[0] for word in ['M. Mourey', 'A. Sarazin']
 ```

In [25]:
l4 = [i for i in range(10)] 
l4

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [26]:
l5 = [i**2 + 1 for i in l4]
l5

[1, 2, 5, 10, 17, 26, 37, 50, 65, 82]

## *Exercice 7*
--

Creer une liste qui reprend chaque item de la liste l4 et divise le montant par 2 et rajoute 10. Enfin, transforme le resultat en une variable de type str()

In [28]:
# SOLUTION 
l6 = [ str(i/2 + 10) for i in l4]
l6

['10.0',
 '10.5',
 '11.0',
 '11.5',
 '12.0',
 '12.5',
 '13.0',
 '13.5',
 '14.0',
 '14.5']

## Créer vos propres outils logiques via les fonctions 

Considérez les fonctions comme des mini outils logiques que vous allez pouvoir créer au sein de votre code Python et qui, une fois définis, pourront être appelés à n'importe quel moment. En définissant des fonctions, vous créez votre propre boite à outils. 

En Python, vous pouvez définir vos propres fonctions à l'aide du mot-clé **def**.

In [14]:
def nom_de_la_fonction(paramètres):
    # Bloc de code à exécuter
    # Peut contenir un ou plusieurs instructions
    return valeur_de_retour

Decryptons la syntaxe :

*   `def` : C'est le mot-clé utilisé pour définir une fonction.
*   `nom_de_la_fonction` : C'est le nom que vous donnez à votre fonction. Choisissez un nom descriptif qui indique ce que fait votre fonction.
*   `(paramètres)` : Ce sont les entrées de votre fonction, également appelées arguments. Vous pouvez spécifier zéro, un ou plusieurs paramètres, séparés par des virgules.
*   `:` : C'est un symbole de syntaxe qui marque le début du bloc de code de la fonction.
*   `# Bloc de code à exécuter` : C'est le corps de votre fonction. Il contient les instructions que votre fonction exécute lorsque vous l'appelez.
*   `return valeur_de_retour` : Cette instruction est utilisée pour renvoyer une valeur à partir de la fonction. Elle est facultative et peut être utilisée pour retourner un résultat de calcul ou un objet.

Et créons une fonction qui prend en input un nombre, et ressors ce nombre au carré 

In [16]:
def carre(x):
    return x ** 2

Maitenant, comment faire pour utiliser cette fonction ? 

Après avoir défini une fonction, vous pouvez l'appeler en utilisant son nom suivi des parenthèses contenant les valeurs des arguments que vous souhaitez passer à la fonction.

In [19]:
resultat = carre(5)
print(resultat)

25


## Utiliser de l'aide, c'est legal! 

Importer un package en Python est essentiel lors de la programmation car cela permet d'accéder à des fonctionnalités préexistantes et de les intégrer à son propre code. Les packages offrent une multitude de modules contenant des outils spécialisés dans divers domaines tels que la manipulation de données, la visualisation, le traitement du langage naturel, entre autres. En les important, les développeurs évitent de réinventer la roue et bénéficient de solutions déjà éprouvées, ce qui accélère le processus de développement et garantit la qualité du code. De plus, importer des packages favorise la modularité et la réutilisabilité du code, deux principes fondamentaux de la programmation efficace et maintenable.


Pour importer un package, on utilise la synthaxe suivante:
```python
import pandas as pd 
```

On utilise d'abord la fonction ```import``` suivie du nom du package, ici "pandas". Souvant, le nom du package est trop long a ecrire lorsque l'on appelle les fonctions, on lui attribue donc un surnom en utilisant la fonction ```as```. Ici, on appelera le package en notant ```pd``` dans le code.  

In [20]:
import pandas as pd 

In [21]:
# Utilise la fonction pour creer un DataFrame 
pd.DataFrame(index=[1,2,3], columns=['Valeur'], data=[12,23,32])

Unnamed: 0,Valeur
1,12
2,23
3,32


*Exercice 8*
-- 

Appeler le package numpy et lui attribuer le surnom 'np' 

In [22]:
#SOLUTION 
import numpy as np

# Mise en pratique 

Quand on commence à faire des tableaux de bord et calculs avec Excel, on se trouve nécessairement bloqué par une faute de frappe ou une cellule avec le mauvais format. On peut littéralement passer des heures à chercher cette erreur. 

Passer via Python peut permettre d'éviter cela, et donc de s'éviter des prises de tête. 

## Valider le type de données entrantes

Commençons par importer une librairie créée justement pour nous aider à vérifier que des données saisies sont bien au format souhaité : pyinputplus

In [2]:
import pyinputplus as pyip

Mettons que nous voulons créer un fichier Excel contenant des données utilisateurs d'un service avec : un **identifiant**, un **nom**, un **age**, un **pays**, un **score**, et un **continent**. Chaque point de donnée sera défini dans une variable.

In [None]:
user_id = pyip.inputInt(prompt='Enter an integer user ID: ')
name = pyip.inputStr(prompt='Enter a name: ')
age = pyip.inputInt(prompt='Enter an integer age: ')
country = pyip.inputStr(prompt='Enter a country: ')
score = pyip.inputFloat(prompt='Enter a float height: ')
continent = pyip.inputInt(prompt='Enter an integer continent code: ')

Créons une fonction _collect_data_ qui ressort sous forme d'une liste tous les points de données d'un seul utilisateur

In [7]:
def collect_data():
    user_id = pyip.inputInt(prompt='Enter an integer user ID: ')
    name = pyip.inputStr(prompt='Enter a name: ')
    age = pyip.inputInt(prompt='Enter an integer age: ')
    country = pyip.inputStr(prompt='Enter a country: ')
    score = pyip.inputFloat(prompt='Enter a float height: ')
    continent = pyip.inputInt(prompt='Enter an integer continent code: ')
    
    return [user_id, name, age, country, score, continent]

Testons la fonction.

In [None]:
collect_data()

Créons maintenant une structure de données (vide)

In [11]:
data = []

Déclarons le nombre d'éléments qui seront présents dans cette structure (i.e, le nombre d'utilisateurs)

In [None]:
num_users = pyip.inputInt(prompt="Nombre d'utilisateurs présents dans ton jeu de données: ", min=1)

Créons la logique (avec une boucle magique) permettant de saisir les données de chaque utilisateur

In [None]:
for i in range(num_users):
    print(f"Saisie des données de l'utilisateur {i+1}")
    data.append(collect_data())

In [33]:
print(data)

[[11, 'Francis', 14, 'France', 3.4, 34]]


## Envoyer les données dans un tableur Excel

Simplifions-nous la vie et utilisons une librairie créée pour transformer des structures de données python en tableur Excel : **pandas**

In [13]:
import pandas as pd

Transformons notre structure de données (liste de listes) en une autre structure que pandas pourra traduire sous forme de tableur excel : un dataframe

In [None]:
df = pd.DataFrame(data)

Transformons ce dataframe en tableur excel 

In [None]:
df.to_excel("data.xlsx", index = False, header=False)

Correction

In [None]:
if data:  # Check if there's any data collected
    df = pd.DataFrame(data)
    excel_file = 'data.xlsx'
    df.to_excel(excel_file, index=False, header=False)
    print(f'Data saved to {excel_file}')
else:
    print("No data was collected.")

## Vérifier le type des données provenant d'un tableur Excel

Nous pouvons aussi imaginer d'automatiser le process inverse, càd la vérification du type des données provenant d'un tableur Excel déjà existant. 

Commençons par créer une couche qui effectue la vérification si et seulement si le tableur excel se trouve bien au bon endroit sur notre ordinateur. Pour cela, nous allons utiliser un bloc 'try/except', qui sert à gérer les erreurs. Si le bloc 'try' est executé sans problème, cela veut dire qu'il n'y a pas d'erreurs. Au contraire, s'il ne peut être executé car il rencontre une certaine erreur, alors le bloc 'except' est exexuté.

In [28]:
try:
    #Définir où le fichier doit se trouver
    excel_file = 'data1.xlsx'
    # Afficher le fait que le fichier est au bon endroit
    print("Le fichier est bien là !")

except FileNotFoundError:
    print(f"Erreur : Le fichier '{excel_file}' est introuvable.")

Le fichier est bien là !


Dans le bloc **try**, chargeons le fichier excel sous la forme d'un dataframe

In [29]:
try:
    #Définir où le fichier doit se trouver
    excel_file = 'data1.xlsx'
    
    #Chargement du fichier Excel
    # Charger le fichier Excel dans un DataFrame pandas
    df = pd.read_excel(excel_file, header=None)
    
    # Afficher le fait que le fichier est au bon endroit
    print("Le fichier est bien là !")

except FileNotFoundError:
    print(f"Erreur : Le fichier '{excel_file}' est introuvable.")

Erreur : Le fichier 'data1.xlsx' est introuvable.


Maintenant, définissons nos attentes concernant le type de données. Pour cela, utilisons un dictionnaire qui associe à chaque colonne de notre tableur un type de données attendu 

In [31]:
try:
    #Définir où le fichier doit se trouver
    excel_file = 'data.xlsx'
    
    #Chargement du fichier Excel
    # Charger le fichier Excel dans un DataFrame pandas
    df = pd.read_excel(excel_file, header=None)
    
    # Afficher le fait que le fichier est au bon endroit
    print("Le fichier est bien là !")

    # Définir les types de données attendus pour chaque colonne
    type_donnees_attendu = {
        0: 'int',
        1: 'str',
        2: 'int',
        3: 'str',
        4: 'float',
        5: 'int'
    }

except FileNotFoundError:
    print(f"Erreur : Le fichier '{excel_file}' est introuvable.")

Le fichier est bien là !


Nous pouvons maintenant créer la partie centrale de notre programme : vérifier que chaque cellule correspond bien au type de données que nous attendons. 

In [None]:
# Vérifier les types de données pour chaque cellule
for col_index, expected_type in type_donnees_attendu.items():
    for row_index, cell_value in df[col_index].items():
        # Obtenir le type réel de la cellule
        actual_type = type(cell_value).__name__

        # Vérifier si le type réel correspond au type attendu
        if actual_type != expected_type:
            # Afficher un message en cas de type de données incorrect
            print(f"Problème à la ligne {row_index + 1}, Colonne {col_index + 1}. Attendu: {expected_type}, Réel: {actual_type}")


Explication ligne par ligne :

```python
for col_index, expected_type in expected_data_types.items(): :
```

Cette ligne parcourt le dictionnaire expected_data_types à l'aide de la méthode items(), ce qui nous permet de récupérer à la fois l'indice de colonne (col_index) et le type de données attendu (expected_type) pour chaque colonne du DataFrame.

```python
for row_index, cell_value in df[col_index].items(): :
```

Cette ligne parcourt chaque cellule de la colonne spécifiée (col_index) du DataFrame à l'aide de la méthode items(). Elle récupère à la fois l'indice de ligne (row_index) et la valeur de la cellule (cell_value).

```python
actual_type = type(cell_value).__name__ :
```

Cette ligne utilise la fonction type() pour obtenir le type de données réel de la valeur de la cellule cell_value, puis la méthode __name__ pour récupérer le nom du type en tant que chaîne de caractères (str, int, float, etc.).

```python
if actual_type != expected_type: :
```

Cette ligne compare le type de données réel (actual_type) avec le type de données attendu pour la colonne en cours (expected_type). Si les types ne correspondent pas, cela signifie qu'il y a un problème de type de données dans cette cellule.

```
print(f"Problème à la ligne {row_index + 1}, Colonne {col_index + 1}. Attendu: {expected_type}, Réel: {actual_type}") :
```

Cette ligne affiche un message indiquant l'emplacement de la cellule où le problème de type de données a été détecté. Elle affiche également le type de données attendu et le type de données réel pour aider à identifier et résoudre le problème.


Compilons le tout :

In [39]:
import pandas as pd

# Load Excel file
excel_file = 'data.xlsx'
try:
    df = pd.read_excel(excel_file, header=None)
    print("Excel file loaded successfully.")
    print("Checking data types...")

    # Define expected data types for each column
    expected_data_types = {
        0: 'int',
        1: 'str',
        2: 'int',
        3: 'str',
        4: 'float',
        5: 'int'
    }

    # Check data types for each cell
    for col_index, expected_type in expected_data_types.items():
        for row_index, cell_value in df[col_index].items():
            actual_type = type(cell_value).__name__
            if actual_type != expected_type:
                print(f"Mismatch at Row {row_index + 1}, Column {col_index + 1}. Expected: {expected_type}, Actual: {actual_type}")

except FileNotFoundError:
    print(f"Error: File '{excel_file}' not found.")
except Exception as e:
    print(f"An error occurred: {str(e)}")


Excel file loaded successfully.
Checking data types...
Mismatch at Row 1, Column 1. Expected: int, Actual: float
Mismatch at Row 2, Column 1. Expected: int, Actual: float
Mismatch at Row 2, Column 2. Expected: str, Actual: int
Mismatch at Row 2, Column 3. Expected: int, Actual: str
Mismatch at Row 2, Column 6. Expected: int, Actual: str


# Homework

Pour le prochain cours: 

Creer une fonction unique qui fait les operations suivantes: 
- Prendre le fichier de vente excel et l'importer dans python 
- Verifier que le fichier excel contient 3 spreadsheet 
- Verifier que le premier spreadsheet contient 10 colonnes
- Prendre la colonne "Ventes" et calculer le total 
- Imprimer "Objectif atteint" si le total des ventes depasse 10 000EUR
- Si l'objectif est atteint, changer le nom du fichier excel pour inclure "VALID" a la fin du nom. Sinon, ajouter "NOT_VALID". 