# TP Python n°1 : Prise en main de Python et Jupyter

Le langage de programmation Python est largement utilisé dans le domaine de la science des données, de l'analyse statistique, de la visualisation de données, de l'apprentissage automatique et bien d'autres domaines. Dans ce TP, nous allons explorer les bases de Python en utilisant l'environnement interactif Jupyter Notebook. Vous aurez l'occasion de découvrir les concepts fondamentaux de Python et d'apprendre à les mettre en œuvre à travers des exemples pratiques.


Objectifs :

- Comprendre les concepts de base de Python.
- Apprendre à utiliser Jupyter Notebook pour l'écriture et l'exécution de code Python.
- Explorer les types de données, les structures de contrôle et les fonctions en Python.
- Réaliser des visualisations simples à l'aide de bibliothèques comme Matplotlib.

Il existe plusieurs environnements de développement (IDE) pour travailler avec Python. Voici quelques-uns des plus populaires :

- PyCharm : Développé par JetBrains, PyCharm est l'un des IDE les plus complets pour Python. Il propose des fonctionnalités avancées telles que la complétion de code intelligente, le débogage, l'analyse de code, et la prise en charge de frameworks comme Django et Flask.

- Visual Studio Code (VS Code) : VS Code est un éditeur de code léger et très personnalisable. Il dispose d'une extension Python très populaire qui offre une variété de fonctionnalités telles que la complétion de code, le débogage, l'intégration de l'environnement virtuel, et bien plus encore.

- Jupyter Notebook : Si vous travaillez sur des projets impliquant de l'analyse de données, de l'apprentissage automatique ou de la visualisation, Jupyter Notebook est un excellent choix. Il vous permet de créer et d'exécuter des "cellules" de code interprétables individuellement, ce qui facilite l'expérimentation interactive.

- Spyder : Conçu spécifiquement pour les scientifiques des données, Spyder est un IDE qui propose un environnement de développement similaire à MATLAB. Il offre des outils d'analyse de données intégrés et est bien adapté aux tâches liées à la manipulation de données.

Nous choisissons de travailler avec Jupyter Notebook pour son aspect pédagogique qui permet d'insérer des commentaires texte au fur et à mesure.

# Installation de Jupyter

Jupyter Notebook est un environnement de développement interactif qui permet de créer et d'exécuter des documents contenant à la fois du code, des textes explicatifs, des images et des visualisations. Il est largement utilisé dans le domaine de la science des données, de la recherche en informatique et de l'éducation en programmation. Jupyter Notebook prend en charge plusieurs langages de programmation, mais dans ce TP, nous nous concentrerons sur l'utilisation de Python.

Le moyen le plus simple pour installer Jupyter est d'installer Anaconda. Anaconda est une des distributions Python les plus utilisées actuellement. Certaines grandes bibliothèques Python sont incluses dans Anaconda comme numpy et matplotlib.

Pour obtenir Anaconda, il suffit de :

    Téléchargez la dernière version d'Anaconda (lien vers la page de téléchargement).
    Installez Anaconda en suivant les instructions sur la page de téléchargement et/ou dans l'exécutable.

Si vous êtes un utilisateur plus avancé avec Python déjà installé et préférez gérer vos packages manuellement, vous pouvez simplement utiliser pip (attention à ce que toutes les dépendances soient aussi bien installées):

```console
pip3 install notebook
```

Vous pouvez lancer Jupyter grâce au raccourci ajouté par l'installation de Anaconda (sur Windows) dans le menu de démarrage des applications (Anaconda > Jupyter). Cela ouvrira votre navigateur Internet par défaut sur un tableau de bord dédié à la gestion de vos notebooks. Naviger dans l'arborescence de vos fichiers afin de vous placer dans le répertoire dans lequel vous souhaitez créer votre notebook.

Les notebooks et le tableau de bord de Jupyter sont des applications Web, et Jupyter démarre un serveur Python local pour exécuter ces applications dans votre navigateur, le rendant indépendant de la plateforme et permetant un partage plus facile sur le Web. Votre notebook est donc pour l'instant hébergé et exécuté sur votre ordinateur local.

Cliquer maintenant sur New (en haut à droite) et sélectionner Notebook : Python 3. Ceci va créer un notebook à l'emplacement choisi. Par défaut le notebook s'appelle Untitled.ipynb mais vous pouvez le changer en modifiant le nom du notebook en haut à gauche à côté du logo.

Chaque fichier .ipynb est un fichier texte qui décrit le contenu de votre notebook au format JSON. Chaque cellule et son contenu, y compris les images jointes sont converties en chaînes de charactères (attention donc à la taille du fichier qui peut grandir rapidement si beaucoup d'images sont insérées), et y sont aussi répertoriés certaines métadonnées.

Les menus sont assez intuitifs, et restent proches d'un éditeur de texte classique. Familiarisez vous avec ces menus.

Par défaut une cellule de code est ajoutée dans le notebook. Vous pouvez utiliser cette cellule pour exécuter du code Python, comme vous le feriez dans une console de l'interpréteur. Vous pouvez par exemple taper 2+2 puis Ctrl + Entrée pour exécuter le code (taper juste Entrée va simplement à la ligne dans le code). Essayez ainsi d'exécuter quelques bouts de code pour vérifier le bon fonctionnement (des print, des fonctions etc.).

In [None]:
2+2

In [None]:
print("Hello world")

Vous remarquerez que les sorties se font dans des cellules à part, des cellules de sortie.

Le plus gros intérêt d'un notebook est (en plus d'être une page en ligne partageable) de pouvoir écrire du texte entre les bouts de code. Cela permet donc assez facilement de par exemple donner un énoncé de TD ou TP où le code serait exécuter "dans l'énoncé", et non pas dans un IDE à part.

Pour basculer rapidement une cellule du mode code au mode texte, sélectionner la cellule et taper simplement M. Pour faire la consersion inverse taper Y.

Vous pouvez exécuter toutes les cellules de code (du haut du notebook au bas) en allant dans Cell > Run All.

Dans un notebook Jupyter, le code est organisé en cellules. Vous pouvez exécuter chaque cellule individuellement. Pour exécuter une cellule de code, vous pouvez utiliser l'un des raccourcis suivants :

- Shift + Enter : Exécute la cellule et passe à la suivante.
- Ctrl + Enter : Exécute la cellule sans passer à la suivante.
- Alt + Enter : Exécute la cellule et insère une nouvelle cellule en dessous.

Les cellules de texte, appelées cellules Markdown, permettent de fournir des explications et des commentaires. Vous pouvez les utiliser pour donner du contexte à votre code, en utilisant la syntaxe Markdown pour la mise en forme du texte.

# Fondamentaux de Python

Python est un langage fortement typé, ce qui signifie que les variables ont des types de données spécifiques. Voici quelques types de données de base :

- Entiers (int) : des nombres entiers tels que 5, -10, 0.
- Flottants (float) : des nombres à virgule flottante tels que 3.14, -0.5.
- Chaînes de caractères (str) : des séquences de caractères comme "Bonjour", "Python est génial !".
- Listes : des collections ordonnées de valeurs, par exemple [1, 2, 3].
- Tuples : des collections similaires aux listes, mais immuables, par exemple (1, 2, 3).
- Dictionnaires : des collections de paires clé-valeur, par exemple {"nom": "Alice", "âge": 25}.

Python prend en charge divers opérateurs pour effectuer des opérations sur les données, tels que les opérateurs mathématiques (+, -, *, /), les opérateurs de comparaison (==, <, >, <=, >=), et les opérateurs logiques (and, or, not).

In [None]:
a = 10
b = 3
addition = a + b
multiplication = a * b
comparaison = a > b
logique = (a > 5) and (b < 7)

print(addition)
print(multiplication)
print(comparaison)
print(logique)

Les instructions conditionnelles (if, elif, else) permettent d'exécuter certaines parties de code en fonction de conditions.

In [None]:
age = 18
if age < 18:
    print("Vous etes mineur")
elif age == 18:
    print("Vous etes tout juste majeur")
else:
    print("vous etes majeur")

Les boucles (for et while) permettent de répéter des actions plusieurs fois.

In [None]:
nombres = [1, 2, 3, 4, 5]
for nombre in nombres:
    carre = nombre**2
    print(f"Le carré de {nombre} est {carre}")

Les fonctions permettent de regrouper des morceaux de code réutilisables. Une fonction peut prendre des paramètres en entrée et renvoyer une valeur en sortie.

In [None]:
def carre(x):
    return x**2

resultat = carre(4)
print(resultat)

# Exploitation des données et visualisation

Python offre de nombreuses bibliothèques pour l'analyse de données et la visualisation. Dans ce TP, nous nous concentrerons sur deux d'entre elles : NumPy et pandas pour l'analyse de données, et Matplotlib pour la visualisation.

NumPy est une bibliothèque essentielle pour les scientifiques et les ingénieurs travaillant avec Python. Ses capacités de manipulation de tableaux multidimensionnels, ses fonctions mathématiques optimisées et son intégration étroite avec d'autres bibliothèques en font un outil puissant pour le calcul scientifique et l'analyse de données.

In [None]:
import numpy as np

In [None]:
# Création d'un tableau unidimensionnel
a = np.array([1, 2, 3, 4, 5])
a

In [None]:
# Création d'un tableau bidimensionnel (matrice)
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b

In [None]:
# Calcul de la matrice transposée
c = np.transpose(b)
c

In [None]:
# Création d'un tableau de zéros
zeros = np.zeros((3, 3))
zeros

In [None]:
# Addition de tableaux
resultat_addition = b + c
resultat_addition

In [None]:
# Multiplication de tableaux par un scalaire
resultat_multiplication = b * 2
resultat_multiplication

In [None]:
# Calcul de l'exponentielle des éléments
exponentiel = np.exp(a)
exponentiel

In [None]:
# Multiplication de deux matrices point à point (équivalent de .* en Matlab)
resultat_multiplication = c * b
resultat_multiplication

In [None]:
resultat_multiplication2 = b * c
resultat_multiplication2

In [None]:
# Multiplication matricielle (l'élément(i,j) de la matrice est égal à la somme du produit de la ligne i de la 1ère matrice et de la colonne j de la 2ème matrice)
resultat_dot = np.dot(c, b)
resultat_dot

In [None]:
resultat_dot2 = np.dot(b, c)
resultat_dot2

La multiplication point à point est commutative (a*b = b*a), contrairement à la multiplication matricielle avec np.dot où l'ordre des paramètres est important (a*b est différent de b*a).

In [None]:
# Accès à un élément spécifique
element = a[2]
element

Attention, on remarque bien que c'est le 3ème élément de a qui s'affiche. Il faut se rappeler que Python commence l'indexation à 0.

In [None]:
# Tranchage (slicing) pour obtenir une sous-section du tableau
sous_tableau = b[1:, :2]
sous_tableau

In [None]:
# Calcul de la moyenne
moyenne = np.mean(a)
moyenne

In [None]:
# Calcul de la somme cumulative
somme_cumulative = np.cumsum(a)
somme_cumulative

Pandas offre de nombreuses fonctionnalités pour explorer et analyser des données. Vous pouvez obtenir des informations statistiques sur vos données, filtrer des lignes en fonction de certaines conditions, grouper et agréger des données, etc.

In [None]:
import pandas as pd

In [None]:
donnees = pd.read_csv('https://api.slingacademy.com/v1/sample-data/files/salaries.csv')

In [None]:
print(donnees.head())

In [None]:
# Obtenir des informations sur les colonnes
informations = donnees.info()

In [None]:
# Statistiques descriptives
stats = donnees.describe()
print(stats)

In [None]:
# Filtrer les données en fonction d'une condition
donnees_filtrees = donnees[donnees['Age'] > 25]
print(donnees_filtrees)

In [None]:
# Grouper et agréger des données
groupe_par_job = donnees.groupby('Job')['Salary'].mean()
print(groupe_par_job)

In [None]:
# Calculer les statistiques descriptives
mean_salary = donnees['Salary'].mean()
median_salary = donnees['Salary'].median()
std_deviation = donnees['Salary'].std()
min_salary = donnees['Salary'].min()
max_salary = donnees['Salary'].max()

# Afficher les résultats
print(f"Moyenne salariale : {mean_salary}")
print(f"Médiane salariale : {median_salary}")
print(f"Écart-type des salaires : {std_deviation}")
print(f"Salaire minimum : {min_salary}")
print(f"Salaire maximum : {max_salary}")

# Calculer les quartiles
first_quartile = donnees['Salary'].quantile(0.25)
second_quartile = donnees['Salary'].quantile(0.50)
third_quartile = donnees['Salary'].quantile(0.75)

print(f"Premier quartile (Q1) : {first_quartile}")
print(f"Deuxième quartile (Q2) : {second_quartile}")
print(f"Troisième quartile (Q3) : {third_quartile}")

Matplotlib permet de créer une variété de visualisations, comme des graphiques linéaires, des diagrammes à barres, des diagrammes circulaires, etc.

In [None]:
import matplotlib.pyplot as plt

In [None]:
# Créer un histogramme pour visualiser la distribution des salaires
plt.figure(figsize=(10, 6))
plt.hist(donnees['Salary'], bins=20, color='blue', edgecolor='black')
plt.title('Distribution des Salaires')
plt.xlabel('Salaire')
plt.ylabel('Nombre d\'employés')
plt.show()


In [None]:
# Créer un diagramme de boîte pour visualiser la distribution et les outliers
plt.figure(figsize=(10, 6))
plt.boxplot(donnees['Salary'])
plt.title('Diagramme de Boîte des Salaires')
plt.ylabel('Salaire')
plt.show()

In [None]:
# Créer un diagramme en barre pour la répartition des salaires par job
plt.bar(donnees['Job'],donnees['Salary'], color='blue')
plt.title('Répartition des Job')
plt.xlabel('Job')
plt.ylabel('Salaire Moyen')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Compter le nombre d'occurrences de chaque job
job_counts = donnees['Job'].value_counts()
plt.figure(figsize=(8, 8))
plt.pie(job_counts, labels=job_counts.index, autopct='%1.1f%%', startangle=140, colors=plt.cm.Paired.colors)
plt.show()


SciPy est une bibliothèque essentielle pour le calcul scientifique en Python, offrant un large éventail d'outils pour l'analyse, le traitement et la manipulation de données.

In [None]:
# Génération de données pour le signal
frequence = 5  # Fréquence en Hz
echantillons_par_seconde = 1000
temps = np.arange(0, 1, 1/echantillons_par_seconde)
signal = np.sin(2 * np.pi * frequence * temps)

plt.plot(temps, signal)
plt.title('Signal sinusoïdal dans le domaine temporel')
plt.xlabel('Temps (s)')
plt.ylabel('Amplitude')

In [None]:
# Calcul de la FFT
spectre = np.fft.fft(signal)

In [None]:
# Calcul de la FFT
spectre = np.fft.fft(signal)

# Fréquences correspondantes
frequences = np.fft.fftfreq(len(signal)) * echantillons_par_seconde

# Tracé du signal et de son spectre
plt.subplot(2, 1, 2)
plt.plot(frequences, np.abs(spectre))
plt.title('Spectre du signal')
plt.xlabel('Fréquence (Hz)')
plt.ylabel('Amplitude')

# Exercice 1: Manipulation de matrices

Créer la matrice $A$ de dimension $4x4$ telle que $$A = \begin{pmatrix}  1 & 4 & 5 & 7 \\ 7 & 8 & 9 & 10 \\ 2 & 26 & 14 & 56  \\ 78 & 11 & 43 & 12\end{pmatrix}$$

In [None]:
A = np.array([[1, 4, 5, 7], [7, 8 , 9, 10], [2, 26, 14, 56], [78, 11, 43, 12]])
A

Que fait la commande A[2, 3]?

In [None]:
A[2, 3]

Afficher la 1ère ligne de $A$

In [None]:
A[0, :]

Afficher la dernière colonne de $A$

In [None]:
A[:, 3]

Afficher la matrice transposée de $A$

In [None]:
np.transpose(A)

Que fait la commande [L, C] = np.where(A>75)?

In [None]:
[L, C] = np.where(A>75)

In [None]:
np.where(A>75)

In [None]:
L

In [None]:
C

Afficher la valeur qui est supérieure à 75 en utilisant $A$, $L$ et $C$

In [None]:
A[L[0], C[0]]

In [None]:
#Trouver la position des éléments de $A$ supérieurs à 50

In [None]:
[L, C] = np.where(A>50)

In [None]:
L

In [None]:
C

Il y a 2 éléments supérieurs à 50 en position: 3ème ligne, 4ème colonne (3,4) et 4ème ligne, 1ère colonne (4,1)

# Exercice 2: Résolution d'un système d'équations

On se propose de trouver les solutions $x$, $y$ et $z$ d'un système d'équations en utilisant l'outil matriciel. Soit le système  suivant à 3 équations: $$ \begin{cases}  x + y +2z &=& 3 \\  x + 2y + z &=& 1 \\ 2x + y + z &=& 0 \end{cases} $$

Traduire le  système d'équations sous une forme matricielle $AX = Y$ avec $A$ matrice $3x3$ à déterminer et $$X = \begin{pmatrix} x \\ y \\ z \end{pmatrix}\ et \ Y = \begin{pmatrix} 3 \\ 1 \\ 0 \end{pmatrix}\ $$

Trouver les valeurs de $x$, $y$ et $z$ par inversion de la formule précédente: $X = A^{-1}Y$

In [None]:
A = np.array([[1, 1, 2], [1, 2, 1], [2, 1, 1]])
A

In [None]:
Y = np.array([[3], [1], [0]])
Y

In [None]:
X = np.dot(np.linalg.inv(A), Y)
X