Le but de cette série de travaux pratiques est de vous permettre de comprendre par la pratique les fonctionnalités de base du langage Python.

# I. Manipulations basiques



Pour exécuter une cellule, appuyer sur **Shift + Entrée**

In [0]:
## Ceci est un commentaire
x = 2
y = 3.0
z = 'hello world'

x, y et z sont des **variables** (une portion de la mémoire dédiée à stocker l'information rentrée).

---

*   x est un **entier** (*integer*)
*   y est un **réel** (*float*)
*   z est une **chaîne de caractères** (*string*)

In [0]:
## La commande print()
print(x + y)
print(z)

5.0
hello world


`print()` est une **commande** permettant à Python de renvoyer le résultat d'une opération ou la valeur d'une variable.

In [0]:
## Les opérations classiques peuvent être effectuées dans Python
somme = x + y
difference = x - y
produit = x * y
division = x / y

print('Somme = %s' %(somme))
print('Différence = %s' %(difference))
print('Produit = %s' % (produit))
print('Quotient = %s' % (division))

Somme = 5.0
Différence = -1.0
Produit = 6.0
Quotient = 0.6666666666666666


Une variable peut être actualisée à partir d'une ancienne valeur.

In [0]:
## Ajouter 1 à la variable x
x = x + 1
# Lire : Nouvelle valeur = Ancienne valeur + 1

# On peut aussi écrire x += 1

# II. Stocker un ensemble d'informations

Une variable peut stocker un ensemble d'informations, grâce aux **structures de données** (*data structures*), au nombre de trois : 

1.   Liste (le plus courant)
2.   Dictionnaire
3.   N-uplet

In [0]:
liste = []
dictionnaire = {}
n_uplet = ()

Les trois variables ci-dessus sont des éléments vides. Créons une liste à partir des variables `x`, `y` et `z`.

In [0]:
liste = [x, y, z]

A partir de cette liste, on peut : 

*   Calculer sa longueur avec la commande `len()`
*   Accéder aux différents éléments en appelant l'indice correspondant (**important : le premier élément est indexé par 0**)
*   Ajouter ou supprimer des éléments avec les commandes `append()` et `pop()`
* ...

In [0]:
## Calcul de la longueur de la variable `liste`
print(len(liste))

3


In [0]:
## Requêter un élément de la liste
print(liste[0])
print(liste[1])
print(liste[-1]) # Un nombre négatif signifie qu'on requête à partir de la fin de la liste

2
3
hello world


In [0]:
## Ajouter ou enlever un élément d'une liste
zeta = 10
liste.append(zeta)
print(liste)
liste.pop()
print(liste)

[2, 3, 'hello world', 10]
[2, 3, 'hello world']


On peut aussi modifier chaque élément de la liste, en assignant une nouvelle valeur à l'emplacement souhaité.

In [0]:
## Changeons le premier élément de la liste
print(liste) # Avant
liste[0] = 130
print(liste) # Après

[2, 3, 'hello world']
[130, 3, 'hello world']


Le N-uplet fonctionne de la même manière qu'une liste, mis à part la dernière possibilité (modifier des éléments)

Le dictionnaire fonctionne comme un tableau de correspondances. 

In [0]:
dictionnaire = {
    'produit': z,
    'prix' : x, 
    'stock' : y
}

print(dictionnaire['produit'])

hello world


# III. Automatisation d'opérations répétitives

## A. Boucles finies (*for*)

Une boucle `for` permet d'exécuter automatiquement un nombre défini d'opérations répétitives.

In [0]:
## Créons d'abord une liste
liste = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

for i in liste:
  print(i) # Attention au petit espace devant (TABULATION)

# Lire : pour chaque élément de la liste, afficher cet élément
# Ceci évite d'avoir à écrire print(liste[0]), print(liste[1])...

1
2
3
4
5
6
7
8
9
10


Le plus souvent, quand il s'agit de mobiliser plusieurs nombres à la suite, on peut utiliser un **itérateur** (`range`).

In [1]:
for i in range(10):
  print(i)

  # Que remarquez-vous ? 

0
1
2
3
4
5
6
7
8
9


Attention, le `range` commence à partir de 0 et finit par l'unité avant le nombre rentré ! Par exemple, `range(10)` commence à 0 et finit par 9. En revanche, on peut très bien spécifier le début et la fin, ainsi que le pas. Par exemple, `range(1, 10, 2)` correspond à tous les entiers de 1 à 9 avec un pas de 2, c'est-à-dire 1, 3, 5, 7, 9.

## B. Conditionnement

En informatique, on définit des **booléens** comme des variables qui ne peuvent prendre que 2 valeurs : vrai ou faux (*True, False*).

In [0]:
# Exemple de booléens
v = True
f = False
print(v)
print(f)

# Exemple de calcul impliquant des booléens
p_1 = v * f
print(p_1)
p_2 = v * v
print(p_2)
# 'True' est associé à une valeur '1', 'False' à une valeur '0'

True
False
0
1


Une proposition vraie ou fausse correspond à un booléen.

In [0]:
## Condition vraie
print(2 <= 3)

## Condition fausse
print(2 > 10)

True
False


À partir de cela, l'on peut exécuter des lignes dans Python, sous condition que certaines conditions sont remplies, à partir d'un bloc `if...else`

In [0]:
if 2 > 3:
  print('Cette condition ne sera pas exécutée')
else:
  print('Cette condition sera exécutée')

Cette condition sera exécutée


## C. Les boucles indéfinies (*while*)

Lorsqu'on veut créer une boucle, mais qu'on ne sait pas combien d'étapes on a besoin a priori, on utilise un autre type de boucle, appelé `while`, qui répète une action et ne s'arrête que lorsqu'une condition est remplie. 

In [3]:
n = 10
while n > 0:
  n -= 1
  print(n)

9
8
7
6
5
4
3
2
1
0


Attention, lorsque la condition d'arrêt n'est pas explicitement spécifiée, vous courrez le risque d'aboutir à une **boucle infinie**, qui va faire planter votre programme. 

In [0]:
## Exemple (à ne pas utiliser)
# while True:
  # print("hello world")

## Petit exercice - Automatiser une opération répétitive

Pour les entiers de 0 à 50, n'afficher que les entiers multiples de 3. Indice : utiliser l'opération `%` (reste de la division euclidienne)

In [0]:
# A vous de jouer ! 

# IV. Les fonctions

Une **fonction** est une portion de code permettant d'effectuer un calcul, éventuellement à partir d'**arguments** en entrée, et pouvant renvoyer un **résultat**. Une fonction permet d'éviter d'avoir à copier un même code plusieurs fois dans un même code, s'il n'y a qu'un élément (l'argument) qui change.

In [7]:
# Exemple d'une fonction classique : la fonction carrée

def fonction_carree(x):
  carre = x**2 ## ** est l'opérateur puissance
  return carre

carre_de_deux = fonction_carree(2) 
print(carre_de_deux)

4


Une fonction peut ne pas avoir d'argument, ou avoir un argument que vous auriez **défini par défaut**.

In [9]:
def fonction_carree_defaut(x=2):
  carree = x**2
  return carree

resultat = fonction_carree_defaut() ## La valeur par défaut a été donnée lors de la définition de la fonction
print(resultat)

4


Une distinction importante à faire entre les variables **locales** et **globales**. Ces variables peuvent porter le même nom, mais elles s'appliquent à un contexte particulier (à l'intérieur ou à l'extérieur d'une fonction).

In [10]:
somme = 0

def f_somme(n1, n2):
  somme = n1 + n2
  return somme

print(f_somme(10, 20))
print(somme)

30
0


## Mise en pratique : calcul d'une moyenne

Ecrire un algorithme pour calculer la moyenne de la liste `liste_moyenne` ci-dessous : 

In [0]:
liste_moyenne = [1, 3, 5, 7, 9, 17, 21, 32]

In [0]:
### Votre solution ici

# Stocker dans une variable 'N' la longueur de la liste_moyenne

# Ecrire une boucle for dans laquelle tous les éléments de la liste sont sommés

# Diviser le résultat de la somme par 'N'

In [0]:
### Pour les plus avancés

# Ecrire un algorithme pour calculer la variance et l'écart-type de liste_moyenne

Ecrire l'algorithme pour calculer la moyenne des nombres de `liste_moyenne` **seulement s'ils sont supérieurs à 10**.

In [0]:
### Votre solution ici

Ecrire une fonction qui permette de calculer la moyenne de n'importe qu'elle liste donnée en entrée. Cette fonction prendra deux arguments : ***ma_liste*** (qui est la liste en entrée) et ***seuil*** (qui est le seuil à partir duquel le nombre de la liste sera pris en compte dans le calcul de la moyenne).

In [0]:
### Votre solution ici

# V. Les modules

La communauté des développeurs a, depuis 20 ans, écrit énormément de **modules** (ensembles) de fonctions qui facilitent les calculs pour les nouvelles générations de développeurs. Ces modules sont rangées dans les **librairies** de Python, que l'on peut importer et utiliser à bon escient. 

In [0]:
import numpy as np
import pandas as pd
import time
import random

*   `numpy` contient les modules essentiels pour l'algèbre linéaire (branche des mathématique étudiant les vecteurs, les matrices...).
*   `pandas` contient les modules pour le traitement des données (version améliorée d'Excel).
*   `time` contient les modules pour chronométrer l'exécution de certaines portions du code.
*   `random` contient les modules nécessaires pour générer des nombres aléatoirement.

## Focus sur `numpy`

In [0]:
# Avec numpy, le traitement des calculs devient beaucoup plus simple : exemple d'une moyenne
ma_liste = [1, 2, 3, 4, 5]

## Nouvelle version : 
print(np.mean(ma_liste))

L'ensemble des fonctions de la librairie `numpy` se trouve dans la [documentation](https://devdocs.io/numpy~1.14/) disponible sur Internet, et le forum [StackOverflow](https://stackoverflow.com/questions/tagged/numpy) est une excellente ressource d'aide au développement.

In [13]:
# Une des propriétés intéressantes de numpy : travailler avec des tableaux de nombres directement.

somme_listes = [1, 2, 3] + [3, 4, 5]
somme_arrays = np.array([1, 2, 3]) + np.array([3, 4, 5])

print(somme_listes)
print(somme_arrays)

[1, 2, 3, 3, 4, 5]
[4 6 8]


### Petit exercice - recherche de fonctions sur la doc numpy

Soit un *array* défini par nos soins. Sauriez-vous trouver les fonctions correspondant à ce que l'on recherche ? 

In [0]:
my_array = np.array([1.1, 2.2, 3.3, 4.4, 5.5, 6.6, 7.7, 8.8, 9.9])

In [0]:
# Trouver les fonctions qui renvoient respectivement l'entier supérieur et inférieur de chaque élément de la liste.

In [0]:
# Trouver les fonctions qui renvoient le minimum et le maximum de cet array

In [0]:
# Trouver les fonctions qui renvoient la moyenne, la variance et l'écart-type de cet array

## Focus sur `pandas`

`pandas` permet de travailler avec des tables de données **structurées**, appelées ***DataFrame***. Les *DataFrame* sont un très bon complément à Excel, pour des opérations telles que le **filtrage** et les **jointures**. 

In [0]:
# Création de deux tables à joindre

var_id = list(range(100))
var_1 = random.sample(range(1, 1000), 100)
var_2 = np.random.normal(10, 1, 100)

df_dict = {
    'id': var_id,
    'var1': var_1,
    'var2': var_2
}

df = pd.DataFrame(df_dict)
df = df.rename(str, columns = {'id': 'identifiant_client', 'var1': 'unites', 'var2': 'prix_moyen'})
var_3 = np.random.choice(['A', 'B', 'C'], size = 100, replace = True)
df['secteur'] = var_3

df_complem = pd.DataFrame({
    'identifiant_client': list(range(50, 120)),
    'age_du_gerant': np.random.choice(list(range(18,65)), size = len(range(50, 120)), replace = True)
})

Pour lire le début d'une table, on peut utiliser la fonction `head()`. Pour connaître les dimensions, on peut utiliser la commande `shape()`.

In [0]:
df_complem.head()
print(df_complem.shape())

Les [jointures](https://www.dofactory.com/sql/join) servent à rapprocher deux tables partageant un même identifiant commun, afin d'enrichir les données à notre disposition. 

In [0]:
j_g = pd.merge(df, df_complem, on = 'identifiant_client', how = 'left')
j_d = pd.merge(df, df_complem, on = 'identifiant_client', how = 'right')
j_i = pd.merge(df, df_complem, on = 'identifiant_client', how = 'inner')
j_u = pd.merge(df, df_complem, on = 'identifiant_client', how = 'outer')

Les quatre types de jointures ne renvoient pas les mêmes résultats. Cela peut se voir sur les dimensions finales des quatre tables. 

In [0]:
print("Table de jointure à gauche : %s lignes" % j_g.shape[0])
print("Table de jointure à droite lignes : %s lignes" % j_d.shape[0])
print("Table de jointure par intersection : %s lignes" % j_i.shape[0])
print("Table de jointure par union : %s lignes" % j_u.shape[0])

Explication : 

*   La table **df** a 100 lignes, la jointure gauche **j_g** a donc gardé toutes ses lignes et associé les valeurs pour lesquelles **df_complem** avait une entrée.
*   La table **df_complem** a 70 lignes, la jointure droite **j_d** a donc gardé toutes ses lignes et associé les valeurs pour lesquelles **df** avait une entrée.
*   La table **df** a les indices clients de 0 à 99; la table **df_complem** a les indices de 50 à 119. Les indices communs vont donc de 50 à 99, soient les 50 observations de **j_i**.
*   La jointure **j_u** a simplement gardé toutes les observations, même celles qui n'avaient pas de valeur associée suite à la jointure.

# VI. Et pour aller plus loin... le *scraping*

In [0]:
import requests
import urllib.request
import time
from bs4 import BeautifulSoup

In [0]:
url = 'https://www.seloger.com/annonces/viagers/appartement/paris-14eme-75/raspail-montparnasse/148160483.htm?ci=750056&idtt=2,5&idtypebien=2,1&naturebien=1,2,4&tri=initial&bd=ListToDetail'
response = requests.get(url)

In [0]:
soup = BeautifulSoup(response.text, "html.parser")

In [20]:
soup.findAll('img')

[<img alt="logo SeLoger" class="logo-app" height="72" src="//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/logoappSL.svg" width="72"/>,
 <img alt="logo SeLoger" class="logo-app" height="72" src="//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/logoappSL.svg" width="72"/>,
 <img alt="logo SeLoger" class="stars-app" height="auto" src="//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/stars.svg" width="100"/>,
 <img alt="logo SeLoger" class="logo-app" height="72" src="//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/logoappSL.svg" width="72"/>,
 <img class="preview1" src="https://v.seloger.com/s/cdn/x/visuels/0/n/7/3/0n738ypa3bkcdbmy1rtghp2nu299tvk82o3fgxx4k.jpg"/>,
 <img alt="aperçu annonce suivante" class="visuel_annonce " src="/z/produits/sl/assets/images/sl/home/no_visual.png"/>,
 <img alt=" Paris 13ème" src="/z/produits/sl/assets/images/sl/detail/no-visual/no_visual_refonte_250x250.png"/>,
 <img alt="Viager Appar

In [24]:
all_img_tags = soup.findAll('img')
all_links = []
for j in range(len(all_img_tags)):
  link = all_img_tags[j]['src']
  print(link)
  all_links.append(link)

//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/logoappSL.svg
//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/logoappSL.svg
//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/stars.svg
//static-seloger.com/z/produits/sl/homepage/assets/img/bandeau_app/logoappSL.svg
https://v.seloger.com/s/cdn/x/visuels/0/n/7/3/0n738ypa3bkcdbmy1rtghp2nu299tvk82o3fgxx4k.jpg
/z/produits/sl/assets/images/sl/home/no_visual.png
/z/produits/sl/assets/images/sl/detail/no-visual/no_visual_refonte_250x250.png
//v.seloger.com/s/cdn/x/visuels/0/n/7/3/0n738ypa3bkcdbmy1rtghp2nu299tvk82o3fgxx4k.jpg
//v.seloger.com/s/cdn/x/visuels/0/e/v/c/0evcxrj66t9offd920s8g1gpr7d5enqy90v88ryze.jpg
https://v.seloger.com/s/width/87/logos/1/d/e/r/1der1vqnyh01yn9s7de59ktkiipt1gfmau6zkiggh.jpg
https://v.seloger.com/s/width/87/logos/1/d/e/r/1der1vqnyh01yn9s7de59ktkiipt1gfmau6zkiggh.jpg
https://v.seloger.com/s/width/87/logos/1/d/e/r/1der1vqnyh01yn9s7de59ktkiipt1gfmau6zkiggh.jpg


### Petit exercice : ne garder que les liens commençant par "https"

In [0]:
# Votre solution ici

In [0]:
# Pour finir en beauté : télécharger votre butin ! 
# urllib.request.urlretrieve(link, './image.jpg')