# S03 - Structures de données Python I

Sujets de programmation abordés dans cette section :
- Strings
- Listes/Tuples
- Dictionnaires

## String
Un string est une séquence immuable de caractères. Il existe un grand nombre de méthodes pour les manipuler. Vous pouvez consulter [cette page](https://www.w3schools.com/python/python_strings.asp) et [cette page](https://www.w3schools.com/python/python_strings.asp) pour plus d'informations.

Chaque élément d'un string (et d'autres séquences) est accessible avec un index entre crochets. Tous les index en Python commencent à 0.

**Fonctions utiles pour un string (et d’autres séquences) :**
- `len()` : récupère la longueur d'un chaîne (c'est-à-dire le nombre de caractères)
- mot-clé `in` : vérifier si une certaine phrase ou un certain caractère est présent dans un string
- mot-clé `not in` : vérifie si une certaine phrase ou un certain caractère n'est PAS présent dans un string

**Méthodes de string utiles :**
- `.capitalize()` : renvoie une copie du string avec son premier caractère en majuscule et le reste en minuscules
- `.lower()` : renvoie un string où tous les caractères sont en minuscules
- `.upper()` : renvoie un string où tous les caractères sont en majuscules
- `.split(sep)` : renvoie une liste des mots du string, en utilisant `sep` comme déliminateur

**Opérations sur les string :**
- `+` : effectue la concaténation de strings
- `*`: effectue la répétition de strings

### Exemple 1.1 : Utilisation de méthodes et de fonctions de string courantes
Utilisation de méthodes, de fonctions et d’opérations de string courantes.

In [1]:
# définir une variable de type string
province = "Alberta-AB"
print('Structure type', type(province))

# Utilisation de certaines fonctions courantes
print('Number of characters: ', len(province))
print('First letter/character: ', province[0])   # vous pouvez accéder au n-ième caractère de manière similaire (par exemple, province[n])
print('Last letter/character: ', province[-1])   
print('Last 3 characters (string slices): ', province[-3:])
print('First 3 characters (string slices): ', province[:3])
print('Upper case the string: ', province.upper())
print('Lower case the string: ', province.lower())
print("Is 'A' in the string?:","A" in province)
print("Is not 'A' in the string?:","A" not in province)

Structure type <class 'str'>
Number of characters:  10
First letter/character:  A
Last letter/character:  B
Last 3 characters (string slices):  -AB
First 3 characters (string slices):  Alb
Upper case the string:  ALBERTA-AB
Lower case the string:  alberta-ab
Is 'A' in the string?: True
Is not 'A' in the string?: False


In [2]:
# Utilisation de la méthode split
province_split = province.split('-')
print("Splitting the string considering the separator '-' (it returns a list of strings): ", province_split)
print("The province's name (first element): ", province_split[0])
print("Abbreviation of the province's name (second element): ", province_split[1])

Splitting the string considering the separator '-' (it returns a list of strings):  ['Alberta', 'AB']
The province's name (first element):  Alberta
Abbreviation of the province's name (second element):  AB


### Exemple 1.2 : Extraction d'informations à partir de la référence du produit
Définissez une fonction qui renvoie les informations suivantes en utilisant le code de référence d'un produit.

- La référence du produit (numéro)
- Le jour, le mois et l'année où le produit a été fabriqué
- La référence fournisseur (numéro)
- Le nom complet de la province d'où le produit a été livré. Le code de référence utilise la convention suivante :
* QC : Québec
* ON : Ontario
* BC : Colombie-Britannique
* SK : Saskatchewan
* MB : Manitoba
* AB : Alberta

Le format de la référence du produit est le suivant :

<div>
<img src="https://raw.githubusercontent.com/acedesci/scanalytics/master/FR/S03_Data_Structures_1/_static/ProductRef.png" width="500">
</div>

In [3]:
# définir une fonction qui fournit des informations sur les produits en fonction de sa référence
def product_info(reference):
    """
    Return information based on the product's reference
    Parameters:
        reference: (string) list of characters for the product
    Return:
        prod_ref: (number) product's reference
        day: (number) production day
        month: (number) production month
        year: (number) production year
        sup_province: (string) name of the province from which the product was delivered
        sup_ref: (number) supplier's reference     
        
    """
    prod_ref = int(reference.split('-')[-1])  # dernier élément (converti en int) après séparer le string d'entrée avec le séparateur '-' 
    date = reference.split('-')[1]  # deuxième élément après séparer le string d'entrée avec le séparateur '-' 
    supply_info = reference.split('-')[0]  # premier élément après séparer le string d'entrée avec le séparateur '-' 
    
    return  prod_ref, int(date[:2]), int(date[2:4]), int(date[4:]), supply_info[:2], int(supply_info[2:])

# Déterminer l'année de production du produit en fonction de sa référence
prod_ref = 'ON41-12012012-56'
print('Production year of the product with reference number ', prod_ref,' : ', product_info(prod_ref)[3])

Production year of the product with reference number  ON41-12012012-56  :  2012


## Listes
Comme un string, une **liste** est une séquence de valeurs. Dans un string, les valeurs sont des caractères ; dans une liste, elles peuvent être de n'importe quel type. Les valeurs d'une liste sont appelées **éléments** ou parfois **items**.

Il existe plusieurs façons de créer une nouvelle liste ; la plus simple consiste à placer les éléments entre crochets (`[` et `]`) :
- `[10, 20, 30, 40]`
- `['Québec', 'Ontario', 'Alberta']`

Les listes peuvent contenir des strings, des nombres flottants et d'autres listes. Une liste dans une autre liste est **imbriquée** (*nested*). Une liste sans éléments est une liste **vide**, qui est créée avec des crochets vides `[]`.
- `nested = [[5, 10], [12, 21], [10, 20]]`
- `empty = []`

Pour plus d'informations, consultez [cette page](https://www.w3schools.com/python/python_lists.asp).

Exemple de code :

In [4]:
prices = [12.5, 12.4, 12.0, 13.0, 12.6, 13.5, 12.8, 11.7]

# la fonction `len(x)` donne le nombre d'éléments dans la liste
print(len(prices))

# Manipulation des listes
# notez que l'index de la liste commence toujours à zéro, puis 1, 2, 3,...
print(prices[0])
print(prices[1])

8
12.5
12.4


In [5]:
# si vous souhaitez obtenir le numéro du dernier index, vous pouvez également utiliser -1. L'avant-dernier est -2, -3 et ainsi de suite
print(prices[-1])
print(prices[-2])

11.7
12.8


In [6]:
# si vous écrivez sales[a:b] où a et b sont respectivement les index de début et de fin,
# cela donnera la "tranche" de la liste de a à b-1
print(prices[2:5])
print(prices[2:-1])

[12.0, 13.0, 12.6]
[12.0, 13.0, 12.6, 13.5, 12.8]


In [7]:
# vous pouvez ajouter un élément à la liste
province = ['Quebec', 'Ontario', 'Alberta']
province.append('British Columbia')
print(province)

# ou supprimer un élément de la liste
province.remove('British Columbia')
print(province)

# ou combiner la liste
province_2 = ['Prince Edward Island','Saskatchewan']
print(province + province_2)

['Quebec', 'Ontario', 'Alberta', 'British Columbia']
['Quebec', 'Ontario', 'Alberta']
['Quebec', 'Ontario', 'Alberta', 'Prince Edward Island', 'Saskatchewan']


Les listes Python offrent l'utilisation de la compréhension de liste qui peut être utilisée conjointement avec les instructions `for` et conditionnelles (voir [ce lien](https://www.w3schools.com/python/python_lists_comprehension.asp) pour plus de détails)

In [8]:
product_price = [1.5, 2.4, 2.0, 3.0]
product_demand = [100, 200, 150, 400]

n_elements = len(product_price) # obtenir la longueur de la liste
revenue = [product_price[i] * product_demand[i] for i in range(n_elements)] # revenu total pour chaque produit
print(revenue)

[150.0, 480.0, 300.0, 1200.0]


In [9]:
# calculer le revenu uniquement pour le produit dont le prix est supérieur à 2 $
# revenu total pour chaque produit pour un prix > 2
revenue_p2 = [product_price[i] * product_demand[i] for i in range(n_elements) if product_price[i] > 2] 
print(revenue_p2)

[480.0, 1200.0]


In [10]:
# ce qui revient au même que d'utiliser les instructions for et if comme suit
revenue_p2_loop = []
for i in range(n_elements):
    if product_price[i] > 2:
        revenue_p2_loop.append(product_price[i] * product_demand[i])

print(revenue_p2_loop)

[480.0, 1200.0]


## Tuples
Un tuple est une séquence de valeurs. Les valeurs peuvent être de n'importe quel type, comme une liste. Les tuples sont immuables ou inchangeables. Comme les tuples sont immuables, leurs valeurs ne peuvent pas être modifiées (contrairement aux listes). Vous pouvez consulter [cette page](https://www.w3schools.com/python/python_tuples.asp) pour plus d'informations.

Syntactiquement, un tuple est une liste de valeurs séparées par des virgules. Les tuples sont placés entre parenthèses :
`t = ('a', 'b', 'c', 'd', 'e')`

*REMARQUE :* vous pouvez considérer un tuple comme une liste qui ne peut pas être modifiée. Ainsi, l'utilisation d'un tuple est utile lorsqu'aucune manipulation n'est autorisée.

Pour créer un tuple avec un seul élément, vous devez inclure une virgule finale :

In [11]:
t1 = 'a',
type(t1)

tuple

ou

In [12]:
t2 = ('a',)
type(t2)

tuple

Une valeur entre parenthèses n'est pas un tuple :

In [13]:
t3 = ('a')
type(t3)

str

Voici d'autres exemples:

In [14]:
province_tuple = ('Quebec', 'Ontario', 'Alberta')
print(type(province_tuple))

# nous ne pouvons apporter aucune modification au tuple
# l'erreur soulevée est NORMALE
province_tuple.append('British Columbia')

<class 'tuple'>


AttributeError: 'tuple' object has no attribute 'append'

In [15]:
# mais nous pouvons le copier dans la liste et apporter des modifications à la liste à la place
province_list = list(province_tuple)
print(province_list)
province_list.append('British Columbia')
print(province_list)

['Quebec', 'Ontario', 'Alberta']
['Quebec', 'Ontario', 'Alberta', 'British Columbia']


## Dictionnaires
Un **dictionnaire** est comme une liste, mais plus général. Dans une liste, les indices doivent être des entiers ; dans un dictionnaire, ils peuvent être (presque) de n'importe quel type.

Un dictionnaire contient une collection d'indices, appelés **clés**, et une collection de valeurs. Chaque clé est associée à une valeur unique. L'association d'une clé et d'une valeur est appelée **paire clé-valeur** ou parfois **items/éléments**.

En langage mathématique, un dictionnaire représente un **mapping** entre des clés et des valeurs, ce qui permet également de dire que chaque clé « correspond » à une valeur. Pour plus d'informations, voir [cette page](https://www.w3schools.com/python/python_dictionaries.asp).

### Exemple : tarifs d'expédition
Un détaillant en ligne détermine ses tarifs d’expédition (en $) en fonction de l’emplacement du client comme suit.

|Alberta (AB)| British Columbia (BC) | Manitoba (MB)| New Brunswick (NB) | Newfoundland and Labrador (NL) | Nova Scotia (NS) | Ontario  (ON)  | Prince Edward Island (PE)|  Quebec (QC) |Saskatchewan (SK)| Yokon (YT)|
| :- | :- | :- | :- | :- | :- | :- | :- | :- | :- | :- |
|10 | 15 | 12.5 | NA | 30.5 | 25 | 8 | NA | 8 | 16 | 18.5 |

Nous souhaitons définir une fonction qui renvoie le tarif d'expédition à facturer à un client en fonction de sa province. Tout d'abord, nous créons un dictionnaire pour enregistrer les informations sur les tarifs d'expédition adoptés par le détaillant.

In [16]:
# Format du dictionnaire : {'province_abv': taux d'expédition}
# clés : abréviation de la province
# valeurs : float - tarif d'expédition le cas échéant

ship_rates = {'AB':  10,
             'BC':  15,
             'MB': 12.5,
             'NL': 30.5,
             'NS': 25,
             'ON':  8,
             'QC':  8,
             'SK':  16,
             'YT':  18.5} 
# Veuillez noter que le Nouveau-Brunswick et l'Île-du-Prince-Édouard ne sont pas inclus dans le dictionnaire, car l'expédition n'est pas disponible vers ces provinces.
print(ship_rates)

{'AB': 10, 'BC': 15, 'MB': 12.5, 'NL': 30.5, 'NS': 25, 'ON': 8, 'QC': 8, 'SK': 16, 'YT': 18.5}


In [17]:
cust_loc = 'QC'
print("The shipment rate for a customer in", cust_loc," is: ", ship_rates[cust_loc])  # disponible
cust_loc = 'PE'
print("The shipment rate for a customer in", cust_loc," is: ", ship_rates[cust_loc])  # pas disponible

The shipment rate for a customer in QC  is:  8


KeyError: 'PE'

On peut également accéder au dictionnaire pour connaître le tarif d'expédition étant donné le nom abrégé de la province du client. Dans le cas où aucun envoi n'est disponible, nous pouvons créer un message indiquant l'exception. La méthode `.get()` pourrait être utile dans ce cas (consultez [cette page](https://www.w3schools.com/python/ref_dictionary_get.asp) pour plus d'informations).

In [18]:
cust_loc = 'QC'
print("The shipment rate for a customer in", cust_loc," is: ", ship_rates.get(cust_loc))  # disponible
cust_loc = 'PE'
print("The shipment rate for a customer in", cust_loc," is: ", ship_rates.get(cust_loc))  # pas disponible

The shipment rate for a customer in QC  is:  8
The shipment rate for a customer in PE  is:  None
