# Data structures in Python

- **List**
    - ' Tableau ' modifiable 
- **Tuple**
    - ' Tableau ' non modifiable
- **Set**
    - Structure de données qui n'accepte pas les doublons !
- **dict**
    - Structure de données ' key : value '
- **class (object)**
    - Création d'une structure de données personnalisée 

## List

### Création (instanciation)

In [117]:
arr = []
arr = [1, 2, 3]
arr = [1, 'a', 'b', True] # La liste accepte n'importe quel type de données

In [118]:
arr = list(range(10)) # Création rapide d'une liste en utilisant range
arr           

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [119]:
# Exemple avec des lettres
arr = list('abcdefghi') 
arr

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']

### Slicing

Slice : **trancher** les données pour n'en garder qu'une partie

#### Récuperer les premiers éléments

In [120]:
# 5 premiers éléùenst de la liste
# On récupère de l'élément 0 (inclus) jusqu'à l'élément 5 exclus
arr = list('abcdefghijklmpnop')
arr[0:5] 

['a', 'b', 'c', 'd', 'e']

In [11]:
# Equivalent à la notation précedente
# Lorsque l'on ne met pas le premier élément c'est implicitement équivalent à mettre 0
arr[:5] 

['a', 'b', 'c', 'd', 'e']

In [121]:
# Nombre d'élénemts dans la liste
# Il y en a bien 5 (indexes de 0 à 4 ---> 5 éléments)
chunk = arr[:5]
len(chunk)

5

#### Récuper les derniers éléments

In [122]:
arr = list('abcdefghijklmpnop')

# Le dernier élément est indexé par -1 dans une liste
print('dernier :', arr[-1]) 

# L'avant dernier élément est indexé par -2 dans une liste
print('Avant dernier :', arr[-2]) 

# On récuoère les 3 derniers éléments
print('3 derniers éléments :', arr[-3:]) 

dernier : p
Avant dernier : o
3 derniers éléments : ['n', 'o', 'p']


#### Slices avec pas

In [35]:
arr = list('abcdefgpnop')

# Cette notation se lit : 
# "Elements de la liste arr à partir du premier élément (inclus) 
# jusqu'au dernier élément (exclus)
# Par pas de 1 élément
arr[0:len(arr):1]  

# Peut se résumer implicitement ainsi : 
arr[::]  

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'p', 'n', 'o', 'p']

In [36]:
# Slice : à partir du 3ème élément, jusqu'au dernier, par pas de 1
arr[3::]  

['d', 'e', 'f', 'g', 'p', 'n', 'o', 'p']

In [37]:
# Slice : à partir du 0ème élement, jusqu'à l'avant dernier (exclus), par pas de 1
arr[:-2:1]

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'p', 'n']

In [38]:
# Slice : un élément sur 2 (pas de 2) 
arr[::2]

['a', 'c', 'e', 'g', 'n', 'p']

In [39]:
# Slice : on avance par pas de -1
# On obtient la liste retournée
arr[::-1]

['p', 'o', 'n', 'p', 'g', 'f', 'e', 'd', 'c', 'b', 'a']

In [123]:
# Slice : on avance par pas de -2
# On obtient un élément sur 2 de la liste retournée
arr[::-2]

['p', 'n', 'm', 'k', 'i', 'g', 'e', 'c', 'a']

### Quelques méthodes sur les listes

#### Compter les éléments

In [124]:
arr = list('abcdvkjsraaaalgkhngbratefghijklmpnop')
arr.count('a')

6

In [132]:
# On peut également renverser la liste avec la méthode reverse
# La méthode *modifie* les données 'en place'
arr = list('advp')
arr.reverse()
print(arr)

['p', 'v', 'd', 'a']


In [133]:
# On rajoute un élément à la suite de la liste
arr.append('aert')
arr

['p', 'v', 'd', 'a', 'aert']

In [134]:
# On fusionne deux listes
arr.extend(['plouf', 'test'])
arr

['p', 'v', 'd', 'a', 'aert', 'plouf', 'test']

In [135]:
# ATTENTION
# Si on fait un *append* d'une liste sur une autre, alors on ajoute la seconde liste
# Comme UN élement de la liste
# Ici arr2 est ajoutée à la suite de arr. 

arr2 = ['appended1', 'appended2']
arr.append( arr2 )
arr

['p', 'v', 'd', 'a', 'aert', 'plouf', 'test', ['appended1', 'appended2']]

In [136]:
# Arrache le denier élément de la liste, et le renvoie
last_element = arr.pop()
print('last :', last_element)
print('Liste (sans dernier élément) ', arr)

last : ['appended1', 'appended2']
Liste (sans dernier élément)  ['p', 'v', 'd', 'a', 'aert', 'plouf', 'test']


In [137]:
# Remove la première occurence de l'élément dans la liste
arr.remove('a')
arr

['p', 'v', 'd', 'aert', 'plouf', 'test']

In [138]:
# Donne l'index de la première occurence de l'élément dans la liste
arr.index('d')

2

## Tuple

In [140]:
# Instanciation d'un tuple
arr = tuple(range(5, 21, 3))
arr

(5, 8, 11, 14, 17, 20)

In [141]:
# Le tuple est non modifiable
# On obtient une erreur si on essaie
arr[0] = 4

TypeError: 'tuple' object does not support item assignment

In [143]:
# Destructuration
# On peut donner des noms à chacune des valeurs du tuple
mot1, mot2,  = ('bonjour', 'test')
print('mot1 : ', mot1)
print('mot2 : ', mot2)


mot1 :  bonjour
mot2 :  test


In [74]:
# Cas d'utilisation pratique : Inversion de variables
a = 0
b = 1

print('a', a)
print('b', b)

a, b = (b, a)

print('a', a)
print('b', b)

a 0
b 1
a 1
b 0


## Set

In [144]:
# Structure de données qui n'accepte pas les doublons
arr = list('aazzeceeedrrrt')
arr

['a', 'a', 'z', 'z', 'e', 'c', 'e', 'e', 'e', 'd', 'r', 'r', 'r', 't']

In [145]:
# Observez bien qu'il n'y plus de doublons
set(arr)

{'a', 'c', 'd', 'e', 'r', 't', 'z'}

In [77]:
# On peut interroger le set et lui demander si un élément est présent à l'intérieur 
'a' in set(arr)

True

In [78]:
# Idem
'p' in set(arr)

False

In [154]:
# Cas d'utilisation pratique
# On compte chacune des lettres

# Liste avec les doublons 
arr = list('aazzeceeerrr')

# Set -> sans les doublons
arr_set = set(arr)

# Pour chacune des lettres uniques
for lettre_unique in arr_set:
    # On affiche la lettre à rechercher
    print('Lettre à rechercher ', lettre_unique)
    
    # On compte le nombre d'occurences de cette lettre
    # dans la liste arr (celle sui contient les doublon)
    print("Nombre d'apparitions de cette lettre dans la liste : ", arr.count(lettre_unique))
    
    print('-------------------------------------------------\n')

Lettre à rechercher  r
Nombre d'apparitions de cette lettre dans la liste :  3
-------------------------------------------------

Lettre à rechercher  z
Nombre d'apparitions de cette lettre dans la liste :  2
-------------------------------------------------

Lettre à rechercher  e
Nombre d'apparitions de cette lettre dans la liste :  4
-------------------------------------------------

Lettre à rechercher  c
Nombre d'apparitions de cette lettre dans la liste :  1
-------------------------------------------------

Lettre à rechercher  a
Nombre d'apparitions de cette lettre dans la liste :  2
-------------------------------------------------



In [157]:
# Exemple avec le jeu de données des arbres 

# Le module csv est spécialisé dans l'analyse .... des fichiers .csv !
import csv 

# On charge le fichier dans la variable data 
# La syntaxe est compliquée mais tout est expliqué dans la documentation officielle 
with open('./trees.csv') as f:
    lines = csv.reader(f)
    data = list(lines)
    
# On affiche le header (nom des colonnes)
print(data[0])

['\ufeffELEM_POINT_ID', 'CODE', 'NOM', 'GENRE', 'GENRE_DESC', 'CATEGORIE', 'CATEGORIE_DESC', 'SOUS_CATEGORIE', 'SOUS_CATEGORIE_DESC', 'CODE_PARENT', 'CODE_PARENT_DESC', 'ADR_SECTEUR', 'BIEN_REFERENCE', 'GENRE_BOTA', 'ESPECE', 'VARIETE', 'STADEDEDEVELOPPEMENT', 'EQUIPE', 'REMARQUES', 'ANNEEDEPLANTATION', 'RAISONDEPLANTATION', 'TRAITEMENTCHENILLES', 'COURRIER', 'IDENTIFIANTPLU', 'TYPEIMPLANTATIONPLU', 'INTITULEPROTECTIONPLU', 'ANNEEABATTAGE', 'ESSOUCHEMENT', 'DIAMETREARBRE', 'CAUSEABATTAGE', 'COLLECTIVITE', 'GeoJSON']


In [165]:
# On va créer une liste ne contenant que le genre botanique des arbres 
# (colonne numéro 13)
genres = []
for row in data:
    genres.append(row[13])

# On affiche les 5 premiers éléments de cette liste
# Beaucoup de données manquantes
genres[:5]

['GENRE_BOTA', '', '', '', '']

In [168]:
# Et maintenant on va regarder quels sont les éléments uniques de cette liste
genres_uniques = set(genres)

# Il y en a beaucoup 
genres_uniques

{'',
 'Abies',
 'Acer',
 'Aesculus',
 'Ailanthus',
 'Albizia',
 'Alnus',
 'Amélanchier',
 'Araucaria',
 'Betula',
 'Broussonetia',
 'Buxus',
 'Calocedrus',
 'Carpinus',
 'Castanea',
 'Catalpa',
 'Cedrela',
 'Cedrus',
 'Celtis',
 'Cephalotaxus',
 'Cercidiphyllum',
 'Cercis',
 'Chamaecyparis',
 'Chimonanthus',
 'Chionanthus',
 'Chitalpa',
 'Cladastris',
 'Clerodendron',
 'Cornus',
 'Corylus',
 'Cotinus',
 'Crataegus',
 'Cryptomeria',
 'Cupressocyparis',
 'Cupressus',
 'Cydonia',
 'Davidia',
 'Diospyros',
 'Eleagnus',
 'Eriobotrya ',
 'Eucalyptus',
 'Fagus',
 'Ficus',
 'Fontanesia',
 'Fraxinus',
 'GENRE_BOTA',
 'Ginkgo',
 'Gleditsia',
 'Gymnocladus',
 'Halesia',
 'Hovenia',
 'Ilex',
 'Juglans',
 'Juniperus',
 'Koelreuteria',
 'Laburnum',
 'Lagerstroemia',
 'Larix',
 'Libocedrus',
 'Ligustrum',
 'Liquidambar',
 'Liriodendron',
 'Lonicera',
 'Maclura',
 'Magnolia',
 'Malus',
 'Mespilus',
 'Metasequoia',
 'Morus',
 'Nyssa',
 'Olea',
 'Ostrya',
 'Parrotia',
 'Paulownia',
 'Phellodendron',
 'P

In [169]:
# Les éléments dans un set ne sont pas indexés par des entiers
# Les sets ne sont pas ordonnés
# Donc je ne peux pas afficher les 3 premiers éléments (erreur!)
genres_uniques[:3]

TypeError: 'set' object is not subscriptable

In [170]:
# Je peux quand même bidouiller en re transformant le set en liste
# Puis en demandant les 5 premiers élements 
liste_genres_uniques = list(genres_uniques)
liste_genres_uniques[:5]

['', 'Fontanesia', 'Libocedrus', 'Cercidiphyllum', 'Lagerstroemia']

## Dict

On va refaire un peu la même chose que précédemment en utilisant cette fois un dictionnaire

In [108]:
# Chargement des données
import csv 
with open('./trees.csv') as f:
    lines = csv.reader(f)
    data = list(lines)

# Extraction des genres botaniques
genres = []
for row in data:
    genres.append(row[13])

# Calcul des genres botaniques uniques. 
genres_uniques = set(genres)

In [171]:
# d : dictionnaire qui va recenser les genres uniques et le nombre de leur representants
# genres : liste qui contient TOUS les genres de tous les arbres
# genres_uniques : le set des genres (elements uniques de genres)
# genre (dans la boucle) : un genre parmi les genres uniques

d = dict()
for genre in genres_uniques:
    d[genre] = genres.count(genre)

d

{'': 515,
 'Fontanesia': 4,
 'Libocedrus': 47,
 'Cercidiphyllum': 7,
 'Lagerstroemia': 50,
 'Pterocarya': 52,
 'Pteroceltis': 12,
 'Lonicera': 6,
 'Syringa': 41,
 'Paulownia': 101,
 'Ptelea': 3,
 'Trachycarpus': 22,
 'Cedrela': 46,
 'Pistacia': 7,
 'Ginkgo': 111,
 'Maclura': 5,
 'Aesculus': 459,
 'Magnolia': 409,
 'Ficus': 19,
 'Abies': 28,
 'Diospyros': 17,
 'Cotinus': 11,
 'Larix': 5,
 'Tilia': 1770,
 'Alnus': 826,
 'Photinia': 10,
 'Broussonetia': 23,
 'Cornus': 23,
 'Fraxinus': 1506,
 'Amélanchier': 96,
 'Staphylea': 1,
 'Cupressus': 203,
 'Sequoia': 1,
 'Gleditsia': 352,
 'Zelkova': 233,
 'Clerodendron': 5,
 'Styrax': 3,
 'Pyrus': 501,
 'Mespilus': 7,
 'Liquidambar': 809,
 'Pterostyrax': 6,
 'Ulmus': 210,
 'Cryptomeria': 2,
 'Olea': 5,
 'Taxodium': 9,
 'Rhamnus': 1,
 'Cladastris': 45,
 'Robinia': 287,
 'GENRE_BOTA': 1,
 'Ostrya': 44,
 'Hovenia': 2,
 'Fagus': 267,
 'Ilex': 24,
 'Corylus': 174,
 'Calocedrus': 4,
 'Cedrus': 407,
 'Prunus': 996,
 'Cupressocyparis': 100,
 'Tetradium': 