# Introduction à Python - Christophe Bourgoin - EMLV 2017-18 

Ce second notebook traitera des **structures de données** qui sont des concepts importants pour un data analyst / scientist.

Dans Python les données peuvent donc être représentées sous différentes formes et/ou structures.

Les principales structures qu'on utilisera sont :
- Les listes
- Les tuples
- Les sets
- Les dictionnaires
- Les chaines de caractères

# Les Listes

Les listes sont sans doute la structure de données la plus utilisée. 

En Python, les listes sont des séquences d'objets (entier, chaine de caractère, autres listes ...).

In [3]:
notes = [8, 10, 11, 18, 19, 2, 5]
notes

[8, 10, 11, 18, 19, 2, 5]

## Création de listes

Plusieurs possibilités pour créer une liste : 

In [4]:
ma_liste1  = []    
ma_liste2 = list()

In [5]:
print( type(ma_liste1), type(ma_liste2) )

<class 'list'> <class 'list'>


In [9]:
ma_liste1, ma_liste1

([], [])

Dans les 2 cas ci-dessus on a créé des listes vides. Mais on peut également créer une litse avec des objets : 

In [53]:
notes = [8, 10, 11, 18, 19, 2, 5]
print(type(notes))

<class 'list'>


In [10]:
notes

[8, 10, 11, 18, 19, 2, 5]

Les listes peuvent contenir n'importe quel type d'objet.

Dans l'exemple ci-dessus, la liste est uniquement composée d'entier mais elle pourrait aussi contenir des objets de types différents : 

In [26]:
x = [1, 'mot', 2.5, []]
x, type(x)

([1, 'mot', 2.5, []], list)

Les listes peuvent être de n'importe quelle longueur et peuvent ou non être ordonnées.

## Indexation des listes

Il est possible d'accéder à chaque élément d'une liste car celles-ci sont indéxées. 
Attention dans Python, l'indexation part de **0**.

In [13]:
notes[0]

8

Il est possible d'utiliser l'index pour accéder aux éléments de la liste par ordre inverse. Dans ce cas l'indexation débute par **-1**.

In [14]:
notes[-1]

5

In [15]:
notes [-3]

19

notes[3] == notes[-4] # Peu importe l'ordre dans lequel vous utilisez l'indexation, cela revient au même !

L'indexation ne sert pas seulement à accéder un élément d'une liste, elle peut etre utilisée aussi pour modifier cet élément: 

In [39]:
notes[-1] = 16 # on remplace la valeur du dernier élément de la liste par 16
notes

[8, 10, 11, 18, 19, 2, 16]

On dit que les listes sont des types dits **mutables** (contrairement par exemple aux chaines de caractères qui sont dits **immutables** - immuables ) !

## Slicing

Alors que l'indexation permet d'accéder à un élément unique d'une liste, vous aurez aussi souvent besoin d'accéder à une séquence de données dans votre liste.

On parle de **slicing** ou "tranchage".



Le slicing est réalisé en définissant les valeurs d'indexation du premier et dernier élément qu'on souhaite extraire de la liste principale. Cela s'écrit comme :

```python
            liste_parent[a:b] ``` 
            
avec `a` & `b` étant les valeurs d'indexation des premiers et derniers éléments


In [51]:
num = [0,1,2,3,4,5,6,7,8,9]
print(num[0:4])

[0, 1, 2, 3]


Si `a` et `b` ne sont pas définis alors la valeur de `a` sera supposé être la premiere valeur de l'index et si `b` sera supposé être la dernière valeur de l'index.

In [29]:
print(num[4:])

[4, 5, 6, 7, 8, 9]


In [30]:
print(num[:4])

[0, 1, 2, 3]


En data science, le slicing d'une liste est utilisé, par exemple, lorsque vous partitionnerez vos datasets en train set vs test set.

```python
  train = dataset[:100000,:] # on ne selectionne que les 100000 premieres lignes
  test  = dataset[100000:,:] # on ne selectionne que les 100000 dernières lignes
```

Notez aussi que vous pouvez extraire une séquence d'élément d'une liste avec un pas donné :

In [31]:
num[:9:3]

[0, 3, 6]

## Insertion des objets dans une liste 

Plusieurs méthodes et/ou fonctions prédéfinies sont disponibles pour ajouter des éléments dans une liste.

### Ajouter un élément à la fin d'une liste

On utilise la méthode `append` pour cela :

In [40]:
notes

[8, 10, 11, 18, 19, 2, 16]

In [41]:
notes.append(5)
notes

[8, 10, 11, 18, 19, 2, 16, 5]

### Insertion d'un élément dans une liste

In [43]:
notes.insert(3, 20) # on insère la note de 20 à l'indice 3
notes

[8, 10, 11, 20, 18, 19, 2, 16, 5]

### Concaténation de listes 

In [44]:
note_1 = [5, 9, 2]
note_2 = [20, 14, 17]

Plusieurs manières de faire :

In [45]:
note_1.extend(note_2)
note_1

[5, 9, 2, 20, 14, 17]

In [47]:
note_1 = [5, 9, 2]
note_1 + note_2

[5, 9, 2, 20, 14, 17]

In [48]:
note_1 += note_2
note_1

[5, 9, 2, 20, 14, 17]

### Suppression d'éléments d'une liste

Deux méthodes pour supprimer des éléments d'une liste :
- `del`
- la méthode `remove`

#### del

L'utilisation de `del` n'est pas limité aux éléments d'une liste. Il peut aussi servir à supprimer des variables ou des lites entieres. 

In [56]:
variable = 25
variable

25

In [57]:
del variable
variable

NameError: name 'variable' is not defined

del notes_2
notes_2

In [54]:
notes

[8, 10, 11, 18, 19, 2, 5]

Pour supprimer des éléments d'une liste c'est très simple :

In [55]:
del notes[-1]
notes

[8, 10, 11, 18, 19, 2]

#### remove

Attention la méthode `remove` prend en paramètre l'élément à supprimer et non son index.

In [59]:
notes.remove(18) 
notes

[8, 10, 11, 19, 2]

### Quelques fonctions prédéfinies pour les listes

Les fonctions prédéfinies qu'on a vues précédemment sont en général toutes adaptées pour manipuler des listes.

In [60]:
len(notes)

5

In [65]:
min(notes), max(notes), int(sum(notes)/len(notes))

(2, 19, 10)

Lorsque vous manipulez des listes de `string` il peut être intéressant d'utiliser les opérateurs booléens :

In [66]:
prenoms = ['Manon', 'Sebastien', 'Yann', 'Anaé', 'Lydia' ]

In [67]:
'Christophe' in prenoms 

False

In [68]:
'Manon' in prenoms

True

Les fonctions `min()` et `max()` sont toujours applicables pour des listes de chaînes de caractère. Dans ce cas, les élements seront retournés par ordre alphabétique.

In [74]:
print('max = ', max(prenoms))
print('min =', min(prenoms))

max =  Yann
min = Anaé


In [71]:
nlist = ['1','94','93','1000'] # ici les entiers sont passés en string
print("max =",max(nlist))
print('min =',min(nlist))

max = 94
min = 1


Une autre fonction utile en data science est la fonction `count()`, qui permet de compter le nombre d'occurrence d'un élément dans une liste:

In [78]:
notes.append(19)
notes

[8, 10, 11, 19, 2, 19]

In [79]:
notes.count(19)

2

Dans la même optique, vous pouvez avoir besoin de chercher un élément dans une liste et de retourner son index :

In [80]:
notes.index(10)

1

Si l'element est plusieurs fois présent dans la liste la fonction index retourne sa première valeur d'apparition.

In [82]:
notes.index(19) 

3

In [85]:
notes.pop() # retourne le dernier élément de la liste

19

# Les Tuples

Les tuples sont des séquences d'éléments, assez semblables aux listes, sauf qu'on ne peut en modifier un après qu'il ait été crée. 

### Défintion d'un tuple

D'un point de vue conceptuel, vous devez voir les tuples comme quelque chose qui est vrai dans une certaine condition mais pas dans les autres.
Par exemple, la fonction `divmod()` retourne le quotient et le restant d'une division.

In [87]:
xyz = divmod(10,3)
print(xyz)
print(type(xyz))

(3, 1)
<class 'tuple'>


Lorsque 10 est divisé par 3, le résultat de la fonction `divmod()` ne peut être changé sinon il serait faux ! C'est la raison pour laquelle le résultat de cette fonction est un tuple.

Pour définir un tuple :

In [88]:
tup = ()
tup2 = tuple()

Comme pour les listes, on peut directement déclarer les valeurs d'un tuple.

In [90]:
tup3 = (25, 11)
type(tup3)

tuple

Lorsque vous déclarez des listes ou des chaines de caractère dans un tuple, celles-ci sont directement converties en tuple.

In [94]:
tup4 = tuple([1,2,3])
print(tup4)
tup5 = tuple('Hello')
print(tup5)

(1, 2, 3)
('H', 'e', 'l', 'l', 'o')


### Indexation et slicing d'un tuple

Les mêmes règles d'indexation et de slicing que pour les listes s'appliquent aux tuples.

In [95]:
print(tup4[1])
tup6 = tup5[:3]
print(tup6)

2
('H', 'e', 'l')


### Mapping d'un tuple à un autre

Un tuple peut etre assigné à un autre tuple.

In [97]:
(a,b,c)= ('alpha','beta','gamma') # les parenthèses sont optionnelles
a,b,c= 'alpha','beta','gamma' # Meme assignation que au-dessus.
print(a,b,c)

a,b,c = ['Alpha','Beta','Gamma'] # Un tuple peut etre assigné à une liste
print(a,b,c)

[a,b,c]=('this','is','ok') # l'inverse est vrai également
print(a,b,c)

alpha beta gamma
Alpha Beta Gamma
this is ok


Des assignations plus complexes sont possibles (utilisées parfois dans des fichiers web pour certaines valeurs de clés).

In [98]:
(w,(x,y),z)=(1,(2,3),4)
print(w,x,y,z)

(w,xy,z)=(1,(2,3),4)
print(w,xy,z) 

1 2 3 4
1 (2, 3) 4


### Fonctions Prédéfinies pour les Tuples

2 fonctions seulement disponibles : `count()` et `index()` qui ont une utilisation identique à celles des listes.

In [99]:
d=tuple('a string with many "a"s')
d.count('a')

3

In [100]:
d.index('a')

0

# Sets

Les sets ou séries sont principalements utilisées pour supprimer les occurrences multiples dans une séquence d'éléments ou une liste.

Ils sont utiles en data science lors de vos préprocessing et/ou explorations de données 

Ils se déclarent de manière similaire aux listes et tuples.

In [102]:
set1 = set()
print(type(set1))

<class 'set'>


In [107]:
set2 = set([1, 2, 3, 5, 3, 2, 9]) # déclaration avec des éléments assignés
print(set2)

{1, 2, 3, 5, 9}


Les éléments 2 et 3 en doublon ne sont bien renvoyés qu'une fois en résultat.

In [108]:
print(type(set2))

<class 'set'>


### Fonctions prédéfinies pour les sets

In [119]:
set1 = set([1,2,3])
set2 = set([2,3,4,5])

Plusieurs fonctions permettent de manipuler une ou plusieurs séries.

In [121]:
set1.add(0) # Ajoute un élément à une série
set1

{0, 1, 2, 3}

In [122]:
set1.union(set2) # union de 2 séries qui retournent tous les éléments uniques des 2 séries

{0, 1, 2, 3, 4, 5}

In [123]:
set1.intersection(set2) # intersection des 2 séries qui retourne les éléments communs aux 2 séries

{2, 3}

In [112]:
set1.difference(set2) # renvoie les éléments de set1 non compris ds set2

{0, 1}

In [124]:
set2.difference(set1) # renvoie les éléments de set2 non compris ds set1

{4, 5}

In [125]:
set1.issubset(set2) # vérifie si set1 est un sous-ensemble de set2

False

In [132]:
set3 = set ([0,1, 2, 3, 4, 5, 6, 7,8,9])
set1.issubset(set3)

True

In [126]:
set2.isdisjoint(set1) # vérifie si set1 est un ensemble disjoint de set2 (tous ses éléments ne sont pas compris ds set2)

False

In [128]:
set4 = set ([7,8,9])
set2.isdisjoint(set4)

True

In [116]:
set1.remove(2) # supprime un élément specifique de set1
set1

{0, 1, 3}

In [133]:
set1.clear() # supprime tous les éléments de set1
set1

set()

# Dictionnaires

Les dictionnaires sont une structure de données très utilisée en science des données. On les rencontre souvent lorsqu'on manipule des données du web extrait d'API et/ou de fichiers JSON.

Les dictionnaires sont des structures qui associent des clés à des valeurs.

On définit un dictionnaire grâce à `{}` ou `dict()`

In [136]:
d = {}
print(type(d))

d = dict() # or equivalently d={}
print(type(d))

<class 'dict'>
<class 'dict'>


Il est possible d'assigner dans un dictionnaire directement la valeur d'une clé comme suit :

In [137]:
d['abc'] = 3     # d[key] = value
d[4] = "A string"
print(d)

{'abc': 3, 4: 'A string'}


Vous noterez à partir de l'exemple ci-dessus que les types de clés / valeurs peuvent être hétérogènes.

On peut aussi assigner plusieurs couples clé / valeur en même temps en utilisant la syntaxe `{ key : value }`.
Le dictionnaire ci-dessous a 3 éléments par exemple :

In [139]:
d = { 1: 'Un', 2 : 'Deux', 100 : 'Cent'}
len(d)

3

In [142]:
d[1]

'Un'

Une autre manipulation d'un dictionnaire fréquente en data science est de le définir à partir d'une liste de tuple: 

In [143]:
names = ['One', 'Two', 'Three', 'Four', 'Five']
numbers = [1, 2, 3, 4, 5]
[ (name,number) for name,number in zip(names,numbers)] # création des tuples à partir de la fonction zip

[('One', 1), ('Two', 2), ('Three', 3), ('Four', 4), ('Five', 5)]

Puis on a plus qu'à définir le dictionnaire en "de-zippant" la liste de tuples.

In [160]:
a1 = dict((name,number) for name,number in zip(names,numbers))
print(a1)

{'One': 1, 'Two': 2, 'Three': 3, 'Four': 4, 'Five': 5}


### Fonctions prédéfinies appliquées aux dictionnaires

Pour savoir le nombre d'éléments dans un dictionnaire, on utilisera la fonction `len()`

In [146]:
len(a1)

5

Pour vérifier la présence d'une clé dans un dictionnaire on utilise l'opérateur **in** :

In [147]:
'Two' in a1

True

In [149]:
'Two ' in a1 # avec des string faites bien attention à la syntaxe de vos clés !

False

Si vous avez besoin d'extraire la liste des clés et/ou celle des valeurs d'un dictionnaire vous pouvez utiliser les méthodes `keys()` ou `values()`.

L'utilisation de ces 2 méthodes est très fréquente encore une fois lorsque vous explorez un dataset.

In [152]:
[k for k in a1.keys()] 

['One', 'Two', 'Three', 'Four', 'Five']

In [153]:
[ v for v in a1.values() ]

[1, 2, 3, 4, 5]

La méthode `items()` est très utile lorsque vous voulez retourner la liste des tuples (key, value) d'un dictionnaire.

In [156]:
[(name,val) for name,val in a1.items()]

[('One', 1), ('Two', 2), ('Three', 3), ('Four', 4), ('Five', 5)]

Si vous avez besoin de supprimer un élément d'un dictionnaire vous pouvez utiliser `del` ou la méthode `pop()`.

In [161]:
del a1['One']
a1

{'Five': 5, 'Four': 4, 'Three': 3, 'Two': 2}

In [162]:
a1.pop('Four')
a1

{'Five': 5, 'Three': 3, 'Two': 2}

# Les Chaines de caractères (string) 

Le langage et l'écriture étant la base de la communication humaine vous imaginez bien que vous rencontrerez souvent des chaines de caractère et qu'il est nécessaire pour vous d'être à l'aise pour les manipuler.

Dans cette partie, je vous présente les fondamentaux mais nous reviendrons dans la suite de mes interventions dessus avec des concepts plus pointus (NLP)

### Définition d'une chaine de caractère

La définition d'une chaine de caractère s'effectue grâce à `''` ou `str()` : 

In [168]:
s1 = ''
type(s1)

str

In [172]:
s2 = str()
type(s2)

str

Comme pour les autre structures de données précédentes, il est possible d'allouer une valeur à un string comme suit : 

In [180]:
s3 = 'chaine' 
s3

'chaine'

Un cas d'utilisation fréquent des strings est lorsque vous voulez formatter l'impression de vos résultats au moyen de la fonction `print()`.


In [182]:
print("Hello","World")

Hello World


La fonction `print()` a certains arguments optionnels qui vous permettent d'enrichir vos sorties. 
Par exemple, les opérateurs `sep` et `end`.

In [183]:
print("Hello","World",sep='...',end='!!')

Hello...World!!

### Format des chaines de caractère

Beaucoup de méthodes sont disponibles sous Python pour formatter et/ou manipuler des strings.

La concaténation de strings se fait par l'addition de deux strings.

In [164]:
string1='World'
string2='!'
print('Hello' + string1 + string2) # par défaut les espaces ne sont pas mis !

HelloWorld!


In [185]:
print('Hello' + ' '+  string1 + ' '+ string2)

Hello World !



En data science, lorsque vous cherchez à tester et valider un modèle de machine learning, il est indispensable de retourner vos résultats sous les bons formats. On recours en général aux chaines de caractère pour apporter du sens.

On utilise alors très souvent l'opérateur `%` pour formatter un string en fonction de la valeur qui lui succède.
Il convient ensuite d'associer le bon spécifieur de format. Les plus rencontrés en data science sont :

    - %s -> string
    - %d -> Integer
    - %f -> Float

In [186]:
print("Hello %s" % string1)
print("Actual Number = %d" %18)
print("Float of the number = %f" %18)

Hello World
Actual Number = 18
Float of the number = 18.000000


In [166]:
print("Hello %s %s. This meaning of life is %d" %(string1,string2,42))

Hello World !. This meaning of life is 42


### Autres méthodes pour les strings

Multiplier un string par un entier le répète simplement autant de fois

In [187]:
print("Hello World! "*5)

Hello World! Hello World! Hello World! Hello World! Hello World! 


De nombreuses transformations sont disponibles grâce à une large variété de fonctions Python :

In [189]:
s="hello wOrld"
print(s.capitalize())

print(s.upper())

print(s.lower())

print('|%s|' % "Hello World".center(30)) # center in 30 characters

print('|%s|'% "     lots of space             ".strip()) # remove leading and trailing whitespace

print("Hello World".replace("World","Class"))

Hello world
HELLO WORLD
hello world
|         Hello World          |
|lots of space|
Hello Class


In [190]:
s="Hello World"
print("The length of '%s' is"%s,len(s),"characters") # len() gives length

s.startswith("Hello") and s.endswith("World") # check start/end
# count strings

print("There are %d 'l's but only %d World in %s" % (s.count('l'),s.count('World'),s))

print('"el" is at index',s.find('el'),"in",s) #index from 0 or -1

The length of 'Hello World' is 11 characters
There are 3 'l's but only 1 World in Hello World
"el" is at index 1 in Hello World


### Comparaison de strings

Comme déjà expliqué il est aussi possible de comparer des strings.

In [191]:
'abc' < 'bbc' <= 'bbc'

True

In [192]:
"ABC" in "This is the ABC of Python"

True

### Manipulation de strings

Il est possible d'accéder à des parties d'une chaine de caractère au moyen de son indexation.

In [195]:
s = '123456789'

print('First character of',s,'is',s[0])

print('Last character of',s,'is',s[len(s)-1])

First character of 123456789 is 1
Last character of 123456789 is 9


Les valeurs d'indice négatifs fonctionnent aussi sur les strings.

In [196]:
print('First character of',s,'is',s[-len(s)])

print('Last character of',s,'is',s[-1])

First character of 123456789 is 1
Last character of 123456789 is 9


Idem pour le slicing et l'extraction de partie d'un string :

In [197]:
print("First three characters",s[0:3])
print("Next three characters",s[3:6])

First three characters 123
Next three characters 456


In [199]:
print("First three characters", s[:3]) # 3 premiers caractères
print("Last three characters", s[-3:]) # 3 derniers caractères

First three characters 123
Last three characters 789


Les strings sont dit **immutables ** - immuables -, ils sont constants et on ne peut les modifier !

In [202]:
s='012345'
sX=s[:2]+'X'+s[3:] # On peut créer un nouveau string en replacant 2 par X
print("creating new string",sX,"OK")

sX=s.replace('2','X') # idem
print(sX,"still OK")

creating new string 01X345 OK
01X345 still OK


In [203]:
s[2] = 'X' # mais on ne peut pas modifier un caractère du string, cela retourne une erreur !!!

TypeError: 'str' object does not support item assignment