# Python 1 - Notes de cours

<img style="float: left;" src="images/logo.png">

### CSD - Comité Science de Données HEC
##### Préparées par Samuel Tremblay, VP-Éducation 2019-2020
#### Sommaire
1. Structures de données de base
    * Chaînes de caractères
    * Listes
    * Uplets (*tuples*) 
    * Dictionnaires
2. Structures de données avancées
    * Matrices (*arrays*) ```NumPy```
    * Tableaux de données (*data frames*) ```Pandas```
3. Importation de données 
    * À l'aide de ```NumPy```
    * À l'aide de ```Pandas```
4. Écriture de données
    * À l'aide de ```NumPy```
    * À l'aide de ```Pandas```

## 1. Structures de données de base    
### Chaînes de caractères
Les chaînes de caractères sont une composante essentielle de la programmation. Elles permettent de stocker de l'information lisible par l'humain : des caractères. Elles sont créées grâce aux opérateurs ```''``` et ```""```, qui produisent un résultat équivalent. Celles-ci peuvent être vues sous forme matricielle et possèdent de nombreuses méthodes intéressantes que nous regarderons.

In [39]:
# 1. Elles ont une forme matricielle
ma_chaine = 'Stella est un chat'
print('Propriété 1\n', ma_chaine[:6] + ma_chaine[6:])

Propriété 1
 Stella est un chat


In [43]:
# 2. Méthode strip() retire les espaces au début et à la fin de la chaîne
ma_chaine = ' Stella est un chat'
print('Méthode strip()\n', ma_chaine, '\n', ma_chaine.strip())

Méthode strip()
  Stella est un chat   
 Stella est un chat


In [44]:
# 3. Méthode upper() retourne la chaîne mise en majuscules
print('Méthode upper()\n', ma_chaine, '\n', ma_chaine.upper())

Méthode upper()
  Stella est un chat   
  STELLA EST UN CHAT  


In [45]:
# 4. Méthode lower() retourne la chaîne mise en minuscules
print('Méthode upper()\n', ma_chaine, '\n', ma_chaine.lower())

Méthode upper()
  Stella est un chat   
  stella est un chat  


In [47]:
# 5. Méthode replace() remplace une expression par une autre
print('Méthode upper()\n', ma_chaine, '\n', ma_chaine.replace('Stella', 'Théo'))

Méthode upper()
  Stella est un chat   
  Théo est un chat  


In [50]:
# 6. Méthode split() retourne la chaîne séparée dans une liste en fonction du séparateur désiré
print('Méthode upper()\n', ma_chaine.strip().split(' '))

Méthode upper()
 ['Stella', 'est', 'un', 'chat']


### Listes
Les listes sont la principale structure de données de Python. Elles sont créées grâce aux crochets `[]` et possèdent plusieurs caractéristiques intéressantes que nous démontrerons :
1. Elles sont ordonnées
2. Elles peuvent contenir n'importe quel objet
3. On y accède en utilisant leur index
4. Elles peuvent être imbriquées
5. Elles sont mutables

In [55]:
# 1. Elles sont ordonnées
ma_liste = ['chat', 'chien']
print('Propriété 1\n', ma_liste[0] == ma_liste[1])

Propriété 1
 False


In [40]:
# 2. Elles peuvent contenir n'importe quel objet
ma_liste = ['chat', 0.3, False]
print('Propriété 2\n', ma_liste)

Propriété 2
 ['chat', 0.3, False]


In [41]:
# 3. On y accède en utilisant leur index
print('Propriété 3\n', ma_liste[0], ma_liste[-3], ma_liste[0:1])

Propriété 3
 chat chat ['chat']


In [42]:
# 4. Elles peuvent être imbriquées
ma_liste = ['chat', ['chien']]
print('Propriété 4\n', ma_liste[0], ma_liste[1][0])

Propriété 4
 chat chien


In [44]:
# 5. Elles sont mutables
ma_liste[1] = 'meow'
print('Propriété 5 (assignation)\n', ma_liste)
ma_liste.append('chien') # Méthode append(x)
print('Propriété 5 (append)\n', ma_liste)
ma_liste.pop(-2)         # Méthode pop(x)
print('Propriété 5 (pop)\n', ma_liste)

Propriété 5 (assignation)
 ['chat', 'meow']
Propriété 5 (append)
 ['chat', 'meow', 'chien']
Propriété 5 (pop)
 ['chat', 'chien']


### Uplets
Les uplets sont similaires aux listes sur de nombreuses propriétés, outre le fait qu'ils sont immuables. Ainsi, il est possible de les concaténer mais pas de leur assigner de nouvelles valeurs. Ils sont produits grâce à l'opérateur `()` et sont souvent le produit de fonctions.

In [45]:
# 1. Ils sont ordonnées
mon_uplet = ('chat', 'chien')
print('Propriété 1\n', mon_uplet[0] == mon_uplet[1])

Propriété 1
 False


In [46]:
# 2. Ils peuvent contenir n'importe quel objet
mon_uplet = ('chat', 0.3, False)
print('Propriété 2\n', mon_uplet)

Propriété 2
 ('chat', 0.3, False)


In [47]:
# 3. On y accède en utilisant leur index
print('Propriété 3\n', mon_uplet[0], mon_uplet[-3], mon_uplet[0:1])

Propriété 3
 chat chat ('chat',)


In [10]:
# 4. Ils peuvent être imbriqués
mon_uplet = ('chat', ('chien',)) # Remarquer la virgule après un uplet d'un seul item
print('Propriété 4\n', mon_uplet[0], mon_uplet[1][0])

Propriété 4
 chat chien


In [53]:
# 5 Ils sont immuables
mon_uplet[1] = 'meow'

TypeError: 'tuple' object does not support item assignment

### Dictionnaires
Les dictionaires sont un ensemble de données sans ordre particulier, mutable, indexé et imbriquable. Ils sont créés grâce à l'opérateur ```{}``` et possèdent des binômes « clé : valeur ». Il est également possible d'utiliser la fonction ```dict(clé = valeur)``` pour les créer. Noter ici (1) l'utilisation du ```=``` plutôt que du ```:``` ainsi que (2) l'absence des guillemets pour la création des clés. On y accède en utilisant une clé, grâce à la forme suivante : ```dict['clé']```. Cela retourne alors la valeur. 

In [26]:
# 1. Ils n'ont pas d'ordre particulier
mon_dict = {
    'race' : 'bengal',
    'nom' : 'Stella',
    'age' : 5,
    'male' : False
}
print('Propriété 1 (opérateur {})\n', mon_dict)
mon_dict = dict(race = 'bengal', nom = 'Stella', age = 5, male = False)
print('Propriété 1 (fonction dict)\n', mon_dict)
print('Propriété 1 (sans ordre) \n') 
print(mon_dict[0])

Propriété 1 (opérateur {})
 {'race': 'bengal', 'nom': 'Stella', 'age': 5, 'male': False}
Propriété 1 (fonction dict)
 {'race': 'bengal', 'nom': 'Stella', 'age': 5, 'male': False}
Propriété 1 (sans ordre) 



KeyError: 0

In [27]:
# 2. Ils sont indexés et mutables
print('Propriété 2 (indexation)\n', mon_dict['race'])
mon_dict['race'] = 'inconnue'
print('Propriété 2 (assignation)\n', mon_dict['race'])
mon_dict.pop('race')
print('Propriété 2 (supression)\n', mon_dict)
mon_dict['pelage'] = 'brun tigré'
print('Propriété 2 (ajout)\n', mon_dict)

Propriété 2 (indexation)
 bengal
Propriété 2 (assignation)
 inconnue
Propriété 2 (supression)
 {'nom': 'Stella', 'age': 5, 'male': False}
Propriété 2 (ajout)
 {'nom': 'Stella', 'age': 5, 'male': False, 'pelage': 'brun tigré'}


In [28]:
# 3. Ils peuvent être imbriquées
mon_dict = {
    'Stella' : {
        'race' : 'bengal',
        'âge' : 5
    },
    'Théo' : {
        'race' : 'inconnue',
        'âge' : 2
    }
}
print('Propriété 3\n', mon_dict['Stella']['race'])

Propriété 3
 bengal


### Exercises - Structures de données de base
#### 1. Chaînes de caractères
a) Assigner à une variable ```x``` la phrase suivante : HEC Montréal est un établissement universitaire québécois situé à Montréal (Canada).

b) Supprimer tout ce qui n'est pas une lettre, en conservant les espaces.

c) Remplacer les lettres majuscules par des minuscules.

d) Séparer les mots de la phrase et les mettre dans une liste ```x_list```.
#### 2. Listes
a) Prendre ```x_list``` et y supprimer l'entrée 'canada'.

b) Ajouter à ```x_list``` 'québec'.

c) Faire une sous-liste ```x_sub_list``` formée des 6 premiers éléments.

#### 3. Uplets
a) Créer un uplet ```x_uplet``` à partir des deux permiers éléments de ```x_sub_list```.

#### 4. Dictionnaires
a) Transformer votre upplet en un dictionnaire ```x_dic``` avec comme clés ```ecole : hec``` et ```ville : montréal```.

b) Remplacer la valeur de la clé ```ecole``` par 'polytechnique'.

## Structures de données avancées
### Matrices (*arrays*) ```NumPy```
La librairie ```NumPy``` a été conçue afin de faciliter l'abstraction de matrices mathématiques ainsi que les opérations sur celles-ci. Elle fournit également une structure de données standardisée à d'autres librairies, comme ```SciPy```, laquelle permet de recréer un environnement similaire à celui de MatLab. Pour l'installer, taper dans l'invite de commande : 

```bash
pip install numpy
```
L'objet principal de ```NumPy``` est le ```ndarray```, lequel est créé grâce à diverses fonctions, la plus simple étant ```np.array()```. C'est une forme augmentée de la liste, introduite dans la précédente section. Elle possède ainsi les mêmes méthodes d'indexation.

In [44]:
import numpy as np
ndarray1 = np.array(
    [[0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]]
)
# Méthode alternative
ndarray2 = np.arange(9).reshape(3, 3)
print('Les deux matrices sont-elles équivalentes?\n', ndarray1 == ndarray2)
# Indexation de la valeur à la position mathématique (2, 2)
print('La valeur (2, 2) de la matrice est :', ndarray1[1][1])

Les deux matrices sont-elles équivalentes?
 [[ True  True  True]
 [ True  True  True]
 [ True  True  True]]
La valeur (2, 2) de la matrice est : 4


Un objet ```ndarray``` supporte de nombreuses fonctions qui permettent d'en apprendre plus sur celui-ci.

In [45]:
ndarray = np.arange(12).reshape(3, 4)
# Nombre de dimensions (axes) de l'objet
print('L\'objet a', ndarray.ndim, 'dimensions')

# Nombre de dimensions (axes) de l'objet
print('Les dimensions de l\'objet sont de la forme', ndarray.shape)

# Nombre d'éléments de l'objet
print('L\'objet a', ndarray.size, 'éléments')

L'objet a 2 dimensions
Les dimensions de l'objet sont de la forme (3, 4)
L'objet a 12 éléments


Évidemment, il permet également d'effectuer une série d'opérations mathématiques de base.

In [50]:
A, B = np.arange(4), np.array([3, 4, 5, 6])
# Produit élément par élément
C = A * B
print('Le produit élément par élément de A par B est :', C)

# Produit matriciel
C = A @ B
print('Le produit matriciel de A par B est :', C)

# Addition élément par élément
C = A + B
print('L\'addition élément par élément de A par B est :', C)

# Divison élément par élément
C = A / B
print('La division élément par élément de A par B est :', C)

Le produit élément par élément de A par B est : [ 0  4 10 18]
Le produit matriciel de A par B est : 32
L'addition élément par élément de A par B est : [3 5 7 9]
La division élément par élément de A par B est : [0.   0.25 0.4  0.5 ]


### Tableaux de données (*data frames*) ```Pandas```
La librairie ```Pandas``` dont le principal objectif est la manipulation et l'analyse de données. Elle propose l'objet ```DataFrame```, lequel permet de recréer sous Python un environnement de base de données : chaque colonne est une caractéristique et chaque ligne, une observation (ou entrée). La fonction permettant de créer un tableau de données est ```pd.DataFrame()```. Il est important de spécifier l'index d'une entrée : celui-ci doit habituellement être unique.

In [126]:
import pandas as pd
index = ['Stella', 'Théo']
data = {'male': [False, True],
        'age' : [5.1, 2.3],
        'race': ['bengal', 'inconnue']
}
df = pd.DataFrame(data = data, index = index)
df

Unnamed: 0,male,age,race
Stella,False,5.1,bengal
Théo,True,2.3,inconnue


L'accès aux données se fait de multiples façons et c'est ici que la définition de l'index est importante. L'attribut ```.loc['index', 'col']``` permet de retrouver des colonnes, lignes ou cellules. Celui-ci supporte aussi la mutation de valeurs : il sert donc à afficher puis à remplacer, selon le besoin. Il existe d'autres méthodes qui ne seront pas abordées ici.

In [131]:
# Accéder aux entrées d'une colonne
print('Accéder à une colonne : \n', df.loc[:, 'male'], '\n') # Méthode équivalente : df['male'] ou df.male

# Accéder aux caractéristiques d'une entrée
print('Accéder à une ligne : \n', df.loc['Stella'], '\n') # Pas besoin de spécifier 'col' ici

# Accéder à une caractéristique d'une entrée (cellule)
print('Accéder à une cellule :', df.loc['Stella', 'male'], '\n')

# Remplacer une valeur
print('Remplacer une valeur :')
df.loc['Stella'] = ['', '', '']
df

Accéder à une colonne : 
 Stella        
Théo      True
Name: male, dtype: object 

Accéder à une ligne : 
 male    
age     
race    
Name: Stella, dtype: object 

Accéder à une cellule :  

Remplacer une valeur :


Unnamed: 0,male,age,race
Stella,,,
Théo,True,2.3,inconnue


Enfin, ```Pandas``` supporte une série d'attributs intéressants qui ne seront pas démontrés : 
* ```.mean()```  : Retourne la moyenne de chaque colonne
* ```.cor()``` : Retourne les corrélations entre les différentes colonnes
* ```.count()``` : Retourne le compte des valeurs non-nulles de chaque colonne
* ```.max()``` : Retourne la valeur maximale de chaque colonne
* ```.min()``` : Retourne la valeur minimale de chaque colonne
* ```.median()``` : Retourne la médiane de chaque colonne
* ```.std()``` : Retourne l'écart-type de chaque colonne

### Exercises - Structures de données avancées
#### 5. Matrices ```NumPy```
a) Créer une matrice ```A``` 2 x 2 avec des chiffres allant de 0 à 3.

b) Additionner à ```A``` la matrice identité.

c) Remplacer la valeur à la position mathématique (1, 1) de ```A``` par un 0.
#### 6. Tableaux de données ```Pandas```
a) Créer un tableau ```df``` avec les entrées suivantes : ```produit : [croustilles, biscuit], prix : [2, 1.50], ventes : [1000, 1750]```. Ne pas spécifier d'index.

b) Ajouter l'entrée suivante au tableau : ```produit : salade, prix : 5, ventes : 500```

c) Créer une colonne représentant ```profit```, où ```profit = prix * ventes```.

d) Calculer la médiane des 3 dernières colonnes seulement.
