# Quiz de révision*

1. Écrire une fonction permettant d'imprimer les chiffres allant de 1 à 10.
2. Modifier cette première fonction de façon à ce qu'elle retourne la chaine de caractères "titi" si le nombre à imprimer est un multiple de 3.
3. Modifier cette seconde fonction de façon à ce qu'elle retourne la chaine de caractères "toto" si le nombre à imprimer est un multiple de 2 ET de 3.

*<sub>Exercice inspiré par ce [site](https://ditam.github.io/posts/fizzbuzz/), mais version novice; pour d'autres exercices de programmation, voir [reddit/DailyProgammer](https://www.reddit.com/r/dailyprogrammer/)<sub>

In [10]:
# Exemple de solution pour la question 1.
def count1():
    """
    Cette fonction imprime une série allant de 1 à 10.
    """
    for nbr in range(1, 11) :
        print(nbr)
count1()

1
2
3
4
5
6
7
8
9
10


In [11]:
# Exemple de solution pour la question 2.
def count2():
    """
    Cette fonction imprime une série allant de 1 à 10 et
    retourne la chaine de caractère "titi" si le nombre
    à imprimer est un multiple de 3.
    """
    for nbr in range(1, 11) :
        if nbr % 3 == 0 :
            print("titi")
        else :
            print(nbr)

count2()

1
2
titi
4
5
titi
7
8
titi
10


In [12]:
# Exemple de solution pour la question 3.
def count3():
    """
    Cette fonction imprime une série allant de 1 à 10 et
    retourne la chaine de caractère "titi" si le nombre
    à imprimer est un multiple de 3 et "toto" si le nombre
    à imprimer est un multiple de 2 ET de 3.
    """
    for nbr in range(1, 11) :
        if nbr % 3 == 0 and nbr % 2 == 0:
            print("toto")
        elif nbr % 3 == 0:
            print("titi")
        else:
            print(nbr)

count3()

1
2
titi
4
5
toto
7
8
titi
10


# Introduction à l'analyse de données

## Module 2 : Obtenir et structurer des données

### Par Nicolas Corneau-Tremblay

# Plan du module

***

1. Les *tidy data*
2. Les bases de données relationnelles
3. Algèbre relationnelle
4. Introduction au SQL
5. Python et SQLite
6. Devoir

# 2.1 Les *tidy data*

***

Quiz : Combien y a-t-il de variables dans cette table et quelles sont-elles?*

|  Individu  |  1999  |  2001  | 2003 |
| ---------- |:------:|:------:|:----:|
| Anne       |   3    |   5    |  7   |
| Mathieu    |   9    |   2    |  1   |


Difficile à dire, puisque les données ne sont pas organisées de façon intuitive.

*<sub>Exemple inspiré de cette [présentation](http://courses.had.co.nz.s3-website-us-east-1.amazonaws.com/12-rice-bdsi/slides/07-tidy-data.pdf) d'Hadley Wickham<sub>

Réponse : 3 variables $\rightarrow$ Individu, Année, Valeur.

|  Individu   |    Année   |     Valeur    |
|:-----------:| :--------: | :------------:|
|    Anne     |    1999    |       3       |
|    Anne     |    2001    |       5       |
|    Anne     |    2003    |       7       |
|    Mathieu  |    1999    |       9       |
|    Mathieu  |    2001    |       2       |
|    Mathieu  |    2003    |       1       |

Le problème, c'est que les noms de colonnes n'identifiaient pas des variables, mais plutôt les valeurs de la variable Année.

- À l'université, les données fournies aux étudiants dans le cadre des cours sont généralement bien organisées (ce cours ne fait pas exception à cette règle).
- Dans la vraie vie, c'est autre chose!
- Lorsque des données sont en jeu, il est important de bien cerner quel est le problème que l'on tente de résoudre, comment les données sont actuellement structurées et comment elles devraient l'être pour faciliter leur utilisation.
- Cette réflexion est fondamentale puisque **récolter et organiser des données** constituent environ **80% du travail en analyse de données** (source : [Forbes](https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#4e69b73c6f63)).
- C'est un travail qui peut paraître ingrat, mais qui est d'une importance capitale.
- Adage célèbre en analyse de données : *garbage in, garbage out.*


Les *tidy data* (expression proposée par Hadley Wickham) : une façon standardisée de lier la structure des données (leur présentation visuelle) à leur sémantique (leur sens).

Structure des données :

- Généralement, il est souhaitable que les données soient structurées dans une table rectangulaire composée de colonnes et de lignes (Penser feuille Excel). Cela facilite leur manipulation, leur analyse et leur utilisation.


Sémantique des données :

- Les données sont un ensemble de valeurs (numérique, chaine de caractères, etc.).
- Chaque valeur appartient à une variable et à une observation.
- Une variable contient toutes les valeurs mesurant une même caractéristique à travers les unités.
- Une observation contient toutes les valeurs mesurées pour la même unité.


Pour que des données répondent aux critères de *tidy data*, il faut que :

1. Chaque variable forme une colonne.
2. Chaque observation forme une rangée.
3. Chaque type d'observation forme une table (important en base de données relationnelle, à suivre).

- Structure et sémantique des données idéales :

| Variable 1 | Variable 2 | Variable 2 | ...
| :--------: |:----------:|:----------:|
| valeur 1,1 | valeur 1,2 | valeur 1,3 | ...
| valeur 2,1 | valeur 2,2 | valeur 2,3 | ...
| valeur 3,1 | valeur 3,2 | valeur 3,3 | ...
| ...        | ...        | ...        | ...

- Les données répondent rarement aux trois critères précédents (problèmes : les noms de colonnes sont des valeurs, plusieurs variables sont stockées dans une même colonne, plusieurs unités d'observation dans une même table, etc.).
- Obtenir et structurer des données consiste à faire en sorte qu'elles y parviennent.

En somme :

- La notion de *tidy data* est une façon systématique et cohérente d'organiser les données.
- Les variables et les observations doivent être identifiées correctement.
- Le défi est de partir de l'état actuel des données pour parvenir à une forme *tidy*.
- Le concept de *tidy data* sera possiblement peu pertinent durant vos études. Il risque de l'être beaucoup plus ensuite!


## 1.2 Les bases de données relationnelles

***

- Situation hypothétique

![](images/large.png)

Pourquoi est-ce que cette table est potentiellement problématique?

Problèmes :

1. Doublon : même information dans différentes variables $\rightarrow$ "ville_provenance" et "ville".
2. Redondance : même information répétée $\rightarrow$ information sur les études identique pour Anne et Paul.
3. Dimension : énormément d'information contenue dans une même table.
4. Erreur : saisir toutes les informations à chaque fois = erreurs plus fréquentes $\rightarrow$ même signification pour valeurs "Baccalaureat" et "Bacc.", mais écrites différemment.
5. Multiples tables (pas dans ce cas) : plusieurs tables à plusieurs endroits (Régistraire, département, associations étudiantes, etc.) $\rightarrow$ Incohérence entre les différentes versions (synchronisation).

Conséquences :

1. Prend beaucoup de place de stockage.
2. Ralentit la manipulation informatique.
3. Crée un potentiel important d'erreur dans les données.


- Alternative

![](images/multiple.png)


Avantages :

1. Les modifications n'ont à être faites qu'à un seul endroit (multiples tables).
2. Le stockage est fait de façon plus efficace (redondance et dimension).
3. Le repérage et la correction des erreurs sont facilités (doublon et mauvaise entrée).
5. Manipulation des tables et des données plus simple et rapide (ralentissement).

À noter, dans la version alternative, chaque colonne est une variable, chaque obervation est une ligne et *chaque table contient un type d'observation*. Les tables la composant répondent donc aux trois critères des *tidy data*.

La structure précédente a un nom : une **base de données relationnelle**.

- Ensemble de tables contenant de l'information différente.
- Dans les tables, les colonnes se nomment des champs (variables) et les lignes se nomment des enregistrements (observations).
- Ces tables sont liées entre elles à travers des clés.
- Clé primaire : identifie de façon unique chaque enregistrement dans une table.
- Clé étrangère : fait référence aux autres tables et garantit l'intégrité référentielle.
- Intégrité référentielle : pour chaque valeur d'une table faisant référence à une valeur dans une autre table, la valeur dans l'autre table existe.

Quiz
    
![](images/quiz.png)

1. Pour chaque table, quelle est la clé primaire?
2. Quelle(s) table(s) contient (contiennent) des clés étrangères? Quelles sont ces clés?

En somme, les bases de données relationnelles :

- Permettent de stocker les données de façon optimale.
- Permettent de faciliter leur organisation et leur gestion.
- Permettent de mettre en relation des données de différentes provenances de manière structurée et cohérente.


## 1.3 Algèbre relationnelle

***

Diverses opérations permettant de manipuler les tables dans une base de données relationnelles existent.

Ces opérations sont définies par l'**algèbre relationnelle**.

Algèbre relationnelle : ensemble d'opérations permettant de manipuler des relations afin d'en obtenir de nouvelles.

Relation : ensemble de n-uplets partageant les mêmes attributs. Deux composantes :

   1. Schéma : de quoi sont composés les n-uplets.
   2. Extension : le contenu des n-uplets.

N-uplet : objet ordonné ayant la forme $(x_1, ..., x_n)$ où chaque $x_i$ est un élément d'un ensemble défini.


Exemple : Table etudiant

![](images/algebre.png)

Relation* : Table etudiant

Schéma : 

{id, prenom, nom_famille, sexe, age, code_ville, code_etude}

Extension : 

{11032242, Paul, St-Amand, H, 22, 322, ECN_B1}, {11037986, Anne, Nguyen, F, 19, 139, ECN_B1}, {11089654, Iris, Mathieu, F, 20, 172, MAT_M1}

N-uplet :

{11032242, Paul, St-Amand, H, 22, 322, ECN_B1}

*<sub>Différence entre une relation et une table : Une relation est non-ordonnée et ne peut contenir deux fois le même enregistrement.<sub>




Opérateurs en algèbre relationnelle :

- Restriction ($\sigma$).
- Projection ($\pi$).
- Jointures.

**Restriction** :
    
- Pour une relation, sélectionne un ensemble de n-uplets qui vérifient un critère donné.
- Retourne un nouvel ensemble de n-uplets provenant de la même relation.

Exemple : Relation 1
    
|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F   | 20  |    172     |   MAT_M1   |

Restriction : $\sigma_{sexe == F}(R1)$

    
|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F   | 20  |    172     |   MAT_M1   |


**Projection** :

- Pour une relation, sélectionne un ensemble d'attributs spécifiés.
- Retourne un sous ensemble d'attributs pour l'ensemble de n-uplets provenant de la même relation.

Exemple : Relation 1 

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F  |  20  |    172     |   MAT_M1   |

Projection : $\pi_{id, sexe, age}(R1)$

|    id    | sexe | age |
|:--------:|:----:|:---:|
| 11032242 |  H   | 22  |
| 11037986 |  F   | 19  |
| 11089654 |  F  |  20  |

**Jointure** :

- Combine deux relations selon un critère donné.
- Retourne une nouvelle relation composée d'un ensemble de n-uplets combinés selon le critère spécifié.
- Le critère est déterminé par le type de jointure :

    1. Jointure naturelle ($\bowtie$).
    2. Produit cartésien ($\times$).
    3. Thêta-Jointure ($\bowtie_{\theta}$).

**Jointure, jointure naturelle** :
    
- Conserve l'ensemble des attributs de chacune des relations.
- Retourne l'ensemble des n-uplets pour lesquels les attributs communs aux deux relations sont les mêmes.

Exemple : Relation 1

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F  |  20  |    172     |   MAT_M1   |

Relation 2

| code_ville |   ville   |
|:----------:|:---------:|
|    322     | New-York  |

Jointure naturelle : $R3 \equiv R1 \bowtie R2$

|    id    | sexe | age | code_ville_R1 | code_etude | code_ville_R2  |   ville   |
|:--------:|:----:|:---:|:-------------:|:----------:|:--------------:|:---------:|
| 11032242 |  H   | 22  |      322      |   ECN_B1   |       322      | New-York  | 

**Jointure, produit cartésien :**

- Conserve l'ensemble des attributs de chacune des relations.
- Retourne l'ensemble des combinaisons possibles entre les deux relations.


Exemple : Relation 1

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11089654 |  F  |  20  |    172     |   MAT_M1   |

Relation 2

| code_etude |   programme  |
|:----------:|:------------:|
|   ECN_B1   |    Economie  |
|   MAT_M1   | Mathématique |

Produit cartésien : $R3 \equiv R1 \times R2$
    
|    id    | sexe | age | code_ville | code_etude_R1 | code_etude_R2 |   programme  |
|:--------:|:----:|:---:|:----------:|:-------------:|:-------------:|:------------:|
| 11032242 |  H   | 22  |    322     |     ECN_B1    |     ECN_B1    |    Economie  |
| 11032242 |  H   | 22  |    322     |     ECN_B1    |     MAT_M1    | Mathématique |
| 11089654 |  F   |  20 |    172     |     MAT_M1    |     ECN_B1    |    Economie  |
| 11089654 |  F   |  20 |    172     |     MAT_M1    |     MAT_M1    | Mathématique |

**Jointure, thêta-jointure** :

- Calcul le produit cartésien.
- Retourne ce résultat après y avoir imposée une restriction.

Exemple : Relation 1

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F  |  20  |    172     |   MAT_M1   |

Relation 2

| code_ville |   ville   |
|:----------:|:---------:|
|    322     | New-York  |

Jointure naturelle : $R3 \equiv R1 \bowtie R2$

|    id    | sexe | age | code_ville_R1 | code_etude | code_ville_R2  |   ville   |
|:--------:|:----:|:---:|:-------------:|:----------:|:--------------:|:---------:|
| 11032242 |  H   | 22  |      322      |   ECN_B1   |       322      | New-York  |

Thêta jointure : $R3 \equiv R1 \bowtie_{\theta} R2 \equiv \sigma_{\theta}(R1 \times R2)$

1. Produit cartésien : $R1 \times R2$


|    id    | sexe | age | code_ville_R1 | code_etude | code_ville_R2  |   ville   |
|:--------:|:----:|:---:|:-------------:|:----------:|:--------------:|:---------:|
| 11032242 |  H   | 22  |      322      |   ECN_B1   |       322      | New-York  |
| 11037986 |  F   | 19  |      139      |   ECN_B1   |       322      | New-York  |
| 11089654 |  F   |  20 |      172      |   MAT_M1   |       322      | New-York  |

2. restriction : $\sigma_{code\_ville\_R1 == code\_ville\_R2}(R3)$

|    id    | sexe | age | code_ville_R1 | code_etude | code_ville_R2  |   ville   |
|:--------:|:----:|:---:|:-------------:|:----------:|:--------------:|:---------:|
| 11032242 |  H   | 22  |      322      |   ECN_B1   |       322      | New-York  |

Il existe 4 types de thêta-jointure :

1. Jointure interne (*inner join*).
2. Jointure externe à gauche (*left outer join*).
3. Jointure externe à droite (*right outer join*).
4. Jointure externe complète (*full outer join*).


**Jointure interne (*inner join*) :**
    
- Retourne l'ensemble des n-uplets pour lesquels la valeur d'un attribut spécifié est la même.

Exemple : Relation 1

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F  |  20  |    172     |   MAT_M1   |

Relation 2

| code_etude | programme |
|:----------:|:---------:|
|   ECN_B1   |  Economie |
|   SOC_B1 |  Sociologie |

Jointure interne : code_etude(R1) == code_etude(R2)

|    id    | sexe | age | code_ville | code_etude | programme |
|:--------:|:----:|:---:|:----------:|:----------:|:---------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |  Economie |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |  Economie |

**Jointure externe à gauche (*left outer join*) :**
    
- Retourne l'ensemble des n-uplets de la première relation (celle de gauche).
- Retourne les n-uplets de la deuxième relation (celle de droite) pour lesquels la valeur d'un attribut spécifié est la même que celle d'un autre attribut dans la premier relation (celle de gauche).

Exemple : Relation 1

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F   | 20  |    172     |   MAT_M1   |

Relation 2

| code_etude |  programme  |
|:----------:|:-----------:|
|   ECN_B1   |    Economie |
|   SOC_B1   |  Sociologie |


Jointure externe à gauche : 

|    id    | sexe | age | code_ville | code_etude | programme |
|:--------:|:----:|:---:|:----------:|:----------:|:---------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |  Economie |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |  Economie |
| 11089654 |  F   | 20  |    172     |   MAT_M1   |    .      |

**Jointure externe à droite (*right outer join*)** :

- Retourne l'ensemble des n-uplets de la deuxième relation (celle de droite).
- Retourne les n-uplets de la deuxième relation (celle de gauche) pour lesquels la valeur d'un attribut spécifié est la même que celle d'un autre attribut dans la premier relation (celle de droite).

Exemple : Relation 1

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F   | 20  |    172     |   MAT_M1   |

Relation 2

| code_etude | programme |
|:----------:|:---------:|
|   ECN_B1   |  Economie |
|   SOC_B1 |  Sociologie |

Jointure externe à droite :

|    id    | sexe | age | code_ville | code_etude |  programme  |
|:--------:|:----:|:---:|:----------:|:----------:|:-----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |   Economie  |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |   Economie  |
|     .    |  .   |  .  |     .      |   SOC_B1   |  Sociologie |

**jointure externe complète (full outer join) :**

- Retourne l'ensemble des n-uplets pour chacune des relations.
- Pour les n-uplets dont la valeur d'un attribut spécifié est la même dans les deux relations, l'information des deux relations est jointes. 

Exemple : Relation 1

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F  |  20  |    172     |   MAT_M1   |

Relation 2

| code_etude | programme |
|:----------:|:---------:|
|   ECN_B1   |  Economie |
|   SOC_B1 |  Sociologie |

Jointure externe complète :

|    id    | sexe | age | code_ville | code_etude | programme  |
|:--------:|:----:|:---:|:----------:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |  Economie  |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |  Economie  |
| 11089654 |  F   | 20  |    172     |   MAT_M1   |      .     |
|     .    |   .  | .   |      .     |   SOC_B1   | Sociologie |

- Un autre concept important en algèbre relationnelle est celui de la **cardinalité**.
- Une particularité de la cardinalité est qu'elle possède deux définitions.
- En algèbre relationnelle, la cardinalité est définie selon **le type d'association entre deux relations**. Il s'agir donc d'un concept distinct des jointures.
- Il existe 3 types d'associations possibles entre deux relations : une à une, une à plusieurs/plusieurs à une, plusieurs à plusieurs.
- L'association **une à une** implique que pour une association entre deux relations, chaque n-uplet d'une relation est associé à un seul n-uplet d'une autre relation. Ex.: une relation `vendeur` possédant l'information personnelle de chaque vendeur et une table `ventes_vendeur` indiquant l'information sur le nombre de ventes et le motant total auquel équivalent ces ventes. Chaque vendeur possède un seul montant total de ventes.
- L'association **une à plusieurs/plusieurs à une** implique que pour une association entre deux relations, chaque n-uplet d'une relation est associé à plusieurs n-uplets d'une autre relation. Ex.: une relation `étudiant` et une relation `programme`. Chaque étudiant n'est inscrit qu'à un seul programme, mais plusieurs étudiants sont inscrits dans le même programme.
- Ces deux types d'association entre deux relations peuvent être facilement implémentés avec les jointures vues ci-haut.

- L'association **plusieurs à plusieurs** implique que pour une association entre deux relations, plusieurs n-uplets d'une relation sont associés à plusieurs n-uplets d'une autre relation. Ex.: une relation `facture` et une relation `item`. Chaque facture peut contenir de nombreux items et chaque item peut se retrouver dans plusieurs factures.
- Ce type d'association ne peut pas se faire directement d'une relation à une autre $\rightarrow$ Nécessite une table d'association.
- Une **table d'association** permet de lier deux relations lors d'une association de plusieurs à plusieurs.
- Par exemple, dans la relation `facture`, chaque n-uplet est une facture différente. Dans la relation `item`, chaque n-uplet est un item différent. Conséquemment, dans la table d'association, chaque n-uplet est une facture-item.
- Permet d'introduire de l'information sur l'association entre les deux n-uplets. Ex.: Le nombre d'items achetés sur une même facture.
- Pour ce qui est de la cardinalité, son autre définition provient du SQL que nous allons voir à l'instant.

Exemple d'association plusieurs à plusieurs :

| Facture | Motant |
|:-------:|:------:|
|    1    |    40  |
|    2    |   100  |


| Item | Prix unitaire|
|:----:|:------------:|
|  A   |       5      |
|  B   |     7,50     |


| Facture | Item | Quantité |
|:-------:|:----:|:--------:|
|    1    |   A  |     4    |
|    1    |   C  |     2    |
|    2    |   B  |    11    |


Où la troisième table est la table d'association.

Em somme :

- L'algèbre relationelle est l'abstraction mathématique permettant de manipuler et naviguer à travers les bases de données relationnelles.
- Différents opérateurs existent en algèbre linéaire; ceux-ci permettent d'interoger la base de données afin d'obtenir uniquement les attributs et les nuplets désirés.
- Les jointures sont d'une grande importance, car elle permettent de mettre en commun différentes relations afin d'obtenir une structure de données permettant d'effectuer ensuite des analyses statistiques.

## 2.4 Introduction au SQL

***

- L'implantation informatique de l'algèbre linéaire a été effectuée à l'aide du langage SQL (*Structured Query Language*).
- SQL permet de faire des **requêtes** auprès d'une base de données afin d'interagir avec elle $\rightarrow$ Le résultat d'une requête est généralement une relation.
- Avantages du SQL (en plus des avantages déjà couverts des bases de données relationnelles) :
    1. Optimiser pour la manipulation de données (rapide et efficace).
    2. Synthaxe simple et claire (et avec très peu de code).
    3. Très répandu.
- Désavantages :
    1. L'instauration d'une base de données peut être complexe pour les non initiés.
    3. L'interface peut être difficile.
    2. Certains formats de données ne se prêtent pas bien à la structure requise par les bases de données relationnelles et le SQL.

- SQL est composé de 4 langages :
    1. **Langage de définition de données (*Data Definition Language, DDL*).**
    2. **Langage de manipulation de données (*Data Manipulation Language, DML*).**
    3. Langage de contrôle de données (*Data Control Language, DCL*).
    4. Language de transaction de données (*Transaction Control Language, TCL*).

**Langage de définition de données** :

- Permet de manipuler la structure des données : créer/supprimer des tables, modifier des tables existantes, etc.

Principaux mots-clés :

- CREATE TABLE : Permet de créer une nouvelle table dans la base de données.

- ALTER TABLE (ADD/DROP/ALTER COLUMN) : Permet d'ajouter, de retirer ou de modifier des variables dans une table existante. 

- DROP TABLE : Permet de retirer une table existante de la base de données.

Exemple de requête faite avec le langage de définition de données :

`
CREATE TABLE table1 (
    var1 INT,
    var2 REAL,
    var3 TEXT,
    PRIMARY KEY (var1)
)
;
`

Cette requête crée une table appelée table1 contenant 3 variables, var1, var2 et var3, qui ont respectivement comme entrées des nombres entiers, des nombres réels et des chaines de caractères.

Les requêtes SQL se terminent toujours par un point-virgule (;).

Ici, `PRIMARY KEY` est appelée une contrainte. Dans ce cas-ci, elle identifie de façon unique chaque enregistrement dans la base de données. Il existe beaucoup d'autres types de contraintes (e.g. `NOT NULL`).

**Langage de manipulation de données :**

- Permet de manipuler les données elles-mêmes : 

Principaux mots-clés :

- SELECT ... FROM : Permet de sélectionner une ou plusieurres variables à l'intérieur d'une table (\* permet de sélectionner tous les éléments de la table.)
- INSERT INTO : Permet d'ajouter un nouvel enregistrement dans une table existante. 
- UPDATE ... SET : Permet de modifier la valeur d'un enregistrement déjà existant.
- DELETE FROM : Permet de supprimer un enregistrement existant.


- Les requêtes utilisant les mots-clés précédents peuvent être accompagnées de clauses.
- Une clause est un opérateur sur le résultat d'une requête.

Principales clauses :

- WHERE : Permet d'introduire une condition sur les enregistrements retournés.
- GROUP_BY : Permet de regrouper les enregistrements selon un attribut, généralement pour accompagner une fonction d'aggrégation (e.g. COUNT, AVG, etc.).
- LIMIT : Permet d'introduire un nombre limite d'enregistrements à retourner (utile quand la relation retournée est de taille inconnue et potentiellement volumineuse).
- INNER/LEFT OUTER/RIGHT OUTER/FULL OUTER JOIN : Permet d'effectuer des jointures selon l'algèbre relationnelle.

Exemple de requête faite avec le langage de manipulation de données :

`
SELECT table1.var1, table1.var2, table2.var3
FROM table1
LEFT OUTER JOIN table2 ON var1=var4
;
`

Cette requête sélectionne les variables `var1` et `var2` de la table `table1` et la variable `var3` de la table `table2` et effectue ensuite une jointure complète à gauche sur la table `table1` avec la table `table2` à partir des variables `var1` (`table1`) et `var4` (`table2`).

**Vue**

- Est la sauvegarde du résultat d'une requête.
- Est immuable (ne peut être transformée par son utilisateur).
- Permet de contrôler l'accès aux tables.

Exemple de requête permettant de créer une vue :
    
`CREATE VIEW vue1 AS v1
SELECT table1.var1, table1.var2, table2.var3
FROM table1
LEFT OUTER JOIN table2 ON var1=var4
;
`

Cette requête crée une vue à partir de la requête précédente concernant l'utilisation de la jointure. Cette vue se nomme `vue1`.

L'expression `AS` est utilisée afin de donner un *alias* à une table, en l'occurrence `v1`, comme il est possible de le faire avec les modules en Python.


**Fonction**

- Prend des intrants pour effectuer une ou plusieurs tâches.
- Retourne une table ou une valeur.
- Permet d'éviter la réécriture inutile de code (par exemple pour effectuer de façon récurente une requête).
- Ne peut pas modifier la structure de la base de données (ne peut pas `UPDATE` une table)

Exemple de création de fonction :

`CREATE FUNCTION desc_var
(
    @table TEXT,
    @column TEXT
)
RETURN TABLE
AS
BEGIN
    RETURN
    SELECT MIN(@column), MAX(@column), AVG(@column)
    FROM @table
END`

Cette fonction décrit une variable en retournant la valeur minimum, la valeur maximum et la moyenne d'une colonne dans une table. Possibilité ensuite d'utiliser la fonction ainsi :

`desc_var(employe, age)`


**Procédure stockée**

- Regroupement d'instruction SQL.
- Sert à effectuer des tâches plus ou moins complexes sur la base de données de façon systématique.
- Certains utilisent les procédures stockées comme des fonctions; par ailleurs, une fonction peut être appelée dans une procédure stockée.

Exemple de création d'une procédure stockée :

`CREATE PROCEDURE nouvel_achat
(
    @id INT,
    @montant INT
)
AS
BEGIN
    UPDATE client
    SET depenses_tot = depenses_tot + @montant
    WHERE client_id = @id
END`



Cette procédure stockée ajoute le montant d'une nouvelle dépense au montant de dépenses totales d'un client. Possibilité ensuite d'exécuter la procédure ainsi :

`EXECUTE nouvel_achat 123, 25`

**Cardinalité 2.0**

- La cardinalité a déjà été définie en algèbre linéaire. Dans ce contexte, elle est définie selon le type d'associations possibles entre différentes relations.
- En SQL, la cardinalité fait référence au nombre de valeurs uniques dans une colonne.
- Une cardinalité faible signifie qu'il y a peu de valeurs uniques pour une certaine colonne (cas limite : cardinalité = 1).
- Une cardinalité élevée signifie qu'il y a beaucoup de valeurs uniques pour une certaine colonne (cas limite : cardinalité = N, où N est le nombre d'enregistrements).
- Dans ce contexte, la cardinalité est un nombre.

En somme :

- Le SQL est l'implémentation informatique de l'algèbre relationnelle permettant de naviguer dans une base de données relationnelle.
- Les requêtes permettent de questionner les différentes tables de la base de données pour obtenir une nouvelle table correspondant aux besoins des analyses.
- La bonne compréhension de l'algèbre relationnelle va de paire avec la capacité d'écrire des requêtes SQL répondant correctement aux exigences.

## 2.5 Python et SQLite

***

- Il existe plusieurs implémentations de SQL : MySQL, MS SQL Server, Oracle Database, etc.
- Dans le cadre de ce cours, SQLite sera utilisé.
- SQLite est une version *light* de SQL : Gratuit et local.
- SQLite possède deux types de commandes :
    1. Commande SQL traditionnelle (e.g. SELECT)
    2. Commande propre à SQLite (e.g. .table)
- Son utilisation peut être faite à l'aide du terminal (ou de l'invite de commande), d'un interface graphique pour utilisateur (*Graphical User Interface, GUI*) tel que DB Browser ou SQLiteStudio, ou encore à l'intérieur d'un autre language de programmation.
- Dans le cadre de ce cours : Le dernier choix!
- SQLite vient avec Python via le module `sqlite3`

- Importation du module sqlite3.
- Définition d'une connection à une base de données.
- Définition du curseur.

In [4]:
import sqlite3

# Définition d'une connection à une base de données
connect = sqlite3.connect("etudiant_ulaval.db")
# si SQLite ne trouve pas la base de données, il l'a crée

# Définition du curseur
cur = connect.cursor()

Création des tables

etudiant

|    id    | sexe | age | code_ville | code_etude |
|:--------:|:----:|:---:|:----------:|:----------:|
| 11032242 |  H   | 22  |    322     |   ECN_B1   |
| 11037986 |  F   | 19  |    139     |   ECN_B1   |
| 11089654 |  F   | 20  |    172     |   MAT_M1   |


etude

| code_etude |  programme  |
|:----------:|:-----------:|
|   ECN_B1   |    Economie |
|   SOC_B1   |  Sociologie |

In [5]:
# Création de la table etudiant
cur.execute("CREATE TABLE IF NOT EXISTS etudiant(id INT, sexe TEXT, age INT, "
            "code_ville INT, code_etude TEXT) ;")

# Création de la table etude
cur.execute("CREATE TABLE IF NOT EXISTS etude(code_etude TEXT, programme TEXT);")

# Pour voir les tables existantes dans la base de données
cur.execute("SELECT name FROM sqlite_master WHERE type='table';")
tables_names = cur.fetchall() # .fetchall() "copie" le résultat de la requête
print(tables_names)

[('etudiant',), ('etude',)]


In [6]:
# Pour voir le contenu d'une table
cur.execute("SELECT * FROM etudiant;")
# L'astérisque veut dire "tous les champs (variables)" de la BD

etudiant_content = cur.fetchall()
print(etudiant_content)

[]


- Les tables sont créées, mais sont pour le moment vides.
- Ajout d'enregistrements.

In [7]:
# Ajout d'enregistrement dans la table etudiant
cur.execute("INSERT INTO etudiant VALUES(11032242, 'H', 22, 322, 'ECN_B1');")
cur.execute("INSERT INTO etudiant VALUES(11037986, 'F', 19, 139, 'ECN_B1');")
cur.execute("INSERT INTO etudiant VALUES(11089654, 'F', 20, 172, 'MAT_M1');")

# Soumission des modifications à la base de données
connect.commit()

# Ajout d'enregistrement dans la table etude (autre méthode)
cur.execute("INSERT INTO etude (code_etude, programme) VALUES(?, ?);",
            ('ECN_B1', 'Economie'))
cur.execute("INSERT INTO etude (code_etude, programme) VALUES(?, ?);",
            ('SOC_B1', 'Sociologie'))
connect.commit()

In [8]:
# Contenu de la table etudiant
cur.execute("SELECT * FROM etude;")
etude_content = cur.fetchall()
etude_content

[('ECN_B1', 'Economie'), ('SOC_B1', 'Sociologie')]

- Les enregistrements sont à présent dans la table `etude`.

- Une fois les modifications/manipulations effectuées sur la base de données, fermer le curseur et la base de données.

In [9]:
# Fermeture du curseur
cur.close()

# Fermeture de la base de données
connect.close()

La base de données est maintenant créée...

In [10]:
import glob

# Voir tous les fichiers dans le dossiers finissant par l'extension ".db"
glob.glob("*.db")

['etudiant_ulaval.db']

...et localisée dans le dossier de travail.

- Entrer les enregistrements à la main (ou *à la ligne*) n'est certainement pas optimal.
- Pour une façon alternative de procéder, voir l'exemple de travail long.
- Possibilité également de faire des jointures.

In [11]:
import sqlite3

connect = sqlite3.connect("etudiant_ulaval.db")
cur = connect.cursor()

cur.execute("SELECT name FROM sqlite_master WHERE type='table';")
tables_names = cur.fetchall()
print(tables_names)

[('etudiant',), ('etude',)]


In [12]:
# Visualisation du résultat d'une jointure
cur.execute("""SELECT etudiant.id AS id, etudiant.age AS age, etudiant.sexe AS sexe,
            etudiant.code_ville AS code_ville, etudiant.code_etude AS code_etude, 
            etude.programme AS programme 
            FROM etudiant 
            LEFT OUTER JOIN etude ON etudiant.code_etude = etude.code_etude;""")
join_gauche_content = cur.fetchall()
join_gauche_content

[(11032242, 22, 'H', 322, 'ECN_B1', 'Economie'),
 (11037986, 19, 'F', 139, 'ECN_B1', 'Economie'),
 (11089654, 20, 'F', 172, 'MAT_M1', None)]

In [13]:
cur.close()
connect.close()

Il est ensuite possible d'utiliser ce résultat et de le transformer dans un format que Python connait, par exemple un dataframe (format de données provenant du module Pandas que nous allons explorer plus en détails la semaine prochaine.)

In [15]:
import pandas as pd

connect = sqlite3.connect("etudiant_ulaval.db")

df = pd.read_sql_query("""SELECT etudiant.id AS id, etudiant.age AS age, etudiant.sexe AS sexe,
            etudiant.code_ville AS code_ville, etudiant.code_etude AS code_etude, 
            etude.programme AS programme 
            FROM etudiant 
            LEFT OUTER JOIN etude ON etudiant.code_etude = etude.code_etude;""", connect)

connect.close()

df

Unnamed: 0,id,age,sexe,code_ville,code_etude,programme
0,11032242,22,H,322,ECN_B1,Economie
1,11037986,19,F,139,ECN_B1,Economie
2,11089654,20,F,172,MAT_M1,


Exactement le résultat attendu tel que vu précédemment.

## 2.6 Devoir

***

1. Aller sur [Kaggle/Datasets](https://www.kaggle.com/datasets).
2. Créer un compte Kaggle.
3. Sélectionner et télécharger des données sur lesquelles vous désirez effectuer des analyses dans le cadre du travail long.
4. Construire une base de données SQL dans un programme Python à l'aide du module sqlite3 (voir les présentes notes et l'exemple de travail long).

Critères pour les données :

- Au moins deux tables (afin de pouvoir effectuer une jointure). 
- Éviter les bases de données portant sur les images/sons/tout autre sujet très intéressant, mais moins adapté pour un cours d'introduction à l'apprentissage automatique.
- Éviter les bases de données trop massives (paradoxal?).
- Choisir des données sur un sujet qui vous intéresse, car vous utiliserez ces données tout au long de la session.