In [1]:
%reload_ext sql
%config SqlMagic.displaycon = False
%config SqlMagic.autolimit = 100

In [2]:
%sql sqlite:///categories-socio-nord.db

Le but de ce TP est de découvrir le langage SQL sur des données réelles simples. 

Nous utiliserons des données issues de la base ouverte
[opendata.lillemetropole.fr/](https://opendata.lillemetropole.fr/),
plus précisément les données sur la population des communes du Nord en
2012 [téléchargeables ici](https://opendata.lillemetropole.fr/explore/dataset/evolution-et-structure-de-la-population-france-2012-categories-socio-professionn/information/).

Les données ont été récupérées et organisées en deux tables pour simplifier leur manipulation :

* la table *ville*
  - composée de cinq attributs de type TEXT appelés `code`, `region`,
  `departement`, `nom`, `coordonnees`. 
  - l'attribut `code` est la clé primaire. 
*  la table *evolution*
   - composée de quatre attributs appelés `code`, `categorie`,
	 `genre`, `effectif`.
   -  les attributs `code`, `categorie`, `sexe` sont de type TEXT et
	  `effectif` est de type INTEGER.
   - l'attribut `code` est une clé étrangère référençant l'attribut
    `code` de la table *ville*. 



## Préparation 

Récupérez le fichier
[categories-socio-nord.db](./categories-socio-nord.db) et ouvrez-le
à l'aide de l'application
[DB Browser for SQLite - sqlitebrowser.org/](https://sqlitebrowser.org/). 

Cette application est un client du SGBD (Système de gestion de bases
de données) SQLite qui permet de manipuler les tables et leur contenu
de façon simplifiée et graphique.  
Vous devez le télécharger et l'installer sur votre poste.

## Consultation des données

Le DB Browser permet de consulter les données présentes dans chaque table,
à l'aide de l'onglet "Parcourir les données".

* Les attributs, aussi appelés champs, sont représentés en colonnes.
* Les enregistrements, aussi appelés entrées, sont représentés en lignes.

Vous pouvez noter le nombre d'enregistrements des deux tables, cela vous aidera à mieux comprendre ce qu'il se passe lors de l'exécution de certaines requêtes.

## Extraction de données

Le DB Browser permet d'exécuter des requêtes SQL, à l'aide de l'onglet
"Exécuter le SQL".

* `SELECT` : en SQL, permet de sélectionner tout ou partie des données d'une ou plusieurs tables de la base. 

Testez les requêtes suivantes, en essayant de deviner à l'avance ce que
la requête va afficher et le nombre de lignes qui seront affichées.

Certaines requêtes génèrent des erreurs, c'est voulu.

Si vous copiez-collez plusieurs requêtes à la suite,
seule l'exécution de la dernière sera visible. Vous pouvez exécuter les
requêtes une par une en mettant les autres en commentaire en ajoutant
`--` devant celles-ci. Vous pouvez aussi surligner la requête que vous
souhaitez exécuter et cliquer sur le bouton pour exécuter le code.
    
### Extraction de données d'une seule table

```sql    
SELECT * FROM ville;
SELECT nom, code FROM ville;
```

→ On peut renommer les colonnes pour un affichage plus explicite

```sql
SELECT nom AS LIBELLE, code FROM ville;
```

→ `DISTINCT` élimine les doublons

```sql
SELECT code FROM evolution;
SELECT DISTINCT code FROM evolution;
```

→ `ORDER BY` ordonne les résultats

```sql    
SELECT DISTINCT code FROM evolution ORDER BY code DESC;
```

→ La clause `WHERE` permet de préciser un critère pour filtrer les données

```sql
SELECT * FROM ville WHERE code='59140';
SELECT nom, code FROM ville WHERE code='67340';
SELECT nom, code FROM ville WHERE code='59140' OR code='59260';
SELECT * FROM evolution WHERE code='59140';
```

→ On peut récupérer le `MIN`, le `MAX`, le nombre de lignes avec
`COUNT` ou la moyenne d'un attribut numérique avec `AVG` (_average_,
moyenne en anglais)

```sql
SELECT MIN(nom) AS MIN FROM ville;
SELECT COUNT(*) AS NbLignes FROM ville;
SELECT MAX(effectif) AS MAX, MIN(effectif) AS MIN, SUM(effectif) AS TOTAL, AVG(effectif) AS MOYENNE FROM evolution;
```


#### C'est à vous !

Construisez les requêtes permettant d'afficher les données qui répondent
aux questions suivantes.

1. Quels sont les différents libellés des catégories socioprofessionnelles par ordre alphabétique croissant ?

2. Combien de catégories différentes sont utilisées dans ce jeu de données ?

3. Quel est le code INSEE de Caullery ?

4. Affichez toutes les informations de la table évolution pour la ville de Caullery (en utilisant le code INSEE), triées par effectifs croissants.

5. Quels sont les codes postaux des villes ayant des catégories socioprofessionnelles dont les effectifs dépassent 2000 individus ?

6. Combien y a-t-il de femmes agricultrices dans le Nord ?

7. Quel est le nombre moyen d'employés par commune dans le Nord ?



In [3]:
%%sql

SELECT DISTINCT categorie
FROM evolution
ORDER BY categorie ASC;

Done.


categorie
Agriculteurs Exploitants
"Artisans, Commerçants ,Chefs d'entreprises"
Autres
"Cadres, Professions Intellectuelles Supérieures"
Employés
Ouvriers
Professions Intermédiaires
Retraités


In [6]:
%%sql

SELECT COUNT(DISTINCT categorie)
FROM evolution

Done.


COUNT(DISTINCT categorie)
8


In [7]:
%%sql

SELECT code
FROM ville
WHERE nom='Caullery';

Done.


code
59140


In [9]:
%%sql

SELECT * 
FROM
evolution
WHERE code = (SELECT code
FROM ville
WHERE nom='Caullery')
ORDER BY  effectif ASC;

Done.


code,categorie,genre,effectif
59317,Agriculteurs Exploitants,Femmes,4
59317,Agriculteurs Exploitants,Hommes,4
59317,"Artisans, Commerçants ,Chefs d'entreprises",Femmes,28
59317,"Artisans, Commerçants ,Chefs d'entreprises",Hommes,111
59317,"Cadres, Professions Intellectuelles Supérieures",Femmes,154
59317,Ouvriers,Femmes,194
59317,"Cadres, Professions Intellectuelles Supérieures",Hommes,226
59317,Employés,Hommes,261
59317,Autres,Hommes,416
59317,Professions Intermédiaires,Hommes,432


In [10]:
%%sql

SELECT DISTINCT code 
FROM
evolution
WHERE
effectif > 2000;

Done.


code
59392
59599
59183
59378
59279
59512
59650
59155
59178
59328


In [13]:
%%sql

SELECT
SUM(effectif)
FROM
evolution
WHERE genre = 'Femmes' AND categorie LIKE '%Agriculteurs%';

Done.


SUM(effectif)
1911


In [15]:
%%sql

SELECT ROUND(AVG(effectif),1)
FROM evolution
WHERE categorie LIKE '%Employés%'


Done.


"ROUND(AVG(effectif),1)"
260.2


### Extraction croisée de données de plusieurs tables

Observez les lignes, le nombre de lignes et le nombre de colonnes
des résultats des requêtes montrées en exemple.
Essayez d'en déduire le croisement qui a été fait.

→ Produit cartésien

```sql
SELECT * FROM ville, evolution;
SELECT * FROM ville, evolution WHERE nom='Caullery';
SELECT code, nom
    FROM ville, evolution
    WHERE nom='Caullery';
```

→ Attributs qui ont le même nom dans des tables différentes

Lorsque des attributs ont le même nom dans des tables différentes,
il est nécessaire de préciser le nom de la table dont viennent les
données que l'on veut afficher.

```sql
SELECT ville.code AS code1, evolution.code AS code2, nom
    FROM ville, evolution
    WHERE nom='Caullery';
```

→ On peut renommer les tables

```sql
SELECT nom, v.code AS code1, effectif
    FROM ville AS v, evolution AS e
    WHERE nom='Caullery';
```

→ Si on renomme une table, seul le nouveau nom existe dans la requête

```sql
SELECT nom, ville.code AS code1, e.code AS code2, effectif
    FROM ville AS v, evolution AS e
    WHERE nom='Caullery';
```

→ Utilisation de la jointure entre tables : `JOIN`

```sql
SELECT v.code, nom AS ville, categorie, genre, effectif
    FROM ville AS v JOIN evolution AS e ON v.code=e.code
    WHERE nom='Caullery';
```

Attention ! Il faut préciser sur quelles clés la jointure doit être
faite.

→ Un exemple de sous-requête, pas explicitement au programme

```sql
SELECT v.code AS code, nom, categorie, genre, effectif
    FROM ville AS v JOIN evolution AS e ON v.code=e.code
    WHERE  effectif=(SELECT max(effectif) FROM evolution);
```


In [18]:
%%sql

--requête qui n'a aucun sens, on associe toutes les lignes de ville à toutes les lignes d'evolution

SELECT * FROM ville, evolution WHERE nom='Caullery';

Done.


code,region,departement,nom,coordonnees,code_1,categorie,genre,effectif
59140,31,59,Caullery,"50.0824546804,3.37276572782",59120,Professions Intermédiaires,Femmes,128
59140,31,59,Caullery,"50.0824546804,3.37276572782",59137,Professions Intermédiaires,Hommes,8
59140,31,59,Caullery,"50.0824546804,3.37276572782",59648,"Artisans, Commerçants ,Chefs d'entreprises",Hommes,173
59140,31,59,Caullery,"50.0824546804,3.37276572782",59288,Retraités,Hommes,230
59140,31,59,Caullery,"50.0824546804,3.37276572782",59033,Employés,Femmes,878
59140,31,59,Caullery,"50.0824546804,3.37276572782",59596,"Cadres, Professions Intellectuelles Supérieures",Hommes,28
59140,31,59,Caullery,"50.0824546804,3.37276572782",59228,"Cadres, Professions Intellectuelles Supérieures",Femmes,44
59140,31,59,Caullery,"50.0824546804,3.37276572782",59515,Employés,Femmes,70
59140,31,59,Caullery,"50.0824546804,3.37276572782",59353,Autres,Hommes,8
59140,31,59,Caullery,"50.0824546804,3.37276572782",59002,Agriculteurs Exploitants,Hommes,8


### C'est à vous!

Construisez les requêtes permettant d'afficher les données qui répondent
aux questions suivantes.

1. Affichez les catégories socioprofessionnelles, genres et effectifs
pour la ville de Caullery, sans utiliser le code INSEE, triées par effectifs croissants.

2. Affichez les noms des villes, ainsi que les catégories et genres
des données ayant des effectifs à 0, triés par catégories.

3. Quelles sont les noms des villes ayant des catégories socioprofessionnelles dont les effectifs dépassent 2000 individus ?

4. Ordonnez le résultat par effectifs décroissants. 

5. Même question en supprimant la ville de Lille des résultats
   possibles. 


In [20]:
%%sql

SELECT categorie, genre, effectif
FROM ville JOIN evolution
ON ville.code=evolution.code
WHERE nom='Caullery'
ORDER BY effectif ASC;

Done.


categorie,genre,effectif
"Cadres, Professions Intellectuelles Supérieures",Femmes,0
Professions Intermédiaires,Hommes,0
Agriculteurs Exploitants,Femmes,0
Autres,Hommes,4
Agriculteurs Exploitants,Hommes,8
"Artisans, Commerçants ,Chefs d'entreprises",Femmes,8
"Cadres, Professions Intellectuelles Supérieures",Hommes,12
Employés,Hommes,12
"Artisans, Commerçants ,Chefs d'entreprises",Hommes,12
Ouvriers,Femmes,24


In [23]:
%%sql

SELECT categorie, genre, nom, effectif
FROM ville JOIN evolution
ON ville.code=evolution.code
WHERE effectif=0
ORDER BY categorie ASC;

Done.


categorie,genre,nom,effectif
Agriculteurs Exploitants,Femmes,Gognies-Chaussée,0
Agriculteurs Exploitants,Hommes,Ghissignies,0
Agriculteurs Exploitants,Femmes,Monchecourt,0
Agriculteurs Exploitants,Hommes,Hélesmes,0
Agriculteurs Exploitants,Femmes,Sainghin-en-Mélantois,0
Agriculteurs Exploitants,Femmes,Zuydcoote,0
Agriculteurs Exploitants,Femmes,Bachy,0
Agriculteurs Exploitants,Femmes,Roeulx,0
Agriculteurs Exploitants,Femmes,Féron,0
Agriculteurs Exploitants,Hommes,Camphin-en-Carembault,0


In [34]:
%%sql
SELECT DISTINCT nom 
FROM
(
SELECT nom, categorie, SUM(effectif)
FROM ville JOIN evolution
ON ville.code=evolution.code
GROUP BY nom, categorie
HAVING SUM(effectif) > 2000
)
;

Done.


nom
Aniche
Anzin
Armentières
Bailleul
Bondues
Bruay-sur-l'Escaut
Cambrai
Caudry
Comines
Condé-sur-l'Escaut


In [35]:
%%sql
SELECT nom, categorie, SUM(effectif)
FROM ville JOIN evolution
ON ville.code=evolution.code
GROUP BY nom, categorie
HAVING SUM(effectif) > 2000
ORDER BY effectif DESC
;

Done.


nom,categorie,SUM(effectif)
Lille,Autres,56001
Lille,"Cadres, Professions Intellectuelles Supérieures",28963
Lille,Professions Intermédiaires,29446
Lille,Ouvriers,16678
Dunkerque,Retraités,20723
Lille,Retraités,28549
Tourcoing,Ouvriers,14226
Lille,Employés,29818
Dunkerque,Autres,15116
Tourcoing,Autres,14713


In [36]:
%%sql
SELECT nom, categorie, SUM(effectif)
FROM ville JOIN evolution
ON ville.code=evolution.code
WHERE nom != 'Lille'
GROUP BY nom, categorie
HAVING SUM(effectif) > 2000
ORDER BY effectif DESC
;

Done.


nom,categorie,SUM(effectif)
Dunkerque,Retraités,20723
Tourcoing,Ouvriers,14226
Dunkerque,Autres,15116
Tourcoing,Autres,14713
Tourcoing,Retraités,14259
Roubaix,Employés,11526
Roubaix,Autres,21386
Villeneuve-d'Ascq,Autres,12962
Roubaix,Retraités,12440
Wattrelos,Ouvriers,7228


In [37]:
%%sql

SELECT nom
	FROM ville AS v JOIN evolution AS e ON v.code=e.code
	WHERE effectif > 2000 AND nom != "Lille"
	ORDER BY effectif DESC;


Done.


nom
Roubaix
Dunkerque
Tourcoing
Tourcoing
Roubaix
Dunkerque
Dunkerque
Dunkerque
Tourcoing
Dunkerque
