# TD/TME10: SQL2 – Jointures Naturelles, Externes, Sous-requêtes

On utilise  [DuckDB](https://duckdb.org). Voir la [documentation DuckDB SQL](https://duckdb.org/docs/sql/introduction.html)

In [10]:
#installer duckdb
!pip install duckdb



In [11]:
# Démarrer le service DuckDB
import duckdb

db = duckdb.connect(':memory:')


# vérifier que le service fonctionne
r = db.sql("SELECT 'hello' as col")
display(r)

┌─────────┐
│   col   │
│ varchar │
├─────────┤
│ hello   │
└─────────┘

# Créer les tables et charger les données bd_jo_v2_duck.sql

Ce TD/TME utilise les données contenues dans le fichier **bd_jo_v2_duck.sql**

**Attention**: vous pouvez cliquer sur les 3 lignes dans la fenêtre de gauche pour d'afficher les différentes sections du notebook   

In [12]:
with open('bd-jo-v2_duck.sql', 'r',encoding='utf-8') as file:
    data = file.read()
db.execute(data)    

<duckdb.duckdb.DuckDBPyConnection at 0x290ade0ac70>

**Consulter la BD**

La commande `SHOW TABLES` retourne le nom des tables.

Note: la fonction *.df()* ajoutée à la fin de l'expression sert à importer le résultat de la requête dans un dataframe pandas afin d'avoir un rendu "ergonomique" dans colab .

In [13]:
db.execute("SHOW TABLES").df()

Unnamed: 0,name
0,Athlete
1,AthletesEquipe
2,Epreuve
3,Equipe
4,Pays
5,RangEquipe
6,RangIndividuel
7,Sport


La commande `DESCRIBE` retourne une description des attributs d'une table.

Exemple affichant les attributs de la table *Athlete* :

In [14]:
db.execute("DESCRIBE Athlete").df()

Unnamed: 0,column_name,column_type,null,key,default,extra
0,aid,INTEGER,NO,PRI,,
1,nomAth,VARCHAR,YES,,,
2,prenomAth,VARCHAR,YES,,,
3,dateNaissance,DATE,YES,,,
4,codePays,VARCHAR,YES,,,


La clause  `LIMIT N` est ajoutée à la fin d'une requête pour calculer seulement les N premiers tuples du résultat.

Exemple pour afficher 10 tuples de la table *Athlete*:

In [15]:
db.execute("SELECT * FROM Athlete LIMIT 10").df()

Unnamed: 0,aid,nomAth,prenomAth,dateNaissance,codePays
0,1,BJOERNDALEN,Ole Einar,1974-01-27,NOR
1,2,BJOERGEN,Marit,1980-03-21,NOR
2,3,AN,Victor,1985-11-23,RUS
3,4,PECHSTEIN,Claudia,1972-02-22,GER
4,5,WÜST,Ireen,1986-04-01,NED
5,6,SVENDSEN,Emil Hegle,1985-07-12,NOR
6,7,AMMANN,Simon,1981-06-25,SUI
7,8,KRAMER,Sven,1986-04-23,NED
8,9,SABLIKOVA,Martina,1987-05-27,CZE
9,10,HAMELIN,Charles,1984-04-14,CAN


In [16]:
#Afficher toutels les lignes de la table Athlète
db.execute("select * from athlete").df()

Unnamed: 0,aid,nomAth,prenomAth,dateNaissance,codePays
0,1,BJOERNDALEN,Ole Einar,1974-01-27,NOR
1,2,BJOERGEN,Marit,1980-03-21,NOR
2,3,AN,Victor,1985-11-23,RUS
3,4,PECHSTEIN,Claudia,1972-02-22,GER
4,5,WÜST,Ireen,1986-04-01,NED
...,...,...,...,...,...
2426,2427,NARUSE,Nobu,NaT,JPN
2427,2428,YOSHIDA,Keishin,NaT,JPN
2428,2429,MIYAZAWA,Hiroyuki,NaT,JPN
2429,2430,LENTING,Akira,NaT,JPN


# TD10: SQL2 – Jointures Naturelles, Externes, Sous-requêtes

On considère le schéma de la base JEUXOLYMPIQUES2014 qui décrit les athlètes et leurs résultats aux
épreuves des sports des Jeux Olympiques d'Hiver Sotchi 2014 :

**PAYS** ( <u>CODEPAYS</u>, NOMP)<br/>
Ex. ('FRA', 'France')<br/>
**SPORT** ( <u>SID</u>, NOMSP)<br/>
Ex. (1, 'Biathlon')<br/>
**EPREUVE** ( <u>EPID</u>, SID*, NOMEP, CATÉGORIE, DATEDEBUT, DATEFIN)<br/>
Ex. (10, 1, 'relais 4x7,5km', 'Hommes', 22/02/2014, 22/02/2014)<br/>
**ATHLETE** ( <u>AID</u>, NOMATH, PRENOMATH, DATENAISSANCE, CODEPAYS*)<br/>
Ex. (1000, 'SOBOLEV', 'Alexey', NULL, 'RUS')<br/>
**EQUIPE** ( <u>EQID</u>, CODEPAYS*)<br/>
Ex. (30, 'SUI')<br/>
**ATHLETESEQUIPE** ( <u>EQID*, AID*</u>)<br/>
Ex. (30, 796) : L'athlète (aid=796) a participé à l'équipe (eqid=30)<br/>
**RANGINDIVIDUEL** ( <u>EPID*, AID*</u>, RANG)<br/>
Ex. (15, 61, 1) : L'athlète (aid=61) a gagné la médaille d'or (rang=1) de l'épreuve (epid=15)<br/>
**RANGEQUIPE** ( <u>EPID*, EQID*</u>, RANG)<br/>
Ex. (10, 30, 14) : L'équipe (eqid=30) a été classée 14e à l'épreuve (epid=10)<br/>


Les attributs qui forment la clé primaire de chaque relation sont soulignés. Les clés étrangères sont
signalées avec une *. Les attributs aid, epid, eqid et sid correspondent aux identifiants des athlètes,
épreuves, équipes et sports et sont utilisés à la fois comme clé primaire ou comme référence (clé
étrangère) vers la relation correspondante.
La relation **PAYS** contient le code et le nom de tous les pays, même si ils n'ont pas participé aux
Jeux Olympiques. Les sports (n-uplets de la relation **SPORT**) sont un ensemble d'épreuves (n-uplets
de la relation **EPREUVE**). Pour chaque épreuve on connaît son nom et les date de début et fin de
l'épreuve. Les épreuves peuvent être individuelles ou par équipe. Dans le premier cas, la
participation des athlètes (n-uplets de la relation ATHLETE) est stocké dans la table
**RANGINDIVIDUEL** qui contient en plus le rang qu'ils ont obtenu (1 pour la médaille d'or). Pour les
épreuves par équipe les résultats sont stockés dans la relation **RANGEQUIPE**, alors que l'information
sur le pays de chaque équipe et ses participants et stocké dans les relations **EQUIPE** et
**ATHLETESEQUIPE**. Dans les relations **RANGINDIVIDUEL** et **RANGEQUIPE** l'attribut rang est égal à
null si l'athlète ou l'équipe a été disqualifié.


## Requêtes

### Jointures internes  « INNER JOIN »

#### **Q1**. 
Les noms et les prénoms des athlètes français (nom pays = 'France') (104 lignes).

In [None]:
query="""select a.nomath, a.prenomath from athlete a inner join pays p on p.codepays=a.codepays where p.nomp = 'France'
"""

db.execute(query).df()

#### **Q2** . 
Les épreuves (sport, nom d'épreuve) triées par nom de sport, puis par nom d'épreuve dans l'ordre inverse du dictionnaire (66 lignes).

In [None]:
query="""select distinct s.nomsp, e.nomep from epreuve e inner join sport s on s.sid=e.sid order by 1, 2 desc
"""

db.execute(query).df()

#### **Q3** . 
Les homonymes (les nom de familles portés par deux athlètes ou plus) (141 lignes)

In [None]:
query="""select distinct a1.nomath from athlete a1 inner join athlete a2 on a1.nomath=a2.nomath 
where a1.aid != a2.aid
"""

db.execute(query).df()

#### **Q4**. 
Les athlètes ayant participé à (au moins) deux épreuves individuelles (706 lignes).

In [None]:
query="""select distinct a.nomath, a.prenomath from athlete a inner join rangindividuel r1 on r1.aid = a.aid 
inner join rangindividuel r2 on r2.aid = a.aid
where r1.epid != r2.epid
"""

db.execute(query).df()

### Jointures naturelles « NATURAL JOIN » 

#### **Q5**. 
Les noms et les prénoms des athlètes français (nom pays = 'France') (104 lignes).

In [None]:
query="""select nomath, prenomath from athlete natural join pays where nomp= 'France'
"""

db.execute(query).df()

#### **Q6** . 
Les épreuves (sport, nom d'épreuve) triées par nom de sport, puis par nom d'épreuve dans l'ordre inverse du dictionnaire (66 lignes).

In [None]:
query="""select distinct nomsp, nomep from sport natural join epreuve order by 1,2 desc
"""

db.execute(query).df()

#### **Q7** . 
Les sports (identifiant et nom) et les épreuves (identifiant et nom) en équipe (25 lignes).

In [22]:
query="""select distinct sid, nomsp, epid, nomep from sport natural join epreuve natural join rangequipe
"""

db.execute(query).df()

Unnamed: 0,sid,nomSp,epid,nomEp
0,1,Biathlon,10,"relais 4x7,5km"
1,6,Luge,25,Relais par équipes mixte
2,7,Patinage artistique,29,Danse sur glace
3,7,Patinage artistique,30,Par équipes
4,9,Patinage de vitesse sur piste courte,50,Relais 5000m
5,7,Patinage artistique,28,Couples
6,1,Biathlon,11,Relais mix
7,2,Bobsleigh,13,bob à deux
8,3,Combiné nordique,17,Par équipes
9,1,Biathlon,5,relais 4x6km


#### **Q8** . 
Les noms et les prénoms des athlètes qui ont gagné au moins une médaille en équipe au sport 'Biathlon' (34 lignes).

In [24]:
query="""select Distinct nomath, prenomath from athlete natural join athletesequipe natural join rangequipe natural join epreuve 
natural join sport
where rang <=3 and nomsp = 'Biathlon'
"""

db.execute(query).df()

Unnamed: 0,nomAth,prenomAth
0,BJOERNDALEN,Ole Einar
1,DZHYMA,Juliya
2,MALYSHKO,Dmitry
3,VITKOVA,Veronika
4,HOFER,Lukas
5,Welle-Strand HORN,Fanny
6,SOUKALOVA,Gabriela
7,LESSER,Erik
8,PEIFFER,Arnd
9,FLATLAND,Ann Kristin


### Jointures externes « LEFT|RIGHT|FULL OUTER JOIN » 

#### **Q9**. 
Pour chaque pays, le nombre de médailles en épreuve individuelle gagnées dans l'ordre décroissant des médailles gagnées (on veut aussi les pays sans médailles) (206 lignes)

In [26]:
query="""select p.nomp, count(*) from pays p
left outer join athlete a on a.codepays = p.codepays 
left outer join rangindividuel r on a.aid = r.aid
group by p.nomP , p.codepays
"""

db.execute(query).df()

Unnamed: 0,nomP,count_star()
0,Slovaquie,67
1,Espagne,38
2,Népal,1
3,Andorre,11
4,Nouvelle-Zélande,19
...,...,...
201,Îles Cook,1
202,Cuba,1
203,République démocratique du Congo,1
204,Cameroun,1


#### **Q10**. 
Tous les numéros d'équipes avec les numéros de leurs membres (NULL si les membres de l'équipe sont inconnus) (1108 lignes)

In [28]:
query="""select e.eqid from equipe e
left outer join athletesequipe ae on ae.eqid = e.eqid
"""

db.execute(query).df()

Unnamed: 0,eqid
0,1
1,1
2,1
3,1
4,2
...,...
1103,231
1104,233
1105,232
1106,234


#### **Q11**. 
Les numéros des équipes dont on ne connaît pas les membres (utilisez la jointure externe) (13 lignes).

In [30]:
query="""select e.eqid from equipe e
left outer join athletesequipe ae on ae.eqid = e.eqid
where ae.aid is null
"""

db.execute(query).df()

Unnamed: 0,eqid
0,163
1,229
2,235
3,160
4,162
5,159
6,167
7,230
8,231
9,233


#### **Q12**. 
Tous les noms d'athlètes avec les numéros de leurs équipes (NULL si l'athlète n'appartient à aucune équipe) (2579 lignes).

In [31]:
query="""select a.nomath, a.prenomath, ae.eqid from athlete a 
left outer join athletesequipe ae on ae.aid = a.aid
"""

db.execute(query).df()

Unnamed: 0,nomAth,prenomAth,eqid
0,AN,Victor,244.0
1,WÜST,Ireen,236.0
2,SVENDSEN,Emil Hegle,36.0
3,KRAMER,Sven,238.0
4,MORGENSTERN,Thomas,250.0
...,...,...,...
2574,Aaltonen,Juhamatti,166.0
2575,SICS,Juris,170.0
2576,BENECKEN,Sascha,175.0
2577,PETRULAK,Jozef,179.0


#### **Q13**.
Les epreuves (noms du sport et de l'épreuve) avec un attribut pour chaque catégorie (Hommes, Femmes, Mixte). Par exemple, la requête retourne les nuplets ('Bobsleigh', 'bob à deux', 'Hommes',  'Femmes' , NULL) et ('Luge', 'Double', NULL, NULL, 'Mixte') ? (66 lignes)

In [34]:
query="""select distinct s.nomsp, e.nomep from sport s
right outer join epreuve e on e.sid = s.sid
"""

db.execute(query).df()

Unnamed: 0,nomSp,nomEp
0,Luge,Simple
1,Luge,Relais par équipes mixte
2,Patinage de vitesse sur piste courte,Relais 3000m
3,Ski de fond,Sprint par équipes
4,Biathlon,10km
...,...,...
61,Patinage de vitesse sur piste courte,1000m
62,Patinage de vitesse sur piste courte,1500m
63,Ski de fond,15km
64,Ski de fond,Skiathlon (15km + 15km)


### Requêtes dans la clause FROM et top-k

#### **Q14**. 
Le nom et l'age actuel des 10 athlètes les plus jeunes (utiliser *date_sub*). 

In [39]:
query="""select a.nomath, date_sub('year', datenaissance, current_date) as age from athlete a order by age limit 10
"""

db.execute(query).df()

Unnamed: 0,nomAth,age
0,LIPNITSKAYA,25
1,HIRANO,25
2,SHIM,27
3,SOTNIKOVA,27
4,TIANYU,27
5,WELLINGER,28
6,KIM,28
7,OSMOND,28
8,HIRAOKA,28
9,GOLD,28


#### **Q15**. 
Le nom et l'age actuel des 10 athlètes les plus âgés. 

In [40]:
query="""select a.nomath, date_sub('year', datenaissance, current_date) as age from athlete a order by age desc limit 10
"""

db.execute(query).df()

Unnamed: 0,nomAth,age
0,PECHSTEIN,52
1,DEMTSCHENKO,52
2,DI CENTA,51
3,KASAI,51
4,BJOERNDALEN,50
5,ZOEGGELER,50
6,ANDERSON,49
7,TABATA,49
8,SUMANN,48
9,DE JONG,47


#### **Q16**. 
Le nombre moyen d'athlètes par pays (avec group by). Aide : compter le nombre
d’athlètes dans chaque pays (ayant au moins un athlète), puis faire la moyenne. Résultat (1 ligne) : 27,625

In [55]:
query1="""select avg(nbath) from (select count(*) as nbath from pays p, athlete a where a.codepays = p.codepays 
group by p.codepays)
"""
query="""select avg(nbath) from (select count(*) as nbath from athlete group by codepays)
"""

db.execute(query).df()

Unnamed: 0,avg(nbath)
0,27.625


#### **Q17**. 
L’eqid de la ou des équipes qui sont composées du plus d’athlètes pour ces JO.
 Résultats (3 lignes) : 164 ; 165 ; 166 

In [59]:
query="""select distinct eqid, count(*) from athletesequipe group by eqid 
having count(*) = (select max(nbath) from (select count(*) as nbath from athletesequipe group by eqid))
"""

db.execute(query).df()

Unnamed: 0,eqid,count_star()
0,165,25
1,166,25
2,164,25


#### **Q18**.
Le nombre d'épreuves en individuel où il y a eu au moins 100 participants. Résultat (1 ligne ) : 2

In [17]:
query="""select count(distinct epid) from rangindividuel group by epid having count(distinct aid) >= 100
"""

db.execute(query).df()

Unnamed: 0,count(DISTINCT epid)
0,1
1,1


# TME10: SQL2 – Jointures Naturelles, Externes, Sous-requêtes

Ce TME utilise les données contenues dans le fichier **bd_jo_v2_duck.sql**


## Requêtes

### Jointures naturelles « NATURAL JOIN » et Jointures Internes  «INNER JOIN »  

#### **Q1-a)**. 
Les noms des épreuves individuelles (identifiants et noms) et les noms des sports correspondants (identifiants et noms), avec Natural Join (73 lignes).

In [23]:
query="""select distinct epid,nomep,sid,nomsp from rangindividuel natural join epreuve natural join sport
"""

db.execute(query).df()

Unnamed: 0,epid,nomEp,sid,nomSp
0,3,15km,1,Biathlon
1,22,Simple,6,Luge
2,49,1500m,9,Patinage de vitesse sur piste courte
3,57,Bosses,12,Ski acrobatique
4,64,Ski Cross,12,Ski acrobatique
...,...,...,...,...
68,6,10km,1,Biathlon
69,37,10000m,8,Patinage de vitesse
70,66,Ski slopestyle,12,Ski acrobatique
71,69,Slalom géant,13,Ski alpin


#### **Q1-b)**. 
Les noms des épreuves individuelles (identifiants et noms) et les noms des sports correspondants (identifiants et noms), avec Inner Join (73 lignes).

In [24]:
query="""select distinct e.epid,e.nomep,s.sid,s.nomsp from rangindividuel r
inner join epreuve e on e.epid=r.epid 
inner join sport s on s.sid=e.sid
"""

db.execute(query).df()

Unnamed: 0,epid,nomEp,sid,nomSp
0,3,15km,1,Biathlon
1,22,Simple,6,Luge
2,49,1500m,9,Patinage de vitesse sur piste courte
3,57,Bosses,12,Ski acrobatique
4,64,Ski Cross,12,Ski acrobatique
...,...,...,...,...
68,33,2x500m,8,Patinage de vitesse
69,35,5000m,8,Patinage de vitesse
70,61,Ski slopestyle,12,Ski acrobatique
71,68,Slalom,13,Ski alpin


#### **Q2-a)**.
Les noms des sports auxquels LESSER Erik a participé en individuel avec Natural Join (Résultats 2 lignes: Biathlon, Ski de fond).

In [29]:
query="""select distinct nomsp from sport natural join epreuve natural join rangindividuel natural join athlete
where nomath='LESSER' and prenomath='Erik'
"""

db.execute(query).df()

Unnamed: 0,nomSp
0,Biathlon
1,Ski de fond


#### **Q2-b)**.
Les noms des sports auxquels LESSER Erik a participé en individuel avec Inner Join (Résultats 2 lignes: Biathlon, Ski de fond).

In [30]:
query="""select distinct s.nomsp from sport s 
inner join epreuve e on s.sid=e.sid
inner join rangindividuel r on r.epid=e.epid
inner join athlete a on a.aid=r.aid
where nomath='LESSER' and prenomath='Erik'
"""

db.execute(query).df()

Unnamed: 0,nomSp
0,Biathlon
1,Ski de fond


#### **Q3-a)**. 
Le nom et prénom des athlètes qui ont gagné la médaille d'or dans l'épreuve par équipe 'relais 4x6km' de 'Biathlon' de 'Femmes' avec Natural Join (Résultat : SEMERENKO Vita, SEMERENKO Valj, DZHYMA Juliya, PIDHRUSHNA Olena).

In [32]:
query="""select nomath, prenomath from athlete natural join athletesequipe natural join rangequipe natural join epreuve 
natural join sport
where rang=1 and categorie = 'Femmes' and nomsp='Biathlon' and nomep='relais 4x6km'
"""

db.execute(query).df()

Unnamed: 0,nomAth,prenomAth
0,SEMERENKO,Vita
1,SEMERENKO,Valj
2,DZHYMA,Juliya
3,PIDHRUSHNA,Olena


#### **Q3-b)**. 
Le nom et prénom des athlètes qui ont gagné la médaille d'or dans l'épreuve par équipe 'relais 4x6km' de 'Biathlon' de 'Femmes' avec Inner Join (Résultat : SEMERENKO Vita, SEMERENKO Valj, DZHYMA Juliya, PIDHRUSHNA Olena).

In [36]:
query="""select a.nomath, a.prenomath from athlete a
inner join athletesequipe ae on a.aid=ae.aid
inner join rangequipe r on r.eqid=ae.eqid
inner join epreuve e on e.epid=r.epid
inner join sport s on s.sid=e.sid
where rang=1 and categorie = 'Femmes' and nomsp='Biathlon' and nomep='relais 4x6km'
"""

db.execute(query).df()

Unnamed: 0,nomAth,prenomAth
0,SEMERENKO,Vita
1,SEMERENKO,Valj
2,DZHYMA,Juliya
3,PIDHRUSHNA,Olena


#### **Q4**. 
La liste des pays, avec les épreuves (individuels et en équipe) et les rangs obtenus (293 lignes).

In [82]:
query="""select distinct nomp, nomep, rang from pays 
natural join equipe natural join rangequipe natural join epreuve
natural join athlete natural join rangindividuel
"""

db.execute(query).df()

ParserException: Parser Error: syntax error at or near "join"

#### **Q5**. 
Les athlètes qui sont plus jeunes que LESSER Erik, avec Inner join (132 lignes).

In [47]:
query="""select a.nomath, a.prenomath from athlete a
inner join athlete a2 on a.datenaissance>a2.datenaissance 
where a2.nomath='LESSER' and a2.prenomath='Erik'
"""

db.execute(query).df()

Unnamed: 0,nomAth,prenomAth
0,LOCH,Felix
1,ZHOU,Yang
2,FOURCADE,Martin
3,PARK,Seung-Hi
4,SANG-HWA,Lee
...,...,...
127,KRISTOFFERSEN,Henrik
128,WINDISCH,Dominik
129,ROLLAND,Kevin
130,GOEPPER,Nicholas


### Jointures Externes  « LEFT|RIGHT|FULL OUTER JOIN »   

#### **Q6**. 
Les noms de tous les athlètes avec les numéros des équipes (le numéro est NULL si l'athlète n'appartient à aucune équipe et le nom est NULL si les membres d'une équipe sont inconnus) (2592 lignes).


In [55]:
query="""select a.nomath, ae.eqid from athlete a full outer join athletesequipe ae on a.aid=ae.aid
full outer join equipe e on ae.eqid = e.eqid
"""

db.execute(query).df()

Unnamed: 0,nomAth,eqid
0,AN,244.0
1,WÜST,236.0
2,SVENDSEN,36.0
3,MORGENSTERN,250.0
4,LOCH,187.0
...,...,...
2587,,
2588,,
2589,,
2590,,


###  Sous-requêtes dans FROM/SELECT  

#### **Q7**. 
Le tableau complet des résultats (sport, épreuve, catégorie, athlète, rang) trié par sport, épreuve, catégorie et rang (3780 lignes).

In [None]:
query="""select nomsp,(select nomep from epreuve),(select categorie from epreuve),(select aid from athlete),
(select rang from rangindividuel)
from sport, epreuve, athlete, rangindividuel
order by 1,2,3,5
"""

db.execute(query).df()

#### **Q8**. 
Pour chaque pays, le nom et le nombre de médailles gagnées (en individuel ou en équipe). Conseil : utilisez la requête 1.4 comme sous-requête dans  FROM (25 lignes)

In [None]:
query="""

"""

db.execute(query).df()

#### **Q9**. 
Pour chaque pays, le nombre de médailles d'or gagnées en équipe ou en individuel (20 lignes).

In [None]:
query="""

"""

db.execute(query).df()

#### **Q10**. 
Pour chaque pays, le nombre de médailles d'or, le nombre de médaille d'argent et le nombre de médaille de bronze gagnées. Conseil : utilisez des sous-requêtes dans  SELECT (206 lignes).

In [None]:
query="""

"""

db.execute(query).df()

Sous-requête dans FROM (on n'obtient que les pays avec au moins une médaille d'or, d'argent et de bronze): 17 lignes 

In [None]:
query="""

"""

db.execute(query).df()

###  Requêtes top-k  

#### **Q11**. 
Les dix épreuves les plus longues.

In [None]:
query="""

"""

db.execute(query).df()