# Algèbre Relationnelle Et Langage SQL

[Je reccomande ce site pour plus de d'infomrations en détaille sur le langage SQL](https://sql.sh)

In [2]:
import sqlite3
import pandas as pd
con=sqlite3.connect("fifa/worldcup.db")
sql=lambda requete:pd.read_sql_query(requete,con)

## Plan
1. Introduction
1. Opérateurs unaires
1. Opérateurs ensemblistes
1. Opérateurs de jointure
1. Opérateurs de division
1. Opérateurs déduits
1. Conclusion

# Introduction
L’algèbre relationnelle est un ensemble d’opérateurs que l’on peut appliquer à des relations, et dont le résultat est une relation.

Comme le résultat est toujours une relation on pourra combiner les opérateurs : on forme ainsi, à partir d’opérateurs élémentaires, des requêtes élaborées.


L’algèbre relationnelle possède plusieurs opérateurs :
* Certains sont ensemblistes (selon la théorie des ensembles)
* D’autres sont relationnels (spécifiques à la notion de relation)

On peut aussi classer les opérateurs selon qu’ils s’appliquent à une(uniare) ou à plusieurs(n-aire) relations (tables).

Le langage SQL permet d’interroger une base de données à l’aide de la commande SELECT.\
 Cette commande permet de :
* Récupérer certaines colonnes (SELECT)
* De certaines tables (FROM)
* Récupérer certaines lignes (WHERE)
* Regrouper certaines lignes (GROUP BY)
* Filtrer après le regroupement (HAVING)
* Trier les résultats (ORDER BY)
* Limiter le nombre d’enregistrements retournés (LIMIT)

## Une Relation (Table)
Une relation R est un sous-ensemble du produit cartésien de n domaines(ensembles) $D_1 , ..., D_n$ , $n \in\mathbb{N}$
$$R\subset D_1 \times ...  \times D_n$$
Définie par son nom, et par son schéma

**$\large{\text{Définition (schéma d’une relation)}}$**

Le schéma d’une relation définit les domaines sur lesquels elle est construite et donne un nom à ces domaines. \
On note  $R(A_1 : D_1 , ..., A_n : D_n)$
* Les noms d’attributs d’un même schéma doivent être tous différents.
* **Exemple :** Personne(nom : texte, âge : entier, marié : booléen) 
* Lorsque l’indication des domaines n’est pas requise, un schéma de relation pourra être noté : $(A_1 , ..., A_n )$

## La Projection
La projection sur une relation (table) R définit une relation P restreinte à un sous-ensemble des attributs (colonnes) de R, en extrayant les valeurs des attributs spécifiés et en supprimant les doublons.

Notation :\
Soit R une relation n-aire, et $\sigma \in S_n$  une permutation, et $r\leq n$

Alors la projection de R suivant les attributs $A_{\sigma(1)},...,A_{\sigma(r)}$  noté  $\Pi_{A_{\sigma(1)},...,A_{\sigma(r)}}(R)$ est définie par: 

$$P:=\Pi_{A_{\sigma(1)},...,A_{\sigma(r)}}(R)=\{ (v_{\sigma(1)},v_{\sigma(2)},...,v_{\sigma(r)}) | (v_1,v_2,...,v_n) \in R \}$$

avec $A_1, ... , A_n$ sont des attributs (colonnes) de R.



**Requête SQL :**
```sql
SELECT A1 , ..., Ap FROM R;
ou bien 
SELECT DISTINCT A1 , ..., Ap FROM R;
```
Le mot clé **DISTINCT** permet de supprimer les doublons.

**Obtenir toutes les colonnes d’un tableau**

Il est possible de retourner automatiquement toutes les colonnes d’un tableau sans avoir à connaître le nom de toutes les colonnes. Au lieu de lister toutes les colonnes, il faut simplement utiliser le caractère "*" (étoile). C’est un joker qui permet de sélectionner toutes les colonnes. Il s’utilise de la manière suivante:
```sql
SELECT * FROM table
```

**Exemple :**

Soit le modèle relationnel : **confederations(confederation_id, confederation_name, confederation_code, confederation_wikipedia_link)**

Afficher toutes les informations des confederations
```SQL
select * from confederations
```


In [17]:
sql("select * from confederations")

Unnamed: 0,confederation_id,confederation_name,confederation_code,confederation_wikipedia_link
0,CF-1,Asian Football Confederation,AFC,https://en.wikipedia.org/wiki/Asian_Football_C...
1,CF-2,Confederation of African Football,CAF,https://en.wikipedia.org/wiki/Confederation_of...
2,CF-3,"Confederation of North, Central American and C...",CONCACAF,https://en.wikipedia.org/wiki/CONCACAF
3,CF-4,South American Football Confederation,CONMEBOL,https://en.wikipedia.org/wiki/CONMEBOL
4,CF-5,Oceania Football Confederation,OFC,https://en.wikipedia.org/wiki/Oceania_Football...
5,CF-6,Union of European Football Associations,UEFA,https://en.wikipedia.org/wiki/UEFA


Afficher les confederation_names et confederation_code des confederations :

$$PI_{\text{confederation\_name,confederation\_code}}(confederations)$$

```SQL
SELECT confederation_name,confederation_code
FROM confederations
```


In [3]:
sql("""
SELECT confederation_name,confederation_code
FROM confederations
""")

Unnamed: 0,confederation_name,confederation_code
0,Asian Football Confederation,AFC
1,Confederation of African Football,CAF
2,"Confederation of North, Central American and C...",CONCACAF
3,South American Football Confederation,CONMEBOL
4,Oceania Football Confederation,OFC
5,Union of European Football Associations,UEFA


## Suppression des doublons

L’utilisation de la commande **SELECT** en SQL permet de lire toutes les données d’une ou plusieurs colonnes. Cette commande peut potentiellement afficher des lignes en doubles. Pour éviter des redondances dans les résultats il faut simplement ajouter **DISTINCT** après le mot **SELECT**.

Commande basique

L’utilisation basique de cette commande consiste alors à effectuer la requête suivante:
```SQL
SELECT DISTINCT ma_colonne
FROM nom_du_tableau
```

In [27]:
sql("""
select distinct host_country from tournaments
"""
)

Unnamed: 0,host_country
0,Uruguay
1,Italy
2,France
3,Brazil
4,Switzerland
5,Sweden
6,Chile
7,England
8,Mexico
9,West Germany


In [20]:
sql("""
select distinct host_country from tournaments
""")

Unnamed: 0,host_country
0,Uruguay
1,Italy
2,France
3,Brazil
4,Switzerland
5,Sweden
6,Chile
7,England
8,Mexico
9,West Germany


## La sélection
La sélection sur une relation R définit une relation T de même schéma qui ne contient que les tuples (lignes) de R qui satisfont à la condition (ou prédicat) spécifiée.

Notation :

$S=\sigma_{\text{condition}}(R)= \{ ligne \in R  \text{ ligne satisfait condition} \} $

La condition (prédicat) est une expression logique faisant intervenir :
- les colonnes de la table
- des constantes
- les opérateurs de comparaison $=, \neq,<,>, \leq, \geq$
- les opérateurs logique ET $(\wedge), \mathrm{OU}(\vee), \mathrm{NON}(\neg)$ pour faire la combinaison de plusieurs conditions.

La condition, en SQL, peut contenir les comparateurs :

- $=$ ou $!=$ (ou bien $< >$)
- $>$, $<$, $\geq$, $\leq$ 
- *LIKE* ’modèle’
- *IN* ($valeur_1$,. . . , $valeur_N$)
- *BETWEEN* . . . *AND* . . .
- *IS NULL, IS NOT NULL*
- *AND, OR, NOT*
- La fonction *strftime (format, time)* sur les dates : ( $\%$d : le jour,
$\%$m : le mois , $\%$Y : l’année,$\%$H : l’heure, $\%$M : les minutes, $\%$S : les
secondes . . . )


**Exemple:** \
Soit le modèle relationnel :

**tournaments(tournament_id,tournament_name,year,start_date DATE,end_date,  host_country ,
  winner ,  host_won ,  count_teams ,  group_stage ,  second_group_stage ,  final_round ,  round_of_16 ,  quarter_finals ,  semi_finals ,  third_place_match ,  final ,
);**

Afficher les tournament_id et tournament_name des tournaments dont le champion est le Brazil :


```SQL
SELECT tournament_id,tournament_name
FROM tournaments 
WHERE winner= 'Brazil' ;
```
Ou bien
```SQL
SELECT tournament_id,tournament_name
FROM tournaments 
WHERE winner like 'Brazil' ;
```

In [4]:
sql("""
SELECT tournament_id,tournament_name
FROM tournaments 
WHERE winner= 'Brazil' ;
""")

Unnamed: 0,tournament_id,tournament_name
0,WC-1958,1958 FIFA World Cup
1,WC-1962,1962 FIFA World Cup
2,WC-1970,1970 FIFA World Cup
3,WC-1994,1994 FIFA World Cup
4,WC-2002,2002 FIFA World Cup


In [5]:
sql("""
SELECT tournament_id,tournament_name
FROM tournaments 
WHERE winner like 'Brazil' ;
""")

Unnamed: 0,tournament_id,tournament_name
0,WC-1958,1958 FIFA World Cup
1,WC-1962,1962 FIFA World Cup
2,WC-1970,1970 FIFA World Cup
3,WC-1994,1994 FIFA World Cup
4,WC-2002,2002 FIFA World Cup


**Exemple**
Afficher les tournament_id et tournament_name et winner des tournaments dont le champion est le Brazil ou Italy:

```SQL
SELECT tournament_id,tournament_name, winner
FROM tournaments 
WHERE winner= 'Brazil' or winner like "Italy" ;
```
Ou bien
```SQL
SELECT tournament_id,tournament_name, winner
FROM tournaments 
WHERE winner in ('Brazil',"Italy") ;
```

In [12]:
sql("""
SELECT tournament_id,tournament_name, winner
FROM tournaments 
WHERE winner= 'Brazil' or winner like "Italy" ;
""")

Unnamed: 0,tournament_id,tournament_name,winner
0,WC-1934,1934 FIFA World Cup,Italy
1,WC-1938,1938 FIFA World Cup,Italy
2,WC-1958,1958 FIFA World Cup,Brazil
3,WC-1962,1962 FIFA World Cup,Brazil
4,WC-1970,1970 FIFA World Cup,Brazil
5,WC-1982,1982 FIFA World Cup,Italy
6,WC-1994,1994 FIFA World Cup,Brazil
7,WC-2002,2002 FIFA World Cup,Brazil
8,WC-2006,2006 FIFA World Cup,Italy


In [30]:
sql("""
SELECT tournament_id,tournament_name,winner
FROM tournaments 
WHERE winner in ('Brazil',"Italy") ;
""")

Unnamed: 0,tournament_id,tournament_name,winner
0,WC-1934,1934 FIFA World Cup,Italy
1,WC-1938,1938 FIFA World Cup,Italy
2,WC-1958,1958 FIFA World Cup,Brazil
3,WC-1962,1962 FIFA World Cup,Brazil
4,WC-1970,1970 FIFA World Cup,Brazil
5,WC-1982,1982 FIFA World Cup,Italy
6,WC-1994,1994 FIFA World Cup,Brazil
7,WC-2002,2002 FIFA World Cup,Brazil
8,WC-2006,2006 FIFA World Cup,Italy


## SQL LIKE
L’opérateur LIKE est utilisé dans la clause WHERE des requêtes SQL. Ce mot-clé permet d’effectuer une recherche sur un modèle particulier. Il est par exemple possible de rechercher les enregistrements dont la valeur d’une colonne commence par telle ou telle lettre. Les modèles de recherches sont multiple.

Syntaxe
La syntaxe à utiliser pour utiliser l’opérateur LIKE est la suivante :

```sql
SELECT *
FROM table
WHERE colonne LIKE modele
```

Dans cet exemple le “modèle” n’a pas été défini, mais il ressemble très généralement à l’un des exemples suivants:

- LIKE ‘%a’ : le caractère “%” est un caractère joker qui remplace tous les autres caractères. Ainsi, ce modèle permet de rechercher toutes les chaines de caractère qui se termine par un “a”.

- LIKE ‘a%’ : ce modèle permet de rechercher toutes les lignes de “colonne” qui commence par un “a”.

- LIKE ‘%a%’ : ce modèle est utilisé pour rechercher tous les enregistrement qui utilisent le caractère “a”.

- LIKE ‘pa%on’ : ce modèle permet de rechercher les chaines qui commence par “pa” et qui se terminent par “on”, comme “pantalon” ou “pardon”.

- LIKE ‘a_c’ : peu utilisé, le caractère “_” (underscore) peut être remplacé par n’importe quel caractère, mais un seul caractère uniquement (alors que le symbole pourcentage “%” peut être remplacé par un nombre incalculable de caractères . Ainsi, ce modèle permet de retourner les lignes “aac”, “abc” ou même “azc”.


**Eemple**

Afficher les tournament_id et tournament_name et winner des tournaments dont le tournament_name  commence par '20'

In [16]:
sql("""
SELECT tournament_id, tournament_name, winner
FROM tournaments
WHERE tournament_name like '20%'
""")

Unnamed: 0,tournament_id,tournament_name,winner
0,WC-2002,2002 FIFA World Cup,Brazil
1,WC-2006,2006 FIFA World Cup,Italy
2,WC-2010,2010 FIFA World Cup,Spain
3,WC-2014,2014 FIFA World Cup,Germany
4,WC-2018,2018 FIFA World Cup,France
5,WC-2022,2022 FIFA World Cup,Argentina


**Eemple**


Soit le modèle relationnel :\
**players(player_id TEXT NOT NULL,\
  family_name TEXT,\
  given_name TEXT,\
  birth_date DATE,\
  goal_keeper BOOLEAN,\
  defender BOOLEAN,\
  midfielder BOOLEAN,\
  forward BOOLEAN,\
  count_tournaments INTEGER,\
  list_tournaments TEXT,\
  player_wikipedia_link TEXT,\
  PRIMARY KEY (player_id)
);**

Afficher les noms et prénoms,le jour, le mois et l'année de naissance des players dont l’année de naissance est 2004

In [49]:
sql("""
select family_name,given_name,
strftime('%m',birth_date) Mois
 from players
  where Mois like "01"

""")

Unnamed: 0,family_name,given_name,Mois
0,Abdulghani,Hussein,01
1,Abdulghani,Hussein,01
2,Aboubakar,Vincent,01
3,Acácio,not applicable,01
4,Acquah,Afriyie,01
...,...,...,...
834,Zitouni,Ali,01
835,Zlatković,Siniša,01
836,Zombori,Vilmos,01
837,Zuberbühler,Pascal,01


```SQL
SELECT family_name,given_name,
strftime('%Y',birth_date) as Année,strftime('%m',birth_date) as Mois,
strftime('%d',birth_date) as Jour
FROM players
WHERE strftime('%Y',birth_date)='2004'
```

In [19]:
sql("""
SELECT family_name,given_name,
strftime("%Y",birth_date) as Année_de_naissance
from players
where Année_de_naissance ='2001'
""")

Unnamed: 0,family_name,given_name,Année_de_naissance
0,Afriyie,Daniel,2001
1,Al-Hadhrami,Naif,2001
2,Almada,Thiago,2001
3,Asiri,Haitham,2001
4,Bella-Kotchap,Armel,2001
5,Ben Slimane,Anis,2001
6,Caicedo,Moisés,2001
7,Chacón,Daniel,2001
8,De Ketelaere,Charles,2001
9,Eraković,Strahinja,2001


Afficher les players dont le faimilly_name contient le caractère underscore '_'

```SQL
SELECT * FROM players
WHERE family_name LIKE '%!_%' ESCAPE '!'
```

In [59]:
sql("""
SELECT * FROM players
WHERE family_name LIKE '%/_%' ESCAPE '/'
""")

Unnamed: 0,player_id,family_name,given_name,birth_date,goal_keeper,defender,midfielder,forward,count_tournaments,list_tournaments,player_wikipedia_link


### Opérateurs Ensemblistes
### Union :

L’union de deux relations (tables) R et S de même schéma définit une relation T de même schéma qui contient tous les lignes de R, de S ou à la fois de R et S, en éliminant les lignes en doubles.

Notation :

$T = R \cup S = \{ ligne | ligne \in \text{R ou ligne} \in S \}$

**Union :**

Requête SQL :
```SQL
SELECT . . . FROM . . . WHERE . . .
UNION | UNION ALL
SELECT . . . FROM . . . WHERE . . .
```
**UNION ALL** permet de garder les répétitions lors de calcul de la réunion.

Afficher les noms et prénoms, l'année de naissance des players dont l’année de naissance est 2004 ou 2003 en étulisant l'opérateur Union

```SQL
SELECT family_name,given_name,
strftime('%Y',birth_date) as Année
FROM players
WHERE strftime('%Y',birth_date)='2004'
UNION
SELECT family_name,given_name,
strftime('%Y',birth_date)
FROM players
WHERE strftime('%Y',birth_date)='2003'
```

In [56]:
sql("""SELECT family_name,given_name,
strftime('%Y',birth_date) as année
FROM players
WHERE strftime('%Y',birth_date)='2004'
UNION
SELECT family_name,given_name,
strftime('%Y',birth_date)
FROM players
WHERE strftime('%Y',birth_date)='2003'
""")

Unnamed: 0,family_name,given_name,année
0,Aguilera,Brandon,2003
1,Balde,Alejandro,2003
2,Bellingham,Jude,2003
3,Bennette,Jewison,2004
4,Debast,Zeno,2003
5,El Khannous,Bilal,2004
6,Gavi,not applicable,2004
7,Issahaku,Abdul Fatawu,2004
8,Kuol,Garang,2004
9,Mejbri,Hannibal,2003


### L’intersection
L’intersection de deux relations R et S de même schéma est une relation T
de même schéma contenant les lignes appartenant à la fois à R et à S

Notation :


$T = R \cap S= \{ligne |\,\,\, ligne \in R\quad et\,\,\, ligne \,\,\in S \}$

**Intersection :**

Requête SQL :
```sql
SELECT . . . FROM . . . WHERE . . .
INTERSECT
SELECT . . . FROM . . . WHERE . . .
```

**Exemple**
Soit le modèle relationnel suivant:

**matches(
  tournament_id TEXT NOT NULL,\
  match_id TEXT NOT NULL,\
  result TEXT,
  match_name TXT
);**\

Selectionner tous les matches joués entre le maroc et le portugal

In [66]:
sql("""
select match_name from matches
where match_name like "%Morocco%" and match_name like "%Portugal%"
""")

Unnamed: 0,match_name
0,Portugal v Morocco
1,Portugal v Morocco
2,Morocco v Portugal


In [67]:
sql("""
select match_name from matches
where match_name like "%Morocco%" 
intersect 
select match_name from matches
where match_name like "%Portugal%" 
""")

Unnamed: 0,match_name
0,Morocco v Portugal
1,Portugal v Morocco


```sql
select tournament_id,match_name,result from matches
where match_name like '%Morocco%'
Intersect 
select tournament_id,match_name,result from matches
where match_name like '%Portugal%'
```

In [5]:
sql("""
select tournament_id,match_name,result from matches
where match_name like '%Morocco%'
Intersect 
select tournament_id,match_name,result from matches
where match_name like '%Portugal%'
""")

Unnamed: 0,tournament_id,match_name,result
0,WC-1986,Portugal v Morocco,away team win
1,WC-2018,Portugal v Morocco,home team win
2,WC-2022,Morocco v Portugal,home team win


### La différence 
La différence de deux relations R et S (dans cet ordre) de même schéma
est une relation T de même schéma contenant l’ensemble des lignes
appartenant à R et n’appartenant pas à S.

Notation :

$T = R - S= \{ligne |\,\,\, ligne \,\,\in R \,\,\,et\,\,\, ligne \,\,\notin S \}$

**Différence :**


Requête SQL :
```sql
SELECT . . . FROM . . . WHERE . . .
EXCEPT
SELECT . . . FROM . . . WHERE . . .
```

Dans certains systèmes de gestion de base de données (SGBD) on trouve l’opérateur **MINUS** au lieu **d’EXCEPT**.

Selectionner les équipes(team_id) qui n'ont jamis pu se qualifier au coupe du monde apres l'année 2000

```SQL
select distinct team_id from teams
EXCEPT
select distinct team_id from qualified_teams
where tournament_id like '%-20%'
```

In [23]:
sql("""
select distinct team_id from teams
EXCEPT
select distinct team_id from qualified_teams
where tournament_id like '%-20%'
""")

Unnamed: 0,team_id
0,T-05
1,T-07
2,T-10
3,T-18
4,T-20
5,T-22
6,T-23
7,T-26
8,T-32
9,T-34


In [34]:
sql("""select team_id,team_name from (
select distinct team_id as id from teams
EXCEPT
select distinct team_id from qualified_teams
where tournament_id like '%-20%') join teams on teams.team_id=id
""")

Unnamed: 0,team_id,team_name
0,T-05,Austria
1,T-07,Bolivia
2,T-10,Bulgaria
3,T-18,Cuba
4,T-20,Czechoslovakia
5,T-22,Dutch East Indies
6,T-23,East Germany
7,T-26,El Salvador
8,T-32,Haiti
9,T-34,Hungary


### Le produit cartésien
Le produit cartésien de deux relations R et S, de schéma quelconque, est
une relation T dont :
- les colonnes sont la concaténation de ceux de R et S
- les lignes sont toutes les concaténations de chaque ligne de R à chaque ligne de S

Notation :
$$R \times S= \{(R1, ..., R_p,S1, ... , S_q)|(R1, ..., R_p)\in R \,\,\,et  \,\,\, (S1, ... , S_q) \in S\}$$

Produit cartésien :

**Requête SQL :**
```sql
SELECT * FROM table1,table2
```
**Remarque :**\
Si les deux tables ont des colonnes de même nom, alors chaque nom de
colonne est préfixé par le nom de sa table

### Renommage 
Il est possible d’utiliser des alias pour renommer temporairement une
colonne ou une table.\

Notation :

$\rho_{ R_1,...,R_p \rightarrow S_1,...,S_p} (R)$ permet de renommer $R_1,...,R_p$ en $S_1,...,S_p$


**Renommage des colonnes :**
Requête SQL :
```SQL
SELECT R1 AS S1 ,. . . , Ri AS Si , . . . FROM nomtable ;
Ou bien
SELECT R1 S1 ,. . . , Ri Si . . . FROM nomtable ;
```

### La Division 

La division de deux tables R et S, sachant que R et S ont au moins une colonne commune, est une table T dont :

- les colonnes sont des colonnes de R qui n’appartiennent pas à S.
- les lignes sont les lignes qui réalisent dans R la combinaison avec toutes les lignes de S.

**Notation :**

$$T = R \div S= \{(A1, ..., A_p)|(\forall(B_1, ..., B_q)\in S) \,\,\,(A_1, ..., A_p,B1, ... , B_q) \in R\}$$


**Division**

Requête SQL :

Il n’y a pas de commande en langage SQL pour faire la
division de 2 relations.

### La Jointure 

- La jointure de deux tables R et S selon une condition P est la table T contenant l’ensemble des lignes du produit cartésien R x S  satisfaisant la condition P.
- Cette condition est une proposition logique portant sur deux colonnes (en particulier, la clé primaire de l’une et la clé étrangère de l’autre) en utilisant des opérateurs de comparaison ($<$, $>$, $\leq$, $\geq$, $! =$, $=$, . . .). 


Notation **jointure interne**:

$$T = R \underset{R.C_i=S.C_j}{\bowtie}S $$

**Requête SQL :**
```SQL
SELECT * FROM R JOIN S ON R.colonne1= S.colonne2 ;
Ou bien
SELECT * FROM R,S WHERE R.colonne1= S.colonne2 ;
```

**Exemple**
Selectionner les équipes(team_name) qui appartienent à la confederations concacaf
![](images/link_conf_team.png)

```SQL
select team_name
from teams join confederations 
on teams.confederation_id=confederations.confederation_id
where confederation_code='CAF'
```

In [24]:
sql("""
select team_name
from teams join confederations 
on teams.confederation_id=confederations.confederation_id
where confederation_code='CAF'
    """)    

Unnamed: 0,team_name
0,Algeria
1,Angola
2,Cameroon
3,Egypt
4,Ghana
5,Ivory Coast
6,Morocco
7,Nigeria
8,Senegal
9,South Africa
