# SQL Introduction

In [None]:
import pandas as pd
from sqlalchemy import create_engine, text
from IPython.display import display

In [None]:
user = "root"
password = ""
db_name = "small_ScienceStreaming"
port = 3306
host = "127.0.0.1" # if host is not recognised, try using "localhost"
connection_string = f"mysql+mysqldb://{user}:{password}@{host}:{port}/{db_name}"
engine = create_engine(connection_string)

In [None]:
def q(query, engine=engine):
    with engine.begin() as conn:
        return pd.read_sql_query(text(query), conn)

### Requête typique

```sql
SELECT <results> -- Ce que l'on va inclure dans le rendu final
FROM <first_table> -- La table de départ
LEFT JOIN <other_table> -- Type de jointure
ON <first_table>.id = <other_table>.id -- On précise la clé de jointure
WHERE <condition(s)> -- Les filtres à appliquer
GROUP BY <columns_to_agregate> -- Les colonnes que nous allons grouper
HAVING <condition(s)> -- les filtres après le GROUP BY
```

### SELECT, LIMIT et *
```sql
SELECT <column(s)>
FROM <table_name> LIMIT <number>
```

**>>>** Utilisez la syntaxe précédente pour afficher les deux premières lignes de toutes les tables dans la base de données. Identifiez les clés primaires et les clés étrangères.

In [None]:
# Code here!


### COUNT, alias et ";"
```sql
SELECT COUNT(*)FROM <my_table>;

SELECT COUNT(*) (AS) <alias>
FROM <table> (AS) <alias>;
```

**>>>** Utilisez la syntaxe précédente pour compter le nombre de lignes pour chaque table. Utilisez un alias pour raccourcir le nom des tables à 1, 2 ou 3 caractères. Utilisez un alias pour renommer les résultats.

In [None]:
# Code here!


### UNION

Cet opérateur est utilisé pour concaténer les résultats de plusieurs `select`.

```sql
SELECT * FROM <table1>
UNION
SELECT * FROM <table2>;
```

**>>>** Affichez en une seule requête le nombre de ligne pour chaque table. Utilisez des strings (constantes) pour nommer les tables. Quand on utilise `COUNT()`, le premier alias que l'on utilise nomme toute la colonne.

In [None]:
# Code here!


### JOIN

<div>
<img src="files/sql_joins.png" alt="JOIN" width="100%" align='left'/> </div>

Une jointure fait correspondre deux tables et place à la suite du même enregistrement les lignes qui correspondent à la clé de jointure. Le résultat dépend du type de jointure choisie.

Quand on utilise juste `JOIN`, cela signifie en général `INNER JOIN`.

Il existe également le `CROSS JOIN`, dans ce cas précis, il n'est pas besoin de spécifier une clé puisque ce type de jointure va réaliser le produit cartésien entre deux tables. Si la table 1 a 30 lignes et la table 2 en a 40, le résultat d'un `CROSS JOIN` entre la table1 et la table2 aura 1200 lignes.

```sql
SELECT <colonnes>
FROM <table1> (<alias>)
LEFT JOIN <table2> (<alias>)
ON <table1>.id = <table2>.id
```

L'opérateur `.` nous permet d'identifier une colonne de la table.

**>>>** Executez les opérations suivantes :

- A partir de la table "planning", effectuez une **JOINTURE GAUCHE** avec la table "cours" afin de regarder à quel nom de cours correspond chaque ID.

- Comparez le nombre de lignes que possède la table "planning" avant et après la jointure. Quelle genre de relation ces deux tables entretiennent ? (1 à 1 ? 1 à n ? n à n ?)

- Effectuez ensuite une seconde jointure afin d'afficher les noms des enseignants qui donnent les différents cours.

In [None]:
# Code here! (first join)


In [None]:
# Code here! (compare tables size before and after join)


In [None]:
# Code here  (second join)


**>>>** Effectuez une jointure gauche sur la table "contacts" afin d'afficher les champs suivants : idContact, les dates de début et de fin de l'abonnement, ainsi que le prix de l'abonnement.

**>>>** Comparez le nombre de lignes dans cette table avec la même table sans jointure. Qu'en conclure ?

In [None]:
# Code here!


In [None]:
# Code here!



**>>>** Effectuez une double jointure gauche en partant de la "visionnages", puis en y ajoutant la table "planning" et, enfin, "cours". Récupérez ainsi le nom du cours regardé.

**>>>** Comparez le nombre de lignes dans cette table avec la même table sans jointure. Qu'en conclure ?

In [None]:
# Code here!


In [None]:
# Code here!


### WHERE

```sql
SELECT COUNT(*)
FROM <table1> <alias>
WHERE <condition1>
```
On peut ajouter des conditions multiples ainsi que des parenthèses afin de prioriser certaines expressions.

```sql
SELECT COUNT(*)
FROM <table1> <alias>
WHERE <condition1>
AND (<condition2> OR <condition3>)
```

**>>>** Affichez les personnes ayant le même prénom que vous.

In [None]:
# Code here!


In [None]:
# Code here!


Une personne est considérée comme ayant "vu" une vidéo si elle a regardé au moins 15ms de manière sans discontinuité.

**>>>** Utilisez un `WHERE` pour filtrer la table visionnages and afficher les visionnages durant plus de 15mns, mais seulement pour les catégories de type "Live".

In [None]:
# Code here!



**>>>** Utilisez la même requête que le précédent exercice mais cette fois-ci ne prenez en compte que les vues pour novembre 2020. Vous pouvez utiliser un `BETWEEN` pour raccourcir la taille de votre code.

In [None]:
# Code here!


### GROUP BY et ORDER BY

<div>
<img src="files/sql_groupby.png" alt="GROUP_BY" width="100%" align='left'/> </div>


Des fonctions communes:
- `SUM()`: Retourne la somme de chaque groupe.
- `COUNT()`: Retourne le nombre de lignes de chaque groupe.
- `AVG()`: Retourne la moyenne de chaque groupe.
- `MIN()`: Retourne la valeur minimum de chaque groupe.
- `MAX()`: Retourne la valeur maximale de chaque groupe.

Exemple :

```sql
SELECT <column1>, COUNT(*)
FROM <first_table>
GROUP BY <column1>
```

Pour trier les résultats on peut utiliser un `ORDER BY`, on peut lui spécifier `ASC` (ascendant) ou `DESC` (descendant) à la fin.

```sql
SELECT <column1>, COUNT(*) nombre_de_lignes
FROM <first_table>
GROUP BY <column1>
ORDER BY rows_number DESC
```

**>>>** Affichez le nombre d'hommes et de femmes dans la table contacts. Utilisez des alias pour réduire les noms des tables et pour nommer les résultats. Classez le résultats afin que la première ligne soit celle du groupe le plus grand.

In [None]:
# Code here!


**>>>** Calculez, pour chae utilisateur, la durée totale du temps passé à regarder des vidéos (en heure et en secondes), le nombre de connexions au service, le temps moyen passé, leur visionnage le plus long ainsi que la durée minimale. Utilisez des alias pour raccourcir le code et renommer les colonnes de résultats. Filtrez les lignes afin de ne prendre en compte que les vues dont la durée est supérieure à 15mns. Utilisez un `ORDER BY` descendant sur la durée totale du temps passé à regarder des vidéos afin d'établir un classement.

In [None]:
# Code here!


**>>>** En réutilisant la précédente requête calculez les mêmes statistiques mais cette fois afin de regarder si le comportement des hommes et des femmes diffère. 

**>>>** Puis une seconde fois en comparant les départements 75 (Paris), 69 (Rhône) et 13 (Bouches-du-Rhône).

In [None]:
# Code here!


In [None]:
# Code here!


### HAVING
```sql
SELECT <results> -- Ce que l'on va inclure dans le rendu final
FROM <first_table> -- La table de départ
LEFT JOIN <other_table> -- Type de jointure
ON <first_table>.id = <other_table>.id -- On précise la clé de jointure
WHERE <condition(s)> -- Les filtres à appliquer
GROUP BY <columns_to_agregate> -- Les colonnes que nous allons grouper
HAVING <condition(s)> -- les filtres après le GROUP BY
```

`HAVING` est utilisé pour filtrer sur des résultats agrégés. Alors que `WHERE` est utilisé quant à lui ets utilisé pour filtrer des lignes, `HAVING` peut filtrer des groupes.


**>>>** Affichez les clients qui ont regardé plus de 10 heures de vidéo. N'oubliez pas d'inclure seulement les vues plus longues que 15 minutes. Classez le résultats par heures décroissantes.

In [None]:
# Code here !



### Variables en MySql

```sql
SET @<variable> = <valeur>, @<variable_2> = <valeur>;
```

Cette instruction ne fonctionnera pas si elle est exécutée dans un jupyter notebook car elle ne retourne aucune ligne. Pour créer une variable dans un notebook jupyter, utilisez la syntaxe classique de python.

### Les dates en MySQL

MySQL comprend nativement les dates et peut effectuer des opérations avec celles-ci.

In [None]:
my_date = "CAST('2022-11-01 11:29:32.0000000' AS DATETIME)"
q(f"""
SELECT "DAY" unit, DAY({my_date}) result
UNION
SELECT "MONTH", MONTH({my_date})
UNION
SELECT "YEAR", YEAR({my_date})
UNION
SELECT "HOUR", HOUR({my_date})
UNION
SELECT "REMOVE", DATE_ADD({my_date}, INTERVAL -2 MONTH)
UNION
SELECT "ADD", DATE_ADD({my_date}, INTERVAL 2 YEAR);
""")

**>>>** Affichez le nombre de vues (au moins de 15 minutes) pour chaque mois et chaque année des données disponibles.

In [None]:
# Code here!


### CASE

```sql
CASE
WHEN <condition> THEN <valeur>
WHEN <condition> THEN <valeur>
ELSE <valeur>
END
```
**>>>** En ne prenant en compte que les départements 75, 59, 68, 13, 06 et 83, affichez les noms et les prénoms de chaque client, ainsi qu'une colonne indiquant 'nordiste' ou 'sudiste' en fonction de leur origine géographique.

**>>>** Comptez ensuite le nombre de 'nordistes' et de 'sudistes'.

Astuce: Vous pouvez utiliser la syntaxe suivante pour raccourcir votre code.
```sql
WHERE codeDept IN ('75', '59', '68', '13', '06', '83');
```

In [None]:
# Code here!

In [None]:
# Code here! (count)


### Date d'aujourd'hui

```sql
SELECT CURDATE();
```
La date d'aujourd'hui est la date du serveur, sur les serveurs celle-ci est souvent au format UTC (anciennement appelé GMT), donc l'heure de Greenwich. Dans ce cas vous devez donc ajouter 1h en hiver et 2h en été pour trouver le temps actuel en France.

### Différence entre deux dates

Vous pouvez calculer le nombre d'années, de mois, de jours, d'heures, de minutes ou encore de secondes en utilisant cette syntaxe :

In [None]:
q("""
SELECT TIMESTAMPDIFF(MONTH, '2023-05-29', '2023-06-28') month_diff
""")

In [None]:
q("""
SELECT TIMESTAMPDIFF(MONTH, '2023-05-29', '2023-06-30') month_diff
""")

**>>>** On désire savoir pour chaque utilisateur ayant eu un abonnement payant le nombre total d'argent qu'il a versé à l'entreprise jusqu'à aujourd'hui. Le prix de l'abonnement est mensuel, celui-ci sera donc multiplié par le nombre de mois. Si la durée est de moins d'un mois, il devra être multiplié par 1.

**Astuce**:
- La fonction `round()` marche également en SQL.
- L'opérateur "différent de" en SQL s'écrit `<>`.

In [None]:
# Code here!


**>>>** Ecrivez une requête qui affiche le nombre total de vues pour chaque client ayant une occurrence dans la table "visionnages" pour le mois d'août 2020.

**Astuce**: N'oubliez pas que vous pouvez utiliser `BETWEEN` pour délimiter les dates de la manière suivante:

```sql
WHERE <colonne> BETWEEN <date1> AND <date2>
```

In [None]:
# Code here!


### Sous-requêtes

```sql
WITH <subquery> AS
(SELECT <column(s)> FROM <table1>)
SELECT <column(s)> FROM <subquery>
```

**>>>** Un abonné peut avoir plusieurs abonnements. Nous voulons connaître la distribution du nombre d'abonnements, comme un `value_counts()` le ferait. Ce qui veut dire, combien de personnes ont eu un abonnement, combien en ont eu deux, trois etc.

In [None]:
# Code here!

### `ROW NUMBER()` (*window fonction*)

Elle nous permet de séparer les lignes en différents groupes et d'effectuer des opérations sur chacun de ces groupes.

La syntaxe est :
```sql
ROW_NUMBER() OVER (<partition_definition> <order_definition>)
```

**>>>** Affichez les champs idContact, dateDebut, idAbonnement depuis la table "abonnements". En utilisant la fonction `ROW_NUMBER()`, ajoutez une nouvelle colonne appelée 'abo_num' qui numérotera le nombre de différents abonnements qu'a eu chaque client, en commençant par le plus vieux. Le plus vieux sera donc labellisé "1", le second "2" etc.

In [None]:
# Code here!


### Requête finale

Est-il possible de prédire la probabilité qu'un client avec un abonnement gratuit finisse par en prendre un payant ?

Pour cela, nous aurons besoin d'exporter un fichier tabulaire qui contiendra nos *features* (X):
- Le statut d'une personne (age, genre, département).
- Le temps total passé à regarder des vidéos.
- Le cours que chaque client a regardé le plus, ainsi que le professeur associé.
- Et, bien sûr si la personne a ensuite pris un abonnement payant ou non (y) !

In [None]:
# Code here!
