In [111]:
# Dans un notebook (.ipynb)
#!pip3 install sqlite3
#!pip3 install psycopg2
#!pip3 install sqlaclhemy
#!pip3 install pandas

# Dans un notebook (.ipynb)
#pip3 install sqlite3
#pip3 install psycopg2
#pip3 install sqlalchemy
#pip3 install pandas

# SQL & Python

## Exemple avec SQLite

### Connexion à la base de données

Pour utiliser SQLite avec Python, on crée une connexion avec une base de données. 
Si la base de données n'existe pas, elle est créée

In [117]:
import sqlite3

# Connexion à la base de données (si elle n'existe pas, elle sera créée)
conn = sqlite3.connect('data/ma_base_de_donnees.db')

### Création d'une table

Définition d'une table

In [118]:
# Création d'un curseur pour exécuter des commandes SQL
cur = conn.cursor()

# Définition du schéma de la table
cur.execute('''
    CREATE TABLE IF NOT EXISTS utilisateurs (
        id INTEGER PRIMARY KEY,
        nom TEXT,
        age INTEGER
    )
''')

# Validation des modifications
conn.commit()

### Opérations CRUD (Create, Read, Update, Delete)

#### Insertion de données 

Ajout d'une ligne dans la table : `INSERT`

In [119]:
cur.execute("INSERT INTO utilisateurs (nom, age) VALUES (?, ?)", ('Alice', 25))
conn.commit()

#### Insertion de données par batch

In [120]:
data_to_insert = [
    ('Alice', 25),
    ('Bob', 30),
    ('Charlie', 22),
    ('David', 28)
]
cur.executemany("INSERT INTO utilisateurs (nom, age) VALUES (?, ?)", data_to_insert)
conn.commit()

#### Lecture des données

Récupération de toutes les données : `SELECT`

In [122]:
cur.execute("SELECT * FROM utilisateurs")
# cur.execute("SELECT nom, age FROM utilisateurs") que le nom et l'âge
resultats = cur.fetchall()

for row in resultats:
    print(row)

('Bob', 30)
('Charlie', 22)
('David', 28)
('Bob', 30)
('Charlie', 22)
('David', 28)
('Bob', 30)
('Charlie', 22)
('David', 28)
('Bob', 30)
('Charlie', 22)
('David', 28)
('Bob', 30)
('Charlie', 22)
('David', 28)
('Bob', 30)
('Charlie', 22)
('David', 28)
('Bob', 28)
('Bob', 28)
('Bob', 30)
('Charlie', 22)
('David', 28)
('Bob', 28)
('Bob', 28)
('Bob', 28)
('Alice', 25)
('Alice', 25)
('Bob', 30)
('Charlie', 22)
('David', 28)


#### Lecture avec filtre

Filtre :  `WHERE`

In [123]:
cur.execute("SELECT * FROM utilisateurs WHERE nom='Bob';")
resultats = cur.fetchall()

for row in resultats:
    print(row)

(3, 'Bob', 30)
(7, 'Bob', 30)
(12, 'Bob', 30)
(17, 'Bob', 30)
(22, 'Bob', 30)
(27, 'Bob', 30)
(30, 'Bob', 28)
(31, 'Bob', 28)
(34, 'Bob', 30)
(37, 'Bob', 28)
(38, 'Bob', 28)
(39, 'Bob', 28)
(42, 'Bob', 30)


#### Mise à jour de données

Mise à jour d'une valeur : `UPDATE`

In [124]:
cur.execute("UPDATE utilisateurs SET age=? WHERE nom=?", (26, 'Alice'))
conn.commit()

#### Suppression de données
`DELETE`

In [125]:
cur.execute("DELETE FROM utilisateurs WHERE nom=?", ('Alice',))
conn.commit()

# Supprimer une table entière
#### cur.execute("DROP TABLE utilisateurs;")
#### conn.commit()

### Fermeture de la connexion


In [None]:
# conn.close()

### Fonction d'aggrégations
Exemples : `COUNT`, `AVG`, `MIN`, `MAX`, `PERCENTILE_CONT()` (sur psql mais pas sqlite)...

In [25]:
# Exemple d'utilisation des fonctions d'agrégation
cur.execute("SELECT COUNT(*) FROM utilisateurs")
total_users = cur.fetchone()[0]
print(f"Nombre total d'utilisateurs : {total_users}")

cur.execute("SELECT AVG(age) FROM utilisateurs")
average_age = cur.fetchone()[0]
print(f"Âge moyen des utilisateurs : {average_age:.2f}")

Nombre total d'utilisateurs : 24
Âge moyen des utilisateurs : 26.83


In [50]:
# Fermeture de la connexion
# conn.close()
# conn.close()

### Aspects avancés

#### Transactions
Les transactions permettent d'assurer l'intégrité des données en garantissant que plusieurs opérations sont exécutées comme une seule unité. 
On utilise les méthodes commit() pour valider les modifications ou rollback() pour les annuler.


In [126]:
# Exemple de transaction
try:
    cur.execute("UPDATE utilisateurs SET age = 30 WHERE nom = 'Alice'")
    cur.execute("INSERT INTO utilisateurs (nom, age) VALUES ('Bob', 28)")
    conn.commit()  # Valider les changements
except:
    print("error")
    conn.rollback()  # Annuler en cas d'erreur

#### Indexation
L'indexation améliore les performances des requêtes en accélérant la recherche dans une table.
Par exemple, quand on utilise souvent une clause `WHERE` sur une colonne, on peut en créer un sur cette colonne


In [31]:
# Exemple de création d'un index
cur.execute("CREATE INDEX idx_nom ON utilisateurs(nom)")
## conn.commit() 

OperationalError: index idx_nom already exists

### Foreign Key

In [38]:
# On créée une deuxième table

# Création de la table "commandes"
cur.execute('''
    CREATE TABLE IF NOT EXISTS commandes (
        id INTEGER PRIMARY KEY,
        utilisateur_id INTEGER,
        produit TEXT,
        date_commande DATE,
        FOREIGN KEY (utilisateur_id) REFERENCES utilisateurs(id)
    )
''')

# Validation des modifications
conn.commit()

# Insertion de données dans la table "commandes"
data_to_insert = [
    (1, 'Ordinateur', '2023-01-05'),
    (2, 'Smartphone', '2023-02-10'),
    (3, 'Tablette', '2023-03-15'),
    (4, 'Laptop', '2023-04-20')
]

# Utilisation de la méthode executemany pour insérer plusieurs enregistrements
cur.executemany("INSERT INTO commandes (utilisateur_id, produit, date_commande) VALUES (?, ?, ?)", data_to_insert)

# Validation des modifications
conn.commit()


#### Jointures 
Les jointures permettent de combiner des données de plusieurs tables. 
Attention, il existe plusieurs types de jointures : INNER JOIN, LEFT JOIN, ou RIGHT JOIN par exemple

In [129]:
# Exemple de jointure
cur.execute("""
    SELECT utilisateurs.nom, commandes.produit
    FROM utilisateurs 
    INNER JOIN commandes 
    ON utilisateurs.id = commandes.utilisateur_id""")

resultats = cur.fetchall()
for row in resultats:
    print(row)

('Bob', 'Tablette')
('Charlie', 'Laptop')
('Bob', 'Tablette')
('Charlie', 'Laptop')


#### Sous-requêtes
Les sous-requêtes sont des requêtes imbriquées à l'intérieur d'une autre requête. Elles sont utiles pour effectuer des opérations complexes.


In [130]:
# Exemple de sous-requête
cur.execute(
    """
    SELECT nom FROM utilisateurs 
    WHERE id IN (SELECT utilisateur_id FROM commandes WHERE produit = 'Tablette')
    """
)

resultats = cur.fetchall()
for row in resultats:
    print(row)

('Bob',)


#### Utilisation de Paramètres
L'utilisation de paramètres dans les requêtes prévient les attaques par injection SQL et rend le code plus lisible.


In [131]:
# Exemple avec des paramètres

nom_utilisateur = 'Alice'
cur.execute("SELECT * FROM utilisateurs WHERE nom = ?", (nom_utilisateur,))
conn.commit()

#### Travailler avec des Dates

In [49]:
# Exemple d'opération avec des dates
cur.execute("SELECT * FROM commandes WHERE date_commande > DATE('2023-01-01')")

<sqlite3.Cursor at 0x7feab372ae30>

## Se connecter à une base de données distante (Postgresql)

In [145]:
URL_DB = "postgres://course_pyth_5801:Z1cufoxTonxlgtnmHFNb@course-pyth-5801.postgresql.a.osc-fr1.scalingo-dbs.com:32624/course_pyth_5801?sslmode=prefer"



In [146]:
import psycopg2

try:
    conn = psycopg2.connect(URL_DB)
    print("Connexion réussie")
    
    
    # Création d'un curseur pour exécuter des commandes SQL
    cur = conn.cursor()
    
    ########################################################
    # cur.execute('''DROP TABLE utilisateurs;''')
    # conn.commit()
    ########################################################

    # Définition du schéma de la table
    cur.execute('''
        CREATE TABLE IF NOT EXISTS utilisateurs (
            id SERIAL PRIMARY KEY,
            nom TEXT,
            age INTEGER
        )
    ''')

    # Validation des modifications
    conn.commit()

    data_to_insert = [
        ('Alice', 25),
        ('Bob', 30),
        ('Charlie', 22),
        ('David', 28)
    ]
    cur.executemany("INSERT INTO utilisateurs (nom, age) VALUES (%s, %s)", data_to_insert)
    conn.commit()

    
    # Tables dans le schéma public
    cur.execute("SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';")
    tables = cur.fetchall()

    # Display the table names
    print("Tables dans le schema public :")
    for table in tables:
        print(table[0])

except psycopg2.Error as e:
    print(e)

finally:
    # Fermer le curseur et la connexion
    if conn:
        cur.close()
        conn.close()
        print("Connexion fermée.")

Connexion réussie
Tables dans le schema public :
utilisateurs
Connexion fermée.


### Lecture très efficace avec pandas `read_sql`
- https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html

❤️❤️❤️❤️❤️❤️ Bien lire au sujet de l'argument : `chunksize`

In [147]:
# SELECT * FROM utilisateurs;

In [149]:
from sqlalchemy import create_engine
import pandas as pd


# ATTENTION !! FORMAT DIFFERENT POUR SQLALCHEMY
URL_DB_SQLACHEMY = f"postgresql+psycopg2{URL_DB[8:]}"
engine = create_engine(URL_DB_SQLACHEMY, connect_args={'sslmode': "allow"})

table_name = 'utilisateurs'

### conn = sqlite3.connect('data/ma_base_de_donnees.db') pd.read_sql gère aussi sqlite
df = pd.read_sql(f'SELECT * FROM {table_name}', con=engine)

# Obtenir une liste de listes : 
data = [
    df[col].tolist()
    for col in df.columns
]
# print(data[:3])

# Dataframe
# df
df

Unnamed: 0,id,nom,age
0,1,Alice,25
1,2,Bob,30
2,3,Charlie,22
3,4,David,28


### Méthodes d'export : 

In [150]:
#df.to_csv("../data/utilisateurs_export_from_scalingo.csv")
#df.to_excel("../data/utilisateurs_export_from_scalingo.xlsx")
#df.to_pickle("../data/utilisateurs_export_from_scalingo.pk")
#df.to_html("data/utilisateurs_export_from_scalingo.html")

### Insertion très efficace avec pandas : `to_sql`
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html

In [151]:
import random
df = pd.DataFrame(
    [[random.random() for _ in range(10)] for _ in range(10_000)],
    columns=[f'colonne_{i}' for i in range(10)]
)


df.to_sql(
    'table_from_pandas', 
    con=engine,
    if_exists='fail',  # append / replace sont aussi possibles
    index=True,        # on garde l'index de la dataframe dans la table finale
    chunksize=None # ❤️❤️❤️❤️ PERMET DE GERER DES 
                   # INSERTIONS DE GROS VOLUME DE DONNEES SIMPLEMENT 
)

1000

# Exercice
***

## Exercice 1 
- Récupérer les données des personnages avec l'API du Seigneur des Anneaux (TP 5)
- Créer une table dans laquelle vous stockerez ces données (une colonne par champ dans le JSON)

**Rappel :**
```json
{
    '_id': '5cd99d4bde30eff6ebccfcec',
     'birth': 'YT 1300',
     'death': 'FA 465',
     'gender': 'Male',
     'hair': 'Golden',
     'height': '',
     'name': 'Finrod',
     'race': 'Elf',
     'realm': '',
     'spouse': 'Loved ,Amarië but they never married',
     'wikiUrl': 'http://lotr.wikia.com//wiki/Finrod'
}
```

## Exercice 2
- Choisir une page wikipedia qui contient au moins deux tables avec plus de 10 lignes et 5 colonnes

**vous veillerez à utiliser les types adéquats**
- Scraper les données des deux tables et les insérer dans une base de données sqlite (localement)
- Faire de même mais insérer cette fois-ci dans une base de données distante (scalingo par exemple)

# Exercice 3
**Vous pourrez faire l'exercice localement avec sqlite et avec une base de données distante**
- Créer une table qui au moins une colonne de chaîne de caractères que vous appelerez `color`
- Cette table doit avoir plus de 100 000 lignes
    - La colonne `color` doit contenir le nom de plus de 200 couleurs 
    - La colonne `color` ne doit pas avoir un index (ne peut pas être la colonne d'`id`
       
       (https://raw.githubusercontent.com/k-kawakami/colorfulnet/master/example_data/wikipedia-list-of-colors.txt)

- Mesurer le temps d'exécution du code (avec `timeit` ou avec la méthode ci-dessous) lorsque l'on rapatrie des données avec `SELECT` en utilisant un `WHERE` sur la colonne `color` 
- Créer un indexe sur la colonne `color`, mesurer le temps d'exécution pour la même requête et comparer les temps d'exécution

In [115]:
import datetime 

def f():
    [x**2 for x in range(10_000_000)]
    return 1

# On mesure le temps d'exécution
starting_time = datetime.datetime.now()
f()
ending_time = datetime.datetime.now()
timedelta = (ending_time-starting_time)
seconds = timedelta.seconds
microseconds=timedelta.microseconds
print(f'{seconds}.{microseconds}s')

3.405166s
