# Traitement et stockage des données issues du scraping

Vous avez scrapé les données du site de livres et les avez stockées dans un fichier (CSV ou JSON). 

L'objectif de ce notebook est de créer une base de données pour y stocker ces données.

In [None]:
import sqlite3
import pandas as pd

Chercher dans la doc [pandas](https://pandas.pydata.org/docs/) la fonction permettant de lire les données d'un fichier (CSV ou JSON).

In [None]:
# Lire les données du fichier que vous venez d'enregistrer
df_books = 

## 1. Prétraitement des données

On souhaite créer la table _book_ contenant les attributs suivants : 
- id : INT, PK,
- title : TEXT,
- price : DECIMAL
- availability : BOOLEAN
- rating : INT [0:5]

Vérifier que les données du dataframe ont les types attendus en utilisant la méthode pandas [_info_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html).

In [None]:
# Vérification des types de données


Utiliser la méthode pandas [_astype_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html) pour convertir la colonne de titre en chaîne de caractère.

In [None]:
# Conversion de title en chaîne de caractères
df_books["title"] = 

# Vérification du type de la colonne title
print(df_books["title"].dtype)

Pour convertir la colonne de prix en nombre décimal, il est nécessaire d'utiliser une étape intermédiaire pour retirer le caractère "£".

Il est possible par exemple d'utiliser l'attribut [.str](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html) de la série "price".

In [None]:
# Convertir la colonne price en type décimal
df_books["price"] = 

# Vérification du type de la colonne price
print(df_books["price"].dtype)

Convertir la colonne `availability` en boolen (True/False).

Afficher d'abord les valeurs possibles de la colonne `availability` en utilisant par exemple la méthode `.value_counts`.

In [None]:
# Valeurs possibles de la colonne availability


Créer une fonction qui prend en entrée la valeur de `availability` et qui renvoie True ou False en fonction de la valeur d'entrée.

In [None]:
# Fonction pour convertir la valeur de availability en booléen
def convert_availability(value):
    """Convert the availability value to a boolean.

    Args:
        value (str): The availability status of the book.

    Returns:
        bool: True if the book is available, False otherwise.
    """
    

Utiliser la fonction [`apply`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) pour appliquer la fonction à la colonne `availability`.

In [None]:
# Convertir la colonne availability en booléen (True/False)
df_books["availability"] = 

# Vérification du type de la colonne availability
print(df_books["availability"].dtype)

Convertir la colonne _rating_ en chiffre en utilisant un dictionnaire `rating_map` et la méthode [_map_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html).

In [None]:
# Convertir la colonne rating en int
ratings_map = 

df_books["rating"] =

# Vérification du type de la colonne rating
print(df_books["rating"].dtype)

---
## 2. Création d'une BDD

Création d'une base de données sqlite _livres.db_ (ou connexion à la base si déjà existante).

In [None]:
# conn : object de connexion à la base de données
conn = sqlite3.connect('book_store.db')

Écrire la requête SQL qui permet de créer la table `book`.

In [None]:
# requête SQL pour créer la table book
sql_create_table = '''

'''

Exécuter la requête en utilisant la méthode `execute` de `conn`.

In [None]:
# Création de la table


Chercher et utiliser la méthode pandas qui permet d'écrire les données d'un dataframe dans une BDD SQL.

In [None]:
# insertion des données dans la table book

# Valider les modifications et fermer la connexion
conn.commit()
conn.close()

---
## 3. Interroger la BDD en utilisant sqlite3

Utiliser le tuto [sqlite3](https://docs.python.org/3/library/sqlite3.html#sqlite3-tutorial) pour interroger la BDD que vous avez créer dans la partie précédente :

- ouvrir un connexion à la base, 
- utiliser un _cursor_,
- Encore un peu de de SQL : écrire les requêtes SQL adaptées,
- éxécuter les requêtes SQL.

In [None]:
conn = 
cursor = 

In [None]:
# compter le nombre de livres dans la base de données
count = 
print(f"Nombre de livres dans la base de données : {count}")

In [None]:
# Afficher le nombre total des livres en stock
total_in_stock = 
print(f"Nombre total des livres en stock : {total_in_stock}")

In [None]:
# Note moyenne des livres disponibles
average_rating =
print(f"Note moyenne des livres disponibles : {average_rating:.2f}")

In [None]:
# Afficher les prix max et min des livres
max_price = 
min_price =
print(f"Prix maximum : {max_price}, Prix minimum : {min_price}")

In [None]:
# Afficher le nombre de livres par note


**BONUS**

In [None]:
# Afficher les livres qui coûtent plus cher que la moyenne

In [None]:
# Trouver les livres dont le titre contient "light"


On récupère des titres avec le mot "light" mais également des titres contenant un mot qui contient "light" comme sous-mot ("Twilight" ou autre).


Trouver les titres contenant exactement le mot "light".