# Traitement et stockage des données issues du scraping

Vous avez scrapé les données du site de livres et les avez stockées dans un fichier. 

L'objectif de ce notebook est de créer une base de données pour y stocker ces données.

In [1]:
import sqlite3
import pandas as pd

Lire les données du fichier sauvegardé en utilisant pandas.

In [2]:
# Lire les données du fichier que vous venez d'enregistrer
df_books = pd.read_csv('../books_infos.csv')
df_books

Unnamed: 0.1,Unnamed: 0,title,price,rating,availability
0,0,Frankenstein,£38.00,Two,In stock
1,1,Forever Rockers (The Rocker #12),£28.80,Three,In stock
2,2,Fighting Fate (Fighting #6),£39.24,Three,In stock
3,3,Emma,£32.93,Two,In stock
4,4,"Eat, Pray, Love",£51.32,Three,In stock
5,5,Deep Under (Walker Security #1),£47.09,Five,In stock
6,6,Choosing Our Religion: The Spiritual Lives of ...,£28.42,Four,In stock
7,7,Charlie and the Chocolate Factory (Charlie Buc...,£22.85,Three,In stock
8,8,Charity's Cross (Charles Towne Belles #4),£41.24,One,In stock
9,9,Bright Lines,£39.07,Five,In stock


## 1. Prétraitement des données

On souhaite créer la table _book_ contenant les attributs suivants : 
- id : INT, PK,
- title : TEXT,
- price : DECIMAL
- availability : BOOLEAN
- rating : INT [0:5]

Vérifier les types des colonnes du dataframe.

In [3]:
# Vérification des types de données
print(df_books.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0    20 non-null     int64 
 1   title         20 non-null     object
 2   price         20 non-null     object
 3   rating        20 non-null     object
 4   availability  20 non-null     object
dtypes: int64(1), object(4)
memory usage: 932.0+ bytes
None


Dans les cellules qui suivent, des méthodes de traitement de données sont suggérées pour donner un aperçu de ce qu'il est possible de faire avec pandas.

**Il est tout à fait possible de faire autrement.**

Utiliser la méthode pandas [_astype_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html) pour convertir la colonne de titre en chaîne de caractère.

In [4]:
# Conversion de title en chaîne de caractères
df_books["title"] = df_books["title"].astype("string")

# Vérification du type de la colonne title
print(df_books["title"].dtype)

string


Pour convertir la colonne de prix en nombre décimal, il est nécessaire d'utiliser une étape intermédiaire pour retirer le caractère "£".

Il est possible par exemple d'utiliser l'attribut [.str](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html) de la série "price".

In [5]:
# Convertir la colonne price en type décimal
df_books["price"] = df_books['price'].str.slice(1).astype("float")
# Vérification du type de la colonne price

print(df_books["price"].dtype)

float64


Convertir la colonne `availability` en boolen (True/False).

Quelles sont les valeurs possibles pour la colonne availability ?

In [6]:
# Valeurs possibles de la colonne availability

# Les valeurs possible pour la colonne availability sont "In stock" et "Out of stock"

Créer une fonction qui prend en entrée la valeur de `availability` et qui renvoie True ou False en fonction de la valeur d'entrée.

In [7]:
# Fonction pour convertir la valeur de availability en booléen
def convert_availability(value : str) -> bool:
    if value == "In stock":
        return True
    else:
        return False
    """Convert the availability value to a boolean.

    Args:
        value (str): The availability status of the book.

    Returns:
        bool: True if the book is available, False otherwise.
    """
    

Utiliser la méthode [`apply`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) pour appliquer la fonction à la colonne `availability`.

In [8]:
# Convertir la colonne availability en booléen (True/False)
df_books["availability"] = df_books["availability"].apply(convert_availability)

# Vérification du type de la colonne availability
print(df_books["availability"].dtype)

bool


Convertir la colonne _rating_ en chiffre en utilisant un dictionnaire `rating_map` et la méthode [_map_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html).

In [9]:
# Dictionnaire associant les notes au format initial et les valeurs numérique
ratings_map = ({"One":1,"Two":2,"Three":3,"Four":4,"Five":5})

df_books["rating"] = df_books["rating"].map(ratings_map)

# Vérification du type de la colonne rating
print(df_books["rating"].dtype)

int64


In [10]:
df_books = pd.read_csv('../books_infos.csv')

# Créer une fonction convert_types qui combine les traitements faits dans les cellules précédentes
def convert_types(df_books: pd.DataFrame) -> pd.DataFrame:
    df_books["title"] = df_books["title"].astype("string")
    df_books["rating"] = df_books["rating"].map({"One":1,"Two":2,"Three":3,"Four":4,"Five":5})
    df_books["price"] = df_books['price'].str.slice(1).astype("float")
    df_books["availability"] = df_books["availability"].map({"In stock":True,"Out of stock":False})
    return df_books

    """Convert the types of the DataFrame columns to appropriate types.

    Args:
        df_books (pd.DataFrame): The DataFrame containing book data.

    Returns:
        pd.DataFrame: The DataFrame with converted types.
    """

convert_types(df_books).dtypes


Unnamed: 0               int64
title           string[python]
price                  float64
rating                   int64
availability              bool
dtype: object

---
## 2. Insertion des données en base

Dans cette section :
- on créé une BDD sqlite  `book_store.db` (ou on se connecte à la base si elle existe déjà) en utilisant la bibliothèque python sqlite3,
- on insère les données prétraitées dans la BDD

Utiliser le [tutoriel](https://www.ionos.fr/digitalguide/sites-internet/developpement-web/sqlite3-avec-python/) pour l'utilisation de sqlite3.

Utiliser la fonction pandas adaptée qui permet d'insérer un dataframe dans une BDD.

In [11]:
# Création de la BDD et insertion des données
connection = sqlite3.connect("book_store.db")

df_books.to_sql("books",connection)

ValueError: Table 'books' already exists.

Vérifier le nombre de livres présents dans la BDD en utilisant sqlite3 et la requête SQL adaptée.

In [None]:
# Compter le nombre de livre dans la BDD
cursor = connection.cursor()
cursor.execute("SELECT * FROM books")
rows = cursor.fetchall()
for row in rows:
    print(row)

(0, 0, 'Frankenstein', 38.0, 2, 1)
(1, 1, 'Forever Rockers (The Rocker #12)', 28.8, 3, 1)
(2, 2, 'Fighting Fate (Fighting #6)', 39.24, 3, 1)
(3, 3, 'Emma', 32.93, 2, 1)
(4, 4, 'Eat, Pray, Love', 51.32, 3, 1)
(5, 5, 'Deep Under (Walker Security #1)', 47.09, 5, 1)
(6, 6, "Choosing Our Religion: The Spiritual Lives of America's Nones", 28.42, 4, 1)
(7, 7, 'Charlie and the Chocolate Factory (Charlie Bucket #1)', 22.85, 3, 1)
(8, 8, "Charity's Cross (Charles Towne Belles #4)", 41.24, 1, 1)
(9, 9, 'Bright Lines', 39.07, 5, 1)
(10, 10, "Bridget Jones's Diary (Bridget Jones #1)", 29.82, 1, 1)
(11, 11, 'Bounty (Colorado Mountain #7)', 37.26, 4, 1)
(12, 12, 'Blood Defense (Samantha Brinkman #1)', 20.3, 3, 1)
(13, 13, 'Bleach, Vol. 1: Strawberry and the Soul Reapers (Bleach #1)', 34.65, 5, 1)
(14, 14, 'Beyond Good and Evil', 43.38, 1, 1)
(15, 15, "Alice in Wonderland (Alice's Adventures in Wonderland #1)", 55.53, 1, 1)
(16, 16, 'Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)', 57.06, 4, 1)
(17,