# Traitement et stockage des données issues du scraping

Vous avez scrapé les données du site de livres et les avez stockées dans un fichier (CSV ou JSON). 

L'objectif de ce notebook est de créer une base de données pour y stocker ces données.

In [1]:
import sqlite3
import pandas as pd
from sqlalchemy import create_engine

Chercher dans la doc [pandas](https://pandas.pydata.org/docs/) la fonction permettant de lire les données d'un fichier (CSV ou JSON).

In [None]:
# Lire les données du fichier que vous venez d'enregistrer
df_books = 

## 1. Prétraitement des données

On souhaite créer la table _book_ contenant les attributs suivants : 
- id : INT, PK,
- title : TEXT,
- price : DECIMAL
- availability : BOOLEAN
- rating : INT [0:5]

Vérifier que les données du dataframe ont les types attendus en utilisant la méthode pandas [_info_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html).

In [None]:
# Vérification des types de données


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   title         1000 non-null   object
 1   price         1000 non-null   object
 2   rating        1000 non-null   object
 3   availability  1000 non-null   object
dtypes: object(4)
memory usage: 31.4+ KB


Utiliser la méthode pandas [_astype_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html) pour convertir la colonne de titre en chaîne de caractère.

In [None]:
# Conversion de title en chaîne de caractères
df_books["title"] = 

# Vérification du type de la colonne title
print(df_books["title"].dtype)

object


Pour convertir la colonne de prix en nombre décimal, il est nécessaire d'utiliser une étape intermédiaire pour retirer le caractère "£".

Il est possible par exemple d'utiliser l'attribut [.str](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html) de la série "price".

In [None]:
# Convertir la colonne price en type décimal
df_books["price"] = 

# Vérification du type de la colonne price
print(df_books["price"].dtype)

float64


Convertir la colonne `availability` en boolen (True/False).

Afficher d'abord les valeurs possibles de la colonne `availability` en utilisant par exemple la méthode `.value_counts`.

In [None]:
# Valeurs possibles de la colonne availability


availability
In stock    1000
Name: count, dtype: int64

Créer une fonction qui prend en entrée la valeur de `availability` et qui renvoie True ou False en fonction de la valeur d'entrée.

In [8]:
# Fonction pour convertir la valeur de availability en booléen
def convert_availability(value):
    """Convert the availability value to a boolean.

    Args:
        value (str): The availability status of the book.

    Returns:
        bool: True if the book is available, False otherwise.
    """
    

bool


Utiliser la fonction [`apply`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) pour appliquer la fonction à la colonne `availability`.

In [None]:
# Convertir la colonne availability en booléen (True/False)
df_books["availability"] = 

# Vérification du type de la colonne availability
print(df_books["availability"].dtype)

Convertir la colonne _rating_ en chiffre en utilisant un dictionnaire `rating_map` et la méthode [_map_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html).

In [None]:
# Convertir la colonne rating en int
ratings_map = 

df_books["rating"] =

# Vérification du type de la colonne rating
print(df_books["rating"].dtype)

int64


---
## 2. Création d'une BDD

Création d'une base de données sqlite _livres.db_ (ou connexion à la base si déjà existante).

In [None]:
# conn : object de connexion à la base de données
conn = sqlite3.connect('book_store.db')

Écrire la requête SQL qui permet de créer la table `book`.

In [None]:
# requête SQL pour créer la table book
sql_create_table = '''

'''

Exécuter la requête en utilisant la méthode `execute` de `conn`.

In [None]:
# Création de la table


<sqlite3.Cursor at 0x10fda8740>

Chercher et utiliser la méthode pandas qui permet d'écrire les données d'un dataframe dans une BDD SQL.

In [None]:
# insertion des données dans la table book

# Valider les modifications et fermer la connexion
conn.commit()
conn.close()

---
## 3. Interroger la BDD en utilisant sqlite3

Utiliser le tuto [sqlite3](https://docs.python.org/3/library/sqlite3.html#sqlite3-tutorial) pour interroger la BDD que vous avez créer dans la partie précédente :

- ouvrir un connexion à la base, 
- utiliser un _cursor_,
- écrire les requêtes SQL adaptées,
- éxécuter les requêtes SQL.

In [None]:
conn = 
cursor = 

In [None]:
# compter le nombre de livres dans la base de données
count = 
print(f"Nombre de livres dans la base de données : {count}")

Nombre de livres dans la base de données : 1000


In [None]:
# Afficher le nombre total des livres en stock
total_in_stock = 
print(f"Nombre total des livres en stock : {total_in_stock}")

Nombre total des livres en stock : 1000


In [None]:
# Afficher le nombre de livres avec une note de 5
books_rating_5 = 
print(f"Livres notés 5 : {len(books_rating_5)} livres")

# Afficher la liste de ces livres

Livres notés 5 : 196 livres
(5, 'Sapiens: A Brief History of Humankind', 54.23, 1, 5)
(13, 'Set Me Free', 17.46, 1, 5)
(14, "Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)", 52.29, 1, 5)
(15, 'Rip it Up and Start Again', 35.02, 1, 5)
(24, 'Chase Me (Paris Nights #2)', 25.27, 1, 5)
(25, 'Black Dust', 34.53, 1, 5)
(29, 'Worlds Elsewhere: Journeys Around Shakespeare’s Globe', 40.3, 1, 5)
(31, 'The Four Agreements: A Practical Guide to Personal Freedom', 17.66, 1, 5)
(33, 'The Elephant Tree', 23.82, 1, 5)
(35, "Sophie's World", 15.94, 1, 5)
(43, 'Private Paris (Private #10)', 47.61, 1, 5)
(44, '#HigherSelfie: Wake Up Your Life. Free Your Soul. Find Your Tribe.', 23.11, 1, 5)
(47, 'We Love You, Charlie Freeman', 50.27, 1, 5)
(55, 'Thirst', 17.27, 1, 5)
(66, 'The Inefficiency Assassin: Time Management Tactics for Working Smarter, Not Longer', 20.59, 1, 5)
(73, "The Activist's Tao Te Ching: Ancient Advice for a Modern Revolution", 32.24, 1, 5)
(81, 'Princess Jellyfish 2-in-1 Omnibus,

In [None]:
# Afficher le nombre de livres avec une note de 4 ou plus
books_rating_4_plus = 
print(f"Livres notés 4 ou plus triés par prix décroissant : {len(books_rating_4_plus)} livres")

# Afficher la liste de ces livres par ordre décroissant de prix 

Livres notés 4 ou plus triés par prix décroissant : 375 livres
(561, 'The Barefoot Contessa Cookbook', 59.92, 1, 5)
(550, 'The Man Who Mistook His Wife for a Hat and Other Clinical Tales', 59.45, 1, 4)
(363, 'The Gray Rhino: How to Recognize and Act on the Obvious Dangers We Ignore', 59.15, 1, 4)
(813, 'Life Without a Recipe', 59.04, 1, 5)
(423, 'Unlimited Intuition Now', 58.87, 1, 4)
(638, 'Approval Junkie: Adventures in Caring Too Much', 58.81, 1, 5)
(965, 'Myriad (Prentor #1)', 58.75, 1, 4)
(723, 'The Rose & the Dagger (The Wrath and the Dawn #2)', 58.64, 1, 4)
(641, 'Alight (The Generations Trilogy #2)', 58.59, 1, 4)
(577, 'Catherine the Great: Portrait of a Woman', 58.55, 1, 4)
(380, 'How to Speak Golf: An Illustrated Guide to Links Lingo', 58.32, 1, 5)
(338, 'Aristotle and Dante Discover the Secrets of the Universe (Aristotle and Dante Discover the Secrets of the Universe #1)', 58.14, 1, 4)
(69, 'The Death of Humanity: and the Case for Life', 58.11, 1, 4)
(136, 'The White Cat and

In [None]:
# Note moyenne des livres disponibles
average_rating =
print(f"Note moyenne des livres disponibles : {average_rating:.2f}")

Note moyenne des livres disponibles : 2.92


In [None]:
# Afficher les prix max et min des livres
max_price = 
min_price =
print(f"Prix maximum : {max_price}, Prix minimum : {min_price}")

Prix maximum : 59.99, Prix minimum : 10


In [None]:
# Afficher le prix moyen des livres
average_price = 
print(f"Prix moyen des livres : {average_price}")   

Prix moyen des livres : 35.07035


In [None]:
# Afficher le nombre de livres par note


Nombre de livres par note :
- 5 étoiles : 196 livres
- 4 étoiles : 179 livres
- 3 étoiles : 203 livres
- 2 étoiles : 196 livres
- 1 étoiles : 226 livres


In [None]:
# Afficher les livres qui coûtent plus cher que la moyenne

Livres plus chers que la moyenne (35.07035) : 513
(1, 'A Light in the Attic', 51.77, 1, 3)
(2, 'Tipping the Velvet', 53.74, 1, 1)
(3, 'Soumission', 50.1, 1, 1)
(4, 'Sharp Objects', 47.82, 1, 4)
(5, 'Sapiens: A Brief History of Humankind', 54.23, 1, 5)
(10, 'The Black Maria', 52.15, 1, 1)
(14, "Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)", 52.29, 1, 5)
(16, 'Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991', 57.25, 1, 3)
(18, 'Mesaerion: The Best Science Fiction Stories 1800-1849', 37.59, 1, 1)
(19, 'Libertarianism for Beginners', 51.33, 1, 2)
(20, "It's Only the Himalayas", 45.17, 1, 2)
(22, 'How Music Works', 37.32, 1, 2)
(26, 'Birdsong: A Story in Pictures', 54.64, 1, 3)
(28, 'Aladdin and His Wonderful Lamp', 53.13, 1, 3)
(29, 'Worlds Elsewhere: Journeys Around Shakespeare’s Globe', 40.3, 1, 5)
(30, 'Wall and Piece', 44.18, 1, 4)
(34, 'The Bear and the Piano', 36.89, 1, 1)
(39, 'Behind Closed Doors', 52.22, 1, 4)
(41, 'Slow States of Coll

In [None]:
# Trouver les livres dont le titre contient "light"


Livres contenant 'light' dans le titre : 14
(1, 'A Light in the Attic', 51.77, 1, 3)
(125, 'A Flight of Arrows (The Pathfinders #2)', 55.53, 1, 5)
(146, 'The Power of Now: A Guide to Spiritual Enlightenment', 43.54, 1, 2)
(341, 'All the Light We Cannot See', 29.87, 1, 5)
(465, 'Out of Print: City Lights Spotlight No. 14', 53.64, 1, 5)
(486, 'Brilliant Beacons: A History of the American Lighthouse', 11.45, 1, 3)
(641, 'Alight (The Generations Trilogy #2)', 58.59, 1, 4)
(708, 'Twilight (Twilight #1)', 41.93, 1, 2)
(843, 'Friday Night Lights: A Town, a Team, and a Dream', 51.22, 1, 3)
(849, 'Eclipse (Twilight #3)', 18.74, 1, 1)
(865, 'Breaking Dawn (Twilight #4)', 35.28, 1, 5)
(896, 'New Moon (Twilight #2)', 12.86, 1, 4)
(905, 'Where Lightning Strikes (Bleeding Stars #3)', 39.77, 1, 3)
(930, 'The Light of the Fireflies', 54.43, 1, 1)


On récupère des titres avec le mot "light" mais également des titres contenant un mot qui contient "light" comme sous-mot ("Twilight" ou autre).

**BONUS**

Trouver les titres contenant exactement le mot "light".