# Nettoyage des données pour insertion dans la base de données

In [55]:
# Import des différentes librairies
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

# creation de la connexion à la base de données reco_livre
engine = create_engine('mysql://lukas:simplon@127.0.0.1/reco_livre')
engine.connect()
print(engine)

# Import des jeux de données
ratings = pd.read_csv("donnees/ratings.csv")
books = pd.read_csv("donnees/books.csv")
to_read = pd.read_csv("donnees/to_read.csv")
tags = pd.read_csv("donnees/tags.csv")
book_tags = pd.read_csv("donnees/BDD.csv")

Engine(mysql://lukas:***@127.0.0.1/reco_livre)


## Vérification des valeurs manquantes dans les jeux de données

In [56]:
ratings.isnull().sum()

user_id    0
book_id    0
rating     0
dtype: int64

In [57]:
books.isnull().sum()

book_id                         0
goodreads_book_id               0
best_book_id                    0
work_id                         0
books_count                     0
isbn                          700
isbn13                        585
authors                         0
original_publication_year      21
original_title                585
title                           0
language_code                1084
average_rating                  0
ratings_count                   0
work_ratings_count              0
work_text_reviews_count         0
ratings_1                       0
ratings_2                       0
ratings_3                       0
ratings_4                       0
ratings_5                       0
image_url                       0
small_image_url                 0
dtype: int64

### Il y a des valeurs manquantes dans 5 colonnes
### 7% d'isbn et 5% d'isbn13 sont manquants mais suite à vérification ce ne sont pas des vrais isbn donc pas très utile de modifier cette colonne
### Les autres valeurs manquantes n'ont pas d'impact sur la suite

In [58]:
to_read.isnull().sum()

user_id    0
book_id    0
dtype: int64

In [59]:
book_tags.isnull().sum()

Unnamed: 0    0
tag_id        0
book_id       0
count         0
dtype: int64

In [60]:
tags.isnull().sum()

tag_id      0
tag_name    0
dtype: int64

## Nous choisissons de changer le type des colonnes isbn de int à str pour les insérer dans la bdd

In [61]:
# On vérifie le type de toute les colonnes
books.dtypes

book_id                        int64
goodreads_book_id              int64
best_book_id                   int64
work_id                        int64
books_count                    int64
isbn                          object
isbn13                       float64
authors                       object
original_publication_year    float64
original_title                object
title                         object
language_code                 object
average_rating               float64
ratings_count                  int64
work_ratings_count             int64
work_text_reviews_count        int64
ratings_1                      int64
ratings_2                      int64
ratings_3                      int64
ratings_4                      int64
ratings_5                      int64
image_url                     object
small_image_url               object
dtype: object

In [62]:
# On change le type des deux colonnes isbn et isbn13
books["isbn"] = books["isbn"].astype(str)
books["isbn13"] = books["isbn13"].astype(str)

# On vérifie que le changement à bien été appliquer
books.dtypes

book_id                        int64
goodreads_book_id              int64
best_book_id                   int64
work_id                        int64
books_count                    int64
isbn                          object
isbn13                        object
authors                       object
original_publication_year    float64
original_title                object
title                         object
language_code                 object
average_rating               float64
ratings_count                  int64
work_ratings_count             int64
work_text_reviews_count        int64
ratings_1                      int64
ratings_2                      int64
ratings_3                      int64
ratings_4                      int64
ratings_5                      int64
image_url                     object
small_image_url               object
dtype: object


## On réarrange l'index de tags car tag_id sont uniques autoincrémentables et non-nulls

In [63]:
tags.tag_id = np.arange(1, len(tags)+1)
tags

Unnamed: 0,tag_id,tag_name
0,1,-
1,2,--1-
2,3,--10-
3,4,--12-
4,5,--122-
...,...,...
34247,34248,Ｃhildrens
34248,34249,Ｆａｖｏｒｉｔｅｓ
34249,34250,Ｍａｎｇａ
34250,34251,ＳＥＲＩＥＳ


In [64]:
# on réarrage l'index en clef primaire pour l'insertion en bdd
to_read.index = np.arange(1, len(to_read)+1)
to_read.index.rename('to_read_id', inplace=True)
to_read

Unnamed: 0_level_0,user_id,book_id
to_read_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,9,8
2,15,398
3,15,275
4,37,7173
5,34,380
...,...,...
912701,39374,1049
912702,10492,5180
912703,21879,4827
912704,21879,6642


In [65]:
# on réarrage l'index en clef primaire pour l'insertion en bdd

ratings.index = np.arange(1, len(ratings)+1)
ratings.index.rename('ratings_id', inplace=True)
ratings

Unnamed: 0_level_0,user_id,book_id,rating
ratings_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,258,5
2,2,4081,4
3,2,260,5
4,2,9296,5
5,2,2318,3
...,...,...,...
5976475,49925,510,5
5976476,49925,528,4
5976477,49925,722,4
5976478,49925,949,5


In [66]:
book_tags.drop(columns="Unnamed: 0", inplace=True)

In [71]:
book_tags

Unnamed: 0,tag_id,book_id,count
0,30574,27,167697
1,11305,27,37174
2,11557,27,34173
3,8717,27,12986
4,33114,27,12716
...,...,...,...
999907,21303,8892,7
999908,17271,8892,7
999909,1126,8892,7
999910,11478,8892,7


# Création des dataframes pour la table d'association

## Insertion des dataframes dans la bdd

# ATTENTION : A N'EXECUTER QU'UNE SEULE FOIS !!! sous peine d'écrire deux fois sur les tables

## Tables classiques

In [72]:
# Insertion tags
tags.to_sql('tags', con=engine, if_exists='append', index=False)

# Insertion books
books.to_sql('books', con=engine, if_exists='append', index=False)

# Insertion ratings
ratings.to_sql('ratings', con=engine, if_exists='append', index=True)

# Insertion to_read
to_read.to_sql('to_read', con=engine, if_exists='append', index=True)

# Insertion book_tags
#book_tags.to_sql('book_tags', con=engine, if_exists='append', index=False)
#erreur pour le moment


IntegrityError: (MySQLdb._exceptions.IntegrityError) (1062, "Duplicate entry '22743-2' for key 'book_tags.PRIMARY'")
[SQL: INSERT INTO book_tags (tag_id, book_id, count) VALUES (%s, %s, %s)]
[parameters: ((30574, 27, 167697), (11305, 27, 37174), (11557, 27, 34173), (8717, 27, 12986), (33114, 27, 12716), (11743, 27, 9954), (14017, 27, 7169), (5207, 27, 6221)  ... displaying 10 of 999912 total bound parameter sets ...  (11478, 8892, 7), (27939, 8892, 7))]
(Background on this error at: https://sqlalche.me/e/14/gkpj)