O presente trabalho tem como objetivo expor o processo de limpeza de bases de dados necessário para, posteriormente, realizar análises sobre esses dados. A base de dados utilizada neste trabalho está disponível em: https://www.kaggle.com/datasets/dk123891/books-dataset-goodreadsmay-2024

In [68]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np

In [86]:
# Importando os dados via biblioteca Pandas
books_data = pd.read_csv("goodreads_data.csv")

In [18]:
# Visualizando as cinco primeiras linhas do dataframe
books_data.head()

Unnamed: 0.1,Unnamed: 0,book_id,cover_image_uri,book_title,book_details,format,publication_info,authorlink,author,num_pages,genres,num_ratings,num_reviews,average_rating,rating_distribution
0,0,1,https://images-na.ssl-images-amazon.com/images...,Harry Potter and the Half-Blood Prince,"It is the middle of the summer, but there is a...","['652 pages, Paperback']","['First published July 16, 2005']",https://www.goodreads.com/author/show/1077326....,J.K. Rowling,['652'],"['Fantasy', 'Young Adult', 'Fiction', 'Magic',...",3292516,58398,4.58,"{'5': '2,244,154', '4': '775,028', '3': '219,8..."
1,1,2,https://images-na.ssl-images-amazon.com/images...,Harry Potter and the Order of the Phoenix,Harry Potter is about to start his fifth year ...,"['912 pages, Paperback']","['First published June 21, 2003']",https://www.goodreads.com/author/show/1077326....,J.K. Rowling,['912'],"['Young Adult', 'Fiction', 'Magic', 'Childrens...",3401709,64300,4.5,"{'5': '2,178,760', '4': '856,178', '3': '293,2..."
2,2,3,https://images-na.ssl-images-amazon.com/images...,Harry Potter and the Sorcerer's Stone,Harry Potter has no idea how famous he is. Tha...,"['309 pages, Hardcover']","['First published June 26, 1997']",https://www.goodreads.com/author/show/1077326....,J.K. Rowling,['309'],"['Fantasy', 'Fiction', 'Young Adult', 'Magic',...",10116247,163493,4.47,"{'5': '6,544,542', '4': '2,348,390', '3': '856..."
3,3,5,https://images-na.ssl-images-amazon.com/images...,Harry Potter and the Prisoner of Azkaban,"Harry Potter, along with his best friends, Ron...","['435 pages, Mass Market Paperback']","['First published July 8, 1999']",https://www.goodreads.com/author/show/1077326....,J.K. Rowling,['435'],"['Fantasy', 'Fiction', 'Young Adult', 'Magic',...",4215031,84959,4.58,"{'5': '2,892,322', '4': '970,190', '3': '287,7..."
4,4,6,https://images-na.ssl-images-amazon.com/images...,Harry Potter and the Goblet of Fire,It is the summer holidays and soon Harry Potte...,"['734 pages, Paperback']","['First published July 8, 2000']",https://www.goodreads.com/author/show/1077326....,J.K. Rowling,['734'],"['Fantasy', 'Young Adult', 'Fiction', 'Magic',...",3718209,69961,4.57,"{'5': '2,500,070', '4': '899,496', '3': '259,7..."


In [4]:
# Dimensões do dataframe
books_data.shape

(16225, 15)

In [5]:
# Usando o método 'info' para entender a estrutura da base de dados
books_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16225 entries, 0 to 16224
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Unnamed: 0           16225 non-null  int64  
 1   book_id              16225 non-null  int64  
 2   cover_image_uri      16225 non-null  object 
 3   book_title           16225 non-null  object 
 4   book_details         16177 non-null  object 
 5   format               16225 non-null  object 
 6   publication_info     16225 non-null  object 
 7   authorlink           16225 non-null  object 
 8   author               16225 non-null  object 
 9   num_pages            16225 non-null  object 
 10  genres               16225 non-null  object 
 11  num_ratings          16225 non-null  int64  
 12  num_reviews          16225 non-null  int64  
 13  average_rating       16225 non-null  float64
 14  rating_distribution  16225 non-null  object 
dtypes: float64(1), int64(4), object(10)


Após visualizarmos as primeiras linhas do dataframe e entendermos os tipos de dados e a estrutura do dataframe, é possível identificar algumas colunas que podem ser eliminadas. No caso, são as colunas "Unnamed:0", "cover_image_uri", "book_details", "authorlink", "num_reviews"

In [87]:
# Eliminando algumas colunas
books_data = books_data.iloc[:, [1, 3, 6, 8, 9, 10, 11, 13, 14]]

In [92]:
# Verificando a presença de valores nulos/ausentes
print(books_data.isnull().sum())

book_id                0
book_title             0
publication_info       0
author                 0
num_pages              0
genres                 0
num_ratings            0
average_rating         0
rating_distribution    0
dtype: int64


In [62]:
# Verificando a presença de duplicatas
print(books_data.duplicated().sum())

0


Verificamos a partir do método ".info" que a coluna "num_pages" está com o dtype **object** em vez **int64**, o que pode prejudicar análises futuras como, por exemplo, relacionar o número de páginas como uma das variáveis explicativas da nota média atribuída ao livro. Por isso, realizaremos a conversão a seguir:

In [88]:
# Eliminando os caracteres acessórios dos valores na coluna "num_pages"
for x in range(0, books_data.shape[0]):
  books_data.iloc[x, 4] = books_data.iloc[x, 4].replace("['", "").replace("']", "")

Após trabalhar com as strings para sobrar apenas o número de páginas e ser possível converter de **string** para **int**, encontramos um erro, informando que há valores nulos na coluna "num_pages", impedindo a conversão em **int**, como demonstrado pelo erro abaixo

In [96]:
for x in range(0, books_data.shape[0]):
  books_data.iloc[x, 4] = int(books_data.iloc[x, 4])

ValueError: invalid literal for int() with base 10: '[None]'

Por meio do código abaixo, verificamos que, sim, há valores nulos na coluna "num_pages"

In [134]:
# Buscar um valor no dataframe
books_data.eq('[None]').any()

book_id                False
book_title             False
publication_info       False
author                 False
num_pages               True
genres                 False
num_ratings            False
average_rating         False
rating_distribution    False
dtype: bool

Com o código a seguir, retiramos as linhas com valores nulos de números de página e podemos prosseguir com a conversão do tipo de dado

In [138]:
# Selecionando linhas sem valores nulos na coluna 'num_pages'
books_data = books_data[books_data['num_pages'] != '[]']
books_data = books_data[books_data['num_pages'] != '[None]']

In [139]:
# Convertendo de string para int
for x in range(0, books_data.shape[0]):
  books_data.iloc[x, 4] = int(books_data.iloc[x, 4])