# 📚 Literatura.mk - Book Dataset Cleaning & Preprocessing

In [1]:
import pandas as pd
import numpy as np

In [2]:
df= pd.read_csv('../data/original_datasets/literatura_books.csv', encoding='utf-8-sig') 

In [3]:
df.head()

Unnamed: 0,id,title,author,price,category,retrieved_at
0,1,Светот ти припаѓа тебе: Што ти недостасува?,Роберт Колиер,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
1,2,Светот ти припаѓа тебе: Погледни се како го пр...,Роберт Колиер,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
2,3,Инвестирај во себе: Ментални пријатели и непри...,Орисон Свет Марден,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
3,4,Инвестирај во себе: Биди општествено успешен,Орисон Свет Марден,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
4,5,Граматика на љубовта,Иван Бунин,300.0,РАСКАЗИ,2025-05-15


### 1. Drop the redundant 'book_id' column

In [4]:
df = df.drop(columns=['id'])

### 2. Convert the 'Retrieved At' column to datetime format.

In [5]:
df['retrieved_at'] = pd.to_datetime(df['retrieved_at'])

In [6]:
df.head()

Unnamed: 0,title,author,price,category,retrieved_at
0,Светот ти припаѓа тебе: Што ти недостасува?,Роберт Колиер,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
1,Светот ти припаѓа тебе: Погледни се како го пр...,Роберт Колиер,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
2,Инвестирај во себе: Ментални пријатели и непри...,Орисон Свет Марден,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
3,Инвестирај во себе: Биди општествено успешен,Орисон Свет Марден,400.0,МОТИВАЦИЈА И САМОПОМОШ,2025-05-15
4,Граматика на љубовта,Иван Бунин,300.0,РАСКАЗИ,2025-05-15


### 3. Check for Duplicates
- There are no duplicate entries

In [7]:
duplicates = df[df.duplicated(keep=False)]
duplicates = duplicates.sort_values(by=['title', 'author'])
print("Length of duplicates: ", len(duplicates))

Length of duplicates:  188


### 4. Define a function to normalize author names  
- Inconsistent Formats:
    - Some names are written in the `"LastName, FirstName"` format.
    - Others are written in `"FirstName LastName"` or even as a comma-separated list of multiple authors.

- Normalizing names into a consistent format like `"FirstName LastName"` or `"Author1 Author2 Author3"`.

In [8]:
def normalize_author(author):
    if pd.isna(author):
        return author  
    if ',' in author:
        parts = [part.strip() for part in author.split(',')]
        return ' '.join(parts[::-1])
    return author 

In [9]:
df['author'] = df['author'].apply(normalize_author)

### 5. Replace '?' in author with null

In [10]:
df.loc[df['author'].str.match(r'^[\?=]+$', na=False), 'author'] = np.nan

In [11]:
filtered_df = df[df['author'].str.match(r'^[\?=]+$', na=False)]

### 6. Replace '/' in author with null

In [12]:
df.loc[df['author'] == '/', 'author'] = np.nan

In [13]:
df.to_csv("../data/preprocessed_datasets/literatura_books.csv", encoding='utf-8-sig', index=False)

### Preprocessing Output Summary

Number of Books Scraped

In [14]:
df.shape[0]

234

Number of categories

In [15]:
total_categories = df['category'].nunique()
print(total_categories)

24
