In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv('anannya_books_data_clean.csv')

In [3]:
df.head()

Unnamed: 0,Title,Author,Total Ratings,Original Price,Discounted Price,Category,Number of Reviews
0,মিসির আলির গল্পমালা,হুমায়ূন আহমেদ,8,300.0,258.0,গল্প সমগ্র,5
1,সেরা হুমায়ূন,হুমায়ূন আহমেদ,15,1000.0,860.0,রচনা সংকলন ও সমগ্র,5
2,জন্মদিনের উপহার,হুমায়ূন আহমেদ,18,1000.0,860.0,রচনা সংকলন ও সমগ্র,1
3,দশটি উপন্যাস,হুমায়ূন আহমেদ,6,1000.0,860.0,উপন্যাস সমগ্র,No
4,অরু এখন কারাগারে,আরিফ খন্দকার,4,250.0,215.0,সমকালীন উপন্যাস,1


In [5]:
df['Number of Reviews'] = df['Number of Reviews'].replace('No', np.nan)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Title              60 non-null     object 
 1   Author             60 non-null     object 
 2   Total Ratings      60 non-null     int64  
 3   Original Price     60 non-null     float64
 4   Discounted Price   60 non-null     float64
 5   Category           60 non-null     object 
 6   Number of Reviews  58 non-null     object 
dtypes: float64(2), int64(1), object(4)
memory usage: 3.4+ KB


In [6]:
df.isnull().sum()

Title                0
Author               0
Total Ratings        0
Original Price       0
Discounted Price     0
Category             0
Number of Reviews    2
dtype: int64

In [16]:
# Ensure 'Number of Reviews' is numeric
df['Number of Reviews'] = pd.to_numeric(df['Number of Reviews'], errors='coerce')

# 1. Discount Percentage
df['Discount Percentage'] = (df['Original Price'] - df['Discounted Price']) / df['Original Price'] * 100

# 2. Price Range Category
df['Price Range'] = pd.cut(df['Original Price'], 
                            bins=[0, 200, 500, 1000, np.inf], 
                            labels=['Budget', 'Mid-range', 'Premium', 'Luxury'])

df['Rating Range'] = pd.cut(df['Total Ratings'], bins=[0, 10, 50, 100, np.inf], labels=['Low', 'Medium', 'High', 'Very High'])

# 3. Author Popularity
author_avg_reviews = df.groupby('Author')['Number of Reviews'].mean()
df['Author Popularity'] = df['Author'].map(author_avg_reviews)

# 4. Title Word Count
df['Title Word Count'] = df['Title'].str.split().str.len()

# 5. Category Encoding
df['Category Encoded'] = pd.Categorical(df['Category']).codes

# 6. Is Discounted
df['Is Discounted'] = (df['Original Price'] != df['Discounted Price']).astype(int)

# 7. Review to Price Ratio
df['Review to Price Ratio'] = df['Number of Reviews'] / df['Discounted Price']

# 8. Author Book Count
author_book_count = df['Author'].value_counts()
df['Author Book Count'] = df['Author'].map(author_book_count)

In [17]:
df.head(5)

Unnamed: 0,Title,Author,Total Ratings,Original Price,Discounted Price,Category,Number of Reviews,Discount Percentage,Price Range,Rating Range,Author Popularity,Title Word Count,Category Encoded,Is Discounted,Review to Price Ratio,Author Book Count
0,মিসির আলির গল্পমালা,হুমায়ূন আহমেদ,8,300.0,258.0,গল্প সমগ্র,5.0,14.0,Mid-range,Low,44.935484,3,6,1,0.01938,33
1,সেরা হুমায়ূন,হুমায়ূন আহমেদ,15,1000.0,860.0,রচনা সংকলন ও সমগ্র,5.0,14.0,Premium,Medium,44.935484,2,18,1,0.005814,33
2,জন্মদিনের উপহার,হুমায়ূন আহমেদ,18,1000.0,860.0,রচনা সংকলন ও সমগ্র,1.0,14.0,Premium,Medium,44.935484,2,18,1,0.001163,33
3,দশটি উপন্যাস,হুমায়ূন আহমেদ,6,1000.0,860.0,উপন্যাস সমগ্র,,14.0,Premium,Low,44.935484,2,2,1,,33
4,অরু এখন কারাগারে,আরিফ খন্দকার,4,250.0,215.0,সমকালীন উপন্যাস,1.0,14.0,Mid-range,Low,1.0,3,22,1,0.004651,1


In [20]:
batighor = pd.read_csv('batighor_books_data_cleaned.csv')

In [22]:
batighor.head(20)

Unnamed: 0,Title,Author,Total Ratings,Original Price,Discounted Price,Category,Number of Reviews
0,কসমোজাহি,মোহাম্মদ নাজিম উদ্দিন,9.0,380.0,298.0,থ্রিলার,5
1,কন্ট্রোল,মোহাম্মদ নাজিম উদ্দিন,11.0,650.0,510.0,রহস্য ও গোয়েন্দা,7
2,ম্যালিস,কেইগো হিগাশিনো,3.0,400.0,314.0,"রহস্য, গোয়েন্দা, ভৌতিক, মিথ, থ্রিলার, ও অ্যাডভ...",4
3,উজিরে আজম,হাসান ইনাম,5.0,220.0,172.0,থ্রিলার,1
4,মৃত কৈটভ,সৌরভ চক্রবর্তী,,350.0,274.0,অতিপ্রাকৃত ও ভৌতিক,
5,শখের করাত,মার্যিউর রহমান চৌধুরী,2.0,200.0,157.0,থ্রিলার,1
6,আমায় ডেকো না ফেরানো যাবে না,এদোগাওয়া রানপো,,200.0,157.0,"রহস্য, গোয়েন্দা, ভৌতিক, মিথ, থ্রিলার, ও অ্যাডভ...",
7,অন্তর্দৃষ্টি,বিপাশা বাশার,2.0,200.0,157.0,থ্রিলার,No
8,হাতকড়া,সামসুল ইসলাম রুমি,2.0,260.0,204.0,থ্রিলার,2
9,অথবা হয়নি ঘুম বহুকাল,জুবায়ের ইবনে কামাল,5.0,220.0,172.0,অতিপ্রাকৃত ও ভৌতিক,4


In [23]:
batighor.isnull().sum()

Title                 0
Author                0
Total Ratings        44
Original Price        0
Discounted Price      0
Category              0
Number of Reviews    34
dtype: int64