In [1]:
# -*- coding: utf-8 -*-
"""web_scrapping_data_mining.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1KIBzHK2AeYER_LC-6gxQOsD46pxRqBGS
"""

from bs4 import BeautifulSoup
import requests
import time
import csv


base_url = 'http://www.choturmatrik.com'

def get_total_pages():
  html_text = requests.get(base_url).text
  page_soup = BeautifulSoup(html_text, 'html.parser')
  page_content = page_soup.find('div', {"class": "main-content-block"})
  page_list = page_content.find('div', {"class": 'item-list'})
  total_pages = page_list.ul.find('li', {'class': 'last'}).a['href'].split("=")[-1]
  
  return int(total_pages)
# ------------------------------------+--------------------------------------------------


def  get_soup(url):
  html = requests.get(url)

  if html.status_code == 200:
    html_text = html.text
    soup = BeautifulSoup(html_text, 'html.parser')
    return soup
  else:
    print(html.status_code)
# -------------------------------------+------------------------------------------------


def get_article(article_url):
  details = ''

  # get article
  article_soup = get_soup(base_url+article_url)
  if article_soup:
    article = article_soup.find('div', {"class":'node'})
    article_content = article.find('div', {"class":'content'})
    if article_content:
      article_para = article_content.findAll('p')
      for para in article_para:
        temp = para.text.replace("\n", " ").replace('\t', '').strip()
        details += temp

  return details
# ------------------------------------+-------------------------------------------------



# call total pages
page_number = get_total_pages()
print(f"Total Pages: {page_number}")

# write to csv
with open('all.csv', mode='w', encoding='utf-8-sig', newline="") as info_writer:
  thewriter = csv.writer(info_writer)
  header = ['Title', 'Details', 'Category', 'Writer', 'Date']
  thewriter.writerow(header)

  def scrape_data(url, page_no):
    print(f"***** Scrapping Data from {url+str(page_no)} *****")
    print("----------------------------------------------")

    soup = get_soup(f"{url+str(page_no)}")
    contents = soup.findAll('div', {"class": 'node'})

    for content in contents:
      categories = ''
      details = ''

      # Get title
      title = content.find('h2', {"class":'title'}).text.strip()
    # ----------------------------------------------------------------------------

      # get writer & date
      writer_date = content.find('span', {"class":"submitted"})
      writer_name = writer_date.text.split('(')[0].strip().split(" ")[1:]
      writer = ' '.join(writer_name)

      date = writer_date.text.split(",")[0].split("(")[-1].split("ঃ")[-1].strip()
    # ----------------------------------------------------------------------------

      # get categories
      category_info = content.find('div', {"class":'taxonomy'})

      if category_info:
        category_name = category_info.ul.findAll('li')
        # categories_name = category_ul.findAll('li')
        
        for category in category_name:
          temp = category.text.strip() + ","
          categories += temp
    # ----------------------------------------------------------------------------
      
      # get link for details
      info_link = content.h2.a['href']
      details = get_article(info_link)
    # ----------------------------------------------------------------------------

      info = [title, details, categories[:-1], writer, date]
      print(title, end=",")
    
      thewriter.writerow(info)
        
    print("****************************************************")   
  # ----------------------------------------------------------------------------------------
  

  for i in range(page_number+1):
    # call scrape
    scrape_data(url=base_url+'/node?page=', page_no=i)

print("!!!!!Done with chaturmatrik!!!!!!")

Total Pages: 1703
***** Scrapping Data from http://www.choturmatrik.com/node?page=0 *****
----------------------------------------------
আ স্টার ইজ বর্ন,না বলা কথা,Ovid এর art of love (ভালবাসার ছলাকলা),Ovid এর Art of love,Ovid এর Art of Love (ভালবাসার ছলাকলা),ovid এর Art of Love (ভালবাসার ছলাকলা),Ovid এর The art of love (ভালবাসার ছলাকলা),পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),ফ্র্যাগরেন্স ডিজঅর্ডার ডিজিজ,পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),আজ চতুর্মাত্রিক একটি লাইব্রেরী!,একটু ছোঁয়ায় আদর,পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),****************************************************
***** Scrapping Data from http://www.choturmatrik.com/node?page=1 *****
----------------------------------------------
করুণ শান্ত হাসি,পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),পাওলো কোয়েলহো এর এলেভেন মিনিটস. (ধারাবাহিক),টেম্পু কিংবা একটি ফোনকল,পাওলো কোয়েলহো এর 

In [2]:
import pandas as pd

data = pd.read_csv("./all.csv")
data

Unnamed: 0,Title,Details,Category,Writer,Date
0,আ স্টার ইজ বর্ন,প্রতিরাতের মতন আজও আমি ছাদে উঠে এলাম। তবে আজকে...,"গল্প,জাদু বাস্তবতা",অর্নব ফায়েক,৩০ আগষ্ট ২০২২
1,না বলা কথা,ঐ চোখের পানে চেয়ে দেখেছিলেম পৃথিবীকে সাথে রঙিন...,,মোঃ ফরহাদ হোসেন,১৮ আগষ্ট ২০২২
2,Ovid এর art of love (ভালবাসার ছলাকলা),"পুবলিয়াস ওভিডাস নাসো(ওভিড) জন্মস্থানঃসুমিলো,রো...","ধারাবাহিক,গল্প-অনুবাদ",ইললু,৭ আগষ্ট ২০২২
3,Ovid এর Art of love,"পুবলিয়াস ওভিডাস নাসো(ওভিড) জন্মস্থানঃসুমিলো,রো...","অনুবাদ,ধারাবাহিক",ইললু,১৪ জুন ২০২২
4,Ovid এর Art of Love (ভালবাসার ছলাকলা),"পুবলিয়াস ওভিডাস নাসো(ওভিড) জন্মস্থানঃসুমিলো,রো...",অনুবাদ,ইললু,২৬ মে ২০২২
...,...,...,...,...,...
25542,"একটি অখাদ্য পোষ্ট - ""২০১২"" মুভি। X( X((",মেজাজটা খুবই খারাপ হলো কাল রাতে।অনেক সুনাম-দুর...,,নির্ঝর,৮ ফেব্রুয়ারী ২০১০
25543,এইখানে আগমণ করিলাম। ;),মেজাজ চরম খারাপ হয়ে আছে। ২০১২ মুভিটা দেখে.......,,নির্ঝর,৭ ফেব্রুয়ারী ২০১০
25544,মামুলী রোমান্টিক কবিতা,জানিসনারে বন্ধু ও তোর অপেক্ষারই প্রহর আমার লাগ...,,শাওন৩৫০৪,৬ ফেব্রুয়ারী ২০১০
25545,অতলস্পর্শ অনুভবে তুমি,"আকাশ স্পর্শ করতে শিখিয়েছিলে তুমি আমায় বলেছিলে,...",,জলরঙ,৬ ফেব্রুয়ারী ২০১০


In [3]:
len(data)

25547