### Import Necessary Libraries

In [1]:
import requests as req
from bs4 import BeautifulSoup
import pandas as pd

### Collect Data

**For testing, to save execution time, we will limit data collection up to 500 items**


**Data Storing Format:**
```json
[
{
    "TITLE": "হোয়াইট হাউসে থাকাকালে কি ক্যানসারে আক্রান্ত ছিলেন বাইডেন", 
    "URL": "https://www.prothomalo.com/bangladesh/ncoboazdxb" 
},
{
    "TITLE": "উপদেষ্টা আসিফ মাহমুদ ও মাহফুজ আলমের পদত্যাগ দাবি ইশরাকের", 
    "URL": "https://www.prothomalo.com/bangladesh/ncoboazdxb" 
}
]
```
It will help us to convert into a Pandas DataFrame

In [2]:
# Initialization

all_titles = []

# Prothom Alo Base URL:
base_url = "https://www.prothomalo.com"

# Queue for URL processing
all_urls = []
all_urls.append(base_url)

# To store all visited URLs
visited = set()

In [3]:

while(all_urls):

    # Pop a single URL from the Queue
    url = all_urls.pop()

    # prepare URL
    url = base_url + url if base_url not in url else url
    

    # Ignore previously visited URL
    if url in visited:
        print("Ignoring previously visited URL", url)
        continue
    
    try:
        # get content from the URL
        print("visiting URL", url)
        visited.add(url)
        resp = req.get(url)
    except:
        continue
        
    print(resp.status_code)

    if resp.status_code != 200:
        continue
        
    # Parse data:
    
    soup = BeautifulSoup(resp.content, 'html.parser')    
    a_tags = soup.find_all('a')  
    titles = [{"TITLE":url.string, "URL":url.get('href')} for url in a_tags if (url.string and len(url.string.split())>2)]
    urls = [a.get('href') for a in a_tags if a.get('href') not in all_urls]
    all_urls += urls

    all_titles += titles

    print("Data Collection Count:", len(all_titles))
    
    # Exit Logic for Testing Purpose:
    if len(all_titles) >= 500:
        break

visiting URL https://www.prothomalo.com
200
Data Collection Count: 70
visiting URL https://www.prothomalo.com/bangladesh/district/qkrkdppspm
200
Data Collection Count: 71
visiting URL https://www.prothomalo.com/topic/বৈষম্যবিরোধী-ছাত্র-আন্দোলন
200
Data Collection Count: 83
visiting URL https://www.prothomalo.com/bangladesh/district/h08234wgld
200
Data Collection Count: 84
visiting URL https://www.prothomalo.com/topic/রওশন-এরশাদ
200
Data Collection Count: 99
visiting URL https://www.prothomalo.com/politics/giaj2gf91h
200
Data Collection Count: 100
Ignoring previously visited URL https://www.prothomalo.com/topic/রওশন-এরশাদ
visiting URL https://www.prothomalo.com/topic/জাতীয়-পার্টি
200
Data Collection Count: 114
visiting URL https://www.prothomalo.com/politics/auold6s6qu
200
Data Collection Count: 115
Ignoring previously visited URL https://www.prothomalo.com/topic/জাতীয়-পার্টি
visiting URL https://www.prothomalo.com/topic/নির্বাচন
200
Data Collection Count: 126
visiting URL https://www.p

## Collected Titles:

In [4]:
all_titles

[{'TITLE': 'প্রথম আলো ‘দক্ষিণ এশিয়ার সেরা’ হওয়া ছাড়াও দুটি স্বীকৃতি পেয়েছে। নিউইয়র্কে গণমাধ্যমের বিশ্ব কংগ্রেসে এই পুরস্কার দেওয়া হয়।',
  'URL': 'https://www.prothomalo.com/bangladesh/27n8whzc0h'},
 {'TITLE': ' আরেকটা এক-এগারোর বন্দোবস্ত করার পাঁয়তারা চলছে: নাহিদ ইসলাম',
  'URL': 'https://www.prothomalo.com/politics/2epjyvetdc'},
 {'TITLE': 'প্রধান উপদেষ্টা অধ্যাপক মুহাম্মদ ইউনূসের প্রতি প্রত্যাশা জানিয়ে তিনি বলেছেন, ‘ড. ইউনূসকে জনগণকে দেওয়া সংস্কার, বিচার ও ভোটাধিকারের প্রতিশ্রুতি রক্ষা করতে হবে।’',
  'URL': 'https://www.prothomalo.com/politics/2epjyvetdc'},
 {'TITLE': ' চট্টগ্রামের ‘সন্ত্রাসী’ ঢাকাইয়া আকবরকে \nপতেঙ্গা সৈকতে গুলি',
  'URL': 'https://www.prothomalo.com/bangladesh/district/ucmymxo9r9'},
 {'TITLE': 'পতেঙ্গা সমুদ্রসৈকতে বন্ধুদের সঙ্গে আড্ডারত অবস্থায় আকবরকে লক্ষ্য করে গুলি করে দুর্বৃত্তরা। আরেক \xa0‘সন্ত্রাসী’ সাজ্জাদের প্রতিপক্ষ হিসেবে পরিচিত আকবর। ',
  'URL': 'https://www.prothomalo.com/bangladesh/district/ucmymxo9r9'},
 {'TITLE': ' যুদ্ধবিরতির মধ্যেও ভারতের হুমকি, পাকি

### Convert Into DataFrame

In [5]:
df = pd.DataFrame(all_titles)

In [8]:
df.head()

Unnamed: 0,TITLE,URL
0,প্রথম আলো ‘দক্ষিণ এশিয়ার সেরা’ হওয়া ছাড়াও দুটি...,https://www.prothomalo.com/bangladesh/27n8whzc0h
1,আরেকটা এক-এগারোর বন্দোবস্ত করার পাঁয়তারা চলছে...,https://www.prothomalo.com/politics/2epjyvetdc
2,প্রধান উপদেষ্টা অধ্যাপক মুহাম্মদ ইউনূসের প্রতি...,https://www.prothomalo.com/politics/2epjyvetdc
3,চট্টগ্রামের ‘সন্ত্রাসী’ ঢাকাইয়া আকবরকে \nপতেঙ...,https://www.prothomalo.com/bangladesh/district...
4,পতেঙ্গা সমুদ্রসৈকতে বন্ধুদের সঙ্গে আড্ডারত অবস...,https://www.prothomalo.com/bangladesh/district...


### Export to CSV

In [7]:
df.to_csv("prothomalo_news_headlines.csv")