Copyright (c) 2020 [Qadeer Ah Aziz](qadeerahh@gmail.com)

https://github.com/kadeeraziz/pashtopos

[MIT License](https://github.com/kadeeraziz/pashtopos/master/LICENSE.txt)

## Python web Scrapter - https://bbc.com/pashto

Note that the optional watermark extension is a small IPython notebook plugin that developed by [Sebastian Raschka](https://sebastianraschka.com)(https://github.com/rasbt/watermark) for printing date and time stamps, version numbers, and hardware information. You can just skip the following line(s).

In [3]:
%load_ext watermark
%watermark -a "Qadeer Ah. Aziz" -v -m -u -d -p numpy,pandas,bs4,requests,nltk

The watermark extension is already loaded. To reload it, use:
  %reload_ext watermark
Author: Qadeer Ah. Aziz

Last updated: 2020-12-03

Python implementation: CPython
Python version       : 3.8.4
IPython version      : 7.16.1

numpy   : 1.19.0
pandas  : 1.0.5
bs4     : 4.9.1
requests: 2.24.0
nltk    : 3.4.4

Compiler    : GCC 7.5.0
OS          : Linux
Release     : 4.19.76-linuxkit
Machine     : x86_64
Processor   : x86_64
CPU cores   : 4
Architecture: 64bit



*The use of `watermark` is optional. You can install this Jupyter extension via*  

    conda install watermark -c conda-forge  

or  

    pip install watermark   

*For more information, please see: https://github.com/rasbt/watermark.*

### Overview

- [Loading required packages](#Loading-required-packages)

# Loading required packages

In [223]:
from bs4 import BeautifulSoup
import requests
import nltk
import pandas as pd

In [243]:
response = requests.get('https://www.bbc.com/pashto/topics/cr50y57xj52t/page/5')
src = response.content
soup = BeautifulSoup(src, 'lxml')

In [244]:
hrefs = []

### Getting the links to the other pages
Since BBC Pashto changes their page struture regulary, at the time of writing this notebook, the links to other pages that has pashto text has/had a class 'qa-heading-link' name.

In [245]:
for a in soup.find_all('a', class_='qa-heading-link'):
    hrefs.append(a.attrs['href'])

In [246]:
hrefs

['/pashto/afghanistan-53203195',
 '/pashto/afghanistan-53202333',
 '/pashto/afghanistan-53188879',
 '/pashto/world-53184724',
 '/pashto/afghanistan-53184728',
 '/pashto/afghanistan-53174538',
 '/pashto/53169024',
 '/pashto/afghanistan-53161636',
 '/pashto/afghanistan-53159426',
 '/pashto/afghanistan-53146443']

In [247]:
# Getting only those urls that has same page structure. 
import re
new_hrefs = [href for href in hrefs if re.search('afghanistan', href)]

In [248]:
new_hrefs

['/pashto/afghanistan-53203195',
 '/pashto/afghanistan-53202333',
 '/pashto/afghanistan-53188879',
 '/pashto/afghanistan-53184728',
 '/pashto/afghanistan-53174538',
 '/pashto/afghanistan-53161636',
 '/pashto/afghanistan-53159426',
 '/pashto/afghanistan-53146443']

In [249]:
urls = [ 'https://www.bbc.com' + href for href in new_hrefs]

In [250]:
urls

['https://www.bbc.com/pashto/afghanistan-53203195',
 'https://www.bbc.com/pashto/afghanistan-53202333',
 'https://www.bbc.com/pashto/afghanistan-53188879',
 'https://www.bbc.com/pashto/afghanistan-53184728',
 'https://www.bbc.com/pashto/afghanistan-53174538',
 'https://www.bbc.com/pashto/afghanistan-53161636',
 'https://www.bbc.com/pashto/afghanistan-53159426',
 'https://www.bbc.com/pashto/afghanistan-53146443']

In [251]:
txtt = ''
for url in urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'lxml')
    
    div = soup.find_all('div', class_='fVauYi')
    for p in div:
        for txt in p:
            txtt += ''.join(txt.text)

In [252]:
ntxtt = txtt.replace('\u200c', '')

In [253]:
ntxtt

'۷ چنګاښ ۱۳۹۹ - ۲۷ جون ۲۰۲۰روسیې په نیویارک ټایمز ورځپاڼه کې هغه خپاره شوي تورونه  \'بې بنسټه \' بللي چې وايي روسیانو پروسږ کال په افغانستان کې د امریکايي او اییتلاف پوځیانو وژلو لپاره جایزه ټاکلې وه. په واشنګټن کې د روسیې سفارت په یوه ټویټر پیغام کې ویلي، دغه تورونه یې په لندن او واشنګټن کې د کارکوونکو لپاره په ګواښ بدل شوي دي. نیویارک ټایمز ورځپاڼې د جمعې پر ورځ په یوه رپوټ کې وویل، ټرمپ حکومت هغه رپوټونه ارزوي چې د روسيې پوځ یوه پټ مرکز د طالبانو اړوند ملېشو سره په افغانستان کې د امریکايي پوځیانو وژلو بدل کې د جایزې ژمنه کړې. "مسکو د طالبانو د مالي ملاتړ غوښتنه ونه منله"روسیې طالبانو ته د مرستې ورکول رد کړي ديايا روسيه افغان طالبانو ته وسلې ورکوي؟په رپوټ کې ویل شوي، د څارګرو ادارو مسوولینو څو میاشتې مخکې په دې اړه معلومات راټول کړي دي. په رپوټ کې زیاته شوې، د دې ملېشو ځینې کسانو د جایزې یو مقدار پیسې تر لاسه کړې هم دي. په رپوټ کې دغه راز ویل شوي، څارګرو ادارو له دې معلوماتو ولسمشر ډونلډ ټرمپ هم خبر کړی او د امریکا ملي امنیت شورا د مارچ میاشتې په وروستیو کې د امنیتي ادارو په یوه غونډ

### tokenizing the collected texts

In [254]:
tokens = nltk.tokenize.WordPunctTokenizer().tokenize(txtt)

In [255]:
len(tokens)

4333

In [256]:
df = pd.DataFrame(tokens)

In [257]:
df.columns = ['word']

In [258]:
df

Unnamed: 0,word
0,۷
1,چنګاښ
2,۱۳۹۹
3,-
4,۲۷
...,...
4328,تېر
4329,حالت
4330,ته
4331,وګرځي


In [259]:
df.dropna()

Unnamed: 0,word
0,۷
1,چنګاښ
2,۱۳۹۹
3,-
4,۲۷
...,...
4328,تېر
4329,حالت
4330,ته
4331,وګرځي


In [260]:
df.to_excel('./untagged/bbc4.xlsx', index=False)

In [261]:
df.count()

word    4333
dtype: int64