Data Structure:

- 'website_name' : Name of the website. type: str
- 'category': news category ( such as political, society, economy etc.)
- 'title': title of the news. type: str, language: nepali/english
- 'authors': name of the author, type: str, example: कारोबार संवाददाता
- 'published_date': Date in Roman Calenader, example: December 17 2019, Tuesday
- 'content': content of news. must be greater than 30 words. type: str
- 'language', : language of content.
- 'url': url of that partiular news.

## Importing Libraries

Used Environment details :

``` yaml
name: epdaily_processing
channels:
  - defaults
dependencies:
  - pip=23.2.1
  - python=3.11.4
  - pip:
      - jupyterlab==4.0.5
      - pandas==2.0.3
```

In [1]:
import numpy as np
import pandas as pd
from glob import glob

In [2]:
# Lising json files inside the the directory
glob('*.json')

['eprateekdaily_news_data.json', 'eprateekdaily_preprocessed.json']

## Reading the [eprateekdaily_news_data.json](https://dagshub.com/Omdena/Nepal-Asia-Foundation/src/main/tasks/task-01-data-collection/Nepali_Newspapers/ePrateek-Daily/eprateekdaily_news_data.json) dataset

In [3]:
epdaily_df = pd.read_json('eprateekdaily_news_data.json')
original_shape = epdaily_df.shape
print(f'Shape of the data set : {original_shape}\n')
epdaily_df.sample(4)

Shape of the data set : (6269, 7)



Unnamed: 0,Title,Category,Auther,Date,Location,Content,URL
4181,२० लाख नगदसहित साह पक्राउ,स्थानीय,प्रतीक दैनिक,"कार्तिक २३, २०७८",वीरगंज,पर्सा प्रहरीले हुन्डी कारोबार गरेको अभियोगमा ए...,https://eprateekdaily.com/2021/11/09/25078
5611,औषधि व्यवसायीमाथि गोली प्रहार,स्थानीय,प्रतीक दैनिक,"जेष्ठ २३, २०७८",सिराहा,मिर्चैया नगरपालिका–५ स्थित सिद्धि मेडिकल हलका ...,https://eprateekdaily.com/2021/06/06/14280
4503,वैज्ञानिक समाजवादी पार्टीको भेला,स्थानीय,प्रतीक दैनिक,"अशोज ९, २०७८",वीरगंज,नेपाल पत्रकार महासङ्घ पर्साको सभाकक्षमा आयोजित...,https://eprateekdaily.com/2021/09/25/22714
2076,चुनावमा मत किनबेचमा सक्रिय बिचौलियाहरू सम्पर्क...,स्थानीय,प्रतीक दैनिक,"मंसिर १८, २०७९",वीरगंज,हालै सम्पन्न प्रतिनिधिसभा तथा प्रदेशसभा निर्वा...,https://eprateekdaily.com/2022/12/04/43608


## Cleaning the data

In [4]:
# Present column names

list(epdaily_df.columns)

['Title', 'Category', 'Auther', 'Date', 'Location', 'Content', 'URL']

In [5]:
# Unifying column names and dropping unwanted columns

correcting_col_names = {'Title' : 'title', 'Category' : 'category',
                       'Auther' : 'authors', 'Content' : 'content', 
                       'URL' : 'url'}


epdaily_df.drop('Location', axis = 1, inplace = True) # Dropping Location column
epdaily_df = epdaily_df.rename(columns = correcting_col_names)
epdaily_df['website_name'] = 'eprateekdaily'
epdaily_df['language'] = 'Nepali'
epdaily_df.sample(3)

Unnamed: 0,title,category,authors,Date,content,url,website_name,language
1487,शिक्षित व्यक्तिको मानसिकतामा परिवर्तन जरुरी –र...,स्थानीय,प्रतीक दैनिक,"चैत्र ११, २०७९","उद्योग, पर्यटन तथा वनमन्त्री रहबर अन्सारीले गा...",https://eprateekdaily.com/2023/03/25/48902,eprateekdaily,Nepali
5999,पानी परेपछि बाली सिंचाइमा सहजता,स्थानीय,प्रतीक दैनिक,"बैशाख २२, २०७८",मङ्गलवार रातिदेखि परेको पानीका कारण पर्साको ठो...,https://eprateekdaily.com/2021/05/05/12697,eprateekdaily,Nepali
920,इनार सफाइ गरेर पिउनेपानीको जोहो गर्दै मोतीसरवासी,स्थानीय,प्रतीक दैनिक,"साउन १२, २०८०",कलैया उपमहानगरपालिका–१८ मोतीसरमा पनि चापाकल सु...,https://eprateekdaily.com/2023/07/28/54515,eprateekdaily,Nepali


In [6]:
# Checking for missing value count

epdaily_df.isnull().sum()

title           1
category        0
authors         0
Date            0
content         0
url             0
website_name    0
language        0
dtype: int64

In [7]:
# Visualizing missing title data

epdaily_df[epdaily_df.title.isnull()]

Unnamed: 0,title,category,authors,Date,content,url,website_name,language
453,,प्रमुख समाचार,प्रतीक दैनिक,"बैशाख ४, २०७९","धर्मेन्द्र चौरसिया, पोखरिया, ४ वैशाख/. पोखरिया...",https://eprateekdaily.com/2022/04/17/33271,eprateekdaily,Nepali


<p><strong>This shows the NEWS itself doesn't have any titile.</strong> So retaining the news.</p>

<a href = 'https://eprateekdaily.com/2022/04/17/33271' alt = 'https://eprateekdaily.com/2022/04/17/33271'><img src = 'https://user-images.githubusercontent.com/83589431/262086948-c0f9978c-2346-4fec-98f7-cb5059af4b9d.png'></a>

## Check for NEWS length

In [8]:
# Checking news contents that have atleast 30 words init.

def content_length_30(text):
    if len(text.split()) < 30:
        return np.nan
    return text.replace(' .', '')

epdaily_df.content = epdaily_df.content.apply(content_length_30)
print(f"Number of NEWS doesn't have  atleast 30 words = {epdaily_df.content.isnull().sum()}")

Number of NEWS doesn't have  atleast 30 words = 14


In [9]:
# Dropping rows where 'contents' doesn't have atleast 30 words

epdaily_df.dropna(subset = 'content', inplace = True)
epdaily_df.isnull().sum()

title           1
category        0
authors         0
Date            0
content         0
url             0
website_name    0
language        0
dtype: int64

## Check for dupllicates

In [10]:
# Checking number of duplicates

epdaily_df.duplicated().sum()

0

In [11]:
# Further Checking for duplicates

duplicates_df = epdaily_df[epdaily_df.duplicated(subset = 'url')]
rows_removed = duplicates_df.shape[0]
print(f'Number of ducplicate records in the dataset (based on url) = {rows_removed}\n')
duplicates_df.head()

Number of ducplicate records in the dataset (based on url) = 5



Unnamed: 0,title,category,authors,Date,content,url,website_name,language
1259,सर्लाहीको सीमावर्ती क्षेत्रमा भारुको कारोबार बन्द,स्थानीय,प्रतीक दैनिक,"जेष्ठ २, २०८०",भारुको अवमूल्यन जारी रहँदा सीमावर्ती क्षेत्र स...,https://eprateekdaily.com/2023/05/16/51157,eprateekdaily,Nepali
3369,एमालेमा प्रवेश गर्नेको लहर चलेको छ –प्रम ओली,स्थानीय,प्रतीक दैनिक,"फाल्गुन २८, २०७८",नेकपा एमालेको जनसभा एवं बृहत् पार्टी प्रवेश का...,https://eprateekdaily.com/2022/03/12/31940,eprateekdaily,Nepali
4969,"मोटरसाइकल चोरीमा प्रहरीको संलग्नता, पार्टपुर्ज...",स्थानीय,प्रतीक दैनिक,"साउन २३, २०७८",वीरगंज र आसपासका क्षेत्रमा हुने मोटरसाइकल चोरी...,https://eprateekdaily.com/2021/08/07/19188,eprateekdaily,Nepali
5075,पर्सामा जानसिन खोप लिन मानिसको भीड,स्थानीय,प्रतीक दैनिक,"साउन १२, २०७८",पर्सा जिल्लामा अमेरिकी कम्पनी जोन्सन एन्ड जोन्...,https://eprateekdaily.com/2021/07/27/18402,eprateekdaily,Nepali
5438,५३ दिनपछि वीरगंज बजार खुला,स्थानीय,प्रतीक दैनिक,"असार ७, २०७८",पर्सा जिल्लामा निषेधाज्ञा जारी भएको ५३औं दिनपछ...,https://eprateekdaily.com/2021/06/21/15150,eprateekdaily,Nepali


In [12]:
# Removing dulpicated rows

epdaily_df.drop_duplicates(subset = 'url', inplace = True)
epdaily_df.shape

(6250, 8)

## Coverting BS calendar (Bikram Samwat) to Roman calendar

In [13]:
# https://github.com/SushilShrestha/pyBSDate#class-based-wrappers

def url_to_date(date_time):
    
    year_, month_, date = date_time.split('/')[-4:-1]
    return pd.to_datetime(f'{date}{month_}{year_}', format = '%d%m%Y').strftime('%d-%m-%Y')

epdaily_df['published_date'] = epdaily_df.url.apply(url_to_date)
# epdaily_df['published_date'] = pd.to_datetime(epdaily_df.published_date, format = '%d-%m-%Y')

## Exploring data

In [14]:
# Number of categories and its counts

epdaily_df.category.value_counts()

स्थानीय          5444
प्रमुख समाचार     806
Name: category, dtype: int64

## Creating final schema for saving the processed data

In [15]:
print(f'Initial dataset size = {original_shape[0]}\n')
print(f'Number of duplicate rows removed = {rows_removed}\n')
print(f'Final useful dataset size = {epdaily_df.shape[0]}\n')

Initial dataset size = 6269

Number of duplicate rows removed = 5

Final useful dataset size = 6250



In [16]:
epdaily_processed = epdaily_df[['website_name', 'category', 'title', 'authors', 'published_date', 'content', 'language', 'url']].reset_index(drop = True)
epdaily_processed.head()

Unnamed: 0,website_name,category,title,authors,published_date,content,language,url
0,eprateekdaily,प्रमुख समाचार,"पर्साका शिक्षकहरू वीरगंजमा ओइरिए, -यालीपछि धर्ना",प्रतीक दैनिक,16-08-2023,नेपाल शिक्षक महासङ्घ केन्द्रले मस्यौदाको विरोध...,Nepali,https://eprateekdaily.com/2023/08/16/55307
1,eprateekdaily,प्रमुख समाचार,मिटरब्याजीमा राजनीतिक हस्तक्षेप बढ्दो,प्रतीक दैनिक,15-08-2023,राजनीतिका कारण मुख्य दोषीहरू विभिन्न बहाना बना...,Nepali,https://eprateekdaily.com/2023/08/15/55253
2,eprateekdaily,प्रमुख समाचार,शिक्षा ऐनको विरोधमा शिक्षकद्वारा पालिका कार्या...,प्रतीक दैनिक,14-08-2023,"नेपाल शिक्षक महासङ्घ, पर्साका अध्यक्ष प्रदीप ज...",Nepali,https://eprateekdaily.com/2023/08/14/55191
3,eprateekdaily,प्रमुख समाचार,निर्माणाधीन दुधौरा पुलको डाइभर्सनमा विभाग र ठे...,प्रतीक दैनिक,17-08-2023,पूर्व–पश्चिम महेन्द्र राजमार्ग अन्तर्गतका सडकख...,Nepali,https://eprateekdaily.com/2023/08/17/55355
4,eprateekdaily,प्रमुख समाचार,बाढीले फास्ट ट्र्याकको पुल निर्माण गर्ने मेशिन...,प्रतीक दैनिक,18-08-2023,दु्रतमार्गको जसपालस्थित ८ नम्बर पुलको पाइलिङ म...,Nepali,https://eprateekdaily.com/2023/08/18/55399


In [17]:
epdaily_processed.to_json('eprateekdaily_preprocessed.json')
epdaily_processed.to_csv('eprateekdaily_preprocessed.csv', index = False)

In [18]:
epdaily_processed.shape ==  pd.read_json('eprateekdaily_preprocessed.json').shape

True

In [19]:
epdaily_processed.shape ==  pd.read_csv('eprateekdaily_preprocessed.csv').shape

True