# Web Crawlers: News.mn

In [1]:
import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd
import time

### Мэдээний сайтын нүүр хуудасыг авах

URL тодорхойлох:

In [55]:
# url тодорхойлох
url = "https://news.mn/angilal/shar-medee/"

Мэдээллийн жагсаалт:

In [56]:
# Хүсэлт
r1 = requests.get(url)
r1.status_code

# Нүүр хуудасны агуулгыг хадгалах болно
coverpage = r1.content

# Soup үүсгэх
soup1 = BeautifulSoup(coverpage, 'html5lib')

# Мэдээ таних
coverpage_news = soup1.find_all('h1', class_='entry-title')
len(coverpage_news)

52

Элемент бүр мэдээллийн линкийг агуулсан байна:

In [57]:
coverpage_news[4]

<h1 class="entry-title"><a href="https://news.mn/r/2290550/">Жо Байден өөрийн дэд ерөнхийлөгчөөр Мишель Обамаг сонгожээ</a></h1>

### Нийтлэлээс текстийг гаргаж авцгаая:

Эхлээд хүссэн нийтлэлийнхээ тоог тодорхойлно:

In [58]:
number_of_articles = 52

In [59]:
# Контент, холбоос, гарчигийн хоосон жагсаалт
news_contents = []
list_links = []
list_titles = []

for n in np.arange(0, number_of_articles):
        
    # Нийтлэл биш тул "live" хуудсыг орхих хэрэгтэй
    if "live" in coverpage_news[n].find('a')['href']:  
        continue
    
    # Нийтлэлийн холбоосыг авч байна
    link = coverpage_news[n].find('a')['href']
    list_links.append(link)
    
    # Гарчиг авч байна
    title = coverpage_news[n].find('a').get_text()
    list_titles.append(title)
    
    # Агуулга унших (энэ нь догол мөрүүдээр хуваагдана)
    article = requests.get(link)
    article_content = article.content
    soup_article = BeautifulSoup(article_content, 'html5lib')
    body = soup_article.find_all('div', class_='has-content-area')
    x = body[0].find_all('p')
    
    # Догол мөрүүдийг нэгтгэх
    list_paragraphs = []
    for p in np.arange(0, len(x)):
        paragraph = x[p].get_text()
        list_paragraphs.append(paragraph)
        final_article = " ".join(list_paragraphs)
        
    news_contents.append(final_article)

Тэдгээрийг оруулцгаая:
* Өгөгдлийг авна (`df_features`)
* Нийтлэлийн гарчиг болон линкийг авна (`df_show_info`)

In [60]:
# df_features
df_features = pd.DataFrame(
     {'Нийтлэлийн мэдээлэл': news_contents,
      'Ангилал':'Шар мэдээ',
    })

# df_show_info
df_show_info = pd.DataFrame(
    {'Нийтлэлийн гарчиг': list_titles,
     'Нийтлэлийн линк': list_links})

In [62]:
df_features.head()

Unnamed: 0,Нийтлэлийн мэдээлэл,Ангилал
0,Бээжингийн амьтны хүрээлэнд нэгэн Бенгалийн ца...,Шар мэдээ
1,Цахим орчинд нэгэн инээдтэй ч юм шиг эмгэнэлтэ...,Шар мэдээ
2,Хотын дарга С.Амарсайханы захирамжаар Сүхбаата...,Шар мэдээ
3,Дархан-Улаанбаатар чиглэлийн авто замыг цаг ху...,Шар мэдээ
4,Жо Байден арваннэгдүгээр сард болох сонгуульда...,Шар мэдээ


In [61]:
df_features.to_csv(r'шарМэдээ.csv', index = False)

In [22]:
df_show_info

Unnamed: 0,Нийтлэлийн гарчиг,Нийтлэлийн линк
0,Дүүргийн онцгой комисс цахим хурал зохион байг...,https://news.mn/r/2291145/
1,Яагаад амны хаалт зүүх ёстой вэ?,https://news.mn/r/2291147/
2,Шүлхий өвчнөөс урьдчилан сэргийлэх вакцин хийв,https://news.mn/r/2291140/
3,Нүхэн жорлонгийн ариутгал 76 хувьтай явж байна,https://news.mn/r/2291136/
4,Хувийн хэвшлийн эмнэлгүүдэд “Ковид-19” халдвар...,https://news.mn/r/2291127/
5,Нийслэлд шинээр 122 га талбайд ногоон байгуула...,https://news.mn/r/2291111/
6,"Зөвшөөрөлгүй гаражуудыг буулгаж, Өрхийн эрүүл ...",https://news.mn/r/2291063/
7,Зайлшгүй шалтгаантай иргэдийг Улаанбаатарт нэв...,https://news.mn/r/2291080/
8,Коронавируст халдварын нөхцөл байдлын мэдээлэл,https://news.mn/r/2290981/
9,"""Халдвар авсан жолооч хүүтэйгээ уулзсан байж б...",https://news.mn/r/2291000/


### Нэг функц болгох хугацааг хэмжих

Энэ скрипт нь мэдээ авахад хэр их цаг хугацаа шаардагдахыг сонирхож байна. Үүний тулд бид бүгдийг нэг функц болгон байрлуулаад дараа нь дуудна.

In [94]:
def news_crawler():
    # url тодорхойлох
    url = "https://news.mn/angilal/ediin-zasag/"

    # Хүсэлт
    r1 = requests.get(url)
    r1.status_code

    # Нүүр хуудасны агуулгыг хадгалах болно
    coverpage = r1.content

    # Soup үүсгэх
    soup1 = BeautifulSoup(coverpage, 'html5lib')

    # Мэдээ таних
    coverpage_news = soup1.find_all('h1', class_='entry-title')
    len(coverpage_news)
    
    number_of_articles = 5

    # Контент, холбоос, гарчигийн хоосон жагсаалт
    news_contents = []
    list_links = []
    list_titles = []

    for n in np.arange(0, number_of_articles):

        # Нийтлэл биш тул "live" хуудсыг орхих хэрэгтэй
        if "live" in coverpage_news[n].find('a')['href']:  
            continue

        # Нийтлэлийн холбоосыг авч байна
        link = coverpage_news[n].find('a')['href']
        list_links.append(link)

        # Гарчиг авч байна
        title = coverpage_news[n].find('a').get_text()
        list_titles.append(title)

        # Агуулга унших (энэ нь догол мөрүүдээр хуваагдана)
        article = requests.get(link)
        article_content = article.content
        soup_article = BeautifulSoup(article_content, 'html5lib')
        body = soup_article.find_all('div', class_='has-content-area')
        x = body[0].find_all('p')

        # Догол мөрүүдийг нэгтгэх
        list_paragraphs = []
        for p in np.arange(0, len(x)):
            paragraph = x[p].get_text()
            list_paragraphs.append(paragraph)
            final_article = " ".join(list_paragraphs)

        news_contents.append(final_article)

    # df_features
    df_features = pd.DataFrame(
         {'Мэдээлэл': news_contents 
        })

    # df_show_info
    df_show_info = pd.DataFrame(
        {'Мэдээний гарчиг': list_titles,
         'Мэдээний линк': list_links,
         'Мэдээллийн сайт': 'News.mn'})

    
    return (df_features, df_show_info)

In [95]:
start = time.time()
x, y = get_news_theguardian()
end =time.time()
te = end-start
print("Нийт хугацаа нь %f секунд байна." %(te))

Нийт хугацаа нь 5.289670 секунд байна.
