# Set up

In [30]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [5]:
base_urls = []
for i in range(1,11):
    base_url = 'https://apa.az/az/search-result?search=q%C9%99za&page=' + str(i)
    base_urls.append(base_url)

In [6]:
links = []
for url in base_urls:
    response = requests.get(url)
    html = response.content
    soup = BeautifulSoup(html,'lxml')
    news = soup.find('div',class_ = 'four_columns_block mt-site')
    link = news.find_all('a')
    links.append(link)

In [7]:
base_sites = []
for x in links:
  for i in x:
    if i.get('href') != None:
      relative_url = i.get('href')
      base_sites.append(relative_url)

In [8]:
responses = []
for link in range(len(base_sites)):
  response = requests.get(base_sites[link])
  if response.status_code == 200:
    responses.append(response)

In [9]:
htmls = []
for x in range(len(responses)):
  html = responses[x].content
  htmls.append(html)

# Choosing a parser

In [13]:
soups = []
for x in range(len(htmls)):
  soup = BeautifulSoup(htmls[x],'lxml')
  soups.append(soup)

# Obtaining the element contains all the data

In [15]:
divs = []
for x in range(len(soups)):
  div = soups[x].find_all('div',{'class': 'content_main'})
  divs.append(div) 

# Extracting title, date, image and text of news

In [16]:
titles = []
dates = []
images = []
texts = []
for x in range(len(divs)):
  title = [div.find('h1', class_ = 'title_news mb-site').text for div in divs[x]]
  image = [div.find('img') for div in divs[x]]
  date = [div.find('div', class_ = 'date').text for div in divs[x]]
  text = [div.find('div', class_ = 'texts mb-site').text for div in divs[x]]
  titles.append(title)
  dates.append(date)
  images.append(image)
  texts.append(text)

## Titles


In [17]:
titles[:5]

[['\nFHN: Ötən gün 34 yanğına çıxış olub - VİDEO\n'],
 ['\nHindistanda qatar qəzasında 9 nəfər ölüb, 45 nəfər xəsarət alıb\n'],
 ['\nGəncədə piyadanı maşın vurub\n'],
 ['\nBakıda prospektdə piyadanı avtomobil vurub\n'],
 ['\nAğstafada yol qəzasında 2 nəfər xəsarət alıb\xa0\n']]

In [18]:
titles_1 = [item for sublist in titles for item in sublist]
titles2 = [title.strip('\n') for title in titles_1]
titles3 = [title.replace(" - VİDEO", '') for title in titles2]
titles_last = [title.replace(" - FOTO", '') for title in titles3]
titles_last[:5]

['FHN: Ötən gün 34 yanğına çıxış olub',
 'Hindistanda qatar qəzasında 9 nəfər ölüb, 45 nəfər xəsarət alıb',
 'Gəncədə piyadanı maşın vurub',
 'Bakıda prospektdə piyadanı avtomobil vurub',
 'Ağstafada yol qəzasında 2 nəfər xəsarət alıb\xa0']

## Dates

In [19]:
dates[:5]

[['\n\n\n14 yanvar 2022 10:51 (UTC +04:00)\n\n'],
 ['\n\n\n14 yanvar 2022 10:40 (UTC +04:00)\n\n'],
 ['\n\n\n14 yanvar 2022 09:41 (UTC +04:00)\n\n'],
 ['\n\n\n14 yanvar 2022 05:20 (UTC +04:00)\n\n'],
 ['\n\n\n13 yanvar 2022 21:35 (UTC +04:00)\n\n']]

In [20]:
dates_1 = [item for sublist in dates for item in sublist]
dates_last = [date.strip('\n') for date in dates_1]
dates_last[:5]

['14 yanvar 2022 10:51 (UTC +04:00)',
 '14 yanvar 2022 10:40 (UTC +04:00)',
 '14 yanvar 2022 09:41 (UTC +04:00)',
 '14 yanvar 2022 05:20 (UTC +04:00)',
 '13 yanvar 2022 21:35 (UTC +04:00)']

## Images

In [21]:
images[:5]

[[<img alt="FHN: Ötən gün 34 yanğına çıxış olub - VİDEO " src="https://apa.az/storage/news/2022/january/14/big/61e11cc97842d61e11cc9784301642142921392ce29682fe1a9533b8456f7967b03f.jpg"/>],
 [<img alt="Hindistanda qatar qəzasında 9 nəfər ölüb, 45 nəfər xəsarət alıb" src="https://apa.az/storage/news/2022/january/14/big/61e11b056004561e11b0560046164214246961e11b056004261e11b0560044.jpg"/>],
 [<img alt="Gəncədə piyadanı maşın vurub" src="https://apa.az/storage/news/2022/january/14/big/61e10d54023bc61e10d54023bd1642138964174b253c3363437902ee8d7a2f377c75.jpg"/>],
 [<img alt="Bakıda prospektdə piyadanı avtomobil vurub" src="https://apa.az/storage/news/2022/january/14/big/61e0d0144946a61e0d0144946b164212328461e0d0144946861e0d01449469.jpg"/>],
 [<img alt="Ağstafada yol qəzasında 2 nəfər xəsarət alıb " src="https://apa.az/storage/news/2022/january/13/big/61e062fda0a4861e062fda0a49164209535761e062fda0a4561e062fda0a47.jpg"/>]]

In [22]:
images_1 = [item for sublist in images for item in sublist]
images_2 = [str(image) for image in images_1]
images_2[:5]

['<img alt="FHN: Ötən gün 34 yanğına çıxış olub - VİDEO " src="https://apa.az/storage/news/2022/january/14/big/61e11cc97842d61e11cc9784301642142921392ce29682fe1a9533b8456f7967b03f.jpg"/>',
 '<img alt="Hindistanda qatar qəzasında 9 nəfər ölüb, 45 nəfər xəsarət alıb" src="https://apa.az/storage/news/2022/january/14/big/61e11b056004561e11b0560046164214246961e11b056004261e11b0560044.jpg"/>',
 '<img alt="Gəncədə piyadanı maşın vurub" src="https://apa.az/storage/news/2022/january/14/big/61e10d54023bc61e10d54023bd1642138964174b253c3363437902ee8d7a2f377c75.jpg"/>',
 '<img alt="Bakıda prospektdə piyadanı avtomobil vurub" src="https://apa.az/storage/news/2022/january/14/big/61e0d0144946a61e0d0144946b164212328461e0d0144946861e0d01449469.jpg"/>',
 '<img alt="Ağstafada yol qəzasında 2 nəfər xəsarət alıb\xa0" src="https://apa.az/storage/news/2022/january/13/big/61e062fda0a4861e062fda0a49164209535761e062fda0a4561e062fda0a47.jpg"/>']

In [23]:
images_last = []
for x in range(len(images_2)):
  images_3 = images_2[x].split("src=",1)
  images_4 = images_3[1]
  images_5 = images_4.strip('/>"')
  images_last.append(images_5)

In [24]:
images_last[:5]

['https://apa.az/storage/news/2022/january/14/big/61e11cc97842d61e11cc9784301642142921392ce29682fe1a9533b8456f7967b03f.jpg',
 'https://apa.az/storage/news/2022/january/14/big/61e11b056004561e11b0560046164214246961e11b056004261e11b0560044.jpg',
 'https://apa.az/storage/news/2022/january/14/big/61e10d54023bc61e10d54023bd1642138964174b253c3363437902ee8d7a2f377c75.jpg',
 'https://apa.az/storage/news/2022/january/14/big/61e0d0144946a61e0d0144946b164212328461e0d0144946861e0d01449469.jpg',
 'https://apa.az/storage/news/2022/january/13/big/61e062fda0a4861e062fda0a49164209535761e062fda0a4561e062fda0a47.jpg']

## Texts

In [25]:
texts[:5]

[['\nAzərbaycan Respublikasının Fövqəladə Hallar Nazirliyi (FHN) üzərinə düşən vəzifələrinin icrası, o cümlədən əhalinin və ərazilərin təbii və texnogen xarakterli fövqəladə hallardan qorunması istiqamətində fəaliyyətini davam etdirir.\nFHN-dən APA-ya verilən məlumata görə, “112” qaynar telefon xəttinə daxil olmuş zənglər əsasında Nazirliyin aidiyyəti qurumları tərəfindən ötən sutka ərzində 34 yanğına çıxış və 1 avtonəqliyyat qəzası faktı üzrə qəza-xilasetmə əməliyyatları həyata keçirilib. Görülmüş təcili və təxirəsalınmaz tədbirlər nəticəsində yanğınların operativ söndürülməsi, insan həyatının xilas olunması təmin edilib.\nFHN-in qüvvələri tərəfindən Qusar rayonunda “LADA” markalı minik avtomobilinin yol kənarındakı maneəyə çırpılması nəticəsində deformasiyaya uğrayan avtonəqliyyat vasitəsində sıxılı vəziyyətdə qalmış 1 nəfər çıxarılaraq aidiyyəti üzrə təhvil verilib.\n \n\n\n Elektriklə balıq ovlayan 3 nəfər saxlanılıb - FOTO - VİDEO\n\n\n Ağstafada çörək sexində yanğın olub, 2 nəfər

In [26]:
texts_1 = [item for sublist in texts for item in sublist]
texts_2 = [text.strip('\n') for text in texts_1]
texts_3 = [text.replace('\n','.') for text in texts_2]
texts_3[:5]

['Azərbaycan Respublikasının Fövqəladə Hallar Nazirliyi (FHN) üzərinə düşən vəzifələrinin icrası, o cümlədən əhalinin və ərazilərin təbii və texnogen xarakterli fövqəladə hallardan qorunması istiqamətində fəaliyyətini davam etdirir..FHN-dən APA-ya verilən məlumata görə, “112” qaynar telefon xəttinə daxil olmuş zənglər əsasında Nazirliyin aidiyyəti qurumları tərəfindən ötən sutka ərzində 34 yanğına çıxış və 1 avtonəqliyyat qəzası faktı üzrə qəza-xilasetmə əməliyyatları həyata keçirilib. Görülmüş təcili və təxirəsalınmaz tədbirlər nəticəsində yanğınların operativ söndürülməsi, insan həyatının xilas olunması təmin edilib..FHN-in qüvvələri tərəfindən Qusar rayonunda “LADA” markalı minik avtomobilinin yol kənarındakı maneəyə çırpılması nəticəsində deformasiyaya uğrayan avtonəqliyyat vasitəsində sıxılı vəziyyətdə qalmış 1 nəfər çıxarılaraq aidiyyəti üzrə təhvil verilib.. ... Elektriklə balıq ovlayan 3 nəfər saxlanılıb - FOTO - VİDEO... Ağstafada çörək sexində yanğın olub, 2 nəfər xəsarət alı

In [27]:
texts_last = []
for x in range(len(texts_3)):
  texts_4 = texts_3[x].split("...",1)
  texts_5 = texts_4[0]
  texts_last.append(texts_5)

In [28]:
texts_last[:5]

['Azərbaycan Respublikasının Fövqəladə Hallar Nazirliyi (FHN) üzərinə düşən vəzifələrinin icrası, o cümlədən əhalinin və ərazilərin təbii və texnogen xarakterli fövqəladə hallardan qorunması istiqamətində fəaliyyətini davam etdirir..FHN-dən APA-ya verilən məlumata görə, “112” qaynar telefon xəttinə daxil olmuş zənglər əsasında Nazirliyin aidiyyəti qurumları tərəfindən ötən sutka ərzində 34 yanğına çıxış və 1 avtonəqliyyat qəzası faktı üzrə qəza-xilasetmə əməliyyatları həyata keçirilib. Görülmüş təcili və təxirəsalınmaz tədbirlər nəticəsində yanğınların operativ söndürülməsi, insan həyatının xilas olunması təmin edilib..FHN-in qüvvələri tərəfindən Qusar rayonunda “LADA” markalı minik avtomobilinin yol kənarındakı maneəyə çırpılması nəticəsində deformasiyaya uğrayan avtonəqliyyat vasitəsində sıxılı vəziyyətdə qalmış 1 nəfər çıxarılaraq aidiyyəti üzrə təhvil verilib.. ',
 'Hindistanda qatar qəzasında 9 nəfər ölüb..APA-nın məlumatına görə, NDTV telekanalı yerli hakimiyyət orqanlarına istin

# Export data in a structured form

In [37]:
news_info = pd.DataFrame()
news_info['Title'] = titles_last
news_info['Date'] = dates_last
news_info['Image_link'] = images_last
news_info['Text'] = texts_last
# pd.set_option('display.max_colwidth', -1)

In [34]:
news_info.head(4)

Unnamed: 0,Title,Date,Image_link,Text
0,FHN: Ötən gün 34 yanğına çıxış olub,14 yanvar 2022 10:51 (UTC +04:00),https://apa.az/storage/news/2022/january/14/bi...,Azərbaycan Respublikasının Fövqəladə Hallar Na...
1,"Hindistanda qatar qəzasında 9 nəfər ölüb, 45 n...",14 yanvar 2022 10:40 (UTC +04:00),https://apa.az/storage/news/2022/january/14/bi...,Hindistanda qatar qəzasında 9 nəfər ölüb..APA-...
2,Gəncədə piyadanı maşın vurub,14 yanvar 2022 09:41 (UTC +04:00),https://apa.az/storage/news/2022/january/14/bi...,Gəncədə piyadanın vurulması ilə nəticələnən yo...
3,Bakıda prospektdə piyadanı avtomobil vurub,14 yanvar 2022 05:20 (UTC +04:00),https://apa.az/storage/news/2022/january/14/bi...,Aeroport şossesində yol qəzası zamanı bir nəfə...


In [39]:
news_info.to_excel('news_info.xlsx',index = False, header = True)