## Работа с файлами, pandas + парсинг

Давайте соберем корпус эко-новостей с сайта новостного издания "Ведомости". 

[По этой ссылке можно найти главную страницу](https://www.vedomosti.ru/ecology?utm_source=vedomosti.ru%2Fgorod&utm_medium=main&utm_campaign=desktop_main
)

Что нам предстоит сделать:
- достать все заголовки новостей в главной страницы + текст каждой новости
- сохранить в датафрейм с колонками "источник", "дата", "заголовок", "текст"

- сохранить датафрейм в файл
- положить код и получившийся файл в свой репозиторий на гитхабе



In [138]:
import requests as rq
from bs4 import BeautifulSoup
import pandas as pd

In [139]:
# Saving links to all the articles from the main page into a list
article_links = ["https://www.vedomosti.ru/ecology/articles/2021/09/01/884770-esg-perevode-russkii", "https://www.vedomosti.ru/ecology/articles/2021/09/01/884775-promishlennost-uglerodnii", "https://www.vedomosti.ru/ecology/articles/2021/09/01/884776-esg-igri", "https://www.vedomosti.ru/ecology/articles/2021/09/02/884778-dengi-zelenih-tonah", "https://www.vedomosti.ru/ecology/articles/2021/09/02/884779-premialnaya-bezuglerodnost", "https://www.vedomosti.ru/ecology/articles/2021/09/02/884777-zelenii-sbera", "https://www.vedomosti.ru/ecology/articles/2021/06/02/872600-zelenaya-beskonechnaya", "https://www.vedomosti.ru/ecology/characters/2021/06/02/872605-sergei-chikalov", "https://www.vedomosti.ru/ecology/articles/2021/06/02/872606-dishat-grudyu", "https://www.vedomosti.ru/ecology/articles/2021/06/03/872610-deistvitelnoe-zhelaemoe", "https://www.vedomosti.ru/ecology/articles/2021/06/03/872611-territoriya-zelenogo", "https://www.vedomosti.ru/ecology/articles/2021/06/02/872608-uberi-soboi", "https://www.vedomosti.ru/ecology/articles/2021/06/03/872612-zelenie-investitsii"]

In [140]:
def article_info_extraction(url_list):
    """The function takes in a list of urls and returns a dictionary with extracted data"""
    data = {}
    idx = 0
    for url in url_list:
        page = rq.get(url)
        soup = BeautifulSoup(page.text, 'html.parser')
        date_tag = soup.find_all('time', {"class":"article-meta__date"})[0].text
        date_tag = date_tag.split(',')[0] # deleting time info
        title_tag = soup.find_all('h1', {"class":"article-headline__title"})[0].text
        title_tag = title_tag.strip() # deleting newlines on both sides of the title 
        article_text = soup.find_all("div", {"class":"article-boxes-list article__boxes"})[0].text
        data[idx] = []
        data[idx].extend([url, date_tag, title_tag, article_text]) 
        idx += 1
    
    return data


In [141]:
ecology_data = article_info_extraction(article_links)

In [None]:
# Creating a dataframe with the extracted data
articles = pd.DataFrame.from_dict(ecology_data, orient="index",columns=["источник","дата","заголовок","текст"])
display(articles)

In [147]:
# Saving data to a csv-file with encoding "utf-8-sig" to recognize Russian text
articles.to_csv('eco_news.csv', encoding="utf-8-sig") 