In [2]:

import re
import time

import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

In [3]:
MAIN_URL = "https://rspp.ru/tables/non-financial-reports-library"
DOWNLOAD_URL = "https://rspp.ru"
REPORT_TYPES = {
    "ОУР": "Отчет по устойчивому развитию",
    "СО": "Социальный отчет",
    "ИО": "Интегрированный отчет",
    "ЭО": "Экологический отчёт",
}
RE_YEARS = re.compile("....")
FOLDER_TO_SAVE_REPORTS = "reports"

In [4]:
def parse_td(company_report_row):
    report_info = [td.find("div") for td in company_report_row.findAll("td", class_="register-table__colclass")]
    company_name = report_info[0].find("span").text
    sector = report_info[1].text
    years_list = RE_YEARS.findall(report_info[2].text)
    years = ", ".join(years_list)
    report_tag_a = report_info[3].find("a")
    report_link, report_type = report_tag_a["href"], report_tag_a.text.strip()
    return {
        "компания": company_name,
        "сектор": sector,
        "год": years,
        "тип отчета": report_type,
        "ссылка на отчет": report_link,
    }

In [5]:
def parse_rspp():
    rspp_response = requests.get(MAIN_URL)
    rspp_response.encoding = 'utf-8'
    assert rspp_response.status_code < 400, "Не получилось подключиться к сайту РСПП"

    soup = BeautifulSoup(rspp_response.text, 'html.parser')
    table = soup.find('table', {'class': 'table_scroll-mobile'})
    result = []
    otrasl = ''
    for th in table.find_all('tr'):
        company_name = ''
        if len(th.find_all('th', {'colspan': 26})) != 0:
            otrasl = th.find_all('th')[0].text.strip()
        else:
            for i, column in enumerate(th.find_all('td')):
                year, otchet, link = ('','','')
                if i == 0 and len(column.text) != 0:
                    company_name = column.text.strip()
                elif len(column.text) != 0:
                    year = column.text.strip().split()[0]
                    otchet = column.find('a').text.strip()
                    link = column.find('a')['href'].strip()
                if len(company_name) != 0 and len(otrasl) != 0 and len(otchet) != 0 and len(link) != 0 and len(year) != 0:
                    result.append([company_name, otrasl, year, otchet, link])
    return result

In [6]:
rspp_data = parse_rspp()
rspp_df = pd.DataFrame(data=rspp_data, columns=["компания", "сектор", "год", "тип отчета", "ссылка на отчет"])
#rspp_df = pd.read_csv("raex_esg_with_rspp.csv", index_col=0)
rspp_df = rspp_df[rspp_df["ссылка на отчет"].notna()]
rspp_df['id'] = rspp_df.index
rspp_df.head()

Unnamed: 0,компания,сектор,год,тип отчета,ссылка на отчет,id
0,ПАО АНК «Башнефть»,Нефтегазовая,2009,ОУР,/upload/uf/f99/ank_bashneft_oyp_2009.pdf,0
1,ПАО АНК «Башнефть»,Нефтегазовая,2010,ОУР,/upload/uf/b16/Doc1.pdf,1
2,ПАО АНК «Башнефть»,Нефтегазовая,2011,ОУР,/upload/uf/a26/ank_bashneft_oyp_2011.pdf,2
3,ПАО АНК «Башнефть»,Нефтегазовая,2012,ОУР,/upload/uf/6b4/ank_bashneft_oyp_2012.pdf,3
4,ПАО АНК «Башнефть»,Нефтегазовая,2013,ОУР,/upload/uf/b40/ank_bashneft_oyp_2013.pdf,4


In [7]:
rspp_df.to_csv("rspp_reports.csv")

In [8]:
import os
import requests
from concurrent.futures import ThreadPoolExecutor
import tqdm

CHUNK_SIZE = 400


def download_report_pdf(link, year, company, file_name = ''):
    try:
        download_url = f"{DOWNLOAD_URL}{link}"
        file_name = f"{year}_{company}.pdf"
        print(f"Downloading {file_name}")
        report_response = requests.get(download_url, stream=True)
        filename = f"{FOLDER_TO_SAVE_REPORTS}/{file_name}"
        with open(filename, "wb") as f:
            for chunk in report_response.iter_content(CHUNK_SIZE):
                f.write(chunk)
        time.sleep(1)
    except requests.exceptions.RequestException as e:
        print(f"Error downloading the pdf from {link}: {e}")


In [9]:
def download_reports_pdf(rspp_df):
    for index, report in tqdm(rspp_df.iterrows(), total=rspp_df.shape[0]):
        link = report["ссылка на отчет"]
        company = report["компания"].replace("/", "_")
        idx = report["id"]
        filename = f"{company}_{idx}.pdf"
        try:
            print(DOWNLOAD_URL + link)
            download_report_pdf(link, filename)
        except Exception as e:
            print(e, DOWNLOAD_URL + link)
        time.sleep(2)

In [10]:
def download_reports_in_parallel(rspp_df):
    with ThreadPoolExecutor() as executor:
        list(executor.map(download_report_pdf, rspp_df["ссылка на отчет"], rspp_df["год"],rspp_df["компания"]), total=len(rspp_df["ссылка на отчет"]))

In [11]:
import os

if not os.path.exists(FOLDER_TO_SAVE_REPORTS):
    print('OK')
    os.makedirs(FOLDER_TO_SAVE_REPORTS)

OK


In [None]:
download_reports_in_parallel(rspp_df)

Downloading 2009_ПАО АНК «Башнефть».pdf
Downloading 2010_ПАО АНК «Башнефть».pdf
Downloading 2011_ПАО АНК «Башнефть».pdf
Downloading 2012_ПАО АНК «Башнефть».pdf
Downloading 2013_ПАО АНК «Башнефть».pdf
Downloading 2014_ПАО АНК «Башнефть».pdf
Downloading 2015_ПАО АНК «Башнефть».pdf
Downloading 2002-2003_ПАО «Газпром нефть».pdf
Downloading 2004_ПАО «Газпром нефть».pdf
Downloading 2007_ПАО «Газпром нефть».pdf
Downloading 2008-2010_ПАО «Газпром нефть».pdf
Downloading 2011_ПАО «Газпром нефть».pdf
Downloading 2012_ПАО «Газпром нефть».pdf
Downloading 2013_ПАО «Газпром нефть».pdf
Downloading 2014_ПАО «Газпром нефть».pdf
Downloading 2015_ПАО «Газпром нефть».pdf
Downloading 2016_ПАО «Газпром нефть».pdf
Downloading 2017_ПАО «Газпром нефть».pdf
Downloading 2018_ПАО «Газпром нефть».pdf
Downloading 2019_ПАО «Газпром нефть».pdf
Downloading 2020_ПАО «Газпром нефть».pdf
Downloading 2012_АО «Зарубежнефть».pdf
Downloading 2013_АО «Зарубежнефть».pdf
Downloading 2014_АО «Зарубежнефть».pdf
Downloading 2015_АО

In [63]:
urls = []  # LIST OF URLS
LOCAL_DIR = "my/dir"
os.makedirs(os.path.dirname(LOCAL_DIR), exist_ok=True)

def download_image(url):
    try:
        response = requests.get(url)
        response.raise_for_status()
        file_name = str(url.split('/')[-1])
        file_path = os.path.join(LOCAL_DIR, file_name)
        with open(file_path, 'wb') as file:
            file.write(response.content)
        print(f"Image downloaded successfully from {url} and saved to {file_path}")
    except requests.exceptions.RequestException as e:
        print(f"Error downloading the image from {url}: {e}")

def download_images_in_parallel(urls):
    with ThreadPoolExecutor() as executor:
        list(tqdm.tqdm(executor.map(download_image, urls), total=len(urls)))

download_images_in_parallel(urls)

  0%|          | 0/1599 [00:00<?, ?it/s]


FileNotFoundError: [Errno 2] No such file or directory: 'компания/ank_bashneft_oyp_2009.pdf'

In [54]:
download_reports_pdf(rspp_df)

TypeError: 'module' object is not callable. Did you mean: 'tqdm.tqdm(...)'?

# Parse per paragraph

  from tqdm.autonotebook import tqdm


In [2]:
REPORTS_DIRECTORY = "reports"

RE_DERIVED = re.compile(r"\w+( -|- |-|! - )\w+")
RE_RUSSIAN_TEXT = re.compile(r"[а-яА-Яa-zA-Z0-9\-]+")

stopwords_ru = stopwords.words("russian")

In [3]:
morph = MorphAnalyzer()
cp_names = {
    "ак",
    "акб",
    "акига",
    "алмазэргиэнбанк",
    "алрос",
    "альфабанк",
    "алюминиевый",
    "амвэя",
    "ангарский",
    "анк",
    "ао",
    "архангельский",
    "ас",
    "асэ",
    "атомпроект",
    "атомредметзолото",
    "атомэнергомаш",
    "атомэнергопроект",
    "атомэнергопром",
    "афк",
    "ашан",
    "аэрофлот",
    "балтика",
    "барс",
    "бат",
    "башнефть",
    "билайн",
    "бифид",
    "бф",
    "виктория",
    "владивостокский",
    "внипиэт",
    "волга",
    "волгателек",
    "волжский",
    "восток",
    "втб",
    "выксунский",
    "вымпелком",
    "вэб",
    "газпром",
    "газпромбанк",
    "гарантинвест",
    "генерировать",
    "геннадий",
    "гидропресс",
    "гк",
    "гмк",
    "гнц",
    "головной",
    "гольцблат",
    "грэс",
    "гтлк",
    "губкин",
    "дания",
    "дивизион",
    "евразийский",
    "еврохим",
    "елена",
    "енисейский",
    "еэс",
    "желдортранс",
    "зао",
    "зарубежнефть",
    "ик",
    "илим",
    "имииафрикантовый",
    "инжиниринговый",
    "инккапитал",
    "интер",
    "интернэшнл",
    "информация",
    "иркутск",
    "казаньоргсинтез",
    "казмунайгаз",
    "калининградский",
    "камаз",
    "касперский",
    "кб",
    "кемикалс",
    "ковровский",
    "комстаротс",
    "красцветмет",
    "крафтфудс",
    "кубань",
    "кузбассэнерго",
    "ленэнерго",
    "леруа",
    "лпк",
    "лср",
    "лукойл",
    "мвидео",
    "мдмбанк",
    "мегафон",
    "мерлен",
    "металлоинвест",
    "металлургический",
    "метафракс",
    "ммк",
    "монди",
    "мон’дэлиса",
    "моррис",
    "мосводоканал",
    "московский",
    "мрск",
    "мрф",
    "мсп",
    "мтс",
    "мхк",
    "неманский",
    "нестля",
    "ниаэп",
    "нижнекамскнефтехим",
    "нииар",
    "нипигаз",
    "ниу",
    "нк",
    "нлмк",
    "новатэк",
    "новогор",
    "новосибирский",
    "нордиск",
    "норильский",
    "оао",
    "объединение",
    "огк",
    "окб",
    "окбм",
    "около",
    "омк",
    "они",
    "ооо",
    "пао",
    "пейп",
    "пепеляев",
    "петропавловск",
    "пивоваренный",
    "пивоваров",
    "пигмент",
    "пик",
    "по",
    "полиметалл",
    "приволжье",
    "прикамье",
    "рао",
    "распадский",
    "ргу",
    "реновый",
    "ржд",
    "рксхолдинг",
    "рольф",
    "росатом",
    "росводоканал",
    "роснефть",
    "россеть",
    "российский",
    "россия",
    "ростелеком",
    "ростёха",
    "росэнергоатом",
    "рудна",
    "русало",
    "русгидро",
    "руссинвест",
    "руссия",
    "русый",
    "русь",
    "рф",
    "рязанский",
    "сабмиллер",
    "санофироссия",
    "сахалин",
    "сбербанк",
    "свез",
    "севергазпром",
    "севернефтегазпром",
    "северсталь",
    "сзлк",
    "сибирь",
    "сибурхолдинг",
    "система",
    "ситибанк",
    "ситроникс",
    "совкомбанк",
    "спбаэп",
    "суал",
    "сургутнефтегаз",
    "суэк",
    "схк",
    "сыктывкарский",
    "такед",
    "таманьнефтегаз",
    "татнефть",
    "твэл",
    "тгк",
    "техснабэкспорт",
    "тимченко",
    "тмк",
    "тнк",
    "тнквр",
    "тоаз",
    "трансаэро",
    "трансгаз",
    "транснефть",
    "тюмень",
    "урал",
    "уралкалий",
    "уралсиб",
    "уральский",
    "урсабанк",
    "ухта",
    "фгк",
    "ферреро",
    "фиабанк",
    "филиал",
    "филип",
    "фк",
    "фортум",
    "фосагро",
    "фпк",
    "фск",
    "химконцентрат",
    "центринвест",
    "черкизовый",
    "чусовской",
    "шелл",
    "шереметьево",
    "щуровский",
    "эксонмобила",
    "энела",
    "энергохолдинг",
    "энерджи",
    "эсэфай",
    "южнороссийский",
    "юкос",
    "юникредитбанк",
    "юнипро",
    "яндекс",
    "ятэк",
}

In [34]:
info_df = pd.read_csv("rspp_reports1.csv", index_col=0)
info_df.head()

Unnamed: 0,idx,Название,Код MOEX,Подотрасль,ESG-рейтинг,E Rank,E-рейтинг,S Rank,S-рейтинг,G Rank,...,Год последней оцененной отчетности,E_transformed,S_transformed,G_transformed,id,компания,сектор,год,тип отчета,ссылка на отчет
10,11,"ПАО ""МТС""",MTSS,Беспроводные телекоммуникационные услуги,A,35,B,4,A,3,...,2021,6,3,1,637.0,ПАО «МТС»,Телекоммуникационная и связь,2021,ОУР,/download/0a53b7d4b6288f5721dc2ee12b3bae01/
13,14,«Яндекс»,YNDX,Программное обеспечение и услуги,A,21,BB,6,A,17,...,2021,5,3,3,1398.0,Яндекс,Телекоммуникационная и связь,2021,ОУР,/download/0c0a487b907fae9c9c6458ca531f94e4/
52,53,Совкомбанк,-,Банки,BB,78,CC,39,BB,77,...,2021,8,5,5,835.0,ПАО «Совкомбанк»,Финансы и страхование,2021,ОУР,/download/0de8548ab5f6e768286dfe883131d884/
2,3,«Уралкалий»,-,Агрохимикаты,A,6,BBB,1,AA,6,...,2021,4,2,2,1275.0,ПАО «Уралкалий»,"Химическая, нефтехимическая, парфюмерная",2021,ОУР,/download/0e88d52331c02d9939be212b2b95e562/
46,47,«Детский мир» (ПАО),DSKY,Розничная торговля детскими товарами,BB,51,CCC,57,BB,45,...,2020,7,5,3,1401.0,Группа компаний «Детский мир»,"Торговля, ритейл",2020,ИО,/download/14823f4874d6265ab79ab3014e118dfc/


In [35]:
files = [f"{REPORTS_DIRECTORY}/{file}" for file in os.listdir(REPORTS_DIRECTORY)]

In [105]:
def parse_pages_to_texts(files: list[str]):
    errors = []
    df = []
    for report_name in tqdm(files):
        if not report_name.endswith(".pdf"):
            print(report_name)
            continue
        try:
            report = textract.process(report_name)
        except Exception as e:
            errors.append((report_name, e))
            continue
        
        company_name = report_name[:-4].split("_")[0]
        if len(report_name[:-4].split("_")) == 2 and report_name[:-4].split("_")[-1].isnumeric() and int(report_name[:-4].split("_")[-1]) in info_df["id"].unique().tolist():
            report_idx = int(report_name[:-4].split("_")[-1])
            report_index = info_df[info_df["id"] == report_idx].index[0]
        else:
            file_name = report_name.split("/")[-1]
            try:
                report_index = info_df.loc[info_df["ссылка на отчет"]==file_name].index[0]
            except Exception as e:
                # broken beeline
                print(e)
                continue

        for i, paragraph in enumerate(report.decode().split("\n\n")):
            paragraph = paragraph.replace("\n", " ").lower()
            report_page = RE_DERIVED.sub("", paragraph)
            report_page_lst = word_tokenize(report_page)
            # russian_report_page_lst = [w for w in filter(RE_RUSSIAN_TEXT.match, report_page_lst)]
            tokens = []
            # nouns = set()
            # verbs = set()
            # adj = set()
            for word_ in filter(RE_RUSSIAN_TEXT.match, report_page_lst):
                if word_ and word_ not in stopwords_ru and word_ not in cp_names:
                    word_ = word_.strip()
                    word_ = morph.parse(word_)[0]
                    normal_form = word_.normal_form
                    tokens.append(normal_form)
                    # if word_.tag.POS in NOUNS:
                    #     nouns.add(normal_form)
                    # elif word_.tag.POS in VERBS:
                    #     verbs.add(normal_form)
                    # elif word_.tag.POS in ADJ:
                    #     adj.add(normal_form)
            # if len(tokens) == 0:
            #     continue

            df.append(
                {
                    "rsspp_index": report_index,
                    "index": report_index,
                    "company": company_name,
                    "year": info_df.at[report_index, "год"],
                    "sector": info_df.at[report_index, "сектор"],
                    "report_type": info_df.at[report_index, "тип отчета"],
                    "paragraph": i,
                    "original_text": paragraph,
                    "cleaned_text": " ".join(tokens),
                }
            )
    print(*errors, sep="\n")
    return df

In [106]:
df = parse_pages_to_texts(files)

  0%|          | 0/132 [00:00<?, ?it/s]

index 0 is out of bounds for axis 0 with size 0
index 0 is out of bounds for axis 0 with size 0



In [107]:
new_df = pd.DataFrame(df)
new_df.head()

Unnamed: 0,rsspp_index,index,company,year,sector,report_type,paragraph,original_text,cleaned_text
0,151,151,reports/Щекиноазот,2023,"Химическая, нефтехимическая, парфюмерная",ЭО,0,"20.11.2023, 14:34",20.11.2023 14:34
1,151,151,reports/Щекиноазот,2023,"Химическая, нефтехимическая, парфюмерная",ЭО,1,устойчивое развитие - щекиноазот,устойчивый развитие - щекиноазот
2,151,151,reports/Щекиноазот,2023,"Химическая, нефтехимическая, парфюмерная",ЭО,2,ru,ru
3,151,151,reports/Щекиноазот,2023,"Химическая, нефтехимическая, парфюмерная",ЭО,3,en,en
4,151,151,reports/Щекиноазот,2023,"Химическая, нефтехимическая, парфюмерная",ЭО,4,"устойчивое развитие esg – это environmental, s...",устойчивый развитие esg это environmental soci...


In [None]:
new_df.to_csv("paragraphs.csv.zip")