# Парсинг данных с сайта sec.gov

In [1]:
import pandas as pd
import os.path

from nrclex import NRCLex    # для оценки по эмоциям
import html2text             # перевод текста из html страницы в текст
    
from Downloader import Downloader      # кастомизированная библиотека sec-edgar-downloader


In [2]:
dl = Downloader()   # место сохранения файлов (по умолчанию сохраняется в папку с запускаемым файлом)

h = html2text.HTML2Text()   # для конвертирования страниц
h.ignore_links = True

# некоторые константы
report_10k = "10-K"
report_10q = "10-Q"

# пустые словари для эмоций, поскольку конечная таблица строится из него
all_emo_10k = {}
all_emo_10q = {}


In [3]:
# получение списка тикеров
def get_nasdaq_tickers():
    table = pd.read_html('https://en.wikipedia.org/wiki/NASDAQ-100')[3]
    sliced_table = table[1:]
    header = table.iloc[0]
    corrected_table = sliced_table.rename(columns=header)
    tickers = corrected_table['ATVI'].tolist()
    tickers.append('ATVI')

    return tickers

# получение списка тикеров
def get_sp500_tickers():
    table = pd.read_html(
        'https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[0]
    sliced_table = table[1:]
    header = table.iloc[0]
    corrected_table = sliced_table.rename(columns=header)
    tickers = corrected_table['MMM'].tolist()
    tickers.append('MMM')
    return tickers

# оценка по эмоциям для каждого файла (в данном случае для 10Q и 10K)
def santiment(tick):
    
    # путь до файлов (для работы нужно изменить путь до папки EDGAR, далее не обязательно трогать)
    # То есть надо поменять только эту часть строки: "/Users/vladoo/Work/parser"
    if os.path.isfile("/Users/vladoo/Work/parser/EDGAR/" + tick + "/" + report_10k + "/filing-details.html"):
        file_path_10k = "/Users/vladoo/Work/parser/EDGAR/" + tick + "/" + report_10k + "/filing-details.html"
    else:
        return

    if os.path.isfile("/Users/vladoo/Work/parser/EDGAR/" + tick + "/" + report_10q + "/filing-details.html"):
        file_path_10q = "/Users/vladoo/Work/parser/EDGAR/" + tick + "/" + report_10q + "/filing-details.html"
    else:
        return
    
    # считывание отчетов
    html_10k = open(file_path_10k, "r")
    html_10q = open(file_path_10q, "r")
    
    # внесение отчета для оценки по эмоциям
    print("     Reading 10K for emotions")
    emotions_10k = NRCLex(h.handle(html_10k.read()))
    print("     Reading 10Q for emotions")
    emotions_10q = NRCLex(h.handle(html_10q.read()))
    
    # внесение в словарь тикера и оценку отчета по эмоциям
    print("     Writing 10K emotions")
    all_emo_10k[tick] = emotions_10k.affect_frequencies
    print("     Writing 10Q emotions")
    all_emo_10q[tick] = emotions_10q.affect_frequencies

# вывод полного словаря эмоций по завершению загрузки всех отчетов
# можно изменить порядок столбцов, в котором должно выводиться
def print_emotions():
    print("------Emotions of 10K:")
    print(pd.DataFrame.from_dict(all_emo_10k, orient='index',columns=[
        'fear', 
        'anger', 
        'trust', 
        'surprise', 
        'positive', 
        'negative', 
        'sadness', 
        'disgust', 
        'joy', 
        'anticipation'
        ]))    

    print("\n------Emotions of 10Q:")
    print(pd.DataFrame.from_dict(all_emo_10q, orient='index',columns=[
        'fear', 
        'anger', 
        'trust', 
        'surprise', 
        'positive', 
        'negative', 
        'sadness', 
        'disgust', 
        'joy', 
        'anticipation'
        ]))
    

In [4]:
# получение полного списка тикеров
tickers = get_nasdaq_tickers() + get_sp500_tickers()

for tick in range(len(tickers)):
    print(tickers[tick])
    # скачивание html отчетов соответствующего типа
    dl.get(report_10k, tickers[tick], amount=1)
    dl.get(report_10q, tickers[tick], amount=1)
    # вносим отчет в таблицу эмоций
    santiment(tickers[tick])

# вывод таблицы компания/эмоции по каждому из типов отчетов
print_emotions()

ADBE
----- 10-K done
----- 10-Q done
AMD
----- 10-K done
----- 10-Q done
ALXN
----- 10-K done
----- 10-Q done
ALGN
----- 10-K done
----- 10-Q done
GOOGL
----- 10-K done
----- 10-Q done
GOOG
----- 10-K done
----- 10-Q done
AMZN
----- 10-K done
----- 10-Q done
AEP
----- 10-K done
----- 10-Q done


KeyboardInterrupt: 