# План работы по проекту:


### 1 Изучение финансовых показателей:
Понимание основных показателей, влияющих на стоимость акций, таких как доходность, P/E (Price to Earnings) ratio, P/B (Price to Book) ratio и других фундаментальных финансовых метрик.

### 2 Сбор данных:
Получите доступ к данным о финансовых инструментах, которые вы хотите анализировать. Множество платформ предоставляют бесплатные и платные данные о финансовых инструментах.

### 3 Выбор метода прогнозирования: 
Изучите различные методы прогнозирования, такие как линейная регрессия, временные ряды, нейронные сети и др. Определите, какие из них наилучшим образом подходят для вашей задачи прогнозирования стоимости акций.

### 4 Обработка данных: 
Подготовьте данные для обучения модели. Это может включать в себя очистку данных, заполнение пропущенных значений, масштабирование признаков и так далее.

### 5 Обучение модели: 
Используйте выбранный метод машинного обучения для обучения модели на исторических данных о ценах акций.

### 6 Оценка производительности модели: 
Оцените производительность модели на тестовом наборе данных, используя соответствующие метрики, такие как среднеквадратичная ошибка (Mean Squared Error), коэффициент детерминации (R-squared), и другие.

### 7 Настройка и улучшение модели: 
Изучите методы настройки гиперпараметров модели для улучшения ее производительности. Это может включать в себя кросс-валидацию, подбор оптимальных значений гиперпараметров и т.д.

### 8 Тестирование модели в реальном времени: 
После того как модель обучена и протестирована, протестируйте ее в реальном времени на рыночных данных, чтобы убедиться в ее эффективности и пригодности для прогнозирования стоимости акций в реальных условиях.

### 9 Мониторинг и обновление модели: 
Регулярно мониторьте производительность модели на новых данных и обновляйте ее при необходимости, чтобы она оставалась актуальной и эффективной.

## Сбор данных

In [None]:
t.algOzn7GtydISUhXsvIrKA_R7VZK6y8PDPEbV_XkJeYrq5LE4YezUqdkAg6skdMLN-4ApwzD19lFGIMCcAE3Fw

## Парсинг с помощью Гугл Драйв

In [27]:
# jupyter contrib nbextension install --user
# jupyter nbextension enable codefolding/main

In [28]:
# formatter = HtmlFormatter(style='colorful')
# lexer = get_lexer_by_name("python", stripall=True)
# highlighted_code = highlight(code, lexer, formatter)
# HTML(highlighted_code)

In [29]:
# from selenium import webdriver
# from selenium.webdriver.common.keys import Keys

In [30]:
# создаем экземпляр драйвера
# driver = webdriver.Chrome()

In [31]:
# открываем страницу в браузере
# driver.get("https://dzen.ru/?yredirect=true")

In [32]:
# находим элемент по его xpath
# element = driver.find_element_by_xpath("//h1")

In [33]:
# извлекаем текст из элемента
# print(element.text)

In [34]:
# закрываем браузер
# driver.close()

## Парсинг заголовк сайта

In [35]:
import requests
from bs4 import BeautifulSoup

url = "https://smart-lab.ru/q/shares/"
# url = "https://www.wildberries.ru/"
response = requests.get(url)
response.encoding = 'utf-8' 

if response.status_code == 200:
    html_content = response.text
    
    soup = BeautifulSoup(html_content, 'html.parser')
    
    title_tag = soup.find('title')
    if title_tag:
        title = title_tag.get_text()
        print(f'Title: {title}')
else:
    print('Ошибка при загрузке страницы')

Title: Котировки акций ММВБ в реальном времени (онлайн)


## Парсинг таблиц

In [36]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

def parse_table(url):
    response = requests.get(url)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')
    
        # Найти таблицу на странице
        table = soup.find('table')
        
        if table:
            # Используем pandas для чтения данных из HTML таблицы
            df = pd.read_html(str(table))[0]
            return df
        else:
            print('Таблица не найдена на странице')
    else:
        print('Ошибка при загрузке страницы')

# Укажите URL страницы с таблицей
url = "https://smart-lab.ru/q/shares/"
df = parse_table(url)

if df is not None:
    print(df)

       №     Название  Тикер Unnamed: 3 Unnamed: 4 Unnamed: 5 Цена,  посл  \
0      1  Индекс ММВБ  IMOEX        NaN        NaN        NaN     3315.68   
1      2    ЕвроТранс   EUTR        NaN        NaN        NaN      283.35   
2      3     Сбербанк   SBER        NaN        NaN        NaN      299.38   
3      4   Yandex clA   YNDX        NaN        NaN        NaN        3590   
4      5       ЛУКОЙЛ   LKOH        NaN        NaN        NaN        7501   
..   ...          ...    ...        ...        ...        ...         ...   
254  253    ГАЗКОН-ао   GAZC        NaN        NaN        NaN         NaN   
255  254   ГАЗ-сервис   GAZS        NaN        NaN        NaN         NaN   
256  255   ГАЗ-Тек ао   GAZT        NaN        NaN        NaN         NaN   
257  256       СМЗ-ао   MGNZ        NaN        NaN        NaN         NaN   
258  257   ТКСХолд ао   TCSG        NaN        NaN        NaN         NaN   

     Изм, % Объем,  млн руб Unnamed: 9 1 нед, %  1 м, %  ytd, %  12м, %  \


In [37]:
df

Unnamed: 0,№,Название,Тикер,Unnamed: 3,Unnamed: 4,Unnamed: 5,"Цена, посл","Изм, %","Объем, млн руб",Unnamed: 9,"1 нед, %","1 м, %","ytd, %","12м, %",Капит-я млрд руб,Капит-я млрд $,Изм Объема,Изм поз по Объему,Unnamed: 18,Unnamed: 19
0,1,Индекс ММВБ,IMOEX,,,,3315.68,+0.15%,42 342.89,18:51:01,+1.5%,+2.3%,+7.0%,+45.7%,66 046.04,727.79,-14%,—,—,—
1,2,ЕвроТранс,EUTR,,,,283.35,+1.2%,5 171.87,18:45:45,+15.1%,-7.8%,+5.3%,,45.09,0.50,-13%,,+,+
2,3,Сбербанк,SBER,,,,299.38,+0.56%,4 966.04,18:45:29,+1.6%,+5.8%,+10.3%,+73.4%,6 761.68,74.51,+7%,+1,+,+
3,4,Yandex clA,YNDX,,,,3590,+0.34%,2 920.08,18:45:37,+1.9%,+10.9%,+41.2%,+87.0%,1 171.57,12.91,-34%,+1,+,+
4,5,ЛУКОЙЛ,LKOH,,,,7501,+0.24%,2 776.87,18:45:25,+0.8%,+3.6%,+11.0%,+83.7%,5 197.19,57.27,-47%,-2,+,+
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
254,253,ГАЗКОН-ао,GAZC,,,,,0%,,10:00:19,,,,,148.53,1.64,,,+,+
255,254,ГАЗ-сервис,GAZS,,,,,0%,,10:00:19,,,,,173.26,1.91,,,+,+
256,255,ГАЗ-Тек ао,GAZT,,,,,0%,,10:00:19,,,,,819.81,9.03,,,+,+
257,256,СМЗ-ао,MGNZ,,,,,0%,,18:40:11,,,,,2.96,0.03,,,+,+


In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 259 entries, 0 to 258
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   №                  259 non-null    object
 1   Название           259 non-null    object
 2   Тикер              259 non-null    object
 3   Unnamed: 3         2 non-null      object
 4   Unnamed: 4         2 non-null      object
 5   Unnamed: 5         2 non-null      object
 6   Цена,  посл        252 non-null    object
 7   Изм, %             259 non-null    object
 8   Объем,  млн руб    252 non-null    object
 9   Unnamed: 9         259 non-null    object
 10  1 нед, %           252 non-null    object
 11  1 м, %             250 non-null    object
 12  ytd, %             249 non-null    object
 13  12м, %             238 non-null    object
 14  Капит-я  млрд руб  259 non-null    object
 15  Капит-я  млрд $    259 non-null    object
 16  Изм Объема         251 non-null    object
 1

In [39]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

def parse_table(url):
    response = requests.get(url)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')
    
        # Найти таблицу на странице
        table = soup.find('table')
        
        if table:
            # Используем pandas для чтения данных из HTML таблицы
            df = pd.read_html(str(table))[0]
            return df
        else:
            print('Таблица не найдена на странице')
    else:
        print('Ошибка при загрузке страницы')

# Укажите URL страницы с таблицей
url = "https://smart-lab.ru/q/ofz/"
df = parse_table(url)

if df is not None:
    print(df)

     №        Имя  Unnamed: 2   Погашение  Лет до погаш.  Доходн   !  \
0    1  ОФЗ 26244         NaN  15.03.2034           10.1   13.0%   -   
1    2  ОФЗ 26243         NaN  19.05.2038           14.2   13.1%   -   
2    3  ОФЗ 26238         NaN  15.05.2041           17.2   12.8%   -   
3    4  ОФЗ 26227         NaN  17.07.2024            0.4   14.1%   -   
4    5  ОФЗ 26229         NaN  12.11.2025            1.7   13.8%   -   
5    6  ОФЗ 26233         NaN  18.07.2035           11.4   12.7%   -   
6    7  ОФЗ 29016         NaN  23.12.2026            2.8    0.0%   -   
7    8  ОФЗ 26221         NaN  23.03.2033            9.1   12.8%   -   
8    9  ОФЗ 26240         NaN  30.07.2036           12.4   12.8%   -   
9   10  ОФЗ 29006         NaN  29.01.2025            0.9   13.4%   -   
10  11  ОФЗ 29014         NaN  25.03.2026            2.1    0.0%   -   
11  12  ОФЗ 26222         NaN  16.10.2024            0.6   14.3%   -   
12  13  ОФЗ 26207         NaN  03.02.2027            2.9   12.8%

In [40]:
df

Unnamed: 0,№,Имя,Unnamed: 2,Погашение,Лет до погаш.,Доходн,!,Год.куп. дох.,Куп.дох. посл.,Цена,"Объем, млн руб",Unnamed: 11,"Купон, руб","Частота, раз в год","НКД, руб","Дюр-я, лет",Дата купона,Unnamed: 17,Unnamed: 18
0,1,ОФЗ 26244,,15.03.2034,10.1,13.0%,-,11.3%,12.1%,92.65,5 819.8,18:45:07,47.47,2,42.5,5.84,27.03.2024,+,+
1,2,ОФЗ 26243,,19.05.2038,14.2,13.1%,-,9.8%,12.1%,81.32,2 520.6,18:45:47,48.87,2,25.8,7.09,05.06.2024,+,+
2,3,ОФЗ 26238,,15.05.2041,17.2,12.8%,-,7.1%,11.4%,62.50,1 630.0,18:45:19,35.4,2,18.7,8.10,05.06.2024,+,+
3,4,ОФЗ 26227,,17.07.2024,0.4,14.1%,-,7.4%,7.6%,97.91,941.7,18:45:46,36.9,2,11.0,0.35,17.07.2024,+,+
4,5,ОФЗ 26229,,12.11.2025,1.7,13.8%,-,7.1%,7.9%,90.99,938.4,18:45:22,35.65,2,22.9,1.57,15.05.2024,+,+
5,6,ОФЗ 26233,,18.07.2035,11.4,12.7%,-,6.1%,9.8%,62.39,628.2,18:45:47,30.42,2,6.7,7.37,31.07.2024,+,+
6,7,ОФЗ 29016,,23.12.2026,2.8,0.0%,-,0.0%,-,99.95,398.7,18:25:39,0.0,4,32.0,-,27.03.2024,+,+
7,8,ОФЗ 26221,,23.03.2033,9.1,12.8%,-,7.7%,10.3%,74.90,374.9,18:39:55,38.39,2,33.5,6.01,03.04.2024,+,+
8,9,ОФЗ 26240,,30.07.2036,12.4,12.8%,-,7.0%,10.6%,66.20,357.1,18:45:44,34.9,2,5.0,7.45,14.08.2024,+,+
9,10,ОФЗ 29006,,29.01.2025,0.9,13.4%,-,14.6%,14.4%,101.22,320.8,18:37:13,72.6,2,16.0,0.86,31.07.2024,+,+


## Парсинг текста

In [41]:
import requests
from bs4 import BeautifulSoup

def parse_text(url):
    response = requests.get(url)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')
        
        # Извлекаем весь текст из HTML-кода страницы (.get_text())
        page_text = soup.get_text()
        
        return page_text
    else:
        print('Ошибка при загрузке страницы')
        return None

# Укажите URL страницы, с которой хотите извлечь текст
url = "https://www.forbes.ru/biznes/"
page_text = parse_text(url)

if page_text:
    print(page_text)




Бизнес | Forbes.ruК сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего броузера.


     
              Рубрики
               
              Рейтинги
            
              Подкасты
            
              Видео
            
              Life
            
              Woman
            
              Sport
                  
              Войти
                              
    Наш канал в Telegram
   
    Самое важное о финансах, инвестициях, бизнесе и технологиях
    
    Подписаться
   
      Новости
     
                            Бизнес     10 часов назадБизнесАлекс Будрис   
          Бесполезная жертва: ОПЕК+ не смог напугать рынок и поднять цены на нефть
         Читать   Бизнес   Букет проблем к 8 Марта: цветов будет меньше, а затрат больше  Около 80% свежесрезанных цветов к Международному женскому дню попадают на российский рынок из-за рубежа, в этом году их ввоз сократился минимум на 13%. К весне 2024 го

In [42]:
import requests
import html2text

def parse_full_text(url):
    response = requests.get(url)
    if response.status_code == 200:
        html_content = response.text
        
        # Преобразовать HTML в текст
        text_maker = html2text.HTML2Text()
        text_maker.ignore_links = True  # Игнорировать ссылки
        text_maker.ignore_images = True  # Игнорировать изображения
        full_text = text_maker.handle(html_content)
        
        return full_text
    else:
        print('Ошибка при загрузке страницы')
        return None

# Укажите URL страницы, с которой хотите извлечь текст
# url = "https://resources.today/"
# url = "https://pronostico.ru/stock_forecasts/"
# url = "https://investfuture.ru/"
# url = "https://www.rbc.ru/"
url = "https://zakupki.gov.ru/epz/order/extendedsearch/results.html?searchString=%D0%B4%D0%B3%D0%B8"
full_text = parse_full_text(url)

if full_text:
    print(full_text)

Ошибка при загрузке страницы


## Парсинг ПДФ

In [43]:
import PyPDF2

def parse_pdf(file_path):
    with open(file_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        text_content = ''
        num_pages = len(pdf_reader.pages)

        for page_num in range(num_pages):
            text_content += pdf_reader.pages[page_num].extract_text()

        return text_content

# Укажите путь к файлу PDF
pdf_file_path = 'LUKOIL_FS_IFRS_2Q2021_rus.pdf'
pdf_text = parse_pdf(pdf_file_path)

print(pdf_text)

Данная сокращенная промежуточная консолидированная финансовая отчетность была подготовлена  
ПАО «ЛУКОЙЛ» в соответствии с МСФО и не была проаудирована нашими независимыми аудиторами. Если в 
будущем аудит данной сокращенной промежуточной консолидированн ой финансовой отчетности будет проведен, 
и по результатам аудита потребуются изменения, мы не можем заверить, что такие изменения не будут 
существенны.   
 
 
 
 
 
 
 
 
ПАО «ЛУКОЙЛ»  
 
 
 
 
СОКРАЩЕННАЯ ПРОМЕЖУТОЧНАЯ 
КОНСОЛИДИРОВАННАЯ ФИНАНСОВАЯ ОТЧЕТНОСТЬ  
 
за три и шесть месяцев, закончившихся 30 июня  2021 г., 
 
подготовленная в соответствии с МСФО  
(неаудированные данные)  
 
ПАО «ЛУКОЙЛ»  
Консолидированный отчет о финансовом положении  
(в миллионах российских рублей ) 
Прилагаемые  примечания  являются  неотъемлемой  частью  данной  сокращенной  промежуточной  консолидированной  
финансовой  отчетности.  
4 
 Примечание   30 июня 2021 
(неаудированные 
данные)  31 декабря  2020  
Активы      
Оборотные активы      
Ден

## Парсинг с помощью  scrapy для создания веб-паука

In [44]:
#Создайте новый проект Scrapy:

scrapy startproject my_spider
cd my_spider

SyntaxError: invalid syntax (3110834548.py, line 3)

In [None]:
# Это пример кода Python с подсветкой синтаксиса
for i in range(5):
    if i % 2 == 0:
        print(f"{i} - четное число")
    else:
        print(f"{i} - нечетное число")