# Домашнее задание №2 по курсу "Сбор данных с web-scraping и API в целях социально-научных исследований"

---

Данное домашнее задание представляет из себя практику работы с **базовыми методами Selenium** и знакомство с **новыми методами Selenium**.


## Правила игры:

---

### Варианты
**Напротив фамилии каждого студента в таблице с ДЗ №2 присутствует несколько значений:**


1. **Сайт** – сайт, с которым вы работаете:
    * Портал мировых судей Республики Татарстан, раздел "Поиск по судебным делам": https://mirsud.tatarstan.ru/search;
    * Сайт Верховного суда РФ, раздел "Списки дел к слушанию": https://vsrf.ru/lk/practice/hearings;
    * Сайт Санкт-Петербургского городского суда, раздел "Поиск по делам": https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&name_op=sf&delo_id=1540005&new=5)
    
    
2. **Данные по судье/суду/коллегии**: 

    * Судебный участок для сайта **портала мировых судей Республики Татарстан**;
    * Фамилия судьи для сайта **Санкт-Петербургского районного суда**;
    * Судебная коллегия для сайта **Верховного суда РФ**;
  

3. **Новый метод Selenium** – дополнительная опция, которую вам необходимо использовать в вашей работе (Задача №4.5)

Эти значения **необходимо использовать в вашей работе. Если вы используете другие значения, ваша работа не будет принята**. При желании вы можете не выполнять задачу №5 (новый метод Selenium), но вам точно нужно работать с определенным сайтом и определенной судьей/судебной коллегией/судебным участком.

---

### Формат сдачи и сдаваемые файлы:

**Вам необходимо сдать в файле .zip несколько файлов:**

- **Код и комментарии в формате `.ipynb` - <font color='orange'>только в этой тетрадке</font>**;
- **Файл `.xlsx` - с собранными вами данными**;
- **Запись видео, где вы сперва показываете вашу тетрадку, а далее запускаете код. На записи должен быть виден процесс открытия окна с помощью вебдрайвера, переключение страниц, и другие действия**. 
    * **Эта запись нужна чтобы удостовериться, что написанный вами код работает и вы задействовали прописанные опции** и избежать ситуаций, когда разметка сайта поменялась и я спустя время не смогла получить аналогичные результаты.
    * **В качестве базовой опции вы можете использовать запись экрана в конференции Zoom наедине с собой**, либо любой другой инструмент записи экрана при использовании которого будет виден ваш экран со всеми окнами полностью. 
    * **По моим подсчетам, запись должна занять у вас несколько минут и будет весить до 50 MB** (если вы пользуетесь зумом). Для сравнения: запись нашей первой консультации на 30 минут весила 95 MB, а ваша запись займет точно меньше времени.

### Задача 0. Импортируйте необходимые модули;

In [51]:
# импорт основных библиотек
import pandas as pd 
import numpy as np  
import tqdm         
import time         

from bs4 import BeautifulSoup

# импорт библиотек для работы с selenium
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service 
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By 
from selenium.webdriver.common.keys import Keys 
from selenium.webdriver.chrome.options import Options 
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC 
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException

### Задача 1. Создайте сущность `webdriver` – max 0.5 балла;

* Создайте сущность `webdriver` (`Chromedriver` или `Firefoxdriver` в зависимости от того, какой браузер вы предпочитаете);
* Сохраните её в переменную `wb` чтобы в дальнейшем использовать эту переменную для вызова webdriver;
* Используйте такие настройки, чтобы экран сразу открывался в широком масштабе. 

In [173]:
# запуск вебдрайвера
options = Options() 
options.add_argument("start-maximized") 
wb = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options) 

### Задача 2. Открытие сайта, взаимодействие с полем поиска, отправка значений для поиска - max 2 балла


* Откройте страницу с поиском сайта из вашего варианта;
* Найдите поля, отвечающие за ввод информации по судье;
* **Нажмите** на кнопку `Найти`;
* Дождитесь загрузки информации о судебных решениях, который вынесл(а) данный(ая) судья/судебная коллегия.

*Обратите внимание: в шапке домашнего задания даны корректные ссылки на поиск по делам, вам не нужно вручную искать страницу с разделом "Поиск по делам" на сайте*.

*Перед выполнением задания проверьте, что вы используете соответствующую вашему варианту опцию (имя судьи/судебная коллегия): <font color='orange'>если вы перепутали опцию, баллы не будут зачтены.</font>*

Если вам не удалось выполнить этот шаг задания с помощью кода, для следующего задания введите значения для поиска вручную.

Вариант: Вадимка Анисимов | Санкт-Петербургский Городской Суд // Лаков Алексей Вадимович // Скроллинг по странице

In [155]:
wb.get(link)

In [174]:
link = 'https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&name_op=sf&delo_id=1540005&new=5'
# здесь ссылка на сайт из вашего(!) варианта
wb.get(link)
name_list = wb.find_element(By.XPATH, '/html/body/div[10]/div[3]/div/div[2]/div[2]/div[2]/form/table[2]/tbody/tr[8]/td[2]/img') #ищем элемент с выпадающем списком имен
name_list.click()
name_inlist = WebDriverWait(wb, 5).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#content > div > table > tbody > tr:nth-child(44) > td > div"))) #ждем пока элемент с именем судьи не станет кликабельным (потому что загрузка поп-ап занимает некоторое время)
name_inlist.click()
find_but = wb.find_element(By.XPATH, '/html/body/div[10]/div[3]/div/div[2]/div[2]/div[2]/form/div[5]/input[1]') # ищем кнопку Найти, чтобы исполнить запрос
find_but.click()

### Задача 3. Соберите ссылки на дела на первой странице - max 1 балл;

*Обратите внимание: вам нужно собрать ссылки на дела только **на первой странице** поиска.*

Если вам не удалось выполнить этот шаг задания с помощью кода, для следующего задания скопируйте ссылки вручную. 

In [54]:
html = wb.page_source # получем ссылку текущей страницы 
soup = BeautifulSoup(html) #авторский рецепт супа из того, что всегда есть дома

In [55]:
links = ['https://sankt-peterburgsky--spb.sudrf.ru' + i.find('a')['href'] for i in soup.find_all('td', {'title': 'Для получения справки по делу, нажмите на номер дела'})]
# ищем в супе элементы с тегами td и определнным заголовком, из них извлекаем тег а и его href, а потом добавляем адрес ссылки

In [132]:
links #наши ссылки 

['https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=82062738&case_uid=9eb32691-6228-425b-9a18-4276c7f91623&delo_id=5&new=5',
 'https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=82035473&case_uid=7c29d8e1-9fd4-4203-bcb4-36262c014723&delo_id=5&new=5',
 'https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=81998985&case_uid=6dc8e170-44c3-4ff0-ae53-1ad3af8c9c06&delo_id=5&new=5',
 'https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=81971602&case_uid=692c4e00-577a-4661-b505-4cd87cef435c&delo_id=5&new=5',
 'https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=81960881&case_uid=b3042992-c3c3-4192-9161-26ddc4bbca9f&delo_id=5&new=5',
 'https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=81960857&case_uid=ce9709c2-f08d-442

### Задача 4. Напишите функцию, собирающая данные по делам и соберите данные о текстах судебных решений из предыдущий задачи – max 3 балла;

--- 

**Обратите внимание: если вы не хотите реализовывать дополнительную опцию (задание 4.5), реализуйте только код для этого задания. Запишите реализацию этого кода на видео.**

**Если вы хотите реализовать дополнительную опцию (задание 4.5), реализуйте этот код и можете поместить в эту же ячейку код для задачи 4.5. Запишите реализацию этого кода на видео.**

---

*Перед выполнением задания проверьте, что вы используете соответствующую вашему варианту опцию (сайт): <font color='orange'>если вы перепутали опцию, баллы не будут зачтены.</font>*

* Напишите функцию, которая принимает на вход список ссылок, проходится по каждой из них, и собирает `pandas.DataFrame` с информацией о судебном деле;
* Используйте `try-except` согласно следующему правилу:
    * Если информацию с одной страницы удалось собрать, не печатайте ничего;
    * Если информацию с одной странице **не удалось собрать**, напечатайте `Не удалось собрать!`.

При оценке задания я оцениваю ваш код и какую долю страниц судебных дел вам удалось обработать без возникающих ошибок, добавили ли вы docstring вашей функции.

---
**Для портала мировых судей Республики Татарстан соберите следующую информацию:**

На примере карточки: https://avia1.mirsud.tatarstan.ru/cases/civil/details/696ca781-32a4-4c9d-915a-0e93f455a916 – 

* Уникальный идентификатор дела – `16MS0001-01-2024-000694-94`;
* Номер дела – `02-0457/1/2024`;
* Судья – `Сафиуллина А.Р.`;
* Истец (если указан) – `АО «МИКРОКРЕДИТНАЯ КОМПАНИЯ УНИВЕРСАЛЬНОГО ФИНАНСИРОВАНИЯ»`;
* Дата поступления – `04.03.2024`;
* Категория дела – `213 - О взыскании сумм по договору займа, кредитному договору`;
* Ссылку на страницу;

--- 
**Для сайта Верховного Суда с карточки судопроизводства соберите следующую информацию:**

Разберем на примере одной карточки: https://vsrf.ru/lk/practice/cases/19-24227796#19-24227796 – вам нужно собрать информацию только о первом рассмотрении данного дела:

* Дата- `07.02.2012`;
* Номер дела – `АКПИ12-237`;
* Вид судопроизводства – `'Административное судопроизводство`;
* Инстанция – `I инстанция`;
* Детали по иску – `О присуждении компенсации за нарушение права на ГРАЖДАНСКОЕ судопроизводство в разумный срок`;
* Заявители (истцы / административные истцы) – `Усвятцев С.В.`
* Ссылку на страницу;


---
**Для сайта Санкт-Петербургского городского суда соберите следующую информацию:**

На примере карточки: https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=82062738&case_uid=9eb32691-6228-425b-9a18-4276c7f91623&delo_id=5&new=5 – 

* Уникальный идентификатор дела – `78RS0012-01-2023-002917-29`;
* Дата поступления – `13.09.2023`;
* Категория дела – `'Споры, связанные с имущественными правами\xa0→Иные иски из договора аренды имущества'`;
* Судья – `'Лаков Алексей Вадимович'`;
* Дата – `'15.09.2023'`;
* Когда опубликовано (если информация присутствует) – `опубликовано 13.09.2023 19:34, изменено 20.09.2023 20:22`.
* Ссылку на страницу;

---

In [175]:
def kartochka_from_sud(link):
    '''
    функция kartochka_from_sud принимает на вход ссылки на дело с сайта sankt-peterburgsky--spb.sudrf.ru, открывает их через selenium и возвращает pandas.DataFrame с информацией о делах
    Args:
        :link - список из ссылок на карточку дела
    Returns:
        :pandas.DataFrame - датафрейм с инсофрмацией о делах
    Examples:
        >>>>kartochka_from_sud('https://sankt-peterburgsky--spb.sudrf.ru/modules.php?name=sud_delo&srv_num=1&name_op=case&case_id=82062738&case_uid=9eb32691-6228-425b-9a18-4276c7f91623&delo_id=5&new=5')
    
    '''
    data_df = pd.DataFrame()
    for link in links:
        try:
            wb.get(link) # открываем ссылку
            if wb.find_element(By.TAG_NAME, 'body').is_displayed(): #неявно ждем пока загрузится страница 
                wb.execute_script("window.scrollBy(0,document.body.scrollHeight)") # скролим вниз
            time.sleep(4) # ждем 4 секунды, чтобы было наглядно
            wb.execute_script("window.scrollTo(0, document.body.scrollTop);") # скролим вверх
            data = [i.text for i in wb.find_elements(By.TAG_NAME, 'td') if i] # собираем инфу
            data = [i for i in data if i] #очищаем от пустых ячеек
            data = data[2:] #отбрасываем техническую информацию
            data_dic = {data[i]: data[i+1] for i in range(0, len(data), 2)} #переводим в словарь
            temp_df = pd.json_normalize(data_dic) # создаем временный датафрейм
            data_df = pd.concat([data_df, temp_df], ignore_index=True) # Объединяем с общим датафреймом
        except Exception as e:
              print(f'Не удалось собрать данные для ссылки {link}: {e}') #печатаем более подробную информацию об ошибках, при наличии
    
    return data_df

In [None]:
kartochka_from_sud(links)

In [156]:
frames = kartochka_from_sud(links)

In [159]:
frames

Unnamed: 0,Уникальный идентификатор дела,Дата поступления,Категория дела,Судья,Дата рассмотрения,Результат рассмотрения
0,,,,,,
1,78RS0008-01-2023-005563-63,11.09.2023,Прочие исковые дела →\nпрочие (прочие исковые ...,Лаков Алексей Вадимович,15.09.2023,ОПРЕДЕЛЕНИЕ оставлено БЕЗ ИЗМЕНЕНИЯ
2,78RS0017-01-2023-004308-53,07.09.2023,"Споры, связанные с имущественными правами →\nИ...",Лаков Алексей Вадимович,15.09.2023,определение отменено полностью с разрешением в...
3,78RS0015-01-2023-006575-51,05.09.2023,"Споры, связанные с имущественными правами →\nИ...",Лаков Алексей Вадимович,15.09.2023,определение отменено полностью с разрешением в...
4,78RS0022-01-2023-004642-47,04.09.2023,"Споры, связанные с имущественными правами →\nО...",Лаков Алексей Вадимович,15.09.2023,ОПРЕДЕЛЕНИЕ оставлено БЕЗ ИЗМЕНЕНИЯ
5,78RS0022-01-2023-002741-27,04.09.2023,"Отношения, связанные с защитой прав потребител...",Лаков Алексей Вадимович,15.09.2023,определение отменено полностью с разрешением в...
6,78RS0014-01-2023-007897-18,04.09.2023,"Отношения, связанные с защитой прав потребител...",Лаков Алексей Вадимович,15.09.2023,определение отменено полностью с разрешением в...
7,78RS0008-01-2022-008598-60,05.06.2023,"Споры, связанные с имущественными правами →\nИ...",Лаков Алексей Вадимович,07.06.2023,определение отменено полностью с разрешением в...
8,78RS0011-01-2023-002174-80,30.05.2023,Прочие исковые дела →\nпрочие (прочие исковые ...,Лаков Алексей Вадимович,07.06.2023,определение отменено полностью с разрешением в...
9,78RS0011-01-2023-000516-10,30.05.2023,Прочие исковые дела →\nпрочие (прочие исковые ...,Лаков Алексей Вадимович,07.06.2023,определение отменено полностью с разрешением в...


### Задача 4.5. Допишите ваш код и реализуйте предложенную вам опцию – max 2 балла;

Изучите другие методы Selenium, **и дополните ваш код из задачи №4 чтобы реализовать предложенную вам опцию (можно дописать этот код к решению задачи №4 в ячейке выше):**

*Перед выполнением задания проверьте, что вы используете соответствующую вашему варианту опцию: <font color='orange'>если вы перепутали опцию, баллы не будут зачтены.</font>*

---

**Переключение между страницами**. Сбор данных со страниц судебных решений должен выглядеть так: 
* **У вас открыта первая страница поиска** (судебные решения конкретного судьи/судебного состава);
* В **новой вкладке** открываете страницу судебного решения;
* Собираете с помощью кода из задачи №4 данные со страницы;
* **Переключаетесь на вкладку с первой страницей поиска (не закрывая страницу только что обработанного дела)**;
* **После того, как вы переключились на первую страницу поиска, закройте страницу только что обработанного судебного решения**;
* Повторяете действия в цикле.

---

**Скроллинг по странице**. Сбор данных со страниц судебных решений должен выглядеть так – в цикле вы:
* Открываете страницу нового дела;
* (При необходимости ждете, пока она загрузится полностью);
* Проматываете страницу **в самый низ страницы, ждете 0.5 секунд**;
* Проматываете страницу **в самый вверх страницы, ждете 0.5 секунд**;
* Собираете с помощью кода из задачи №4 данные со страницы;
* Повторяете действия в цикле.

---

**Скриншоты и работа с os:** Сбор данных со страницы судебных решений должен выглядеть так - в цикле вы:
* Открываете страницу нового дела;
* С помощью Selenium делаете скриншот страницы;
* Используете функции библиотеки `os` и переименовываете только что сделанный скриншот: в названии файла должна присутствовать **часть ссылки на конкретное решение**:
    * *Пример*: представим, что вы работаете с ссылкой `https://vsrf.ru/lk/practice/cases/19-24227796#19-24227796`. При желании, восстановить полную ссылку на публикацию можно если вы знаете номер публикации. В этом случае будет достаточно использовать цифры `19-24227796#19-24227796` – это и будет часть ссылки на конкретное решение.
* **После обработки всех страниц на видео вам нужно будет показать скриншоты, которые вы сделали**.

### Задача 5. Сохраните данные, которые вы собрали, в xlsx файл - max 0.5 балла;

In [158]:
frames.to_excel('hw_2_upd_xlsx.xlsx')

### Задача 6. Найдите и предложите техническое решение – max 1 балл;

**Используйте поиск по литературе, stackoverflow, профессиональным сайтам и предложите способы обхода капчи, которые можно реализовать если вы собираете данные с веб-страниц на Python и натыкаетесь на капчу**:

* Насколько сложно, по вашей оценке, реализовать это техническое решение?
* Потребует ли реализация этого технического решения оплаты каких-то сервисов?
* Насколько это решение универсально? Например, универсально ли оно для капчи на английском и русском языке?

**Самостоятельно выберите один из вариантов и расскажите про способы работы с такой капчой:**
1. Капча в виде текста (text-based captcha);
2. Капча в виде изображения, на которые нужно кликнуть (image-based captcha);
3. Капча, предполагающая заслушивание звука (sound-based captcha) или взаимодействие с капчей ("проведите по экрану до такого-то элемента");

<font color='blue'>Ответ: современные капчи основываются не на том, как вы правильно тыкнули, а чаще проверяют реальность действий пользователя -- яркий пример, если при загрузке капчи агрессивно водить туда сюда мышкой, то она подумает, что вы злой человек и не будет выдавать проверку, такие капчи можно хорошо обходить через действия мышкой (что-то типа actionChaince с задержкой) и корректным юзер-агентрв в настройках драйвера. Однако, есть и менее умные капчи, например от Яндекса, где нужно выбрать элементы в особом порядке, это новое решение, чуть более сложное, чем image-based captcha, хотя концептуально ему соотвествует, их бывает сложно пройти даже человеку, такие капчи можно попытаться решить через OCR (Optical Character Recognition), или другие методы машинного обучения сложность: средняя, но требуется настройка и обучение модели для распознавания иконок. Можно использовать платные сервисы, где люди за деньги решают ваши капчи, этот метод требует оплаты за использование сервиса, иногда ошибается и требует некоторого времени. Оба решения достаточно универсальны, однако не полностью идеальны.



</font>

*Обратите внимание: в этой задаче не нужно писать никакого кода или реализовывать работу с капчой.*