In [15]:
!pip install -r requirements.txt



# **Selenium**

## ***Введение***

### **Что такое Selenium**

Мы рассматриваем Selenium WebDriver, но там еще есть Selenium IDE и Selenium Grid, но они нам не интересны.

Selenium WebDriver — инструмент для автоматизации действий веб-браузера. В большинстве случаев используется для тестирования Web-приложений, но этим не ограничивается. В частности, он может быть использован для решения задач администрирования сайта или регулярного получения данных с различных сайтов (парсинг).

### **Для чего нужен selenium**

У selenium есть несколько применений:
- Автоматизация тестирования веб-приложений
- Парсинг данных с сайтов
- Мониторинг и проверка работоспособности сайтов
- Выполнение повторяющихся задач в браузере

### **Основные преимущества selenium**

К основым преимуществам selenium можно отнести:

- Открытый исходный код и большая база пользоваетелй (например у PlayWright документация не такая полная, тк он более молодой)
- Поддержка различных браузеров и платформ
- Расширяемость и интеграция с другими инструментами
- Поддержка параллельного выполнения тестов

В целом selenium - это мощный инструмент как для тестирования (основная идея вообще-то тестирование), так и для парсинга данных. Он позволяет закрыть почти все потребности разработчика

## ***Установка***

1) Для начала нам нужно установить selenium

In [None]:
pip install selenium

Вообще в документации написано, что можно установить PyPI архив и устанавливать командой
```bash
python setup.py install
```

Но это какой-то кринж, мы должны уметь работаь с виртуальным окружением

На этом единсвтенном пункте установка заканчивается. Перейдем к базовым примерам использования

## ***Базовое использование***

Для начала, чтобы понять с чем мы вообще работаем и перейти к более сложным примерам, разберем пример из официальной документации

In [2]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()                                                 # Создаем и начинаем сессию браузера

driver.get("https://www.selenium.dev/selenium/web/web-form.html")           # Переходим на страницу

title = driver.title                                                        # Получаем заголовок страницы

driver.implicitly_wait(0.5)                                                 # Ждем 0.5 секунды

text_box = driver.find_element(by=By.NAME, value="my-text")                 # Находим текстовое поле по имени
submit_button = driver.find_element(by=By.CSS_SELECTOR, value="button")     # Находим кнопку по CSS-селектору


text_box.send_keys("Selenium")                                              # Вводим текст в текстовое поле
submit_button.click()                                                       # Нажимаем на кнопку, которую нашли
                                                                            
                                                                            # Тут появляется новая страничка с сообщением

message = driver.find_element(by=By.ID, value="message")                    # Находим элемент с сообщением по ID
text = message.text                                                         # Получаем текст сообщения

driver.quit()                                                               # Закрываем сессию браузера

print(f"Title: {title}\nText: {text}")                                      # Выводим заголовок и текст сообщения

Title: Web form
Text: Received!


Теперь разберем этот пример чуть более подробно.

1) Сначала мы создаем сессию браузера.

    Там есть куча параметров которые можно передавать в сессию браузера. Я расскажу про те, что мне показались наиболее важными, потому что расписывать про все можно вечно

    - ***browserVersion*** нужна для того чтобы установить версию браузера, которую мы хотим запустить (удивительное совпадение названия и смысла)
    - ***pageLoadStrategy*** тут есть три опции:\
    \
            *normal* – используется по умолчанию и ждет пока сайт полностью загрузится\
            \
            *eager* – позволяет дожидаться только загрузки DOM дерева, при этом картинки всякие могут еще быть не загружены\
            \
            *none* – сессия ждет пока загрузится только главная страница
    
    - ***timeouts*** тут опять есть несколько опций:\
    \
            *script* – устанавливает максимальное время отработки скрипта (по дефолту стоит 30 000)\
            \
            *pageLoad* – устанавливает максимальное время ожидание загрузки страницы (по дефолту 300 000)\
            \
            *implicit* – устанавливает время ожидания определения местоположения элемента при поиске (по дефолту 0)
    
    - ***proxy*** позовляет настроить прокси для запросов между клиентом и сервером.

2. Далее два шага, понятные без объяснения

3. Действительно интересным является ***implicity_wait***\
        Правильный способ синхронизорвать браузер и скрипт - это достаточно трудная задача в selenium, поэтому тут используется простой подход, который не является самым лучшим, но досаточен для примера. Мы используем это для того, чтобы точно дождаться прогрузки всех элементов страницы до того, как мы попытаемся их найти.

4. Следуюшая ключевая чать кода – это метод ***find_element***

    Вообще крутой метод, позволяющий находить любой элемент по любому признаку на странице. Тут можно остановиться и посмотерть подробнее.

    ```python
    driver.find_element()- находит просто первый попавшийся элемент из DOM, который подходит под переданные параметры. Именно такой подход показан в примере.
    ```

    Далее рассмотрим использование **find_element** на примере:

In [None]:
<ol id="FCS">
 <li class="AMI">…
 <li class="SE">…
 <li class="EDS"><span>ЭАД это фкн</span>…
</ol>
<ul id="FES">
  <li class="Economics">…
  <li class="stat">…
  <li class="EDS"><span>ЭАД это фэн</span>…
</ul>

Возьмем вот такой примерчик

Тогда чтобы достать элемент с CLASS_NAME EDS из второй части, мы можем уточнить где мы ищем до поиска элемента EDS

In [None]:
faculty = driver.find_element(By.ID, "FES")
program = fruits.find_element(By.CLASS_NAME,"EDS")

Но такой подход может быть не оптимальным, потому что мы делаем два запроса к браузеру. Надо научиться делать это за 1 запрос. В таком случае нам поможет CSS селектор. Тут все просто

In [None]:
program = driver.find_element(By.CSS_SELECTOR,"#FES .EDS")

Еще одна ключевая вещь в этом примере – ***send_keys*** и ***click***.

***send_keys*** – заполнение изменяемых полей, например текстовых. Тут вроде бы все понятно должно быть. Сопровождается еще одним методом ***clear***, который позволяет очищать те же поля.

***click*** – очевидно что кликает на любой элемент. Примечательно, что кликает именно в центр элемента. Если центра элемента чем-то перекрыт, то возвращает ошибку.

Ну и последнее, что осталось - это метод ***quit***, который завершает процесс драйвера и закрывает браузер.

## **🎉Ура, мы закончили разбираться с базовым использованием silenium🎉**

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

# **Теперь разберем более осмысленный пример**

### Мы уже научились базово пользоваться selenium, поэтому надо посмотереть а востребованно ли вообще умение парсить сайты на рынке. Для этого мы хотим распарсить сайт hh.ru на наличие подходящих нам вакансий

## Что нам для этого понадобиться?
- Нужно узнать как ожидать подгрузки элемента на странице
- Что делать со всплывающими окнами на экране

### Во-первых, разберемся с тем, как нам ожидать загрузки конкретного элемента на странице

В первом примере мы уже сталкивались с **implicitly_wait**. Основная проблема такого метода, что он устанавливает глобальное время для ожадание всех элементов на странице. Важно отметить, что установка большого времени ожидания не обязаотельно будет увеличивать время работы скрипта, так он будет продолжать работу сразу после того, как нужный элемент подгузиться. Если за отведенное время ничего не появится, то приложение закончит работу с ошибкой.

Еще один вариант – **explicit waits**. Это совего рода цикл, в котром драйвер спрашивает у сайта о наличии какого-то конкретного элемента, если элемент появился - цикл заканчивается, в противном случае, по истечении времени вернется ошибка **timeout error**. 
Основные преимущества такого подхода:
- поддерживаются ***expected conditions***
- более гибкая настройка времени ожидания для каждого элемента

Важно помнить, что ***нельзя*** совмещать **implicit wait** и **explicit waits**. Их использование в одном коде может привести к неопределенному времени ожидания.

### Что такое ***expected conditions***?

Это очень удобная штука, которая позволяет ожидать почти все элементы, которые встречаются на сайтах. Вместо того, чтобы прописывать все в лямбда функциях для explicit wait

```python
wait = WebDriverWait(driver, timeout=2)
wait.until(lambda d : revealed.is_displayed())
```

можно писать 

```python
WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CLASS_NAME, 'bloko-modal-close-button')))
```

[Все функции можно посмотреть тут](https://www.selenium.dev/selenium/docs/api/py/webdriver_support/selenium.webdriver.support.expected_conditions.html)

А мы рассмотрим основные:
- **alert_is_present()** хорошая штука чтобы отслеживать появление JS алертов
- **presence_of_element_located(locator)** позволяет проверить что элемент находится в DOM страницы => его можно спарсить
- **visibility_of(element)** проверяет что элемент отображен на экране

### Еще одна проблема - всплывающие окна

К этой проблема относиться окно принятия cookie на сайте, которое часто всплывает на весь экран, и пока пользователь не примет или не закроет это окно, он не может пользоваться сайтом.

Оказывается что это не такая уж и большая проблема, потому что мы можем просто закинуть **explicit wait** в try и таким образом, если окошко появится, то найти кнопку принятия/закрытия и нажать на нее, а если окна не будет, то мы просто продолжим работу.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

try:
    driver.get('https://hh.ru/')    # Открываем страницу
    
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.NAME, 'text')))  # Ждем, пока не появится поле для ввода текста

    search_box = driver.find_element(By.NAME, 'text')   # Находим поле для ввода текста
    search_box.send_keys('Python парсинг')              # Вводим текст
    search_box.send_keys(Keys.RETURN)                   # Нажимаем Enter

    try:    # Проверяем, появилось ли всплывающее окно
        WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CLASS_NAME, 'bloko-modal-close-button'))) # Ждем, пока не появится кнопка закрытия
        close_button = driver.find_element(By.CLASS_NAME, 'bloko-modal-close-button')                               # Находим кнопку закрытия
        close_button.click()                                                                                        # Нажимаем на кнопку закрытия
    except Exception:   # Если всплывающее окно не появилось
        print("Всплывающего окна нет")

    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, 'vacancy-serp-content')))    # Ждем, пока не появится блок с вакансиями

    jobs = driver.find_elements(By.CLASS_NAME, 'magritte-redesign')   # Находим все вакансии

    for job in jobs:    # Перебираем все вакансии
        try:
            title_element = job.find_element(By.CSS_SELECTOR, 'span[data-qa="serp-item__title-text"]')  # Находим элемент с заголовком
            title = title_element.text  # Получаем текст заголовка

            if "парсинг" in title.lower() or "parsing" in title.lower():    # Проверяем, есть ли в заголовке слово "парсинг" или "parsing"
                try:
                    salary_element = job.find_element(By.CSS_SELECTOR, '[class*="magritte-text__pbpft_3-0-18"]')    # Находим элемент с зарплатой
                    salary = salary_element.text    # Получаем текст зарплаты
                except Exception:   # Если зарплата не указана в блоке, который мы нашли
                    try:
                        salary_element = job.find_element(By.CSS_SELECTOR, '[class*="compensation-labels"]')       # Находим другой возможный элемент с зарплатой
                        salary = salary_element.text    
                    except Exception:
                        salary = "Зп не указана"   # Если зарплата не указана

                print(f"Название: {title}\nЗп: {salary}\n")

        except Exception as e:
            print(f"Ошибка парсинга: {e}")

finally:
    driver.quit()   # Закрываем сессию браузера

Title: Python-разработчик (парсинг)
Salary: 70 000 – 150 000 ₽ на руки
Опыт 1-3 года
Можно удалённо

Title: Python-разработчик (парсинг)
Salary: 70 000 – 150 000 ₽ на руки
Опыт 1-3 года
Можно удалённо

Title: Младший специалист отдела разработки (Python) / Специалист по парсингу данных
Salary: от 70 000 ₽ на руки
Опыт 1-3 года
Можно удалённо

Title: Senior Python Developer (Парсинг)
Salary: Опыт 3-6 лет
Можно удалённо

Title: Веб-разработчик WordPress / Парсинг
Salary: 150 000 – 250 000 ₽ на руки
Опыт 1-3 года

Title: Веб-разработчик WordPress / Парсинг / SEO
Salary: 120 000 – 250 000 ₽ до вычета налогов
Без опыта



Таким образом мы получили базовый парсер вакансий с сайта hh.ru. **Но** мы парсим только одну страничку. А что делать с кучей вакансий, которые не поместились на первую страничку?

### Научимся переключаться между страничками

Для этого нам надо понять что такое **execute_script**

Вообще эта штука позволяет выполнять JS скрипты внутри открытого окна. Нам это позволяет прокручивать страничку и вести себя как обычный юзер. Эта штука может быть полезна, например, если сайт представляет из себя новостную ленту, которая подгружается, когда пользователь скролит ее.

***driver.maximize_window()*** полезная штука, чтобы не было пробелем с поиском элементов. Бывает такое, что страничка имеет несколько видов для разныз устройств (да почти всегда так), поэтому если открывать не в полном размере, то она будет свернута под телефон

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import csv
import random
from datetime import datetime
from selenium.webdriver.chrome.options import Options


# хочется сохранить данные в файл, чтобы потом можно было их читать
def save_to_csv(data, filename):
    with open(filename, 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(data)

# функция для парсинга страницы
def parse_page(driver, csv_filename):
    # В целом тут все как в прошлом примере, только теперь мы сохраняем данные в файл и их больше
    jobs = driver.find_elements(By.CLASS_NAME, 'magritte-redesign')
    
    for job in jobs:
        try:
            title_element = job.find_element(By.CSS_SELECTOR, 'span[data-qa="serp-item__title-text"]')
            title = title_element.text

            if "парсинг" in title.lower() or "parsing" in title.lower():
                try:
                    salary_element = job.find_element(By.CSS_SELECTOR, '[class*="magritte-text__pbpft_3-0-18"]')
                    salary = salary_element.text
                except Exception:
                    try:
                        salary_element = job.find_element(By.CSS_SELECTOR, '[class*="compensation-labels"]')
                        salary = salary_element.text
                    except Exception:
                        salary = "Зп не указана"

                try:
                    company_element = job.find_element(By.CSS_SELECTOR, '[data-qa="vacancy-serp__vacancy-employer"]')
                    company = company_element.text
                except Exception:
                    company = "Компания не указана"

                try:
                    location_element = job.find_element(By.CSS_SELECTOR, '[data-qa="vacancy-serp__vacancy-address"]')
                    location = location_element.text
                except Exception:
                    location = "Локация не указана"

                try:
                    url_element = job.find_element(By.CSS_SELECTOR, '[data-qa="serp-item__title"]')
                    job_url = url_element.get_attribute('href')
                except Exception:
                    job_url = "Ссылка не доступна"

                try:
                    experience_element = job.find_element(By.CSS_SELECTOR, '[data-qa="vacancy-serp__vacancy-work-experience"]')
                    experience = experience_element.text
                except Exception:
                    experience = "Опыт не указан"

                job_data = [
                    title,
                    salary,
                    company,
                    location,
                    experience,
                    job_url,
                    datetime.now().strftime("%Y-%m-%d %H:%M:%S")
                ]
                save_to_csv(job_data, csv_filename)

                print(f"""
                    {'='*70}
                    Название: {title}
                    Зп: {salary}
                    Компания: {company}
                    Локация: {location}
                    Опыт: {experience}
                    URL: {job_url}
                    {'='*70}
                    """)

        except Exception as e:
            print(f"Ошибка парсинга вакансии: {e}")

def main():

    # тут ничего интересного, просто создаем файл для сохранения данных
    csv_filename = f'python_jobs_{datetime.now().strftime("%Y%m%d_%H%M%S")}.csv'
    with open(csv_filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['Название', 'Зп', 'Компания', 'Локация', 'Опыт', 'URL', 'Время'])

    chrome_options = Options()  # Создаем объект настроек для хрома
    
    chrome_options.page_load_strategy = 'eager' # Устанавливаем стратегию загрузки страницы, нам это нужно чтобы не ждать загрузки всех элементов на странице

    driver = webdriver.Chrome(options=chrome_options)   # Создаем сессию браузера
    
    driver.maximize_window()    # Разворачиваем окно браузера на весь экран, чтобы не было проблем с поиском элементов

    try:
        # тут все как в прошлом примере пока что
        driver.get('https://hh.ru/')
        
        WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.NAME, 'text')))

        search_box = driver.find_element(By.NAME, 'text')
        search_box.send_keys('Python')
        search_box.send_keys(Keys.RETURN)

        try:
            WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CLASS_NAME, 'bloko-modal-close-button')))
            close_button = driver.find_element(By.CLASS_NAME, 'bloko-modal-close-button')
            close_button.click()
        except Exception:
            print("Всплывающего окна нет или оно уже было закрыто")

        page_number = 1

        page_number = 1
        # тут начинается самое интересное
        # мы будем переходить по страничкам и парсить их
        while True:
            print(f"\nПарсим страницу: {page_number}")
            
            # ждем, пока не появится блок с вакансиями
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CLASS_NAME, 'vacancy-serp-content'))
            )
            
            # ждем несколько секунд, чуть позже поймем зачем
            time.sleep(random.uniform(2, 4))
            
            # парсим страницу
            parse_page(driver, csv_filename)
            
            try:
                # ждем пока появится блок с номерами страниц
                pagination = WebDriverWait(driver, 10).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, '[data-qa="pager-block"]'))
                )

                try:
                    # находим кнопку с номером следующей страницы
                    next_button = driver.find_element(By.CSS_SELECTOR, '[data-qa="pager-next"]')
                except:
                    current_page_element = driver.find_element(By.CSS_SELECTOR, 'span[data-qa="pager-page"]') # находим элемент с номером текущей страницы
                    current_page = int(current_page_element.text) # находим номер текущей страницы
                    next_page = str(current_page + 1) # находим номер следующей страницы
                    
                    page_elements = driver.find_elements(By.CSS_SELECTOR, '[data-qa="pager-page"]') # находим все элементы с номерами страниц
                    next_button = None
                    
                    # ищем кнопку с номером следующей страницы
                    for element in page_elements:
                        if element.text == next_page:
                            next_button = element
                            break
                
                # если кнопка с номером следующей страницы есть и она доступна
                if next_button and next_button.is_displayed() and next_button.is_enabled():
                    driver.execute_script("arguments[0].scrollIntoView(true);", next_button) # скроллим до кнопки
                    
                    driver.execute_script("arguments[0].click();", next_button) # кликаем по кнопке
                    
                    page_number += 1    # увеличиваем номер страницы на 1
                    time.sleep(random.uniform(3, 5))    # ждем несколько секунд
                else:
                    print("\nДошли до последней страницы")
                    break
                    
            except Exception as e:
                print(f"\nБольше нет страниц чтобы парсить: {str(e)}")
                break

    except Exception as e:
        print(f"Ошибка: {e}")

    finally:
        driver.quit()
        print(f"\nИнформация была сохранения в {csv_filename}")

if __name__ == "__main__":
    main()


Парсим страницу: 1

                    Название: Python-разработчик (парсинг)
                    Зп: 70 000 – 150 000 ₽ на руки
Опыт 1-3 года
Можно удалённо
                    Компания: ООО Аптрейд
                    Локация: 
                    Опыт: Опыт не указан
                    URL: https://hh.ru/vacancy/112984894?query=Python&hhtmFrom=vacancy_search_list
                    

Парсим страницу: 2

                    Название: Младший специалист отдела разработки (Python) / Специалист по парсингу данных
                    Зп: от 70 000 ₽ на руки
Опыт 1-3 года
Можно удалённо
                    Компания: MillionAgents
                    Локация: 
                    Опыт: Опыт не указан
                    URL: https://hh.ru/vacancy/111896085?query=Python&hhtmFrom=vacancy_search_list
                    

                    Название: Senior Python Developer (Парсинг)
                    Зп: Опыт 3-6 лет
Можно удалённо
                    Компания: ООО РУМАТИКА
          

## Для чего же мы ждали несколько секунд и парились с скролингом странички?

Дело в том, что на почти всех сайтах если такая шутка как robots.txt, куда и каким ботам можно ходить. Так вот, на hh.ru этот файл выглядит вот так:
```txt
User-agent: Yandex
Disallow: /auth/*
Disallow: /account/*
Disallow: /area_switcher*
Disallow: /search/vacancy/advanced
Disallow: /search/resume/advanced
Disallow: /rss/*
Disallow: /admin/*
Disallow: /article/22266
Disallow: *?*
Disallow: /article/compliance_hotline
Disallow: /away

User-agent: YandexDirect
Allow: *?*

User-agent: Googlebot
Disallow: /auth/*
Allow: /account/signup*
Disallow: /account/*
Disallow: /area_switcher*
Disallow: /search/vacancy/advanced
Disallow: /search/resume/advanced
Disallow: /rss/*
Disallow: /admin/*
Disallow: /article/22266
Disallow: *?*
Disallow: /article/compliance_hotline
Disallow: /away

User-agent: AdsBot-Google
Allow: /account/signup*

User-agent: AdsBot-Google-Mobile
Allow: /account/signup*

User-agent: LCC
Disallow: /

User-agent: ltx71 - (http://ltx71.com/)
Disallow: /

User-agent: bingbot
Crawl-delay: 60
Disallow: /auth/*
Disallow: /account/*
Disallow: /area_switcher*
Disallow: /search/vacancy/advanced
Disallow: /search/resume/advanced
Disallow: /rss/*
Disallow: /admin/*
Disallow: /article/22266
Disallow: *?*
Disallow: /article/compliance_hotline
Disallow: /away

User-agent: *
Disallow: /auth/*
Disallow: /account/*
Disallow: /area_switcher*
Disallow: /search/vacancy/advanced
Disallow: /search/resume/advanced
Disallow: /rss/*
Disallow: /admin/*
Disallow: /article/22266
Disallow: *?*
Disallow: /article/compliance_hotline
Disallow: /away

Host: https://hh.ru
Sitemap: https://hh.ru/sitemap/main.xml
```

Нам интересен блок ```User-agent: *```, а именно строчка ```Disallow: *?*``` . Это говорит о том, что мы не можем передавать параметры в url, а это как раз таки то, что происходит, когда мы ищем какую-то вакансию. Хоть я и не слышал историй о том, что hh.ru активно банит ботов, мы все таки будем делать минимальный вид, что бот - реальный человек

------------------------------

## Пример 2

### Нам не очень понравился результат по вакансиям разработчика со скилами парсинга, поэтому мы решаем открыть свой бизнем. Мы только что научились парсить странички, даже поняли, куда надо смотреть, чтобы нашего бота не забанили. Еще мы обладаем знаниями senior prompt инженера. Какая же идея нам подходит лучше всего??? Очевидно мы решили открыть ООО"Чередной КриптоСтартап". Идея заключается в том, что бы парсить основную информацию о монетках, а так же парсить твиты популярных личностей, потом спрашивать гпт куда пойдет цена монеты после таких заявлений, например, Дональда Трампа, и на основе этих данных торговать монетами.

## Что мы будем делать?
- распарсим сайт yahoo.finance с информацией о монетах
- распрасим твитер

**Почему именно yahoo finance?**\
На самом деле потому что он позволяет ботам собирать любые данные, что позволяет не париться о бане нашего бота

Основной смысл этого примера - показать какие есть настройки браузера. В остальном тут нет ничего нового.

Поскольку мы делаем крипто стартап, который потом будем класть на сервер, будем использовать сразу нужные для этого параметры

**Настройки:**
- ```--no-sandbox``` - отключает использование песочницы в гугле (штука для безопасности). Необходимо использовать, чтобы запускать скрипт как root или внутри Docker контейнера

- ```--disable-dev-shm-usage``` - предотвращает проблемы с ограниченной общей памятью в Docker и помогает избежать ошибок из-за нехватки памяти

- ```--window-size=1920,1080``` - устанавливает размеры окна браузера. Используем вместо ***driver.maximize_window()*** 

- ```--disable-gpu``` - отключает видеокарту при работе в --headless режиме

- ```--disable-extensions``` - отключаем все расширения, которые могут подтащиться автоматически. Ускоряем работу браузера и делаем его чистым

- ```eager``` - Ускоряем парсинг

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
import pandas as pd
import time

# Настройки для Chrome WebDriver
def setup_driver():
    chrome_options = Options()
    # chrome_options.add_argument("--headless")  # Для наглядности пока что закоментем эту строчку
    chrome_options.add_argument("--no-sandbox") # Отключаем использование песочницы
    chrome_options.add_argument("--disable-dev-shm-usage")  # Отключаем использование /dev/shm
    chrome_options.add_argument("--window-size=1920,1080")  # Устанавливаем размер окна
    
    chrome_options.add_argument("--disable-gpu")  # Отключаем использование GPU
    chrome_options.add_argument("--disable-extensions")  # Отключаем расширения
    chrome_options.page_load_strategy = 'eager'  # Устанавливаем стратегию загрузки страницы

    driver = webdriver.Chrome(options=chrome_options)
    return driver

def handle_cookie_consent(driver, wait):
    try:
        accept_button = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, "button[class*='accept-all']"))
        )
        accept_button.click()
        return True
    except (TimeoutException, NoSuchElementException) as e:
        print("Cookie consent popup not found or already handled")
        return False

def scrape_crypto_data():
    url = "https://finance.yahoo.com/crypto"
    driver = setup_driver()
    wait = WebDriverWait(driver, 1)
    crypto_data = []


    try:
        driver.get(url)
        print("Страница загружена")

        handle_cookie_consent(driver, wait)
        print("Куки приняты")

        rows = driver.find_elements(By.CSS_SELECTOR, "tr[class*='row']")
        for crypto_row in rows:
            price_element = crypto_row.find_element(
            By.CSS_SELECTOR, 
            "fin-streamer[data-field='regularMarketPrice']"
        )
            price = price_element.get_attribute('data-value')

            name_element = crypto_row.find_element(
                By.CSS_SELECTOR,
                "td[class*='cell']"
            )
            name = name_element.text

            capital_element = crypto_row.find_element(
                By.CSS_SELECTOR, 
                "fin-streamer[data-field='marketCap']"
            )

            cap = capital_element.get_attribute('data-value')

            volume_element = crypto_row.find_element(
                By.CSS_SELECTOR, 
                "fin-streamer[data-field='regularMarketVolume']"
            )

            volume = volume_element.get_attribute('data-value')

            print(f"Cryptocurrency: {name}")
            print(f"Price: {price}")
            print(f"Market Cap: {cap}")
            print(f"Volume: {volume}")
            print("-" * 70)

            crypto_data.append({
                    'Name': name,
                    'Price': float(price) if price else None,
                    'Market_Cap': float(cap) if cap else None,
                    'Volume': float(volume) if volume else None
                })
                

    finally:
        driver.quit()

    return crypto_data

def export_to_excel(crypto_data, filename='crypto_data.xlsx'):
    if not crypto_data:
        print("No data to export!")
        return
        
    df = pd.DataFrame(crypto_data)
    
    if 'Price' in df.columns:
        df['Price'] = df['Price'].apply(lambda x: f"${x:,.2f}" if pd.notnull(x) else "N/A")
    if 'Volume' in df.columns:
        df['Volume'] = df['Volume'].apply(lambda x: f"{x:,.2f}%" if pd.notnull(x) else "N/A")
    if 'Market_Cap' in df.columns:
        df['Market_Cap'] = df['Market_Cap'].apply(lambda x: f"${x:,.0f}" if pd.notnull(x) else "N/A")
    
    # Export to Excel
    df.to_excel(filename, index=False)
    print(f"Данные сохранены в: {filename}")

def main():
    try:
        print("Начинаем парсить данные...")
        crypto_data = scrape_crypto_data()
        
        if crypto_data:
            export_to_excel(crypto_data)
            print("Скрипт успешно завершил работу!")
        else:
            print("Мы ничего не нашли")
            
    except Exception as e:
        print(f"Возникла ошибка: {str(e)}")

if __name__ == "__main__":
    main()

Начинаем парсить данные...
Страница загружена
Куки приняты
Cryptocurrency: BTC-USD
Price: 101344.945
Market Cap: 2006066397184
Volume: 86719709184
----------------------------------------------------------------------
Cryptocurrency: ETH-USD
Price: 3818.8555
Market Cap: 459961565184
Volume: 37895823360
----------------------------------------------------------------------
Cryptocurrency: USDT-USD
Price: 1.0008137
Market Cap: 138731782144
Volume: 191880003584
----------------------------------------------------------------------
Cryptocurrency: XRP-USD
Price: 2.4206107
Market Cap: 138258579456
Volume: 19171753984
----------------------------------------------------------------------
Cryptocurrency: SOL-USD
Price: 229.86247
Market Cap: 109502300160
Volume: 5844923904
----------------------------------------------------------------------
Cryptocurrency: BNB-USD
Price: 707.2689
Market Cap: 101852856320
Volume: 2308736000
---------------------------------------------------------------------

# 🔥Ура мы узнали еще немного про selenium!🔥

--------------------------------------------------------------------------------------------------------------------------------------------

# Парсинг твиттера (Настройка прокси)

Мы знаем, что твиттер очень хорошо отслеживает ботов, поэтому нам надо научиться использовать прокси сервера чтобы в случае бана мы могли продолжать парсить сайт.

### Предположим у нас уже есть настроенный в качестве proxy сервер.

***Настройка сервера остается пытливому читателю в качестве тривиального упражнения***

Проверим что наш сервер вообще работает и мы можем делать через него запросы

In [None]:
import requests

proxy_ip = "185.125.200.146"
proxy_port = "80"
username = "proxy"
password = "proxy123"

proxies = {
    'http': f'http://{username}:{password}@{proxy_ip}:{proxy_port}',
    'https': f'http://{username}:{password}@{proxy_ip}:{proxy_port}'
}

try:
    print("Testing HTTP connection...")
    response = requests.get(
        'http://httpbin.org/ip', 
        proxies=proxies,
        timeout=10
    )
    print(f"Status Code: {response.status_code}")
    print(f"Response: {response.text}")
    
except requests.exceptions.RequestException as e:
    print(f"Error: {e}")

Testing HTTP connection...
Status Code: 200
Response: {
  "origin": "185.125.200.146"
}



### **Ура мы можем делать запросы**
**Теперь надо понять как настроить прокси в selenium?**


1) прописываем вот такое вот (этим все не заканчивается)
```python
chrome_options.add_argument(f'--proxy-server=http://{proxy_host}:{proxy_port}')
```

2) Прописываем manifest файл для хрома, чтобы он понимал как ему нужно работать
3) создаем свое расширение
4) загружаем расшираение в драйвер
5) Ура наконец-то мы это все настроили! 

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import os
import zipfile
import tempfile

def setup_driver_with_proxy(proxy_host, proxy_port, proxy_username, proxy_password):
    chrome_options = Options()
    
    # Добавляем прокси в настройки
    proxy_string = f"{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}"
    chrome_options.add_argument(f'--proxy-server=http://{proxy_host}:{proxy_port}')
    
    # Добавляем настройки для работы в headless режиме
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--headless=new')
    chrome_options.add_argument('--disable-dev-shm-usage')
    
    # Добавляем расширение для работы с прокси
    manifest_json = """
    {
        "version": "1.0.0",
        "manifest_version": 2,
        "name": "Chrome Proxy",
        "permissions": [
            "proxy",
            "tabs",
            "unlimitedStorage",
            "storage",
            "<all_urls>",
            "webRequest",
            "webRequestBlocking"
        ],
        "background": {
            "scripts": ["background.js"]
        },
        "minimum_chrome_version":"22.0.0"
    }
    """

    background_js = """
    var config = {
        mode: "fixed_servers",
        rules: {
            singleProxy: {
                scheme: "http",
                host: "%s",
                port: parseInt(%s)
            },
            bypassList: ["localhost"]
        }
    };

    chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

    function callbackFn(details) {
        return {
            authCredentials: {
                username: "%s",
                password: "%s"
            }
        };
    }

    chrome.webRequest.onAuthRequired.addListener(
        callbackFn,
        {urls: ["<all_urls>"]},
        ['blocking']
    );
    """ % (proxy_host, proxy_port, proxy_username, proxy_password)

    # создаем временную директорию для расширения
    extension_dir = tempfile.mkdtemp()
    
    # Создаем файлы для расширения
    with open(os.path.join(extension_dir, "manifest.json"), "w") as f:
        f.write(manifest_json)
    with open(os.path.join(extension_dir, "background.js"), "w") as f:
        f.write(background_js)
    
    # Создаем zip архив с расширением
    zip_path = os.path.join(tempfile.mkdtemp(), "proxy_auth.zip")
    with zipfile.ZipFile(zip_path, 'w') as zp:
        for file in ["manifest.json", "background.js"]:
            zp.write(os.path.join(extension_dir, file), file)
    
    # Добавляем расширение в настройки
    chrome_options.add_extension(zip_path)
    
    # Устанавливаем драйвер
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=chrome_options
    )
    
    return driver # Ура мы настроили наш драйвер на работу через прокси

def main():
    # Конфигурация прокси
    PROXY_HOST = "185.125.200.146"
    PROXY_PORT = "80"
    PROXY_USER = "proxy"
    PROXY_PASS = "proxy123"
    
    try:
        # создаем доавйер с настройками прокси
        driver = setup_driver_with_proxy(PROXY_HOST, PROXY_PORT, PROXY_USER, PROXY_PASS)
        
        print("Получаем доступ к httpbin.org/ip через proxy...")
        driver.get("http://httpbin.org/ip")
        
        # Ждем загрузки страницы
        wait = WebDriverWait(driver, 10)
        body = wait.until(EC.presence_of_element_located((By.TAG_NAME, "pre")))
        
        print("Ответ от httpbin.org/ip:")
        print(body.text)
        
    except Exception as e:
        print(f"Ошибка: {str(e)}")
        
    finally:
        try:
            driver.quit()
        except:
            pass

if __name__ == "__main__":
    main()

2024-12-11 21:58:26,285 - INFO - Get LATEST chromedriver version for google-chrome
2024-12-11 21:58:26,508 - INFO - Get LATEST chromedriver version for google-chrome
2024-12-11 21:58:26,715 - INFO - Driver [/Users/alexeydubovitskiy/.wdm/drivers/chromedriver/mac64/131.0.6778.108/chromedriver-mac-arm64/chromedriver] found in cache


Accessing httpbin.org/ip through proxy...
Response from httpbin.org/ip:
{
  "origin": "185.125.200.146"
}


### Ура у нас действительно получилось настроить selenium с прокси

**Теперь осталось распарсить твиттер...**

robots.txt у x.com выглядит вот так:

```txt
# Google Search Engine Robot
# ==========================
User-agent: Googlebot

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Allow: /i/api/
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/deactivated
Disallow: /settings/deactivated

Disallow: /[_0-9a-zA-Z]+/status/[0-9]+/likes
Disallow: /[_0-9a-zA-Z]+/status/[0-9]+/retweets
Disallow: /[_0-9a-zA-Z]+/likes
Disallow: /[_0-9a-zA-Z]+/media 
Disallow: /[_0-9a-zA-Z]+/photo

User-Agent: Google-Extended
Disallow: *

User-Agent: FacebookBot
Disallow: *

User-agent: facebookexternalhit
Disallow: *

User-agent: Discordbot
Disallow: *

User-agent: Bingbot
Disallow: *

# Every bot that might possibly read and respect this file
# ========================================================
User-agent: *
Disallow: /


# WHAT-4882 - Block indexing of links in notification emails. This applies to all bots.
# =====================================================================================
Disallow: /i/u
Noindex: /i/u

# Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1

# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml
```

## ***Проще говоря тут запрещены все боты и их всех активно банят, поэтому нам надо быть аккуратными!***

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, WebDriverException
from webdriver_manager.chrome import ChromeDriverManager
import random
import time
import logging
import os
import zipfile
import tempfile

# Прокси конфигурация как в прошлом примере
class ProxyConfig:
    def __init__(self, host, port, username, password):
        self.host = host
        self.port = port
        self.username = username
        self.password = password
        
    @property
    def proxy_url(self):
        return f"{self.host}:{self.port}"
        
    def create_proxy_extension(self):        
        manifest_json = """
        {
            "version": "1.0.0",
            "manifest_version": 2,
            "name": "Chrome Proxy",
            "permissions": [
                "proxy",
                "tabs",
                "unlimitedStorage",
                "storage",
                "<all_urls>",
                "webRequest",
                "webRequestBlocking"
            ],
            "background": {
                "scripts": ["background.js"]
            },
            "minimum_chrome_version":"22.0.0"
        }
        """

        background_js = """
        var config = {
            mode: "fixed_servers",
            rules: {
                singleProxy: {
                    scheme: "http",
                    host: "%s",
                    port: parseInt(%s)
                },
                bypassList: ["localhost"]
            }
        };

        chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

        function callbackFn(details) {
            return {
                authCredentials: {
                    username: "%s",
                    password: "%s"
                }
            };
        }

        chrome.webRequest.onAuthRequired.addListener(
            callbackFn,
            {urls: ["<all_urls>"]},
            ['blocking']
        );
        """ % (self.host, self.port, self.username, self.password)

        extension_dir = tempfile.mkdtemp()
        
        with open(os.path.join(extension_dir, "manifest.json"), "w") as f:
            f.write(manifest_json)
        with open(os.path.join(extension_dir, "background.js"), "w") as f:
            f.write(background_js)
        
        zip_path = os.path.join(tempfile.mkdtemp(), "proxy_auth.zip")
        with zipfile.ZipFile(zip_path, 'w') as zp:
            for file in ["manifest.json", "background.js"]:
                zp.write(os.path.join(extension_dir, file), file)
        
        return zip_path

class WebScraper:
    def __init__(self, proxy_config):
        self.proxy_config = proxy_config
        self.driver = None
        
        # добавляем логирование чтоб было жить проще
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s'
        )
        self.logger = logging.getLogger(__name__)
    
    def setup_driver(self):
        chrome_options = Options()
        
        # Добавляем расширение прокси
        proxy_extension = self.proxy_config.create_proxy_extension()
        chrome_options.add_extension(proxy_extension)
        
        # Добавляем настройки для работы в headless режиме
        chrome_options.add_argument('--no-sandbox')
        chrome_options.add_argument('--disable-dev-shm-usage')
        # chrome_options.add_argument('--headless=new')
        
        # Создаем драйвер
        driver = webdriver.Chrome(
            service=Service(ChromeDriverManager().install()),
            options=chrome_options
        )
        
        return driver
    
    def start_session(self):
        self.driver = self.setup_driver()
        self.driver.set_page_load_timeout(30) # Устанавливаем таймаут загрузки страницы
    
    def close_session(self):
        if self.driver:
            self.driver.quit()
            self.driver = None
    
    def scrape_url(self, url):
        try:
            self.logger.info(f"Accessing {url}")
            self.driver.get(url)
            
            
            WebDriverWait(self.driver, 20).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '[data-testid="tweet"]'))
            )
            
            # Находим первый твит (самый новый)
            post_element = WebDriverWait(self.driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '[data-testid="tweet"] [data-testid="tweetText"]'))
            )
            
            # Достаем текст твита
            post_text = post_element.text
            
            self.logger.info("Ура мы достали текст")
            return post_text
                
        except (TimeoutException, WebDriverException) as e:
            self.logger.error(f"Ошибка парсинга {url}: {str(e)}")
            return None
        
    def scrape_urls(self, urls, max_retries=1):
        results = {}
        
        for url in urls:
            retries = 0
            success = False
            
            while retries < max_retries and not success:
                try:
                    # Начинаем новую сессию для каждой попытки
                    self.close_session()
                    self.start_session()
                    
                    self.logger.info(f"Attempting to scrape {url}")
                    result = self.scrape_url(url)
                    
                    if result:
                        results[url] = result
                        success = True
                        self.logger.info(f"Успешно спарсили {url}")
                    else:
                        retries += 1
                        self.logger.warning(f"Неудача на попытке {retries} при парсинге {url}")
                
                except Exception as e:
                    retries += 1
                    self.logger.error(f"Ошибка: {str(e)}")
                
                # Добавляем задержку
                time.sleep(random.uniform(2, 4))
        
        return results

# Пример использования
if __name__ == "__main__":
    proxy_config = ProxyConfig(
        host="185.125.200.146",
        port="80",
        username="proxy",
        password="proxy123"
    )
    
    # Какие ссылки хотим спарсить
    urls_to_scrape = [
        "https://x.com/realDonaldTrump",
    ]
    
    scraper = WebScraper(proxy_config)
    
    try:
        results = scraper.scrape_urls(urls_to_scrape)
        
        # Выводим результаты
        for url, content in results.items():
            print(f"\nContent from {url}:")
            print(content)
            
    finally:
        scraper.close_session()

2024-12-11 19:22:02,904 - INFO - Get LATEST chromedriver version for google-chrome
2024-12-11 19:22:03,115 - INFO - Get LATEST chromedriver version for google-chrome
2024-12-11 19:22:03,312 - INFO - Driver [/Users/alexeydubovitskiy/.wdm/drivers/chromedriver/mac64/131.0.6778.108/chromedriver-mac-arm64/chromedriver] found in cache
2024-12-11 19:22:04,485 - INFO - Attempting to scrape https://x.com/realDonaldTrump
2024-12-11 19:22:04,486 - INFO - Accessing https://x.com/realDonaldTrump
2024-12-11 19:22:19,782 - INFO - Successfully extracted post text
2024-12-11 19:22:19,783 - INFO - Successfully scraped https://x.com/realDonaldTrump



Content from https://x.com/realDonaldTrump:
Opposition fighters in Syria, in an unprecedented move, have totally taken over numerous cities, in a highly coordinated offensive, and are now on the outskirts of Damascus, obviously preparing to make a very big move toward taking out Assad. Russia, because they are so tied up


## Ура у нас действитльно получилось спарсить твитер. А еще мы научились использовать прокси сервера при работе с selenium!!

**Все что нам осталось перед запуском криптостартапа - это купить 40 000 серверов, добавить случайный выбор сервера при парсинге твитера, поставить eager режим, настроить запросы к GPT и написать торогового бота. В целом занятие на 1 вечер для senior prompt инженера, но это остается в качестве упражнения по желанию для читателя.**

В итоге мы научились использовать прокси сервер в selenium, что позволит мень задумываться о банах при парсинге. УРА!

# Выводы

В результате мы научились пользоваться библиотекой **selenium** для парсинга данных. Посмотрели на разные примеры, от самого простого, до использования прокси серверов для запросов. Это позволяет нам уверенно пользоваться этой библиотекой!