Skip to content
Парсинг и обработка проксей в большом объеме
Python
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
modules
texts
README.md
input-proxies.txt
main.py
settings.ini
start.cmd

README.md

Ultimate proxy master

ver 1.4.6
Исправлены баги и критические ошибки. Изменена и расширена система настроек через settings.ini, добавлена возможность использовать свои заголовки в запросах

Что это такое?

Это программа для парсинга, обработки, и фильтрации проксей. Она парсит прокси с разных сайтов и выкачивает оттуда архивы с проксями. Далее удаляет повторы и несуществующие прокси, удаляет прокси из введеных подсетей, стран, или конкретно заблокированных айпи, проверяет на наличие банов и выдает (при желании можно проверять обычным пингованием). Так же сам скрипт можно модифицировать, но об этом ниже. (Добавлять страны в блеклист можно через подсети или через сами названия стран)

Как запускать?

  1. Заходим на https://www.python.org/ и ставим питон
  2. Запускаем python main.py или если 2 питона python3 main.py
  3. Ждем, прогресс можно наблюдать в выводах консоли
  4. Берем готовый продукт из proxies.txt, забаненные прокси в banned.txt, мертвые прокси в died.txt

Как настроить под себя?

АТЕНШН! По дефолту все работает изкоробки! Настраивать не обязательно!
В папке texts находятся файлы для фильтров
subnets.txt - файл содержит в себе записи о подсетях в CIDR формате (пример: 0.0.0.0/8), скрипт удаляет все прокси из этих подсетей
blacklist.txt - файл содержит в себе айпи, которые скрипт будет убирать
input-proxies.txt - сюда вы можете по желанию загрузить уже имеющиеся прокси
countries.txt - сюда вписывать страны, айпи из которых будет убирать скрипт, уже стоит свежая база данных. Но при желании можно погуглить базы для pygeoip, которых много. Страны вписывать на английском с большой буквы.
ASN.txt - сюда вписывать ASN номер провайдера, айпи которого будут удаляться. Это гораздол легче тонны подсетей. пример формата для вписывания: AS16276 . По дефолт уже лежат ASN провайдеры, чьи айпи заблокированы на сосаче. Что это такое?
headers.json - здесь хранятся заголовки для двух типов запросов. HEADERS_2CH это заголовки для проверки проксей. HEADERS_CUSTOM заголовки для отправки реквеста к WEBFORPING. Юзерагенты к обоим заголовкам берутся из usrAgents.txt рандомно для каждого запроса.
usrAgents - как уже было сказано выше, файл с юзерагентами для запросов. Изкоробки все отлично.

Настройки работы

Файл - settings.ini.
[main]
FILENAME_EXPORT - имя выходного файла с проксями.
NORMALINPUT - вводить ли через аргументы командной строки протокол. (python main.py <протокол>)
PROTOCOLOUT - записывать прокси в формат для вайпалки, пример: socks4://1.2.34.56:7890
NAME - да это же имя, которое пишется перед каждый выводом чекера! Можно написать что угодно
[modules]
PARSE - парсить ли прокси
SUBNETS - удалять ли прокси, входящие в подсети в texts/subnets.txt
BLACKLIST - удалять ли прокси, чей айпи входит в texts/blacklist.txt
COUNTRIES - удалять ли прокси из стран в texts/countries.txt
CHECK - проверять ли прокси на работоспособность
CHECKON2CH - проверять ли на баны на 2ch.hk, не удаляет "Доступ запрещен"
CHECK_ADVANCED- проверять ли прокси на рабоспособность и удалять те, которые принадлежать провайдерам с ASN номерами в texts/ASN.txt
SAME_FILTERING - удалять ли прокси, с одинаковыми айпи.
CHECK2IP - удалять ли прокси из стран в texts/countries.txt. Использует сайт 2ip.ru, требует токента из личного кабинета там. К сожалению, для получения токена и регистрации нужен инвайт.
[CHECKER]
BOARD - доска, куда будут идти репорты.
MAXTRIES - количество попыток подключений через проксю.
TIMEOUT - время ожидания каждого ответа от сервера.
THREADS - потоки. Выше 300 не желательно, тк сильно нагружают некропеки.
WEBFORPING - если отключена CHECKON2CH, то проверяет отправокй запроса к этому адресу. Заголовки берет из texts/headers.json. Читайте выше.
[COUNTRIES_ADVANCED]
MAXTRIES - количество попыток подключений через проксю.
TIMEOUT - время ожидания каждого ответа от сервера.
THREADS - потоки. Выше 300 не желательно, тк сильно нагружают некропеки.
[2IP]
TOKEN - ваш токен из личного кабинета 2ip.ru.
THREADS - потоки. Выше 100 ставить не желательно.
UNKNOWNOUT - выводить ли прокси, для которых неизвестная страна
[PARSER]
TIMEOUT - время ожидания на скачивание страницы.
DOWNLOADTIMEOUT - время ожидания на скачивание архивов с проксями.
THREADS - потоки. Выше 100 ставить не желательно.

По всем вопросам/багам/предложениям писать BUND-development@protonmail.com

You can’t perform that action at this time.