**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 22.08.2019 <br>
**Description:** Механизм для получения прокси-серверов

In [None]:
asvcasvc

**Ссылки:**<br>
https://github.com/JaredLGillespie/proxyscrape - репозиторий решения

# Импортруем необходимые модули

In [1]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
import requests

# Для работы с табличными данными
import pandas as pd
# Настройки для работы Data Explorer
pd.options.display.html.table_schema = True
pd.options.display.max_rows = None

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
from sqlalchemy import create_engine
import sqlalchemy

# Загрузка proxy server
from proxyscrape import create_collector

# Для работы с операционной системой
import os

# Для работа со временем 
import datetime

# Для паралельной работы кода
from multiprocessing.dummy import Pool as ThreadPool 

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

# Создадим функции и наборы данных

In [3]:
def get_proxy(collector):
    """
    Функция для получения прокси-сервера
    Параметры: https anonymous proxies
    Выход: proxy *.*.*.*:*
    """
    proxy = collector.get_proxy()
    return '{}:{}'.format(proxy.host, proxy.port)


def get_proxy_servers(n_proxy = 1000, type_proxies  = 'https'):
    """
    Функция для получения списка прокси.
    Параметры: 
    n_proxy: количество прокси-серверов, type_proxies: тип прокси-сервера (https anonymous proxies).
    Выход: таблица прокси-серверов.
    """
    collector = create_collector('collector {type_proxies}'.format(type_proxies = type_proxies), type_proxies)
    collector.apply_filter({'anonymous': True})
    proxy_df = pd.DataFrame({'name' : [get_proxy(collector) for proxy in range(n_proxy)]})
    proxy_df['load_date'] = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    proxy_df.reset_index(inplace = True)
    proxy_df.rename(columns = {'index' : 'id'}, inplace = True)
    return proxy_df

def get_check_proxy(proxy): 
    """
    Функция для проверки прокси с 'http://spys.one/proxys/RU/'. 
    Параметры: прокси.
    Выход: 0 - доступен, 1 - не доступен.
    """
    url = 'https://www.farpost.ru/vladivostok/'
    try:
        page = requests.get(
            url, 
            proxies = {'https' : 'https://' + proxy}, 
            timeout = 10
        )
        if page.status_code == 200: 
            status = 1
        else: 
            status = 0
    except: 
        status = 0
    return status

def write_check_proxy(): 
    """
    Функция для записи и получения проверенных proxy servers.
    Параметры: нет. 
    Выход: запись proxy в бд и таблица проверенных proxy.
    """

    # Получаем proxy
    df = get_proxy_servers()

    # Проверяем proxy
    pool = ThreadPool(10)
    results_proxy_list = pool.map(get_check_proxy, df.name)
    df['is_work'] = results_proxy_list

    # Записываем данные
    df.to_sql(
        name = 'proxy_servers',
        schema = 'staging_tables',
        con = engine, 
        if_exists = 'replace',
        index = False,
        dtype = {
            "id": sqlalchemy.Integer()
            , 'load_date' : sqlalchemy.DateTime()
            , 'name': sqlalchemy.Text()
            , 'is_work': sqlalchemy.Boolean()
        }
    )
    return df

# Импортируем класс и получаем proxy

In [4]:
# Импортируем класс
os.chdir('/mnt/sdb1/Documents/Projects/web_scraping_flats/sripts')
import proxy_loader

proxy_loader = proxy_loader.proxy_loader() 
proxy_df = proxy_loader.write_check_proxy()
proxy_df.head()

Unnamed: 0,id,name,load_date,is_work
0,0,1.32.59.217:52740,2019-08-25 17:24:35,0
1,1,198.199.120.102:8080,2019-08-25 17:24:35,0
2,2,134.209.14.170:8080,2019-08-25 17:24:35,0
3,3,31.28.99.25:36028,2019-08-25 17:24:35,0
4,4,193.193.71.178:43857,2019-08-25 17:24:35,0


In [46]:
# Проверяем подмену proxy
test_url = 'http://ipinfo.io/ip'
for proxy in tqdm_notebook(proxy_df[proxy_df.is_work == 1].name):
    try:         
        result = requests.get(
                test_url, 
                proxies = {'https' : 'https://' + proxy}, 
                timeout = 10
            )
        if result.status_code == 200: 
            print(proxy)
        else: 
            continue
    except: 
        continue

HBox(children=(IntProgress(value=0, max=304), HTML(value='')))

36.89.190.57:59983
92.62.72.23:31069
181.112.188.38:37855
117.242.147.85:30417
212.50.85.39:51810
193.107.106.95:32952
123.200.20.242:58847
191.6.73.158:20183
81.24.92.164:41258
43.225.164.59:37193
197.255.152.43:48105
77.85.169.254:42759
45.195.5.9:8080
24.113.38.149:48678
98.172.142.99:8080
193.107.106.95:32952
81.174.11.159:42026
84.52.84.157:44331
182.52.51.17:34871
182.52.51.17:34871
222.165.214.98:39946
220.247.164.53:8080
213.131.39.109:46255
103.250.158.23:61219
79.137.254.51:52416
103.204.82.13:57699
200.68.230.197:38275
51.158.119.88:8811
46.147.108.132:8080
191.6.73.158:20183
54.37.17.149:8080
103.250.158.23:61219
103.87.160.106:8080
169.255.222.227:46643
185.189.199.75:23500
182.53.206.40:8080
89.109.8.160:21231
35.185.121.52:3128
136.228.128.14:61158
95.179.238.28:8080
169.255.222.227:46643
197.255.152.43:48105
46.172.76.114:36923
203.142.69.242:55502
185.189.199.75:23500
203.99.123.25:61502
185.94.215.235:53281
163.172.95.183:8080
42.112.21.233:3128
77.48.22.117:36093
36.