**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 22.08.2019 <br>
**Description:** Механизм для получения прокси-серверов

**Ссылки:**<br>
https://github.com/JaredLGillespie/proxyscrape - репозиторий решения

# Импортруем необходимые модули

In [1]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
import requests

# Для работы с табличными данными
import pandas as pd
# Настройки для работы Data Explorer
pd.options.display.html.table_schema = True
pd.options.display.max_rows = None

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
from sqlalchemy import create_engine
import sqlalchemy

# Загрузка proxy server
from proxyscrape import create_collector

# Для работы с операционной системой
import os

# Для работа со временем 
import datetime

# Для паралельной работы кода
from multiprocessing.dummy import Pool as ThreadPool 

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

# Создадим функции и наборы данных

In [3]:
def get_proxy(collector):
    """
    Функция для получения прокси-сервера
    Параметры: https anonymous proxies
    Выход: proxy *.*.*.*:*
    """
    proxy = collector.get_proxy()
    return '{}:{}'.format(proxy.host, proxy.port)


def get_proxy_servers(n_proxy = 1000, type_proxies  = 'https'):
    """
    Функция для получения списка прокси.
    Параметры: 
    n_proxy: количество прокси-серверов, type_proxies: тип прокси-сервера (https anonymous proxies).
    Выход: таблица прокси-серверов.
    """
    collector = create_collector('collector {type_proxies}'.format(type_proxies = type_proxies), type_proxies)
    collector.apply_filter({'anonymous': True})
    proxy_df = pd.DataFrame({'name' : [get_proxy(collector) for proxy in range(n_proxy)]})
    proxy_df['load_date'] = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    proxy_df.reset_index(inplace = True)
    proxy_df.rename(columns = {'index' : 'id'}, inplace = True)
    return proxy_df

def get_check_proxy(proxy): 
    """
    Функция для проверки прокси с 'http://spys.one/proxys/RU/'. 
    Параметры: прокси.
    Выход: 0 - доступен, 1 - не доступен.
    """
    url = 'https://www.farpost.ru/vladivostok/'
    try:
        page = requests.get(
            url, 
            proxies = {'https' : 'https://' + proxy}, 
            timeout = 10
        )
        if page.status_code == 200: 
            status = 1
        else: 
            status = 0
    except: 
        status = 0
    return status

def write_check_proxy(): 
    """
    Функция для записи и получения проверенных proxy servers.
    Параметры: нет. 
    Выход: запись proxy в бд и таблица проверенных proxy.
    """

    # Получаем proxy
    df = get_proxy_servers()

    # Проверяем proxy
    pool = ThreadPool(10)
    results_proxy_list = pool.map(get_check_proxy, df.name)
    df['is_work'] = results_proxy_list

    # Записываем данные
    df.to_sql(
        name = 'proxy_servers',
        schema = 'staging_tables',
        con = engine, 
        if_exists = 'replace',
        index = False,
        dtype = {
            "id": sqlalchemy.Integer()
            , 'load_date' : sqlalchemy.DateTime()
            , 'name': sqlalchemy.Text()
            , 'is_work': sqlalchemy.Boolean()
        }
    )
    return df

In [4]:
os.chdir('/mnt/sdb1/Documents/Projects/web_scraping_flats/sripts')
import proxy_loader

proxy_loader = proxy_loader.proxy_loader() 
proxy_df = proxy_loader.write_check_proxy()
proxy_df.head()

Unnamed: 0,id,name,load_date,is_work
0,0,182.23.54.146:56281,2019-08-25 12:34:16,0
1,1,202.129.251.39:23500,2019-08-25 12:34:16,0
2,2,84.19.38.158:51885,2019-08-25 12:34:16,0
3,3,202.85.52.151:80,2019-08-25 12:34:16,0
4,4,190.85.163.14:999,2019-08-25 12:34:16,0
