# Сбор данных: полезности

### 1. НЕ СТЕСНЯЙСЯ ПОЛЬЗОВАТЬСЯ `try - except`

In [1]:
from math import log

a = [1, 2, -3, -5, 5]
for item in a:
    print(log(item))

0.0
0.6931471805599453


ValueError: math domain error

In [2]:
from math import log

a = [1, 2, -3, -5, 5]
for item in a:
    try:
        print(log(item))
    except:
        print('Error')

0.0
0.6931471805599453
Error
Error
1.6094379124341003


Предположим, что мы всю ночь парсили данные с сайта, а на утро узнаём, что на 123 итерации выскачила ошибка, которую мы не обрабатывали. Грусть и тоска(

С помощью `try-except` мы могли бы проигнорировать ошибку и парсить дальше

### 2. pd.read_html

Если на странице, которую мы парсим, среди тегов `tr` и `td` прячется таблица, чаще всего можно забрать её себез без написания цикла, который будет перебирать все столбцы и строки. Используем `pd.read_html`

In [8]:
import pandas as pd

df = pd.read_html('https://cbr.ru/currency_base/daily/')[0]
df.head()

Unnamed: 0,Цифр. код,Букв. код,Единиц,Валюта,Курс
0,36,AUD,1,Австралийский доллар,504031
1,944,AZN,1,Азербайджанский манат,440548
2,51,AMD,100,Армянских драмов,192359
3,933,BYN,1,Белорусский рубль,267304
4,975,BGN,1,Болгарский лев,404129


### 3. ИСПОЛЬЗУЙ ПАКЕТ tqdm

Чтобы посмотреть прогресс работы

In [9]:
from tqdm import tqdm_notebook
import time

a = list(range(15))

for i in tqdm_notebook(a):
    time.sleep(1)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm_notebook(a):


  0%|          | 0/15 [00:00<?, ?it/s]

### 4. Распараллеливание

Если сервер не очень настроен вас банить, можно распаралелить свои запросы к нему. Самый простой способ это сделать - библиотека `joblib`

In [18]:
from joblib import Parallel, delayed
from tqdm import tqdm_notebook

def func(x):
    return x**2

nj = -1 # паралель на все ядра
result = Parallel(n_jobs=nj)(
        delayed(func)(item) # Какую функцию распараллеить
        for item in tqdm_notebook(range(1000000)) # На какие данные
)


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for item in tqdm_notebook(range(1000000))


  0%|          | 0/1000000 [00:00<?, ?it/s]

### 5. selenium без браузера

Селениум можно настроить так, чтобы физически браузер не открывался

In [23]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('-headless')
driver = webdriver.Chrome(options=options)

ref = 'http://google.com'

driver.get(ref)

driver.close()

### Ещё полезные пункты

- Сохраняйте то, что парсите по мере скачки! Прямо внутрь цикла добавьте код, который сохраняет файл
- Когда код упал на каком-то месте, нет смысла его запускать с самого начала, есть вариант начать с места падения
- Добавлять цикл для обхода ссылок внутрь функции - плохая идея. Предположим, что надо обойти 100 ссылок. Функция должна вернуть на выход объекты, которые скачались. Она берёт и падает на 50 объекте. Конечно же то, что уже было скачано, функция не возвращает. Всё, что вы скачали - пропало. Потому что внутри функции своё пространство имён. Если бы вы делали это циклом без функции, то можно было бы сохранить первые 50 объектов, которые уже лежат внутри листа, а потом продолжить скачку
- Можно ориентироваться на html-страничке с помощью `xpath`. Он предназначен для того, чтобы внутри html-странички можно было быстро находить какие-то элементы
- ДОКУМЕНТАЦИЯ НАШЕ ВСЁ