Для обогащения датасета мы запарсим данные о погоде в штатах Эквадора. Интуиция: интересно посмотреть, влияют ли погодные условия на готовность эквадорцев ходить в магазины и закупаться.   

In [21]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [22]:
from lxml import html
import csv

In [132]:
import time
time.sleep(14)

Нам нужно собрать ежедневные данные о погоде о погоде в 16 штатах Эквадора за 2013-2017 гг. Информацию мы решили собирать с сайта https://weatherandclimate.com/ - большого архива погодных данных для многих стран. 

Данный сайт был достаточно удобен, т.к. не требовал прохождения капчи и на единичные запросы отзывался без проблем. 

Единственной проблемой было то, что информация на сайте была представлена по месяцам, а значит придется перебирать кучу страниц - и после перебора примерно 10 сайт выдавал ошибку 403. Мы решили это, поставив таймер на паузы между запросами.   

### Ход решения

Сначала создадим функцию, которая будет последовательно принимать параметры st, m, y (соответственно штат, месяц, и год), обращаться к адресу страницы с этими параметрами, считывать таблицу ежедневных погодных наблюдений в данном месяце построчно в файл "somewhat.csv". 

In [66]:
def get_month_for_years(st, m, y):
    
    url = 'https://weatherandclimate.com/{}/{}-{}'.format(st, m, y)
    
    response = requests.get(url)
    
    tree = BeautifulSoup(response.content, 'html.parser')
    
    file = open('somewhat.csv','w', encoding='utf-8')
    writer = csv.writer(file) 
    
    rows = tree.find('table', class_='tb7').find('tbody').find_all('tr')
    
    lst = []
    for el in rows[0]: 
        lst.append(el.text)
    writer.writerow(lst)
    
    for row in rows[1:]: 
        columns = row.find_all('td')
        data_list = [columns[0].text,columns[1].text,columns[2].text,columns[3].text,columns[4].text,columns[5].text,columns[6].text]
        writer.writerow(data_list)
        
    file.close()
    
    weather = pd.read_csv('somewhat.csv')
    weather = weather[1:]
    return weather

Создадим цикл, который последовательно пробежится по штатам, годам и месяцам. 
Чтобы не получить ошибку 403, мы разбили штаты на несколько групп.

In [76]:
years = [2013, 2014, 2015, 2016, 2017]
months = ['january', 'february', 'march', 'april', 'may', 'june', 'july',
          'august', 'september', 'october', 'november', 'december']
states = ['santa-elena', 'pichincha', 'santo-domingo-de-los-tsachilas', 'cotopaxi']          
lst_of_states = []


for st in states:
    lst_of_weathers = []
    for y in years:
        for m in months: 
            weath_of_month = get_month_for_years(st, m, y) #здесь погода месяца 
            lst_of_weathers.append(weath_of_month) # здесь погода для 1 года 

    w = pd.concat(lst_of_weathers, axis=0)
    w['state'] = st
    w = w.reset_index()
    lst_of_states.append(w)
fin1 = pd.concat(lst_of_states, axis=0)

In [79]:
years = [2013, 2014, 2015, 2016, 2017]
months = ['january', 'february', 'march', 'april', 'may', 'june', 'july',
          'august', 'september', 'october', 'november', 'december']
states = ['chimborazo', 'imbabura','bolivar-ecuador', 'tungurahua']          
lst_of_states = []

for st in states:
    lst_of_weathers = []
    for y in years: 
        for m in months: 
            weath_of_month = get_month_for_years(st, m, y)
            lst_of_weathers.append(weath_of_month)

    w = pd.concat(lst_of_weathers, axis=0)
    w['state'] = st
    lst_of_states.append(w)
fin2 = pd.concat(lst_of_states, axis=0)

In [85]:
years = [2013, 2014, 2015, 2016, 2017]
months = ['january', 'february', 'march', 'april', 'may', 'june', 'july',
          'august', 'september', 'october', 'november', 'december']
states = ['guayas', 'los-rios', 'azuay', 'loja']          
lst_of_states = []

for st in states:
    lst_of_weathers = []
    for y in years: 
        for m in months: 
            weath_of_month = get_month_for_years(st, m, y)
            lst_of_weathers.append(weath_of_month)

    w = pd.concat(lst_of_weathers, axis=0)
    w['state'] = st
    lst_of_states.append(w)
fin3 = pd.concat(lst_of_states, axis=0)

In [116]:
years = [2013, 2014, 2015, 2016, 2017]
months = ['january', 'february', 'march', 'april', 'may', 'june', 'july',
          'august', 'september', 'october', 'november', 'december']
states = ['el-oro', 'esmeraldas']          
lst_of_states = []

for st in states:
    lst_of_weathers = []
    for y in years: 
        for m in months: 
            weath_of_month = get_month_for_years(st, m, y)
            lst_of_weathers.append(weath_of_month)

    w = pd.concat(lst_of_weathers, axis=0)
    w['state'] = st
    lst_of_states.append(w)
fin4 = pd.concat(lst_of_states, axis=0)

In [133]:
years = [2013, 2014, 2015, 2016, 2017]
months = ['january', 'february', 'march', 'april', 'may', 'june', 'july',
          'august', 'september', 'october', 'november', 'december']
states = ['manabi', 'pastaza']          
lst_of_states = []

for st in states:
    lst_of_weathers = []
    for y in years: 
        for m in months: 
            weath_of_month = get_month_for_years(st, m, y)
            lst_of_weathers.append(weath_of_month)

    w = pd.concat(lst_of_weathers, axis=0)
    w['state'] = st
    lst_of_states.append(w)
fin5 = pd.concat(lst_of_states, axis=0)

Объединяем группы данных и обрабатываем их: поправляем индексы, переписываем названия штатов, чтобы в дальнейшем объединить с основным датасетом. 

In [135]:
list_of_fins = [fin1, fin2, fin3, fin4, fin5]

In [136]:
weathr = pd.concat(list_of_fins, axis=0)

In [None]:
weathr.reset_index(inplace=True)
weathr.drop(columns=['level_0', 'index'], inplace=True)

In [145]:
weathr.loc[weathr['state'] == 'santa-elena', 'state'] = 'Santa Elena'
weathr.loc[weathr['state'] == 'pichincha', 'state'] = 'Pichincha'
weathr.loc[weathr['state'] == 'santo-domingo-de-los-tsachilas', 'state'] = 'Santo Domingo de los Tsachilas'
weathr.loc[weathr['state'] == 'cotopaxi', 'state'] = 'Cotopaxi'
weathr.loc[weathr['state'] == 'chimborazo', 'state'] = 'Chimborazo'
weathr.loc[weathr['state'] == 'imbabura', 'state'] = 'Imbabura'
weathr.loc[weathr['state'] == 'bolivar-ecuador', 'state'] = 'Bolivar'
weathr.loc[weathr['state'] == 'tungurahua', 'state'] = 'Tungurahua'
weathr.loc[weathr['state'] == 'guayas', 'state'] = 'Guayas'
weathr.loc[weathr['state'] == 'los-rios', 'state'] = 'Los Rios'
weathr.loc[weathr['state'] == 'azuay', 'state'] = 'Azuay'
weathr.loc[weathr['state'] == 'loja', 'state'] = 'Loja'
weathr.loc[weathr['state'] == 'el-oro', 'state'] = 'El Oro'
weathr.loc[weathr['state'] == 'esmeraldas', 'state'] = 'Esmeraldas'
weathr.loc[weathr['state'] == 'manabi', 'state'] = 'Manabi'
weathr.loc[weathr['state'] == 'pastaza', 'state'] = 'Pastaza'

In [146]:
weathr

Unnamed: 0,Time,Temperature,Dew Point,Humidity,Wind Speed,Pressure,Precipitation,state
0,2013-01-01,23 | 73.4,20 | 68.0,85,14 | 8.7,29.83 | 1010,0.0 | 0.0,Santa Elena
1,2013-01-02,23 | 73.4,21 | 69.8,87,15 | 9.32,29.8 | 1009,1.0 | 0.04,Santa Elena
2,2013-01-03,23 | 73.4,20 | 68.0,85,17 | 10.56,29.83 | 1010,0.0 | 0.0,Santa Elena
3,2013-01-04,23 | 73.4,20 | 68.0,84,13 | 8.08,29.83 | 1010,0.4 | 0.02,Santa Elena
4,2013-01-05,23 | 73.4,21 | 69.8,86,14 | 8.7,29.83 | 1010,0.2 | 0.01,Santa Elena
...,...,...,...,...,...,...,...,...
29211,2017-12-27,16 | 60.8,14 | 57.2,88,3 | 1.86,29.94 | 1014,7.7 | 0.3,Pastaza
29212,2017-12-28,17 | 62.6,12 | 53.6,77,5 | 3.11,29.94 | 1014,0.4 | 0.02,Pastaza
29213,2017-12-29,18 | 64.4,13 | 55.4,74,5 | 3.11,29.94 | 1014,0.3 | 0.01,Pastaza
29214,2017-12-30,18 | 64.4,12 | 53.6,72,6 | 3.73,29.94 | 1014,1.3 | 0.05,Pastaza


Сохраняем датасет в формате csv: 

In [148]:
weathr.to_csv('weather_parsed.csv')