In [45]:
import requests
import xml.etree.ElementTree as ET
import pandas as pd

In [9]:
ROUTES_PATH = 'http://tosamara.ru/api/classifiers/routesAndStopsCorrespondence.xml'

In [13]:
req = requests.get(ROUTES_PATH)
tree = ET.fromstring(req.text)
tree

<Element 'routes' at 0x0000025417EAF548>

In [46]:
routes = []
for child in tree:
    number = child[1].text
    direction = child[2].text
    type_id = int(child[3][0].text)
    performing = bool(child[4].text)
    geometry = child[-1].text.split(' ')
    routes.append({'number': number,
                  'direction': direction,
                  'type_id': type_id,
                  'performing' : performing,
                  'geometry' : geometry})

In [47]:
df_routes = pd.DataFrame.from_records(routes)
df_routes.head()

Unnamed: 0,number,direction,type_id,performing,geometry
0,1,Железнодорожный вокзал,1,True,"[53.384692,50.169369, 53.384749,50.169603, 53...."
1,1,Красная Глинка,1,True,"[53.187111,50.121445, 53.18814,50.122168, 53.1..."
2,21,Юнгородок,1,True,"[53.259224,50.216663, 53.259209,50.216672, 53...."
3,21,Барбошина Поляна,1,True,"[53.213223,50.291229, 53.213392,50.291594, 53...."
4,27,"кинотеатр ""Луч""",1,True,"[53.213391,50.247921, 53.217799,50.24232, 53.2..."


In [103]:
len(df_routes.number.unique())

169

In [63]:
def parse_geom(x):
    points = [(float(i.split(',')[0]),float(i.split(',')[1])) for i in x]
    edges = [(points[i-1],points[i]) for i in range(1, len(points))]
    return edges
df_routes['geo'] = df_routes['geometry'].apply(parse_geom)

In [64]:
global_edges = set()
for i in df_routes['geo'].values:
    global_edges = global_edges | set(i)

In [65]:
len(global_edges)

13309

In [66]:
df_routes.head()

Unnamed: 0,number,direction,type_id,performing,geometry,geo
0,1,Железнодорожный вокзал,1,True,"[53.384692,50.169369, 53.384749,50.169603, 53....","[((53.384692, 50.169369), (53.384749, 50.16960..."
1,1,Красная Глинка,1,True,"[53.187111,50.121445, 53.18814,50.122168, 53.1...","[((53.187111, 50.121445), (53.18814, 50.122168..."
2,21,Юнгородок,1,True,"[53.259224,50.216663, 53.259209,50.216672, 53....","[((53.259224, 50.216663), (53.259209, 50.21667..."
3,21,Барбошина Поляна,1,True,"[53.213223,50.291229, 53.213392,50.291594, 53....","[((53.213223, 50.291229), (53.213392, 50.29159..."
4,27,"кинотеатр ""Луч""",1,True,"[53.213391,50.247921, 53.217799,50.24232, 53.2...","[((53.213391, 50.247921), (53.217799, 50.24232..."


In [67]:
req = requests.get('http://www.samaratrans.info/wiki/index.php/%D0%A1%D0%B0%D0%BC%D0%B0%D1%80%D0%B0_%D0%B0%D0%B2%D1%82%D0%BE%D0%B1%D1%83%D1%81_2')
html_text = req.text

In [68]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_text, 'html.parser')

In [69]:
collect_links = []
for j in soup.find_all('ul')[-6:]:
    for i in j.find_all('a'):
    try:
        if "маршруты" not in i['title'] and "расписания" not in i['title']:
        collect_links.append(i['href'])
    except KeyError:
        pass
len(collect_links)

199

In [70]:
def parse_add_inf(t):
    additional_information = t.find_all('td')
    add_inf = {}
    for i in range(0,14,2):
        add_inf[additional_information[i].text.strip()] = additional_information[i+1].text.strip()
    return add_inf


def parse_route_page(soup):
    try:
        tables = soup.find_all('table')
        route_name = tables[2].find_all('li')[0].text.split('\n\n')[0]
        return route_name, parse_add_inf(tables[7])
    except:
        return None, None

In [72]:
DOMAIN_LINK = 'http://www.samaratrans.info'

parsed_routes = {}

# for link in collect_links:
#     r = requests.get(DOMAIN_LINK+link)
#     s = BeautifulSoup(r.text, 'html.parser')
#     name, inf = parse_route_page(s)
#     parsed_routes[name] = inf
  

In [73]:
# with open('file.txt', 'w') as f:
#     f.write(str(parsed_routes))
with open('file.txt', 'r') as f:
    

In [83]:
type_dict = {int(i.split(' — ')[0]): i.split(' — ')[1] for i in '''1 — автобус, 2 — метрополитен, 3 — трамвай, 4 — троллейбус, 5 — электропоезд, 6 — речной транспорт'''.split(', ')}
type_dict

{1: 'автобус',
 2: 'метрополитен',
 3: 'трамвай',
 4: 'троллейбус',
 5: 'электропоезд',
 6: 'речной транспорт'}

In [111]:
routes_inf = []
exceptions = {}
for key, value in parsed_routes.items():
    try:
        key_splited = key.split(' ')
        number = key_splited[4]
        type_title = key_splited[1]
        schedule_days = { i.split(':')[0]: i.split(':')[1] 
                 for i in value['Режим работы'].split('По') if len(i.split(':')) > 1}
        intervals = value['Интервалы движения']
        vehicles = value['Подвижной состав']
        routes_inf.append([number, type_title, schedule_days, intervals, vehicles])
    except:
        print(key, value)
        exceptions[key] = value

1 Автобусный маршрут № 7 "Безымянский рынок - ул. Транзитная (кольцевой)" {'отправление от Безымянского рынка': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
1 Автобусный маршрут № 27 "Безымянский рынок - Кинотеатр "Луч" (кольцевой)" {'отправление от Безымянского рынка': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
1 Автобусный маршрут № 59 "15-й микрорайон (ТЦ "Колизей") - Пост ГИБДД (кольцевой)" {'отправление от ТЦ "Колизей"': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
1 Автобусный маршрут № 59а "15-й микрорайон (ТЦ "Колизей") - Пост ГИБДД (кольцевой)" {'отправление от ТЦ "Колизей"': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
None None
1 Автобусный маршрут № 126б "Завод "Металлург" - СДТ "Советы"" {'Дни работы': 'С 1 мая по 31 октября: по выходным и праздничным днямС 1 мая по 30 сентября: дополнительно по средам и пятницам(кроме дней массовых 

In [112]:
for key, value in exceptions.items():
    try:
        key_splited = key.split(' ')
        number = key_splited[4]
        type_title = key_splited[1]
        schedule_days = {value['Дни работы'] : value['Время работы'] }
        intervals = value['Интервалы движения']
        vehicles = value['Выпуск на линию']
        routes_inf.append([number, type_title, schedule_days, intervals, vehicles])
    except:
        print(key, value)
        exceptions[key] = value

1 Автобусный маршрут № 7 "Безымянский рынок - ул. Транзитная (кольцевой)" {'отправление от Безымянского рынка': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
1 Автобусный маршрут № 27 "Безымянский рынок - Кинотеатр "Луч" (кольцевой)" {'отправление от Безымянского рынка': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
1 Автобусный маршрут № 59 "15-й микрорайон (ТЦ "Колизей") - Пост ГИБДД (кольцевой)" {'отправление от ТЦ "Колизей"': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
1 Автобусный маршрут № 59а "15-й микрорайон (ТЦ "Колизей") - Пост ГИБДД (кольцевой)" {'отправление от ТЦ "Колизей"': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
None None
1 Автобусный маршрут № 157 "Площадь им. Кирова - Чёрновские дачи" {'отправление от площади им. Кирова': 'часы', '05': '06', '07': '08', '09': '10', '11': '12', '13': '14', '15': '16'}
1 Автобусный маршрут № 174 

In [113]:
routes_inf.append(['7', 'Автобусный', {'Ежедневно': ' с 6 до 20 часов'}, 'По рабочим дням: 12-84 мин.По выходным дням: 68-164 мин.', 'ПАЗ-3203ПАЗ-3204ПАЗ-32054'])
routes_inf.append(['27', 'Автобусный', {'Ежедневно': ' с 6 до 20 часов'}, 'По рабочим дням: 12-44 мин.По субботам: 14-46 мин.По воскресеньям: 18-58 мин.', 'Hyundai County Kuzbas HDU2ПАЗ-3203ПАЗ-3204ПАЗ-32054'])
routes_inf.append(['59', 'Автобусный', {'Ежедневно': ' с 6 до 19 часов'}, '77 мин.', 'ПАЗ-3203'])
routes_inf.append(['59а', 'Автобусный', {'Ежедневно': ' с 6 до 19 часов'}, '77 мин.', 'ПАЗ-3203'])
routes_inf.append(['157', 'Автобусный', {'С 1 мая по 31 октября: по выходным и праздничным днямС 1 мая по 30 сентября: дополнительно по средам и пятницам(кроме дней массовых посещений кладбищ)': 'С 7 до 12 часов и с 15 до 20 часов'}, 'По рабочим дням: 30-35 мин.По выходным дням: 25-50 мин.', 'ЛиАЗ-5293.70МАЗ-206'])
routes_inf.append(['174', 'Автобусный', {'С 1 мая по 31 октября: по выходным и праздничным днямС 1 мая по 30 сентября: дополнительно по средам и пятницам(кроме дней массовых посещений кладбищ)': 'С 7 до 12 часов и с 16 до 19 часов'}, '45-50 мин.', 'МАЗ-206'])
routes_inf.append(['4', 'Трамвайный', {'Ежедневно': 'с 5 до 21 часа'}, '14 мин.', 'Tatra T3SU (Т-3) (одиночные вагоны)АКСМ-62103 (одиночные вагоны)'])
routes_inf.append(['4', 'Трамвайный', {' рабочим дням': ' с 6 до 23 часов', ' выходным дням': ' с 6 до 22 часов'}, 'По рабочим дням: 16 мин.По выходным дням: 14 мин.', 'Tatra T3SU (Т-3) (одиночные вагоны)АКСМ-62103 (одиночные вагоны)71-402 "СПЕКТР" (одиночные вагоны)'])

In [114]:
df_routes_inf = pd.DataFrame(routes_inf, columns=['number', 'type_title', 'schedule_days', 'intervals', 'vehicles'])
df_routes_inf

Unnamed: 0,number,type_title,schedule_days,intervals,vehicles
0,1,Автобусный,{'Ежедневно': ' с 6 до 22 часов'},По рабочим дням: 8-20 мин.По выходным дням: 16...,ЛиАЗ-5293.70
1,3,Автобусный,{'Ежедневно': ' с 7 до 20 часов'},48-60 мин.,МАЗ-206
2,4,Автобусный,{'Ежедневно': ' с 6 до 21 часа'},7-10 мин.,Автобусы малого класса
3,5д,Автобусный,{'Ежедневно': ' с 5 до 22 часов'},По рабочим дням: 10-20 мин.По выходным дням: 1...,ЛиАЗ-5293.70
4,6,Автобусный,{'Ежедневно': ' с 6 до 21 часа'},По рабочим дням: 15-34 мин.По выходным дням: 1...,МАЗ-206
5,8,Автобусный,{'Ежедневно': ' с 6 до 13 часов и с 15 до 20 ч...,60 мин.,ПАЗ-3203ПАЗ-3204
6,9,Автобусный,{'Ежедневно': ' с 6 до 22 часов'},По рабочим дням: 18-40 мин.По субботам: 16-40 ...,МАЗ-206
7,11,Автобусный,{'Ежедневно': ' с 6 до 19 часов'},94-100 мин.,ПАЗ-3203ПАЗ-3204ПАЗ-32054
8,12,Автобусный,{' рабочим дням': ' с 6 до 8 часов и с 14 до 1...,48 мин.,ПАЗ-3203ПАЗ-3204ПАЗ-32054
9,13,Автобусный,{'Ежедневно': ' с 7 до 20 часов'},58-60 мин.,МАЗ-206


TypeError: unhashable type: 'dict'