In [1]:
import importlib
import pandas as pd
import numpy as np
import re

from functions.functions_dataframe import * 
from parameters.filters_lists import *
from parameters.route import *
from parameters.regs import *

pd.set_option("display.max_colwidth", 200)

###### Step 1. Завантажити датафрейми ProZorro, МОН, створити список ЄДРПОУ освітніх закладів

In [34]:
"""
Завантажити базу закупівель ProZorro (деталі у README.txt)
"""
df_prozorro = pd.read_csv('data/TrainingProZorroForSchoolProject20162019.csv', sep = ';', low_memory = False)

In [35]:
"""
Завантажити датафрейм МОН навчальниз закладів, підготовлений у "fileter MON data.ipynb"
"""
df_mon_data_bez_upravlin_osvity = pd.read_csv('data/MON_schools_dnz.csv', sep = ';')

In [36]:
"""
Створити список унікальних ЄДРПОУ освітніх закладів МОН
"""
mon_data_list = df_mon_data_bez_upravlin_osvity.edrpou.unique().tolist()

### ШКОЛИ ЗАМОВНИКИ

##### Step 2: Створити базу навчальних закладів, які самостійно купують через ProZorro

In [37]:
"""
Відфільтрувати базу закупівель df_prozorro за колонкою IDOrganizator.
Фільтром є списко МОН з ЄДРПОУ начальних закладів mon_data_list (попередній крок)

df_tenders_by_schools - база закупівель, де навчальні заклади є замовниками
df_undefined_1 - база невизначених закупівель ProZorro
"""
df_tenders_by_schools = df_prozorro[df_prozorro['IDOrganizator'].isin(mon_data_list)]
df_undefined_1 = df_prozorro[~df_prozorro['IDOrganizator'].isin(mon_data_list)]

##### Step 3: Класифікація шкіл-замовників по типах за колонкою "Организатор"

In [450]:
df_tenders_by_schools_classified = classification_by_type_one_column(df_tenders_by_schools, ['Организатор'], filter_priority, filter_name_priority, 'Тип закладу')

TypeError: classification_by_type_one_column() missing 1 required positional argument: 'new_col_name'

##### Step 4: Нумерація шкіл-замовників

In [None]:
df_tenders_by_schools_numerated = numeration_one_column(df_tenders_by_schools_classified, ['Организатор'], reg_number)

##### Step 5: Cтворення фінальної бази ШКІЛ ЗАМОВНИКІВ

In [None]:
"""
"Назва закладу" - колонка з фіналізованою назвою школи. Принцип визначення:
    1. Якщо колонка "Номер" не є пустою - додається до "Типу закладу"
    2. Якщо колонка "Номер" є пустою - "Назва закладу" отримує значення "Организатор"
    
* колонка "Назва" не враховується через високий ступінь повторюваності з "Организатор" і часткову точність
"""
df_tenders_by_schools = df_tenders_by_schools_numerated.copy()
df_tenders_by_schools['Номер'] = df_tenders_by_schools['Номер'].replace(r'^\s*$', np.nan, regex=True) # технічна дія: перетворити пусті строки в NaN
df_tenders_by_schools['Назва закладу'] = np.where(df_tenders_by_schools['Номер'].notnull(), 
                                                  df_tenders_by_schools['Тип закладу'] + ' ' + df_tenders_by_schools['Номер'], 
                                                  df_tenders_by_schools['Организатор'])

In [None]:
"""
Створення колонки 'Заклад-замовник'
Видалення "технічних" колонок, створених функціями.
"""
df_tenders_by_schools['Заклад-замовник'] = True
col_names = df_prozorro.columns.tolist()
col_names += ['Заклад-замовник', 'Назва закладу']
df_tenders_by_schools = df_tenders_by_schools[col_names]

### ШКОЛИ НЕ-ЗАМОВНИКИ

##### Step 5: Пошук закупівель шкіл-не-замовників за допомогою ключових слів

In [None]:
"""
З-поміж датафрейму невизначених закупівель (df_undefined_1) за ключовими словами у списках
filter_keywords, filter_keywords_strict відбираються закупівлі освітніх закладів у колонках: Тендер, ОписаниеТендера, Лот 

Примітка: регулярний вираз /b{}/b шукає за ключовими словами зі списку filter_keywords_strict_extended тільки 
ті паттерни, де ці ключові слова є окремими, а не зустрічають всередині слів. 
Це зменшить кількість "брудних" даних
"""
df_tenders_not_by_schools_by_keywords = df_undefined_1[df_undefined_1['Тендер'].astype(str).str.contains(r'({})'.format('|'.join(filter_keywords)), 
            case = False, na = False, regex = True)  | 
                                                      df_undefined_1['ОписаниеТендера'].astype(str).str.contains(r'({})'.format('|'.join(filter_keywords)), 
            case = False, na = False, regex = True) | 
                                                      df_undefined_1['Лот'].astype(str).str.contains(r'({})'.format('|'.join(filter_keywords)), 
            case = False, na = False, regex = True) | df_undefined_1['Тендер'].astype(str).str.contains(r'(/b{}/b)'.format('|'.join(filter_keywords_strict)), 
            case = False, na = False, regex = True) | df_undefined_1['ОписаниеТендера'].astype(str).str.contains(r'(/b{}/b)'.format('|'.join(filter_keywords_strict)), 
            case = False, na = False, regex = True) | df_undefined_1['Лот'].astype(str).str.contains(r'(/b{}/b)'.format('|'.join(filter_keywords_strict)), 
            case = False, na = False, regex = True)]

##### Step 6: Класифікація шкіл-не-замовників за типами

In [None]:
df_tenders_not_by_schools_classified = classification_by_type_three_cols(df_tenders_not_by_schools_by_keywords,
                                                                         ['Тендер', 'ОписаниеТендера', 'Лот'], 
                                                                         filter_priority, 
                                                                         filter_name_priority)

##### Step 7: Нумерація шкіл-не-замовників

In [None]:
"""
df_step7 - датафрейм, створений із закупівель df_tenders_not_by_schools_classified, де був успішно визначений "Тип закладу"
"""
df_step7 = df_tenders_not_by_schools_classified[df_tenders_not_by_schools_classified['Тип закладу'] != 'Невідомо'].copy()

In [None]:
"""
Функція long_numeration створює два дафайреми:
    df_tenders_not_by_schools_numerated - тендери, де номер визначився 
    df_step7_numerated_undefined - тендери, де номер не визначився
"""
df_tenders_not_by_schools_numerated, df_step7_numerated_undefined = long_numeration(df_step7, reg_number)
df_tenders_not_by_schools_numerated['Назва закладу'] = df_tenders_not_by_schools_numerated['Тип закладу'] + ' ' + df_tenders_not_by_schools_numerated['Номер']

##### Step 8: Найменування шкіл-не-замовників

In [None]:
"""
Завантажити датафрейм МОН власних назв навчальниз закладів, підготовлений у "fileter MON data.ipynb"
school_names - список унікальних назв 
"""
df_names_clean = pd.read_csv('data/MON_names.csv', sep = ';')
df_names_clean = df_names_clean[df_names_clean['Назва'].notnull()] # Видалити NaN
school_names = df_names_clean['Назва'].unique().tolist()

In [None]:
"""
Функція long_naming створює два дафайреми:
    df_tenders_not_by_schools_named - тендери, де номер визначився.
    df_tenders_not_by_schools_undefined - тендери шкіл не замовників, де не визначилась назва (і номер).
    Такі закупівлі вважаються закупівлями управінь освіти для різних закладів.
"""
df_tenders_not_by_schools_named, df_tenders_not_by_schools_undefined = long_naming(df_step7_numerated_undefined, reg_double_quotes, school_names)
df_tenders_not_by_schools_named['Назва закладу'] = df_tenders_not_by_schools_named['Тип закладу'] + ' ' + df_tenders_not_by_schools_named['Назва']

##### Step 9: Об'єднання двох датафреймів шкіл-не-замовників

In [None]:
"""
df_tenders_not_by_schools - датафрейм шкіл-не-замовників з визначеними номерами і назвами
Створення колонки 'Заклад-замовник'
"""
frames = [df_tenders_not_by_schools_numerated, df_tenders_not_by_schools_named]
df_tenders_not_by_schools = pd.concat(frames)
df_tenders_not_by_schools['Заклад-замовник'] = False
df_tenders_not_by_schools = df_tenders_not_by_schools[col_names]

### ВСІ ШКОЛИ

##### Step 10: Об'єднання датафреймів шкіл-не-замовників та шкіл-замовників

In [None]:
frames = [df_tenders_by_schools, df_tenders_not_by_schools]
df_tenders = pd.concat(frames)

In [None]:
df_tenders.to_csv('result/df_tenders.csv', sep=';', index=False)

### 1. Підготовка датафрейму з координатами

In [2]:
"""
df_coordinates - база даних шкіл МОН з 24 містами обласних центрів України, включно з координатами
"""
df_coordinates = pd.read_csv('data/coordinates/coordinates_DNZ _SC.csv', sep=';')

In [3]:
"""
    B df_coordinates cтворити нову колонку ЄДРПОУ без помилкових текстових символів
"""
df_coordinates['edrpou_clean'] = df_coordinates.edrpou.str.extract('(\d+)', expand=False)
df_coordinates['edrpou_clean'] = df_coordinates['edrpou_clean'].fillna(0)
df_coordinates['edrpou_clean'] = pd.to_numeric(df_coordinates['edrpou_clean'])
df_coordinates['edrpou_clean'] = df_coordinates['edrpou_clean'].astype(np.int64)

In [5]:
df_coordinates['updated_education_type_name'] = np.where(df_coordinates.education_type_name == '(null)',
                                              'ДНЗ', df_coordinates.education_type_name)

In [6]:
df_coordinates = classification_by_type_one_column(df_coordinates, ['university_name'], filter_priority, filter_name_priority, 'Тип закладу 1')
df_coordinates = classification_by_type_one_column(df_coordinates, ['updated_education_type_name'], filter_priority, filter_name_priority, 'Тип закладу 2')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[new_column] = "Невідомо"
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[column + "_check"] = ""
  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case = False, na = False, regex = True)
A value is trying to be set on a copy of a slice from a DataF

In [7]:
df_coordinates['Тип закладу'] = np.where(~df_coordinates['Тип закладу 1'].str.contains('Невідомо'),
                                           df_coordinates['Тип закладу 1'],
                                           df_coordinates['Тип закладу 2'])
df_coordinates['Тип закладу'] = np.where(~df_coordinates['Тип закладу'].str.contains('Невідомо'),
                                           df_coordinates['Тип закладу'],
                                           df_coordinates['updated_education_type_name'])
df_coordinates['Тип закладу'] = df_coordinates['Тип закладу'].str.replace('загальносвітня школа', 'Загальносвітня школа')

In [9]:
"""
    df_coordinates_numerated - виокремлення номерів шкільних закладів з бази МОН 
"""
df_coordinates_numerated = numeration_one_column(df_coordinates, ['university_name'], reg_number)

In [10]:
"""
    df_coordinates_named - виокремлення власні назви шкільних закладів з бази МОН.
    Створення колонки "id" з визначених двома способами власної назви закладу
"""
df_coordinates_named = naming(df_coordinates, ['university_name'], reg_double_quotes, "naming")
df_coordinates_named['Назва'] = np.where(df_coordinates_named.university_name_naming_first.notnull(),
                                             df_coordinates_named.university_name_naming_first,
                                             df_coordinates_named.university_name_naming_last)
"""
    Створення колонки "Назва закладу". Там, де є номер - присвоєюється номер, в інших випадках - власна назва
"""
df_coordinates_named['Назва закладу'] = np.where(df_coordinates_named['Номер'].str.contains('№'), 
                                               df_coordinates['Тип закладу'] + ' '+ df_coordinates_named['Номер'],
                                               df_coordinates['Тип закладу'] + ' '+ df_coordinates_named['Назва'])
df_coordinates_named['id'] =  df_coordinates_named.koatuu_name_short + ' ' + df_coordinates_named['Назва закладу']

In [13]:
"""    
    Створення датафрейму df_coordinates_with_id з id як назвою закладу та унікальним ідентифікатором
"""

cols_to_include = ['id', 'Longitude', 'Latitude', 'edrpou_clean']
df_coordinates_with_id = df_coordinates_named[cols_to_include]
df_coordinates_with_id['id'] = df_coordinates_with_id['id'].str.replace('№ ', '№')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  import sys


### 2. Підготовка датафрейму з тендерами

In [14]:
# For debugging
df_tenders = pd.read_csv('result/df_tenders.csv', sep=';')
df_tenders_true = df_tenders[df_tenders['Заклад-замовник'] == True]
df_tenders_false = df_tenders[df_tenders['Заклад-замовник'] == False]

### Фінальна таблиця шкіл-замовників

In [35]:
"""
    tenders_by_schools - фінальна таблиця шкіл-замовників
"""
tenders_by_schools = df_tenders_true.merge(df_coordinates_with_id, left_on='IDOrganizator', right_on='edrpou_clean')
tenders_by_schools.id = np.where(tenders_by_schools.id.str.contains('Невідомо'),
                             tenders_by_schools['Назва закладу'],
                             tenders_by_schools.id)

### Підготовка таблиці тендерів навчальних закладів, які не є замовниками

##### Підготовка в df_tenders_false (таблиці закупівель шкіл-не-замовників) колонки  'id': унікального ідентифікатора

In [36]:
golovuj_organ_list = df_tenders['Главный орган'].unique().tolist()
cities_list = ['Тернопіль', 'Хмельницький', 'Луцьк', 'Суми', 'Кропивницький', 'Львів', 'Київ', 'Вінниця', 
                'Черкаси', 'Житомир', 'Івано-Франківськ', 'Харків', 'Ужгород', 'Дніпро', 'Миколаїв', 'Рівне', 
                'Херсон', 'Чернівці', 'Запоріжжя', 'Полтава', 'Одеса', 'Чернігів', 'Сєвєродонецьк', 'Краматорськ'
              ]

df_tenders_false_with_cities = classification_by_type_one_column(df_tenders_false, ['Главный орган'], golovuj_organ_list, cities_list, 'city')
df_tenders_false_with_cities['id'] = df_tenders_false_with_cities['city'] + ' ' + df_tenders_false_with_cities['Назва закладу']
df_tenders_false_with_cities['id'] = df_tenders_false_with_cities['id'].str.replace('№ ', '№')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[new_column] = "Невідомо"
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[column + "_check"] = ""
  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case = False, na = False, regex = True)
A value is trying to be set on a copy of a slice from a DataF

#### Таблиця шкіл-не-замовників

In [40]:
df_coordinates_with_id_short = df_coordinates_with_id[['id', 'Longitude', 'Latitude']]

###### Фінальна таблиця шкіл-не-замовників

In [53]:
"""
    tenders_not_by_schools - фінальна таблиця шкіл-не-замовників
"""
tenders_not_by_schools = pd.merge(df_tenders_false_with_cities, 
                                  df_coordinates_with_id_short, 
                                  on='id', 
                                  how='left')
tenders_not_by_schools.shape

(19186, 18)

In [55]:
tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()]

Unnamed: 0,ИдентификаторЛота,Идентификатор,Организатор,Тендер,СуммаЛота,ОписаниеТендера,Лот,Адрес поставки,АдресОрганизатора,Главный орган,IDOrganizator,Заклад-замовник,Назва закладу,city,Главный орган_check,id,Longitude,Latitude
0,UA-2016-12-14-000943-a-L1,UA-2016-12-14-000943-a,Управління освіти Солом'янської районної в місті Києві державної адміністрації,Капітальний ремонт місць загального користування в СЗШ №166,200000.00,Капітальний ремонт місць загального користування в СЗШ №166,Капітальний ремонт місць загального користування в СЗШ №166,"вул.Єреванська, 20","вулиця Пітерська, 12",КМДА,37485490,False,Загальноосвітня школа №166,Тернопіль,True,Тернопіль Загальноосвітня школа №166,,
1,UA-2016-12-29-000878-c-L1,UA-2016-12-29-000878-c,Управління освіти Солом'янської районної в місті Києві державної адміністрації,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,59049.60,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,"вул. Курська, 12","вулиця Пітерська, 12",КМДА,37485490,False,Гімназія №177,Тернопіль,True,Тернопіль Гімназія №177,,
2,UA-2017-04-28-001555-b-L1,UA-2017-04-28-001555-b,Управління освіти Солом'янської районної в місті Києві державної адміністрації,"ДСТУ Б.Д. 1.1-1:2013 Капітальний ремонт інженерних мереж в СЗШ № 12 за адресою: вул. Зелена, буд. 12 Солом’янського району м. Києва (за кодом CPV 45450000-6 Інші завершальні будівельні роботи)",306000.00,"ДСТУ Б.Д. 1.1-1:2013 Капітальний ремонт інженерних мереж в СЗШ № 12 за адресою: вул. Зелена, буд. 12 Солом’янського району м. Києва (за кодом CPV 45450000-6 Інші завершальні будівельні роботи)","ДСТУ Б.Д. 1.1-1:2013 Капітальний ремонт інженерних мереж в СЗШ № 12 за адресою: вул. Зелена, буд. 12 Солом’янського району м. Києва (за кодом CPV 45450000-6 Інші завершальні будівельні роботи)","вул. Зелена, буд. 12","вулиця Пітерська, 12",КМДА,37485490,False,Загальноосвітня школа № 12,Тернопіль,True,Тернопіль Загальноосвітня школа №12,,
3,UA-2017-06-02-001017-a-L1,UA-2017-06-02-001017-a,ВК Управління освіти виконавчого комітету Полтавської міської ради,"Капітальний ремонт приміщення харчоблоку Полтавського СНВК № 45 Полтавської міської ради по вул. Грушевського, 17а",320383.20,,"Капітальний ремонт приміщення харчоблоку Полтавського СНВК № 45 Полтавської міської ради по вул. Грушевського, 17а","вул. Грушевського, 17а","вул. Соборності, 36",Полтавська міська рада,2145725,False,Навчально-виховний комплекс (об'єднання) № 45,Тернопіль,True,Тернопіль Навчально-виховний комплекс (об'єднання) №45,,
4,UA-2017-04-28-000337-c-L1,UA-2017-04-28-000337-c,Управління освіти Деснянської районної в місті Києві державної адміністрації,"Капітальний ремонт покрівлі в дошкільному навчальному закладі (ясла-садок) № 534 Деснянського району міста Києва, вул. Маршала Жукова, 24-Б",200000.00,В очікувану вартість закупівлі входять витрати на здійснення технічного нагляду та проведення експертизи кошторисної документації,"Капітальний ремонт покрівлі в дошкільному навчальному закладі (ясла-садок) № 534 Деснянського району міста Києва, вул. Маршала Жукова, 24-Б","вул. Маршала Жукова, 24-Б","вул. Закревського, 15-А",КМДА,37501684,False,ДНЗ № 534,Тернопіль,True,Тернопіль ДНЗ №534,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19181,UA-2019-08-02-000783-c-L1,UA-2019-08-02-000783-c,Управління освіти Деснянської районної в місті Києві державної адміністрації,Послуги зі встановлення системи звукового оповіщення про пожежу та управління евакуацією людей,252875.30,"Послуги надаються для спеціального навчально - виховного комплексу ""Мрія"" Деснянського району міста Києва",Послуги зі встановлення системи звукового оповіщення про пожежу та управління евакуацією людей,"вул. Вікентія Беретті, 9","вул. Закревського, 15-А",КМДА,37501684,False,Спеціальна загальноосвітня школа Мрія,Тернопіль,True,Тернопіль Спеціальна загальноосвітня школа Мрія,,
19182,UA-2019-08-02-000780-c-L1,UA-2019-08-02-000780-c,Управління освіти Деснянської районної в місті Києві державної адміністрації,Послуги зі встановлення системи звукового оповіщення про пожежу та управління евакуацією людей,317804.96,"Послуги надаються для спеціалізованого навчально - виховного комплексу ""Усмішка"" з поглибленим вивченням англійської мови Деснянського району міста Києва",Послуги зі встановлення системи звукового оповіщення про пожежу та управління евакуацією людей,"вул. Оноре де Бальзака, 90-А","вул. Закревського, 15-А",КМДА,37501684,False,Навчально-виховний комплекс (об'єднання) Усмішка,Тернопіль,True,Тернопіль Навчально-виховний комплекс (об'єднання) Усмішка,,
19183,UA-2019-05-16-001259-a-L1,UA-2019-05-16-001259-a,Територіальний відділ освіти Шевченківського району департаменту освіти і науки Запорізької міськради,44110000-4 Конструкційні матеріали(плитка),10000.00,"Додаток до річного плану(депутатський фонд)ЗНВК""Мрія""",44110000-4 Конструкційні матеріали(плитка),вул.М.Корищенка 38а,"вул. Чарівна, 145-А",Запорізька міська рада,37611438,False,Навчально-виховний комплекс (об'єднання) Мрія,Тернопіль,True,Тернопіль Навчально-виховний комплекс (об'єднання) Мрія,,
19184,UA-2019-03-19-001031-a-L1,UA-2019-03-19-001031-a,Територіальний відділ освіти Шевченківського району департаменту освіти і науки Запорізької міськради,"37530000-2 Вироби для парків розваг, настільних або кімнатних ігор(вуличне ігрове обладнання)",32000.00,"Додаток до річного плану(депутатський фонд)ДНЗ ""Надія""","37530000-2 Вироби для парків розваг, настільних або кімнатних ігор(вуличне ігрове обладнання)","вул.Карпенка-Карого, 27а ЦРД Надія","вул. Чарівна, 145-А",Запорізька міська рада,37611438,False,ДНЗ Надія,Тернопіль,True,Тернопіль ДНЗ Надія,,


In [56]:
len(tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()].id.unique().tolist())

1459

In [57]:
tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()].sample(3)

Unnamed: 0,ИдентификаторЛота,Идентификатор,Организатор,Тендер,СуммаЛота,ОписаниеТендера,Лот,Адрес поставки,АдресОрганизатора,Главный орган,IDOrganizator,Заклад-замовник,Назва закладу,city,Главный орган_check,id,Longitude,Latitude
8364,UA-2018-06-19-001540-a-L1,UA-2018-06-19-001540-a,Департамент освіти Харківської міської ради,"Інші завершальні будівельні роботи (Капітальний ремонт м'якої покрівлі будівлі комунального закладу ""Дошкільний навчальний заклад (ясла-садок) №193 Харківської міської ради"" за адресою: м. Харкі...",274966.8,ДСТУ Б Д.1.1-1:2013,"Інші завершальні будівельні роботи (Капітальний ремонт м'якої покрівлі будівлі комунального закладу ""Дошкільний навчальний заклад (ясла-садок) №193 Харківської міської ради"" за адресою: м. Харкі...","вул. Северина Потоцького, 26","вул. Сумська, 64",Харківська міська рада,22704183,False,ДНЗ №193,Тернопіль,True,Тернопіль ДНЗ №193,,
14106,UA-2019-06-18-000814-c-L1,UA-2019-06-18-000814-c,Департамент освіти і науки Запорізької міської ради,"код ДК 021:2015 ""45260000-7"" Покрівельні роботи та інші спеціалізовані будівельні роботи (Поточний ремонт покрівлі Дошкільного навчального закладу (ясла-садок) № 293 «Багряні вітрила» Запорізької...",151892.0,,"код ДК 021:2015 ""45260000-7"" Покрівельні роботи та інші спеціалізовані будівельні роботи (Поточний ремонт покрівлі Дошкільного навчального закладу (ясла-садок) № 293 «Багряні вітрила» Запорізької...","вул. Новокузнецька, 19","вул. Незалежної України, 39-Б",Запорізька міська рада,37573094,False,ДНЗ № 293,Тернопіль,True,Тернопіль ДНЗ №293,,
5640,UA-2018-07-24-001993-b-L1,UA-2018-07-24-001993-b,Управління освіти Миколаївської міської ради,Послуги з промивки системи опалення ДНЗ №127 в м.Миколаєві,8696.18,,Послуги з промивки системи опалення ДНЗ №127 в м.Миколаєві,"пр.Миру,27-Г","вул. Інженерна, 3",Миколаївська міська рада,2145010,False,ДНЗ №127,Тернопіль,True,Тернопіль ДНЗ №127,,


In [59]:
tenders_without_coordinates = tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()]

In [68]:
unique_school_names = tenders_without_coordinates.id.unique().tolist()
df_unique_school_names = pd.DataFrame(unique_school_names, columns =['id'])

#### Визначення координат

In [58]:
# import pandas as pd 
# from geopy.geocoders import GoogleV3
# from geopy.extra.rate_limiter import RateLimiter

# def get_coordinates(df, target_column, new_column):
#     API = "AIzaSyBVrzpUWXjQTdE3ugrd6Iaon0QNQNCmPh4"
#     PATH_SC = "data/mon_data/expdata_sc.csv"
#     geolocator = GoogleV3(api_key=API)
#     geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)
#     df[new_column] = df[target_column].apply(geocode)
#     df["Longitude"] = df[new_column].apply(lambda loc: loc.longitude if loc else "ERROR")
#     df["Latitude"] = df[new_column].apply(lambda loc: loc.latitude if loc else "ERROR")
#     return df

In [83]:
# coordinates_1 = df_unique_school_names[:300]
# coordinates_2 = df_unique_school_names[300:600]
# coordinates_3 = df_unique_school_names[600:900]
# coordinates_4 = df_unique_school_names[900:1200]
# coordinates_5 = df_unique_school_names[1200:]

In [84]:
# df_with_coordinates_1 = get_coordinates(coordinates_1, 'id', 'Address')
# df_with_coordinates_1.to_excel("data/coordinates/df_with_coordinates_1.xlsx", index=False)
# df_with_coordinates_1.to_csv("data/coordinates/df_with_coordinates_1.csv", index=False, sep=';')

RateLimiter caught an error, retrying (0/2 tries). Called with (*('Тернопіль ДНЗ №377',), **{}).
Traceback (most recent call last):
  File "/home/artem/anaconda3/lib/python3.7/site-packages/geopy/geocoders/base.py", line 355, in _call_geocoder
    page = requester(req, timeout=timeout, **kwargs)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 525, in open
    response = self._open(req, data)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 543, in _open
    '_open', req)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 503, in _call_chain
    result = func(*args)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1362, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1322, in do_open
    r = h.getresponse()
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1344, in getresponse
    response.begin(

In [88]:
# df_with_coordinates_2 = get_coordinates(coordinates_2, 'id', 'Address')
# df_with_coordinates_2.to_excel("data/coordinates/df_with_coordinates_2.xlsx", index=False)
# df_with_coordinates_2.to_csv("data/coordinates/df_with_coordinates_2.csv", index=False, sep=';')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # Remove the CWD from sys.path while we load stuff.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # This is added back by InteractiveShellApp.init_path()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if sys.path[0] == '':


In [92]:
# df_with_coordinates_3 = get_coordinates(coordinates_3, 'id', 'Address')
# df_with_coordinates_3.to_excel("data/coordinates/df_with_coordinates_3.xlsx", index=False)
# df_with_coordinates_3.to_csv("data/coordinates/df_with_coordinates_3.csv", index=False, sep=';')

RateLimiter caught an error, retrying (0/2 tries). Called with (*('Тернопіль ДНЗ №519',), **{}).
Traceback (most recent call last):
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1319, in do_open
    encode_chunked=req.has_header('Transfer-encoding'))
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1252, in request
    self._send_request(method, url, body, headers, encode_chunked)
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1298, in _send_request
    self.endheaders(body, encode_chunked=encode_chunked)
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1247, in endheaders
    self._send_output(message_body, encode_chunked=encode_chunked)
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1026, in _send_output
    self.send(msg)
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 966, in send
    self.connect()
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1414, 

RateLimiter caught an error, retrying (0/2 tries). Called with (*('Тернопіль Загальноосвітня школа №239',), **{}).
Traceback (most recent call last):
  File "/home/artem/anaconda3/lib/python3.7/site-packages/geopy/geocoders/base.py", line 355, in _call_geocoder
    page = requester(req, timeout=timeout, **kwargs)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 525, in open
    response = self._open(req, data)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 543, in _open
    '_open', req)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 503, in _call_chain
    result = func(*args)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1362, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1322, in do_open
    r = h.getresponse()
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1344, in getresponse
 

In [94]:
# df_with_coordinates_4 = get_coordinates(coordinates_4, 'id', 'Address')
# df_with_coordinates_4.to_excel("data/coordinates/df_with_coordinates_4.xlsx", index=False)
# df_with_coordinates_4.to_csv("data/coordinates/df_with_coordinates_4.csv", index=False, sep=';')

RateLimiter caught an error, retrying (0/2 tries). Called with (*('Тернопіль Загальноосвітня школа №226',), **{}).
Traceback (most recent call last):
  File "/home/artem/anaconda3/lib/python3.7/site-packages/geopy/geocoders/base.py", line 355, in _call_geocoder
    page = requester(req, timeout=timeout, **kwargs)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 525, in open
    response = self._open(req, data)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 543, in _open
    '_open', req)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 503, in _call_chain
    result = func(*args)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1362, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1322, in do_open
    r = h.getresponse()
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1344, in getresponse
 

RateLimiter caught an error, retrying (0/2 tries). Called with (*('Тернопіль ДНЗ №296',), **{}).
Traceback (most recent call last):
  File "/home/artem/anaconda3/lib/python3.7/site-packages/geopy/geocoders/base.py", line 355, in _call_geocoder
    page = requester(req, timeout=timeout, **kwargs)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 525, in open
    response = self._open(req, data)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 543, in _open
    '_open', req)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 503, in _call_chain
    result = func(*args)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1362, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1322, in do_open
    r = h.getresponse()
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1344, in getresponse
    response.begin(

In [95]:
# df_with_coordinates_5 = get_coordinates(coordinates_5, 'id', 'Address')
# df_with_coordinates_5.to_excel("data/coordinates/df_with_coordinates_5.xlsx", index=False)
# df_with_coordinates_5.to_csv("data/coordinates/df_with_coordinates_5.csv", index=False, sep=';')

RateLimiter caught an error, retrying (0/2 tries). Called with (*('Тернопіль Спеціалізована школа №260',), **{}).
Traceback (most recent call last):
  File "/home/artem/anaconda3/lib/python3.7/site-packages/geopy/geocoders/base.py", line 355, in _call_geocoder
    page = requester(req, timeout=timeout, **kwargs)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 525, in open
    response = self._open(req, data)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 543, in _open
    '_open', req)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 503, in _call_chain
    result = func(*args)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1362, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "/home/artem/anaconda3/lib/python3.7/urllib/request.py", line 1322, in do_open
    r = h.getresponse()
  File "/home/artem/anaconda3/lib/python3.7/http/client.py", line 1344, in getresponse
  

In [97]:
# frames = [df_with_coordinates_1, df_with_coordinates_2, df_with_coordinates_3, 
#           df_with_coordinates_4, df_with_coordinates_5]
# df_with_coordinates_full = pd.concat(frames)
# df_with_coordinates_full.to_csv("data/coordinates/df_with_coordinates_full.csv", index=False, sep=';')

In [98]:
df_with_coordinates_full = pd.read_csv('data/coordinates/df_with_coordinates_full.csv', sep=';')

In [111]:
tenders_without_coordinates.drop(['Longitude', 'Latitude'], axis=1, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


In [112]:
"""
    tenders_not_by_schools - фінальна таблиця шкіл-не-замовників
"""
tenders_with_coordinates_2 = pd.merge(tenders_without_coordinates, 
                                  df_with_coordinates_full, 
                                  on='id', 
                                  how='left')

In [113]:
tenders_with_coordinates_full = pd.concat([tenders_with_coordinates_2, tenders_not_by_schools[tenders_not_by_schools.Latitude.notnull()]])

In [118]:
tenders_with_coordinates_full.Longitude.value_counts()

25.594767    8408
25.629152    1220
25.563161     585
25.556699     491
25.592814     446
             ... 
25.643857       1
25.592393       1
25.594758       1
25.584538       1
25.607554       1
Name: Longitude, Length: 129, dtype: int64

In [119]:
tenders_with_coordinates_full

Unnamed: 0,ИдентификаторЛота,Идентификатор,Организатор,Тендер,СуммаЛота,ОписаниеТендера,Лот,Адрес поставки,АдресОрганизатора,Главный орган,IDOrganizator,Заклад-замовник,Назва закладу,city,Главный орган_check,id,Address,Longitude,Latitude
0,UA-2016-12-14-000943-a-L1,UA-2016-12-14-000943-a,Управління освіти Солом'янської районної в місті Києві державної адміністрації,Капітальний ремонт місць загального користування в СЗШ №166,200000.00,Капітальний ремонт місць загального користування в СЗШ №166,Капітальний ремонт місць загального користування в СЗШ №166,"вул.Єреванська, 20","вулиця Пітерська, 12",КМДА,37485490,False,Загальноосвітня школа №166,Тернопіль,True,Тернопіль Загальноосвітня школа №166,"Ternopil, Ternopil Oblast, Ukraine, 46000",25.5948,49.5535
1,UA-2016-12-29-000878-c-L1,UA-2016-12-29-000878-c,Управління освіти Солом'янської районної в місті Києві державної адміністрації,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,59049.60,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,"вул. Курська, 12","вулиця Пітерська, 12",КМДА,37485490,False,Гімназія №177,Тернопіль,True,Тернопіль Гімназія №177,"Ternopil, Ternopil Oblast, Ukraine, 46000",25.5948,49.5535
2,UA-2017-04-28-001555-b-L1,UA-2017-04-28-001555-b,Управління освіти Солом'янської районної в місті Києві державної адміністрації,"ДСТУ Б.Д. 1.1-1:2013 Капітальний ремонт інженерних мереж в СЗШ № 12 за адресою: вул. Зелена, буд. 12 Солом’янського району м. Києва (за кодом CPV 45450000-6 Інші завершальні будівельні роботи)",306000.00,"ДСТУ Б.Д. 1.1-1:2013 Капітальний ремонт інженерних мереж в СЗШ № 12 за адресою: вул. Зелена, буд. 12 Солом’янського району м. Києва (за кодом CPV 45450000-6 Інші завершальні будівельні роботи)","ДСТУ Б.Д. 1.1-1:2013 Капітальний ремонт інженерних мереж в СЗШ № 12 за адресою: вул. Зелена, буд. 12 Солом’янського району м. Києва (за кодом CPV 45450000-6 Інші завершальні будівельні роботи)","вул. Зелена, буд. 12","вулиця Пітерська, 12",КМДА,37485490,False,Загальноосвітня школа № 12,Тернопіль,True,Тернопіль Загальноосвітня школа №12,"Ternopil, Ternopil Oblast, Ukraine, 46002",25.5737,49.5444
3,UA-2017-06-02-001017-a-L1,UA-2017-06-02-001017-a,ВК Управління освіти виконавчого комітету Полтавської міської ради,"Капітальний ремонт приміщення харчоблоку Полтавського СНВК № 45 Полтавської міської ради по вул. Грушевського, 17а",320383.20,,"Капітальний ремонт приміщення харчоблоку Полтавського СНВК № 45 Полтавської міської ради по вул. Грушевського, 17а","вул. Грушевського, 17а","вул. Соборності, 36",Полтавська міська рада,2145725,False,Навчально-виховний комплекс (об'єднання) № 45,Тернопіль,True,Тернопіль Навчально-виховний комплекс (об'єднання) №45,"Bryhadna Street, 6, Ternopil, Ternopil's'ka oblast, Ukraine, 46012",25.5567,49.5615
4,UA-2017-04-28-000337-c-L1,UA-2017-04-28-000337-c,Управління освіти Деснянської районної в місті Києві державної адміністрації,"Капітальний ремонт покрівлі в дошкільному навчальному закладі (ясла-садок) № 534 Деснянського району міста Києва, вул. Маршала Жукова, 24-Б",200000.00,В очікувану вартість закупівлі входять витрати на здійснення технічного нагляду та проведення експертизи кошторисної документації,"Капітальний ремонт покрівлі в дошкільному навчальному закладі (ясла-садок) № 534 Деснянського району міста Києва, вул. Маршала Жукова, 24-Б","вул. Маршала Жукова, 24-Б","вул. Закревського, 15-А",КМДА,37501684,False,ДНЗ № 534,Тернопіль,True,Тернопіль ДНЗ №534,"Ternopil, Ternopil Oblast, Ukraine, 46000",25.5948,49.5535
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18983,UA-2019-05-10-001248-a-L1,UA-2019-05-10-001248-a,Департамент освіти та науки Івано-Франківської міської ради,"Капітальний ремонт харчоблоку дошкільного навчального закладу №20 ""Росинка""",71800.00,,"Капітальний ремонт харчоблоку дошкільного навчального закладу №20 ""Росинка"" (Електромонтажні роботи ДНЗ №20 ""Росинка"")","вулиця С.Петлюри, 21","вул. Кардинала Любомира Гузара, 15",Івано-Франківська міська рада,40312499,False,ДНЗ №20,Тернопіль,True,Тернопіль ДНЗ №20,,25.6290003,49.5462538
19041,UA-2017-04-19-000882-b-L1,UA-2017-04-19-000882-b,Управління освіти Рівненського міськвиконкому,"Капітальний ремонт покрівлі Рівненської гімназії ""Гармонія"" Рівненської міської ради по вул. Князя Романа, 16 в м. Рівне",500768.00,,"Капітальний ремонт покрівлі Рівненської гімназії ""Гармонія"" Рівненської міської ради по вул. Князя Романа, 16 в м. Рівне","вул. Князя Романа, 16","вул. Соборна, 30",Рівненська міська рада,25675242,False,Гімназія Гармонія,Тернопіль,True,Тернопіль Гімназія Гармонія,,25.5992682,49.5528446
19078,UA-2018-10-01-000068-b-L1,UA-2018-10-01-000068-b,Управління освіти Рівненського міськвиконкому,"Поточний ремонт приміщення Рівненської гімназії ""Гармонія"" Рівненської міської ради по вул. проспект Генерала Безручка,26 в м. Рівне",87507.37,,"Поточний ремонт приміщення Рівненської гімназії ""Гармонія"" Рівненської міської ради по вул. проспект Генерала Безручка,26 в м. Рівне","проспект Генерала Безручка,26","вул. Соборна, 30",Рівненська міська рада,25675242,False,Гімназія Гармонія,Тернопіль,True,Тернопіль Гімназія Гармонія,,25.5992682,49.5528446
19081,UA-2018-10-19-000322-c-L1,UA-2018-10-19-000322-c,Управління освіти Рівненського міськвиконкому,"Поточний ремонт приміщення Рівненської гімназії ""Гармонія"" Рівненської міської ради по вул. Кн. Романа ,16 в м. Рівне",96028.23,,"Поточний ремонт приміщення Рівненської гімназії ""Гармонія"" Рівненської міської ради по вул. Кн. Романа ,16 в м. Рівне","вул. Кн. Романа,16","вул. Соборна, 30",Рівненська міська рада,25675242,False,Гімназія Гармонія,Тернопіль,True,Тернопіль Гімназія Гармонія,,25.5992682,49.5528446
