In [1]:
import importlib
import pandas as pd
import numpy as np
import re

from functions.functions_dataframe import * 
from parameters.filters_lists import *
from parameters.route import *
from parameters.regs import *

pd.set_option("display.max_colwidth", 200)

###### Step 1. Завантажити датафрейми ProZorro, МОН, створити список ЄДРПОУ освітніх закладів

In [55]:
"""
Завантажити базу закупівель ProZorro (деталі у README.txt)
"""
df_prozorro = pd.read_csv('data/TrainingProZorroForSchoolProject20162019.csv', sep = ';', low_memory = False)

In [56]:
"""
Завантажити датафрейм МОН навчальниз закладів, підготовлений у "fileter MON data.ipynb"
"""
df_mon_data_bez_upravlin_osvity = pd.read_csv('data/MON_schools_dnz.csv', sep = ';')

In [57]:
"""
Створити список унікальних ЄДРПОУ освітніх закладів МОН
"""
mon_data_list = df_mon_data_bez_upravlin_osvity.edrpou.unique().tolist()

### ШКОЛИ ЗАМОВНИКИ

##### Step 2: Створити базу навчальних закладів, які самостійно купують через ProZorro

In [58]:
"""
Відфільтрувати базу закупівель df_prozorro за колонкою IDOrganizator.
Фільтром є списко МОН з ЄДРПОУ начальних закладів mon_data_list (попередній крок)

df_tenders_by_schools - база закупівель, де навчальні заклади є замовниками
df_undefined_1 - база невизначених закупівель ProZorro
"""
df_tenders_by_schools = df_prozorro[df_prozorro['IDOrganizator'].isin(mon_data_list)]
df_undefined_1 = df_prozorro[~df_prozorro['IDOrganizator'].isin(mon_data_list)]

##### Step 3: Класифікація шкіл-замовників по типах за колонкою "Организатор"

In [59]:
df_tenders_by_schools_classified = classification_by_type_one_column(df_tenders_by_schools, ['Организатор'], filter_priority, filter_name_priority, 'Тип закладу')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[new_column] = "Невідомо"
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[column + "_check"] = ""
  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case = False, na = False, regex = True)
A value is trying to be set on a copy of a slice from a DataF

##### Step 4: Нумерація шкіл-замовників

In [60]:
df_tenders_by_schools_numerated = numeration_one_column(df_tenders_by_schools_classified, ['Организатор'], reg_number)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df['Номер'] = given_df[column].str.findall(f"{regex}", flags = re.IGNORECASE).apply(''.join)


##### Step 5: Cтворення фінальної бази ШКІЛ ЗАМОВНИКІВ

In [61]:
"""
"Назва закладу" - колонка з фіналізованою назвою школи. Принцип визначення:
    1. Якщо колонка "Номер" не є пустою - додається до "Типу закладу"
    2. Якщо колонка "Номер" є пустою - "Назва закладу" отримує значення "Организатор"
    
* колонка "Назва" не враховується через високий ступінь повторюваності з "Организатор" і часткову точність
"""
df_tenders_by_schools = df_tenders_by_schools_numerated.copy()
df_tenders_by_schools['Номер'] = df_tenders_by_schools['Номер'].replace(r'^\s*$', np.nan, regex=True) # технічна дія: перетворити пусті строки в NaN
df_tenders_by_schools['Назва закладу'] = np.where(df_tenders_by_schools['Номер'].notnull(), 
                                                  df_tenders_by_schools['Тип закладу'] + ' ' + df_tenders_by_schools['Номер'], 
                                                  df_tenders_by_schools['Организатор'])

In [62]:
"""
Створення колонки 'Заклад-замовник'
Видалення "технічних" колонок, створених функціями.
"""
df_tenders_by_schools['Заклад-замовник'] = True
col_names = df_prozorro.columns.tolist()
col_names += ['Заклад-замовник', 'Назва закладу']
df_tenders_by_schools = df_tenders_by_schools[col_names]

### ШКОЛИ НЕ-ЗАМОВНИКИ

##### Step 5: Пошук закупівель шкіл-не-замовників за допомогою ключових слів

In [63]:
"""
З-поміж датафрейму невизначених закупівель (df_undefined_1) за ключовими словами у списках filter_keywords, filter_keywords_strict 
відбираються закупівлі освітніх закладів у колонках: Тендер, ОписаниеТендера, Лот 

Регулярний вираз /b{}/b шукає за ключовими словами зі списку filter_keywords_strict_extended тільки 
ті паттерни, де ці ключові слова є окремими, а не зустрічають всередині слів. 
Це зменшить кількість "брудних" даних
"""
df_tenders_not_by_schools_by_keywords = df_undefined_1[df_undefined_1['Тендер'].astype(str).str.contains(r'({})'.format('|'.join(filter_keywords)), 
            case = False, na = False, regex = True)  | 
                                                      df_undefined_1['ОписаниеТендера'].astype(str).str.contains(r'({})'.format('|'.join(filter_keywords)), 
            case = False, na = False, regex = True) | 
                                                      df_undefined_1['Лот'].astype(str).str.contains(r'({})'.format('|'.join(filter_keywords)), 
            case = False, na = False, regex = True) | df_undefined_1['Тендер'].astype(str).str.contains(r'(/b{}/b)'.format('|'.join(filter_keywords_strict)), 
            case = False, na = False, regex = True) | df_undefined_1['ОписаниеТендера'].astype(str).str.contains(r'(/b{}/b)'.format('|'.join(filter_keywords_strict)), 
            case = False, na = False, regex = True) | df_undefined_1['Лот'].astype(str).str.contains(r'(/b{}/b)'.format('|'.join(filter_keywords_strict)), 
            case = False, na = False, regex = True)]

##### Step 6: Класифікація шкіл-не-замовників за типами

In [64]:
df_tenders_not_by_schools_classified = classification_by_type_three_cols(df_tenders_not_by_schools_by_keywords,
                                                                         ['Тендер', 'ОписаниеТендера', 'Лот'], 
                                                                         filter_priority, 
                                                                         filter_name_priority)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df['Тип закладу'] = "Невідомо"
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[column + "_check"] = ""
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case = False, na = False, regex = True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,c

##### Step 7: Нумерація шкіл-не-замовників

In [65]:
"""
df_step7 - датафрейм, створений із закупівель df_tenders_not_by_schools_classified, де був успішно визначений "Тип закладу"
"""
df_step7 = df_tenders_not_by_schools_classified[df_tenders_not_by_schools_classified['Тип закладу'] != 'Невідомо'].copy()

## START

In [74]:
filter_keywords_full = ['шк[оі]л',
                         'загальноосвітн',
                         'гімназ',
                         'ліце[йя]',
                         'колегіум',
                         'сад[ко][аку]',
                         'яс[ле][ал]',
                         'центр розвитку дитини',
                         'навчальн.*виховн.*комплекс',
                         'зош', 'знз', 'сзш', '[ун]вк', 'днз', 'нво']

In [100]:
def add_columns(df, columns, filter_keywords_full, prefix):
    for column in columns:
        df[prefix + column] = df.apply(lambda x: match_regex(x[column], filter_keywords_full), axis=1)
    return df

In [134]:
def match_regex(value, filter_keywords_full):
    import re
    result = re.sub(r'[^\x00-\x7F\x80-\xFF\u0100-\u017F\u0180-\u024F\u1E00-\u1EFF]', '', value)
#     result2 = re.sub("[^a-zA-Z]", '', result) 
#     result3 = re.sub('^\s*$', '', result2) 
    k = ''
    value = pd.Series(result)
    if value.astype(str).str.contains(r'{}(\s)+[№\w](\d)+'.format('|'.join(filter_keywords_full)), case = False, na = False, regex = True).any():
        test = str(value.astype(str))
        m = re.search(r'{}(\s)+[№\w](\d)+'.format('|'.join(filter_keywords_full)), test, re.IGNORECASE)
        idx1, idx2 = m.span()[0], m.span()[1]
        return_pattern = test[idx1:idx2] + " "
        running_idx = idx2+2
        while True:
            try: 
                b = int(test[running_idx])
                running_idx += 1
            except ValueError:
                break
        return_pattern += test[idx2:running_idx]
        if not "№" in return_pattern:
            return_pattern = return_pattern[:-1]
        return return_pattern.rstrip()

In [135]:
df_step7_with_newcols = add_columns(df_step7, ['Тендер'], filter_keywords_full, 'Номер ')

In [136]:
df_step7_with_newcols

Unnamed: 0,ИдентификаторЛота,Идентификатор,Организатор,Тендер,СуммаЛота,ОписаниеТендера,Лот,Адрес поставки,АдресОрганизатора,Главный орган,IDOrganizator,Тип закладу,Тендер_check,ОписаниеТендера_check,Лот_check,Номер закладу тест,Номер Тендер
158,UA-2016-12-20-002907-b-L1,UA-2016-12-20-002907-b,Департамент житлово-комунального господарства Чернівецької міської ради,Знесення та посадка дерев на Садгірському Центральному кладовищі на вул. Я.Налепки,73978,,Знесення та посадка дерев на Садгірському Центральному кладовищі на вул. Я.Налепки,Героїв Майдану 176,"вул. Героїв Майдану,176",Чернівецька міська рада,25082708,ДНЗ,False,False,False,ДНЗ,
159,UA-2016-12-14-000943-a-L1,UA-2016-12-14-000943-a,Управління освіти Солом'янської районної в місті Києві державної адміністрації,Капітальний ремонт місць загального користування в СЗШ №166,200000,Капітальний ремонт місць загального користування в СЗШ №166,Капітальний ремонт місць загального користування в СЗШ №166,"вул.Єреванська, 20","вулиця Пітерська, 12",КМДА,37485490,Загальноосвітня школа,False,False,False,Загальноосвітн я,
260,UA-2016-12-20-000859-b-L1,UA-2016-12-20-000859-b,Департамент житлово-комунального господарства Чернівецької міської ради,"Поточний ремонт гравійної дороги вул. І. Карбулицького вздовж огорожі НВК ""Берегиня"" в м . Чернівцях",79154,,"Поточний ремонт гравійної дороги вул. І. Карбулицького вздовж огорожі НВК ""Берегиня"" в м . Чернівцях",Героїв Майдану 176,"вул. Героїв Майдану,176",Чернівецька міська рада,25082708,Навчально-виховний комплекс (об'єднання),False,False,False,Навчально-виховний комплекс,
262,UA-2016-12-29-000877-c-L1,UA-2016-12-29-000877-c,Управління освіти Солом'янської районної в місті Києві державної адміністрації,Поточний (аваріний) ремонт запчастин МІТП в ДНЗ №650 та ДНЗ №649,57178,Поточний (аваріний) ремонт запчастин МІТП в ДНЗ №650,Поточний (аваріний) ремонт запчастин МІТП в ДНЗ №650 та ДНЗ №649,"вул. Соломянська, 19-а","вулиця Пітерська, 12",КМДА,37485490,ДНЗ,False,False,False,ДНЗ,
297,UA-2016-12-29-000878-c-L1,UA-2016-12-29-000878-c,Управління освіти Солом'янської районної в місті Києві державної адміністрації,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,59049.6,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,Поточний (аварійний) ремонт електрощитової з заміною лічильника в гімназії №177,"вул. Курська, 12","вулиця Пітерська, 12",КМДА,37485490,Гімназія,False,False,False,Гімназ і,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
537729,UA-2019-05-13-001139-c-L1,UA-2019-05-13-001139-c,Управління освіти Дарницької районної в місті Києві державної адміністрації,"ДК 021: 2015 (CPV) код 45330000-9 «Водопровідні та санітарно-технічні роботи» (поточний (аварійний) ремонт внутрішніх інженерних мереж з заміною ділянок трубопроводів ХВП, ГВП, запірної арматури ...",99981.58,"ДК 021: 2015 (CPV) код 45330000-9 «Водопровідні та санітарно-технічні роботи» (поточний (аварійний) ремонт внутрішніх інженерних мереж з заміною ділянок трубопроводів ХВП, ГВП, запірної арматури ...","ДК 021: 2015 (CPV) код 45330000-9 «Водопровідні та санітарно-технічні роботи» (поточний (аварійний) ремонт внутрішніх інженерних мереж з заміною ділянок трубопроводів ХВП, ГВП, запірної арматури ...","вул.Бориспільська, 51","вул. Харківське шосе, 168-к",КМДА,37448113,Загальноосвітня школа,False,False,False,Загальноосвітн я,
537730,UA-2019-05-13-000634-a-L1,UA-2019-05-13-000634-a,ВК Управління освіти виконавчого комітету Полтавської міської ради,Капітальний ремонт асфальтного покриття СНВК № 45,1120327.86,,Капітальний ремонт асфальтного покриття СНВК № 45,"вул. Грушевського, 17а","вул. Соборності, 36",Полтавська міська рада,2145725,Навчально-виховний комплекс (об'єднання),False,False,False,Навчально-виховний комплекс,
537766,UA-2019-05-13-001397-c-L1,UA-2019-05-13-001397-c,Управління освіти Дарницької районної в місті Києві державної адміністрації,"ДК 021: 2015 (CPV) код 50720000-8 «Послуги з ремонту і технічного обслуговування систем центрального опалення» (поточний (аварійний) ремонт системи ЦО з заміною опалювальних приладів, ділянок тру...",100000,"ДК 021: 2015 (CPV) код 50720000-8 «Послуги з ремонту і технічного обслуговування систем центрального опалення» (поточний (аварійний) ремонт системи ЦО з заміною опалювальних приладів, ділянок тру...","ДК 021: 2015 (CPV) код 50720000-8 «Послуги з ремонту і технічного обслуговування систем центрального опалення» (поточний (аварійний) ремонт системи ЦО з заміною опалювальних приладів, ділянок тру...","вул.Вишняківська, 12-б","вул. Харківське шосе, 168-к",КМДА,37448113,ДНЗ,False,False,False,ДНЗ,
537844,UA-2019-05-13-000510-b-L1,UA-2019-05-13-000510-b,ВК Управління освіти виконавчого комітету Полтавської міської ради,Капітальний ремонт покрівлі ДНЗ № 36,961600,,Капітальний ремонт покрівлі ДНЗ № 36,"вул. Чураївни, 7","вул. Соборності, 36",Полтавська міська рада,2145725,ДНЗ,False,False,False,ДНЗ,


### END

In [None]:
"""
Функція long_numeration створює два дафайреми:
    df_tenders_not_by_schools_numerated - тендери, де номер визначився 
    df_step7_numerated_undefined - тендери, де номер не визначився
"""
df_tenders_not_by_schools_numerated, df_step7_numerated_undefined = long_numeration(df_step7, reg_number)
df_tenders_not_by_schools_numerated['Назва закладу'] = df_tenders_not_by_schools_numerated['Тип закладу'] + ' ' + df_tenders_not_by_schools_numerated['Номер']

##### Step 8: Найменування шкіл-не-замовників

In [None]:
"""
Завантажити датафрейм МОН власних назв навчальниз закладів, підготовлений у "fileter MON data.ipynb"
school_names - список унікальних назв 
"""
df_names_clean = pd.read_csv('data/MON_names.csv', sep = ';')
df_names_clean = df_names_clean[df_names_clean['Назва'].notnull()] # Видалити NaN
school_names = df_names_clean['Назва'].unique().tolist()

In [None]:
"""
Функція long_naming створює два дафайреми:
    df_tenders_not_by_schools_named - тендери, де номер визначився.
    df_tenders_not_by_schools_undefined - тендери шкіл не замовників, де не визначилась назва (і номер).
    Такі закупівлі вважаються закупівлями управінь освіти для різних закладів.
"""
df_tenders_not_by_schools_named, df_tenders_not_by_schools_undefined = long_naming(df_step7_numerated_undefined, reg_double_quotes, school_names)
df_tenders_not_by_schools_named['Назва закладу'] = df_tenders_not_by_schools_named['Тип закладу'] + ' ' + df_tenders_not_by_schools_named['Назва']

##### Step 9: Об'єднання двох датафреймів шкіл-не-замовників

In [None]:
"""
df_tenders_not_by_schools - датафрейм шкіл-не-замовників з визначеними номерами і назвами
Створення колонки 'Заклад-замовник'
"""
frames = [df_tenders_not_by_schools_numerated, df_tenders_not_by_schools_named]
df_tenders_not_by_schools = pd.concat(frames)
df_tenders_not_by_schools['Заклад-замовник'] = False
df_tenders_not_by_schools = df_tenders_not_by_schools[col_names]

### ВСІ ШКОЛИ

##### Step 10: Об'єднання датафреймів шкіл-не-замовників та шкіл-замовників

In [None]:
frames = [df_tenders_by_schools, df_tenders_not_by_schools]
df_tenders = pd.concat(frames)

In [None]:
df_tenders.to_csv('result/df_tenders.csv', sep=';', index=False)

### 1. Підготовка датафрейму з координатами

In [2]:
"""
df_coordinates - база даних шкіл МОН з 24 містами обласних центрів України, включно з координатами
"""
df_coordinates = pd.read_csv('data/coordinates/coordinates_DNZ _SC.csv', sep=';')

In [3]:
"""
    B df_coordinates cтворити нову колонку ЄДРПОУ без помилкових текстових символів
"""
df_coordinates['edrpou_clean'] = df_coordinates.edrpou.str.extract('(\d+)', expand=False)
df_coordinates['edrpou_clean'] = df_coordinates['edrpou_clean'].fillna(0)
df_coordinates['edrpou_clean'] = pd.to_numeric(df_coordinates['edrpou_clean'])
df_coordinates['edrpou_clean'] = df_coordinates['edrpou_clean'].astype(np.int64)

In [4]:
df_coordinates['updated_education_type_name'] = np.where(df_coordinates.education_type_name == '(null)',
                                              'ДНЗ', df_coordinates.education_type_name)

In [5]:
df_coordinates = classification_by_type_one_column(df_coordinates, ['university_name'], filter_priority, filter_name_priority, 'Тип закладу 1')
df_coordinates = classification_by_type_one_column(df_coordinates, ['updated_education_type_name'], filter_priority, filter_name_priority, 'Тип закладу 2')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[new_column] = "Невідомо"
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  given_df[column + "_check"] = ""
  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case = False, na = False, regex = True)
A value is trying to be set on a copy of a slice from a DataF

In [6]:
df_coordinates['Тип закладу'] = np.where(~df_coordinates['Тип закладу 1'].str.contains('Невідомо'),
                                           df_coordinates['Тип закладу 1'],
                                           df_coordinates['Тип закладу 2'])
df_coordinates['Тип закладу'] = np.where(~df_coordinates['Тип закладу'].str.contains('Невідомо'),
                                           df_coordinates['Тип закладу'],
                                           df_coordinates['updated_education_type_name'])
df_coordinates['Тип закладу'] = df_coordinates['Тип закладу'].str.replace('загальносвітня школа', 'Загальносвітня школа')

In [7]:
"""
    df_coordinates_numerated - виокремлення номерів шкільних закладів з бази МОН 
"""
df_coordinates_numerated = numeration_one_column(df_coordinates, ['university_name'], reg_number)

In [8]:
"""
    df_coordinates_named - виокремлення власні назви шкільних закладів з бази МОН.
    Створення колонки "id" з визначених двома способами власної назви закладу
"""
df_coordinates_named = naming(df_coordinates, ['university_name'], reg_double_quotes, "naming")
df_coordinates_named['Назва'] = np.where(df_coordinates_named.university_name_naming_first.notnull(),
                                             df_coordinates_named.university_name_naming_first,
                                             df_coordinates_named.university_name_naming_last)
"""
    Створення колонки "Назва закладу". Там, де є номер - присвоєюється номер, в інших випадках - власна назва
"""
df_coordinates_named['Назва закладу'] = np.where(df_coordinates_named['Номер'].str.contains('№'), 
                                               df_coordinates['Тип закладу'] + ' '+ df_coordinates_named['Номер'],
                                               df_coordinates['Тип закладу'] + ' '+ df_coordinates_named['Назва'])
df_coordinates_named['id'] =  df_coordinates_named.koatuu_name_short + ' ' + df_coordinates_named['Назва закладу']

In [9]:
"""    
    Створення датафрейму df_coordinates_with_id з id як назвою закладу та унікальним ідентифікатором
"""

cols_to_include = ['id', 'Longitude', 'Latitude', 'edrpou_clean']
df_coordinates_with_id = df_coordinates_named[cols_to_include]
df_coordinates_with_id['id'] = df_coordinates_with_id['id'].str.replace('№ ', '№')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  import sys


### 2. Підготовка датафрейму з тендерами

In [10]:
# For debugging
df_tenders = pd.read_csv('result/df_tenders.csv', sep=';')
df_tenders_true = df_tenders[df_tenders['Заклад-замовник'] == True]
df_tenders_false = df_tenders[df_tenders['Заклад-замовник'] == False]

### Фінальна таблиця шкіл-замовників

In [11]:
"""
    tenders_by_schools - фінальна таблиця шкіл-замовників
"""
tenders_by_schools = df_tenders_true.merge(df_coordinates_with_id, left_on='IDOrganizator', right_on='edrpou_clean')
tenders_by_schools.id = np.where(tenders_by_schools.id.str.contains('Невідомо'),
                             tenders_by_schools['Назва закладу'],
                             tenders_by_schools.id)

### Підготовка таблиці тендерів навчальних закладів, які не є замовниками

##### Підготовка в df_tenders_false (таблиці закупівель шкіл-не-замовників) колонки  'id': унікального ідентифікатора

In [24]:
cities_list = ['Тернопіль', 'Хмельницький', 'Луцьк', 'Суми', 'Кропивницький', 'Львів', 'Київ', 'Вінниця', 
                'Черкаси', 'Житомир', 'Івано-Франківськ', 'Харків', 'Ужгород', 'Дніпро', 'Миколаїв', 'Рівне', 
                'Херсон', 'Чернівці', 'Запоріжжя', 'Полтава', 'Одеса', 'Чернігів', 'Сєвєродонецьк', 'Краматорськ'
              ]
# golovuj_organ_list = df_tenders['Главный орган'].unique().tolist()  
golovuj_organ_list = [['Тернопільська міська рада'],
                         ['Хмельницька міська рада'],
                         ['Луцька міська рада'],
                         ['Сумська міська рада'],
                         ['Кропивницька міська рада'],
                         ['Львівська міська рада'],
                         ['КМДА'],
                         ['Вінницька міська рада'],
                         ['Черкаська міська рада'],
                         ['Житомирська міська рада'],
                         ['Івано-Франківська міська рада'],
                         ['Харківська міська рада'],
                         ['Ужгородська міська рада'],
                         ['Дніпровська міська рада'],
                         ['Миколаївська міська рада'],
                         ['Рівненська міська рада'],
                         ['Херсонська міська рада'],
                         ['Чернівецька міська рада'],
                         ['Запорізька міська рада'],
                         ['Полтавська міська рада'],
                         ['Одеська міська рада'],
                         ['Чернігівська міська рада'],
                         ['Сєвєродонецька міська рада'],
                         ['Краматорська міська рада']
                     ]

df_tenders_false_with_cities = classification_by_type_one_column_2(df_tenders_false, ['Главный орган'], golovuj_organ_list, cities_list, 'city')
df_tenders_false_with_cities['id'] = df_tenders_false_with_cities['city'] + ' ' + df_tenders_false_with_cities['Назва закладу']
df_tenders_false_with_cities['id'] = df_tenders_false_with_cities['id'].str.replace('№ ', '№')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  del sys.path[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.

In [32]:
"""
    Таблиця шкіл-не-замовників з трьома ключовими параметрами
"""

df_coordinates_with_id_short = df_coordinates_with_id[['id', 'Longitude', 'Latitude']]

###### Фінальна таблиця шкіл-не-замовників

In [33]:
"""
    tenders_not_by_schools - фінальна таблиця шкіл-не-замовників
"""
tenders_not_by_schools = pd.merge(df_tenders_false_with_cities, 
                                  df_coordinates_with_id_short, 
                                  on='id', 
                                  how='left')
tenders_not_by_schools.shape

(20079, 18)

In [35]:
# tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()]
# len(tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()].id.unique().tolist())
# tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()].sample(3)

648

In [38]:
tenders_without_coordinates = tenders_not_by_schools[tenders_not_by_schools.Latitude.isnull()]

In [39]:
unique_school_names = tenders_without_coordinates.id.unique().tolist()
df_unique_school_names = pd.DataFrame(unique_school_names, columns =['id'])

#### Визначення координат

In [40]:
# import pandas as pd 
# from geopy.geocoders import GoogleV3
# from geopy.extra.rate_limiter import RateLimiter

# def get_coordinates(df, target_column, new_column):
#     API = "AIzaSyBVrzpUWXjQTdE3ugrd6Iaon0QNQNCmPh4"
#     PATH_SC = "data/mon_data/expdata_sc.csv"
#     geolocator = GoogleV3(api_key=API)
#     geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)
#     df[new_column] = df[target_column].apply(geocode)
#     df["Longitude"] = df[new_column].apply(lambda loc: loc.longitude if loc else "ERROR")
#     df["Latitude"] = df[new_column].apply(lambda loc: loc.latitude if loc else "ERROR")
#     return df
# df_with_coordinates = get_coordinates(df_unique_school_names, 'id', 'Address')
# df_with_coordinates.to_excel("data/coordinates/df_with_coordinates.xlsx", index=False)
# df_with_coordinates.to_csv("data/coordinates/df_with_coordinates.csv", index=False, sep=';')

In [46]:
df_with_coordinates = pd.read_csv('data/coordinates/df_with_coordinates.csv', sep=';')

In [50]:
tenders_without_coordinates.drop(['Longitude', 'Latitude'], axis=1, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


In [51]:
"""
    tenders_not_by_schools - фінальна таблиця шкіл-не-замовників
"""
tenders_with_coordinates_2 = pd.merge(tenders_without_coordinates, 
                                  df_with_coordinates, 
                                  on='id', 
                                  how='left')

In [52]:
tenders_with_coordinates_full = pd.concat([tenders_with_coordinates_2, tenders_not_by_schools[tenders_not_by_schools.Latitude.notnull()]])

In [53]:
tenders_with_coordinates_full.Longitude.value_counts()

25.6369493    90
34.5514169    89
34.4775966    84
25.6466718    80
25.5558206    70
              ..
30.5955103     1
30.705227      1
23.9723863     1
30.5133154     1
28.6037496     1
Name: Longitude, Length: 3303, dtype: int64

In [54]:
tenders_with_coordinates_full

Unnamed: 0,ИдентификаторЛота,Идентификатор,Организатор,Тендер,СуммаЛота,ОписаниеТендера,Лот,Адрес поставки,АдресОрганизатора,Главный орган,IDOrganizator,Заклад-замовник,Назва закладу,city,Главный орган_check,id,Address,Longitude,Latitude
0,UA-2017-06-02-001017-a-L1,UA-2017-06-02-001017-a,ВК Управління освіти виконавчого комітету Полтавської міської ради,"Капітальний ремонт приміщення харчоблоку Полтавського СНВК № 45 Полтавської міської ради по вул. Грушевського, 17а",320383.20,,"Капітальний ремонт приміщення харчоблоку Полтавського СНВК № 45 Полтавської міської ради по вул. Грушевського, 17а","вул. Грушевського, 17а","вул. Соборності, 36",Полтавська міська рада,2145725,False,Навчально-виховний комплекс (об'єднання) № 45,Полтава,False,Полтава Навчально-виховний комплекс (об'єднання) №45,"Poltava, Poltava Oblast, Ukraine, 36000",34.5514,49.5883
1,UA-2017-11-04-000056-c-L1,UA-2017-11-04-000056-c,Управління освіти та інноваційного розвитку Печерської районної в місті Києві державної адміністрації,"Поточний ремонт вентиляції ДНЗ № 265 за адресою: м. Київ, б-р Дружби Народів, 22-А (ДК 021:2015 50700000-2 Послуги з ремонту і технічного обслуговування будівельних конструкцій)",60000.00,"Поточний ремонт вентиляції ДНЗ № 265 за адресою: м. Київ, б-р Дружби Народів, 22-А (ДК 021:2015 50700000-2 Послуги з ремонту і технічного обслуговування будівельних конструкцій) згідно документації.","Поточний ремонт вентиляції ДНЗ № 265 за адресою: м. Київ, б-р Дружби Народів, 22-А (ДК 021:2015 50700000-2 Послуги з ремонту і технічного обслуговування будівельних конструкцій)","б-р. Дружби Народів, 22-А","вул. Інститутська, буд. 24/7",КМДА,39833860,False,ДНЗ № 265,Київ,False,Київ ДНЗ №265,"Druzhby Narodiv Blvd, 22А, Kyiv, Ukraine, 01103",30.543,50.4155
2,UA-2017-03-16-000247-b-L1,UA-2017-03-16-000247-b,Департамент капітального будівництва,"Реконструкція будівлі (термомодернізація) комунального закладу ""Загальноосвітня школа І ступеня №5 Вінницької міської ради"" по вул. Б. Ступки,18 в м. Вінниці",251358.00,"Розробка проектно-кошторисної документації по об'єкту ""Реконструкція будівлі (термомодернізація) комунального закладу ""Загальноосвітня школа І ступеня №5 Вінницької міської ради"" по вул. Б. Ступки...","Реконструкція будівлі (термомодернізація) комунального закладу ""Загальноосвітня школа І ступеня №5 Вінницької міської ради"" по вул. Б. Ступки,18 в м. Вінниці","вул. Б. Ступки,18","вул. Пирогова , буд. 34а",Вінницька міська рада,3084204,False,Загальноосвітня школа №5,Вінниця,False,Вінниця Загальноосвітня школа №5,"Bohdan Stupka St, 18, Vinnytsia, Vinnyts'ka oblast, Ukraine, 21000",28.4738,49.2462
3,UA-2017-12-26-002162-a-L1,UA-2017-12-26-002162-a,Управління капітального будівництва Чернігівської міської ради,"Спортивний майданчик для міні-футболу зі штучним покриттям загальноосвітньої школи І-ІІІ ступенів фізико-математичного профілю № 12, що знаходиться за адресою вул. Доценка, 22, м.Чернігів - реконс...",1308157.00,"Спортивний майданчик для міні-футболу зі штучним покриттям загальноосвітньої школи І-ІІІ ступенів фізико-математичного профілю № 12, що знаходиться за адресою вул. Доценка, 22, м.Чернігів - реконс...","Спортивний майданчик для міні-футболу зі штучним покриттям загальноосвітньої школи І-ІІІ ступенів фізико-математичного профілю № 12, що знаходиться за адресою вул. Доценка, 22, м.Чернігів - реконс...","вул. Івана Мазепи, 19","вул. Івана Мазепи, 19, к. 216",Чернігівська міська рада,5517729,False,Загальноосвітня школа № 12,Чернігів,False,Чернігів Загальноосвітня школа №12,"Dotsenka St, 22, Chernihiv, Chernihivs'ka oblast, Ukraine, 14000",31.3262,51.5181
4,UA-2017-04-20-001523-b-L1,UA-2017-04-20-001523-b,ДЕПАРТАМЕНТ ГУМАНІТАРНОЇ ПОЛІТИКИ ДНІПРОВСЬКОЇ МІСЬКОЇ РАДИ,"Поточний ремонт сантехнічних мереж внутрішньої каналізації у підвалі КЗО ""Середня загальноосвітня школа №115"" ДМР за адресою: м. Дніпро, вул. Передова,427",170000.00,,"Поточний ремонт сантехнічних мереж внутрішньої каналізації у підвалі КЗО ""Середня загальноосвітня школа №115"" ДМР за адресою: м. Дніпро, вул. Передова,427","пр.Д.Яворницького,75а","просп. Д.Яворницького 75,А",Дніпровська міська рада,40506248,False,Загальноосвітня школа №115,Дніпро,False,Дніпро Загальноосвітня школа №115,"Peredova St, 427, Dnipropetrovs'k, Дніпропетровська, Ukraine, 49000",34.9664,48.527
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20074,UA-2019-08-02-000780-c-L1,UA-2019-08-02-000780-c,Управління освіти Деснянської районної в місті Києві державної адміністрації,Послуги зі встановлення системи звукового оповіщення про пожежу та управління евакуацією людей,317804.96,"Послуги надаються для спеціалізованого навчально - виховного комплексу ""Усмішка"" з поглибленим вивченням англійської мови Деснянського району міста Києва",Послуги зі встановлення системи звукового оповіщення про пожежу та управління евакуацією людей,"вул. Оноре де Бальзака, 90-А","вул. Закревського, 15-А",КМДА,37501684,False,Навчально-виховний комплекс (об'єднання) Усмішка,Київ,False,Київ Навчально-виховний комплекс (об'єднання) Усмішка,,30.6130052,50.5287336
20075,UA-2019-05-16-001259-a-L1,UA-2019-05-16-001259-a,Територіальний відділ освіти Шевченківського району департаменту освіти і науки Запорізької міськради,44110000-4 Конструкційні матеріали(плитка),10000.00,"Додаток до річного плану(депутатський фонд)ЗНВК""Мрія""",44110000-4 Конструкційні матеріали(плитка),вул.М.Корищенка 38а,"вул. Чарівна, 145-А",Запорізька міська рада,37611438,False,Навчально-виховний комплекс (об'єднання) Мрія,Запоріжжя,False,Запоріжжя Навчально-виховний комплекс (об'єднання) Мрія,,35.2387054,47.8281741
20076,UA-2019-05-16-001259-a-L1,UA-2019-05-16-001259-a,Територіальний відділ освіти Шевченківського району департаменту освіти і науки Запорізької міськради,44110000-4 Конструкційні матеріали(плитка),10000.00,"Додаток до річного плану(депутатський фонд)ЗНВК""Мрія""",44110000-4 Конструкційні матеріали(плитка),вул.М.Корищенка 38а,"вул. Чарівна, 145-А",Запорізька міська рада,37611438,False,Навчально-виховний комплекс (об'єднання) Мрія,Запоріжжя,False,Запоріжжя Навчально-виховний комплекс (об'єднання) Мрія,,35.2387054,47.8281741
20077,UA-2019-03-19-001031-a-L1,UA-2019-03-19-001031-a,Територіальний відділ освіти Шевченківського району департаменту освіти і науки Запорізької міськради,"37530000-2 Вироби для парків розваг, настільних або кімнатних ігор(вуличне ігрове обладнання)",32000.00,"Додаток до річного плану(депутатський фонд)ДНЗ ""Надія""","37530000-2 Вироби для парків розваг, настільних або кімнатних ігор(вуличне ігрове обладнання)","вул.Карпенка-Карого, 27а ЦРД Надія","вул. Чарівна, 145-А",Запорізька міська рада,37611438,False,ДНЗ Надія,Запоріжжя,False,Запоріжжя ДНЗ Надія,,35.2213238,47.8347432
