In [132]:
import pandas as pd
import re
import msoffcrypto
import io
import openpyxl
import os
import shutil
import requests
import json
import datetime
import itertools
import pickle
import operator


from xlrd import XLRDError
from zipfile import BadZipFile
from pathlib import Path
import dateparser
from collections import Counter, defaultdict


In [43]:
def decrypt(path):
    temp = io.BytesIO()

    with open(path, 'rb') as f:
        excel = msoffcrypto.OfficeFile(f)
        excel.decrypt(temp)
    del temp


def save_dfs(dfs, path):
    Path(path).mkdir(parents=True, exist_ok=True)
    for path_to_file, df in dfs.items():
        df.to_feather(path=f"{path}/{os.path.basename(path_to_file)}_parsed")


def read_files(dir, regex = r".*"):
    skipped_files = []
    errors = set()

    def handler(path, exc):
        if type(exc) == XLRDError and str(exc) == "Excel xlsx file; not supported":
            return pd.read_excel(path, engine='openpyxl')
        skipped_files.append((str(path), exc.__repr__()))
        errors.add(exc.__repr__())


    def wrapper(dir):
        files = dict()
        regex_engine = [
            (r".*xlsx",'openpyxl'),
            (r".*xls", 'xlrd'),
        ]
        for file_or_dir in dir.iterdir():
            if file_or_dir.is_dir():
                files.update(wrapper(file_or_dir))
            for regex_excel, engine in regex_engine:
                if re.fullmatch(regex_excel, str(file_or_dir)) and re.fullmatch(regex, str(file_or_dir)):
                    try:
                        files[str(file_or_dir)] = pd.read_excel(file_or_dir, engine=engine)
                    except Exception as e:
                        result = handler(file_or_dir, e)
                        if result is not None:
                            files[str(file_or_dir)] = result
        return files
    result = wrapper(dir)
    print(f"Unparsed files: ", *skipped_files, sep='\n')
    print(f"Errors: ", *errors)
    return result



In [44]:
def parse_date(series):
    for i, elem in enumerate(series):
        series.loc[i] = dateparser.parse(elem)
    return series


def extract_year(name):
    start, _ = re.search(r"01.01.20.*xls.*", name).span()
    return int(name[start + 6: start + 10]) - 1

def extract_string_for_search(s):
    city = re.search("(г\.|город ).*", s)

    if city is not None:
        start, end = city.span()
        return s[start:end]

    return s

def add_string_col_to_df(df, raw_string_column="raw_string", result_column="clean_address"):
    df[result_column] = df[raw_string_column].apply(extract_string_for_search)
    return df


In [45]:
def process_kr(df):
    df = df.drop(df.columns[-1], axis = 1)
    columns = df.columns = [
        "Номер проекта/ работы",
        "Наименование проекта/работы",
        "Наименование подразделения Банка России",
        "Общая стоимость",
        "Начало",
        "Окончание",
        "Всего (утверждено)",
        "В том числе по статьям (утверждено)",
        "Всего (на отчетную дату)",
        "В том числе по статьям (на отчетную дату)",
        "% от годового объема затрат (расходов) по актуальной версии плана (на отчетную дату)",
        "Всего (ожидаемое исполнение)",
        "В том числе по статьям (ожидаемое исполнение)",
        "% от годового объема затрат (расходов) по актуальной версии плана (ожидаемое исполнение)",
        "Код состояния проекта/работы",
        "Документ",
        "Дата",
        ]
    columns_cast_to_str = [
        "Начало",
        "Окончание",
    ]
    for column in columns_cast_to_str:
        df[column] = df[column].astype("string")
    df = df[df[columns[0]].isna() == False]
    df = df.reset_index(drop=True)
    df = df.drop([0, 1])
    df = df.reset_index(drop=True)
    df["raw_string"] = df["Наименование проекта/работы"]
    df["start_date"] = parse_date(df["Начало"].astype(str))
    df["end_date"] =  parse_date(df["Окончание"].astype(str))
    df["amount_money"] = pd.to_numeric(df["Общая стоимость"])

    return df[["raw_string", "start_date", "end_date", "amount_money"]]

def process_kr_old(df, name):
    df = df.drop(df.columns[-1], axis = 1)
    columns = df.columns = [
        "№ п/п",
        "Наименование раздела, наименование территориального учреждения, другого подразделения Банка",
        "Сметная стоимость капитального ремонта, в т.ч. ПИР",
        "Освоено",
        "Всего (утверждено)",
        "В том числе по статьям (утверждено)",
        "По объектам целевого резерва",
        "Освоено",
        "Ожидаемое освоение за год",
        "Дата завершения работ (месяц, год)",
        ]
    columns_with_amount_of_money = [
        "Сметная стоимость капитального ремонта, в т.ч. ПИР",
        "Освоено",
        "Всего (утверждено)",
        "В том числе по статьям (утверждено)",
        "По объектам целевого резерва",
        "Освоено",
        "Ожидаемое освоение за год",
    ]
    for column in columns_with_amount_of_money:
        df[column] *= 1000
    df = df[df[columns[0]].isna() == False]
    df = df.reset_index(drop=True)
    df = df.drop([i for i in range(9)])
    df = df.reset_index(drop=True)
    df["raw_string"] = df["Наименование раздела, наименование территориального учреждения, другого подразделения Банка"]
    df["start_date"] = pd.to_datetime(extract_year(name))
    df["end_date"] =  parse_date(df["Дата завершения работ (месяц, год)"].astype(str))
    df["amount_money"] = pd.to_numeric(df["Всего (утверждено)"])

    return df[["raw_string", "start_date", "end_date", "amount_money"]]


def process_kr_2019(df, name):
    df = df.drop(df.columns[-1], axis = 1)
    	 								
				
    columns = df.columns = [
        "№ п/п",
        "Наименование раздела, наименование территориального учреждения, другого подразделения Банка России, наименование и местонахождение объекта",
        "Сметная стоимость капитального ремонта, в т.ч. ПИР",
        "Освоено",
        "Всего(утверждено)",
        "по объектам, обеспеченным документацией",
        "по объектам целевого резерва",
        "Освоено за отчетный период",
        "Ожидаемое освоение за год",
        "Дата завершения работ (месяц, год)",
        ]
    columns_with_amount_of_money = [
        "Сметная стоимость капитального ремонта, в т.ч. ПИР",
        "Освоено",
        "Всего(утверждено)",
        "по объектам, обеспеченным документацией",
        "по объектам целевого резерва",
        "Освоено за отчетный период",
        "Ожидаемое освоение за год",
    ]
    for column in columns_with_amount_of_money:
        df[column] *= 1000
    df = df[df[columns[0]].isna() == False]
    df = df.reset_index(drop=True)
    df = df.drop([i for i in range(9)])
    df = df.reset_index(drop=True)
    df["raw_string"] = df["Наименование раздела, наименование территориального учреждения, другого подразделения Банка России, наименование и местонахождение объекта"]
    df["start_date"] = pd.to_datetime(datetime.date(year=extract_year(name), month=1, day=1))
    df["end_date"] = parse_date(df["Дата завершения работ (месяц, год)"].astype(str))
    df["amount_money"] = pd.to_numeric(df["Всего(утверждено)"])

    return df[["raw_string", "start_date", "end_date", "amount_money"]]

def process_ks(df):
    df = df.drop(df.columns[-1], axis = 1)
    columns = df.columns = [
        "Номер проекта/ работы",
        "Наименование проекта/работы",
        "Наименование подразделения Банка России",
        "Общая стоимость",
        "Начало",
        "Окончание",
        "Всего (утверждено)",
        "В том числе по статьям 1 (утверждено)",
        "В том числе по статьям 2 (утверждено)",
        "Всего (на отчетную дату)",
        "В том числе по статьям 1 (на отчетную дату)",
        "В том числе по статьям 2 (на отчетную дату)",
        "% от годового объема затрат (расходов) по актуальной версии плана (на отчетную дату)",
        "Всего (ожидаемое исполнение)",
        "В том числе по статьям 1 (ожидаемое исполнение)",
        "В том числе по статьям 2 (ожидаемое исполнение)",
        "% от годового объема затрат (расходов) по актуальной версии плана (ожидаемое исполнение)",
        "Код состояния проекта/работы",
        "Документ",
        "Дата",
        ]
    columns_with_amount_of_money = [
       "Всего (утверждено)",
        "В том числе по статьям 1 (утверждено)",
        "В том числе по статьям 2 (утверждено)",
        "Всего (на отчетную дату)",
        "В том числе по статьям 1 (на отчетную дату)",
        "В том числе по статьям 2 (на отчетную дату)",
        "% от годового объема затрат (расходов) по актуальной версии плана (на отчетную дату)",
        "Всего (ожидаемое исполнение)",
        "В том числе по статьям 1 (ожидаемое исполнение)",
        "В том числе по статьям 2 (ожидаемое исполнение)",
        "% от годового объема затрат (расходов) по актуальной версии плана (ожидаемое исполнение)",
    ]
    for column in columns_with_amount_of_money:
        df[column] = pd.to_numeric(df[column], errors='coerce')
    df = df[df[columns[0]].isna() == False]
    df = df.reset_index(drop=True)
    df = df.drop([0, 1, 2, 3])
    df = df.reset_index(drop=True)
    df["raw_string"] = df["Наименование проекта/работы"]
    df["start_date"] = parse_date(df["Начало"].astype(str))
    df["end_date"] =  parse_date(df["Окончание"].astype(str))
    df["amount_money"] = pd.to_numeric(df["Общая стоимость"])
    return df[["raw_string", "start_date", "end_date", "amount_money"]]

def process_ks_old(df):
    df = df.drop(df.columns[-1], axis = 1)
    columns = df.columns = [
        "Номер проекта/ работы",
        "Наименование проекта/работы",
        "Наименование подразделения Банка России",
        "Начало",
        "Окончание",
        "Общая стоимость",
        "Всего (освоено)",
        "В том числе по статьям незавершеннное строительство",
        "Всего (план)",
        "В том числе по объектам, обеспеченным документацией",
        "В том числе по объектам целевого резерва",
        "Всего (на отчетную дату)",
        "% от годового объема затрат (расходов) по актуальной версии плана (на отчетную дату)",
        "Всего (ожидаемое исполнение)",
        "% от годового объема затрат (расходов) по актуальной версии плана (ожидаемое исполнение)",
        "Объем фондов",
        "Срок ввода фондов (месяц, год)",
    ]
    columns_with_amount_of_money = [
        "Общая стоимость",
        "Всего (освоено)",
        "В том числе по статьям незавершеннное строительство",
        "Всего (план)",
        "В том числе по объектам, обеспеченным документацией",
        "В том числе по объектам целевого резерва",
        "Всего (на отчетную дату)",
        "Всего (ожидаемое исполнение)",
        "Объем фондов",
    ]
    df = df[df[columns[0]].isna() == False]
    df = df.reset_index(drop=True)
    df = df.drop([0, 1, 2, 3])
    df = df.reset_index(drop=True)
    for column in columns_with_amount_of_money:
        df[column] = pd.to_numeric(df[column], errors='coerce')
        df[column] *= 1000
    df["raw_string"] = df["Наименование проекта/работы"]
    df["start_date"] = pd.to_datetime(df["Начало"], format='mixed')
    df["end_date"] = pd.to_datetime(df["Окончание"], format='mixed')
    df["amount_money"] = pd.to_numeric(df["Общая стоимость"])

    return df[["raw_string", "start_date", "end_date", "amount_money"]]

def process_tr(df, name):
    df.columns = [
        "Номер п/п",
        "Местонахождение (адрес) объекта",
        "Код строки",
        "Идентификационный номер закупки по ГПЗ",
        "Сумма сметных ассигнований по Справке №1",
        "Подрядная организация",
        "№ договора, дата кем подписан",
        "Сумма договора",
        "Срок действия договора (месяц начала и месяц окончания работ MM.ГГ/MM.ГГ)",
        "Выбор подрядчика",
        "Согласование договора",
        "Заключение договора",
        "Примечания",
        "хз",
    ]
    columns_with_amount_of_money = [
        "Сумма сметных ассигнований по Справке №1",
        "Сумма договора",
    ]
    df = df.reset_index(drop=True)
    df = df.drop([i for i in range(13)])
    df = df.reset_index(drop=True)
    for column in columns_with_amount_of_money:
        df[column] *= 1000

    df["raw_string"] = df["Местонахождение (адрес) объекта"]
    df["start_date"] = pd.to_datetime(datetime.date(year=extract_year(name), month=1, day=1))
    df["end_date"] = pd.to_datetime(datetime.date(year=extract_year(name), month=12, day=31))
    df["amount_money"] = pd.to_numeric(df["Сумма сметных ассигнований по Справке №1"])

    return df[["raw_string", "start_date", "end_date", "amount_money"]]


def process_tr_old(df, name):
    df.columns = [
        "Номер п/п",
        "Наименование статей и подстатей и местонахождение объектов",
        "Код строки",
        "Утверждено согласно справке по форме 1",
        "Запланировано по объектам согласно справке по форме 1",
        "Запланировано по объектам c учетом корректировки справки по форме 1",
        "Доведено на отчетную дату",
        "Освоено с начала года",
        "Подлежит освоению",
        "Код ТУ",
        ]
    columns_with_amount_of_money = [
        "Утверждено согласно справке по форме 1",
        "Запланировано по объектам согласно справке по форме 1",
        "Запланировано по объектам c учетом корректировки справки по форме 1",
        "Доведено на отчетную дату",
        "Освоено с начала года",
        "Подлежит освоению",
    ]
    df = df.reset_index(drop=True)
    df = df.drop([i for i in range(13)])
    df = df.reset_index(drop=True)
    for column in columns_with_amount_of_money:
        df[column] *= 1000
    df["raw_string"] = df["Наименование статей и подстатей и местонахождение объектов"]
    df["start_date"] = pd.to_datetime(datetime.date(year=extract_year(name), month=1, day=1))
    df["end_date"] = pd.to_datetime(datetime.date(year=extract_year(name), month=12, day=31))
    df["amount_money"] = pd.to_numeric(df[ "Запланировано по объектам согласно справке по форме 1"])

    return df[["raw_string", "start_date", "end_date", "amount_money"]]

In [46]:
dfs_kr = dict()

In [47]:
dfs = read_files(Path("train_data/KC_TR_KR_clean/"), r"train_data/KC_TR_KR_clean/KR.*202[0|1|2|3].*")
dfs_kr.update({path: process_kr(df) for path, df in dfs.items()})

Unparsed files: 
Errors: 


In [48]:
dfs_kr_old = read_files(Path("train_data/KC_TR_KR_clean/"), r"train_data/KC_TR_KR_clean/KR.*201[7|8].x.*")
dfs_kr.update({path: process_kr_old(df, path) for path, df in dfs_kr_old.items()})


Unparsed files: 
Errors: 


In [49]:
dfs_kr_2019 = read_files(Path("train_data/KC_TR_KR_clean/"), r"train_data/KC_TR_KR_clean/KR.*2019.*")
dfs_kr.update({path: process_kr_2019(df, path) for path, df in dfs_kr_2019.items()})

Unparsed files: 
Errors: 


In [50]:
kr_joined = pd.concat(dfs_kr, axis=0, join="outer", ignore_index=True)
kr_joined =  kr_joined[kr_joined["amount_money"] > 0]
kr_joined = kr_joined.drop_duplicates().reset_index(drop=True)
kr_joined


Unnamed: 0,raw_string,start_date,end_date,amount_money
0,Выборочный капитальный ремонт здания Централь...,2020-04-01 00:00:00,2022-03-01 00:00:00,3942549.0
1,Выборочный капитальный ремонт здания Централь...,2021-03-01 00:00:00,2021-04-01 00:00:00,97782.0
2,Выборочный капитальный ремонт нежилых помещен...,2021-03-01 00:00:00,2021-09-01 00:00:00,2907500.0
3,Выборочный капитальный ремонт помещения бокс-...,2019-06-01 00:00:00,2021-08-01 00:00:00,12784075.0
4,Капитальный ремонт здания убежища (лит. А) Дал...,2019-08-01 00:00:00,2021-12-01 00:00:00,9465229.0
...,...,...,...,...
80,Выборочный капитальный ремонт административног...,2018-01-01 00:00:00,2018-10-24 00:00:00,2618920.0
81,Выборочный капитальный ремонт административног...,2018-01-01 00:00:00,2018-09-24 00:00:00,2467100.0
82,Капитальный ремонт наружной канализации здания...,2018-01-01 00:00:00,2018-08-24 00:00:00,1405710.0
83,Капитальный ремонт здания «Спальный корпус № 2...,2018-01-01 00:00:00,2018-12-24 00:00:00,14180990.0


In [51]:
dfs_ks = dict()

In [52]:
dfs_ks_new = read_files(Path("train_data/KC_TR_KR/"), r"train_data/KC_TR_KR/KS.*202[0|1|2|3].*")
dfs_ks.update({name: process_ks(df) for name, df in dfs_ks_new.items()})


Unparsed files: 
Errors: 


In [53]:
dfs_ks_old = read_files(Path("train_data/KC_TR_KR/"), r"train_data/KC_TR_KR/KS.*20[1].*")
dfs_ks.update({name: process_ks_old(df) for name, df in dfs_ks_old.items()})

Unparsed files: 
Errors: 


In [54]:
ks_joined = pd.concat(dfs_ks, axis=0, join="outer", ignore_index=True)
ks_joined =  ks_joined[ks_joined["amount_money"] > 0.0]
ks_joined = ks_joined.drop_duplicates().reset_index(drop=True)
ks_joined = ks_joined.loc[0:46]
ks_joined

Unnamed: 0,raw_string,start_date,end_date,amount_money
0,Реконструкция отдельных помещений информатизац...,2019-11-01 00:00:00,2022-03-01 00:00:00,38969029.0
1,Создание автоматической системы газового пожар...,2019-03-01 00:00:00,2021-09-01 00:00:00,9098392.0
2,Создание приточно-вытяжной вентиляции в здании...,2019-07-01 00:00:00,2021-04-01 00:00:00,2626707.0
3,Создание системы вентиляции в помещениях столо...,2018-04-01 00:00:00,2021-07-01 00:00:00,9250355.0
4,Создание системы кондиционирования воздуха в п...,2020-04-01 00:00:00,2022-07-01 00:00:00,22064173.0
5,"Создание системы вентиляции в РКЦ, пристройке ...",2021-04-01 00:00:00,2021-12-01 00:00:00,368168.0
6,Создание системы автоматического газового пожа...,2017-07-01 00:00:00,2022-02-01 00:00:00,5443001.0
7,Создание системы кондиционирования администрат...,2017-07-01 00:00:00,2022-03-01 00:00:00,7423212.0
8,Создание системы приточно-вытяжной вентиляции ...,2017-07-01 00:00:00,2022-03-01 00:00:00,5894921.0
9,Создание автоматической установки газового пож...,2019-05-01 00:00:00,2021-11-01 00:00:00,9264732.0


In [55]:
dfs_tr = dict()

In [56]:
dfs_tr_2023 = read_files(Path("train_data/KC_TR_KR_clean/"), r"train_data/KC_TR_KR_clean/TR.*202[1|3].xls.*")
dfs_tr.update({name: process_tr(df, name) for name, df in dfs_tr_2023.items()})


Unparsed files: 
Errors: 


In [57]:
dfs_tr_new = read_files(Path("train_data/KC_TR_KR_clean/"), r"train_data/KC_TR_KR_clean/TR.*202[0|2].xls.*")
dfs_tr.update({name: process_tr_old(df, name) for name, df in dfs_tr_new.items()})

Unparsed files: 
Errors: 


In [58]:
dfs_tr_old = read_files(Path("train_data/KC_TR_KR_clean/"), r"train_data/KC_TR_KR_clean/TR.*2019.xls.*")
dfs_tr.update({name: process_tr_old(df, name) for name, df in dfs_tr_old.items()})

Unparsed files: 
Errors: 


In [59]:
tr_joined = pd.concat(dfs_tr, axis=0, join="outer", ignore_index=True)
tr_joined =  tr_joined[tr_joined["amount_money"] > 0.0]
tr_joined = tr_joined.drop_duplicates().reset_index(drop=True)
tr_joined


Unnamed: 0,raw_string,start_date,end_date,amount_money
0,"Нежилые помещения г. Владивосток, ул. Светланс...",2020-01-01,2020-12-31,259990.0
1,"Нежилые помещения г. Владивосток, ул. Светланс...",2020-01-01,2020-12-31,122590.0
2,"Жилое помещение, Приморский край, г. Владивост...",2020-01-01,2020-12-31,114940.0
3,"Жилое помещение, Приморский край, г. Владивост...",2020-01-01,2020-12-31,333130.0
4,Здание центрального банка Российской Федерации...,2020-01-01,2020-12-31,122090.0
...,...,...,...,...
250,"11. Здание столовая на 108 мест, лит. Т пансио...",2018-01-01,2018-12-31,2174150.0
251,"12. Здание проходной, лит. Ю по адресу: Камчат...",2018-01-01,2018-12-31,352360.0
252,"13. Здание проходной, лит. Э по адресу: Камчат...",2018-01-01,2018-12-31,359790.0
253,"Всего по статье ""Текущий ремонт жилого фонда"" ...",2018-01-01,2018-12-31,159000.0


In [60]:
add_string_col_to_df(ks_joined)
add_string_col_to_df(tr_joined)
add_string_col_to_df(kr_joined)

Unnamed: 0,raw_string,start_date,end_date,amount_money,clean_address
0,Выборочный капитальный ремонт здания Централь...,2020-04-01 00:00:00,2022-03-01 00:00:00,3942549.0,"г. Владивосток, ул. Океанский проспект, д.34"
1,Выборочный капитальный ремонт здания Централь...,2021-03-01 00:00:00,2021-04-01 00:00:00,97782.0,"г. Владивосток, Океанский проспект, д.34 в час..."
2,Выборочный капитальный ремонт нежилых помещен...,2021-03-01 00:00:00,2021-09-01 00:00:00,2907500.0,"г. Владивосток, ул. Светланская, д.73"
3,Выборочный капитальный ремонт помещения бокс-...,2019-06-01 00:00:00,2021-08-01 00:00:00,12784075.0,"г. Владивосток, ул. Светланская, 71"
4,Капитальный ремонт здания убежища (лит. А) Дал...,2019-08-01 00:00:00,2021-12-01 00:00:00,9465229.0,"г. Владивосток, ул. Семеновская, 29а"
...,...,...,...,...,...
80,Выборочный капитальный ремонт административног...,2018-01-01 00:00:00,2018-10-24 00:00:00,2618920.0,"г. Магадан, ул. Пушкина, д. 4"
81,Выборочный капитальный ремонт административног...,2018-01-01 00:00:00,2018-09-24 00:00:00,2467100.0,Выборочный капитальный ремонт административног...
82,Капитальный ремонт наружной канализации здания...,2018-01-01 00:00:00,2018-08-24 00:00:00,1405710.0,Капитальный ремонт наружной канализации здания...
83,Капитальный ремонт здания «Спальный корпус № 2...,2018-01-01 00:00:00,2018-12-24 00:00:00,14180990.0,Капитальный ремонт здания «Спальный корпус № 2...


In [61]:
save_dfs({"tr_joined": tr_joined}, path="parsed")
save_dfs({"ks_joined": ks_joined}, path="parsed")
save_dfs({"kr_joined": kr_joined}, path="parsed")

In [40]:
shutil.make_archive("parsed_some_kr_ks_tr", 'zip', "parsed")

'/home/step/backend/parsed_some_kr_ks_tr.zip'

In [62]:

ks_tr_kr_clean_strings = set(itertools.chain(tr_joined["clean_address"], ks_joined["clean_address"], kr_joined["clean_address"]))
all_raw_strings = set(ks_tr_kr_clean_strings)

In [63]:
len(all_raw_strings)

296

In [128]:
s = " Административное здание, лит. А,  г.  Ю-Сахалинск, Коммунистический,  пр. , 47 (59-01-01-00-02-019 (комп))"
a = re.search("(г.|город).*", " Административное здание, лит. А,  г.  Ю-Сахалинск, Коммунистический,  пр. , 47 (59-01-01-00-02-019 (комп))")
start, end = a.span()
s[start:end]

'г.  Ю-Сахалинск, Коммунистический,  пр. , 47 (59-01-01-00-02-019 (комп))'

In [138]:
ks_joined

(296, 353)

In [64]:
df_list_on = pd.read_feather("data_lists_on.feather")

In [65]:
lists_on_addresses = set(df_list_on["clean_address"])
all_raw_strings.update(lists_on_addresses)
len(lists_on_addresses)

1100

In [83]:
clean_addresses = set(pd.ExcelFile("Обработанные адреса.xlsx").parse("Лист3")["Итого"])
all_raw_strings.update(clean_addresses)
len(clean_addresses)

869

In [105]:
def request_to_geocoder(string, api_key="8c1a744e-abae-4b1f-a292-076e70d90d92"):
    query = f"https://geocode-maps.yandex.ru/1.x?apikey={api_key}&geocode={string}&format=json"
    res = requests.get(query)
    return json.loads(res.content)


def extract_lat_lon(json_response):
    try:
        lat, lon = map(float, json_response["response"]["GeoObjectCollection"]["featureMember"][0]["GeoObject"]["Point"]["pos"].split())
        return lat, lon
    except Exception as exc:
        print(exc)
        return None, None


def extract_address(json_response):
    try:
        address = json_response["response"]["GeoObjectCollection"]["featureMember"][0]["GeoObject"]["metaDataProperty"]["GeocoderMetaData"]["AddressDetails"]["Country"]["AddressLine"]
        return address
    except Exception as exc:
        print(exc)
        return None

def save_dict(path, dictionary):
    with open(path, 'wb') as f:
        pickle.dump(dictionary, f)

In [144]:
a = list(geocoder_results.items())[1][1]

In [167]:
a["response"]["GeoObjectCollection"]["featureMember"][0]["GeoObject"]["metaDataProperty"]["GeocoderMetaData"]["AddressDetails"]["Country"]["AddressLine"]

'Россия, Хабаровск, улица Муравьёва-Амурского, 42'

In [107]:
len(all_raw_strings)

2265

In [135]:

a = request_to_geocoder(" Тикси Трусова,10")

In [137]:
a["statusCode"]

403

In [108]:
geocoder_results = dict()
for raw_string in all_raw_strings:
    geocoder_results[raw_string] = request_to_geocoder(raw_string)
save_dict("geocoder_results.pkl", geocoder_results)

In [126]:
pd.DataFrame(index=geocoder_results.keys(), )

{'response': {'GeoObjectCollection': {'metaDataProperty': {'GeocoderResponseMetaData': {'request': ' Тикси Трусова,10',
     'results': '10',
     'found': '1'}},
   'featureMember': [{'GeoObject': {'metaDataProperty': {'GeocoderMetaData': {'precision': 'exact',
        'text': 'Россия, Республика Саха (Якутия), муниципальный район Булунский улус, посёлок городского типа Тикси, улица Трусова, 10',
        'kind': 'house',
        'Address': {'country_code': 'RU',
         'formatted': 'Россия, Республика Саха (Якутия), муниципальный район Булунский улус, посёлок городского типа Тикси, улица Трусова, 10',
         'postal_code': '678400',
         'Components': [{'kind': 'country', 'name': 'Россия'},
          {'kind': 'province', 'name': 'Дальневосточный федеральный округ'},
          {'kind': 'province', 'name': 'Республика Саха (Якутия)'},
          {'kind': 'area', 'name': 'муниципальный район Булунский улус'},
          {'kind': 'locality', 'name': 'посёлок городского типа Тикси'},

In [134]:
status_codes = defaultdict(int)
for name, res in geocoder_results.items():
    status_codes[res.get("statusCode", -1)] += 1

status_codes

defaultdict(int, {400: 1, -1: 2264})

{'response': {'GeoObjectCollection': {'metaDataProperty': {'GeocoderResponseMetaData': {'request': ' город Хабаровск,  р-н Центральный,  ул. Муравьева-Амурского,  д. 42,  Лит. А-А6',
     'results': '10',
     'found': '2'}},
   'featureMember': [{'GeoObject': {'metaDataProperty': {'GeocoderMetaData': {'precision': 'exact',
        'text': 'Россия, Хабаровск, улица Муравьёва-Амурского, 42',
        'kind': 'house',
        'Address': {'country_code': 'RU',
         'formatted': 'Россия, Хабаровск, улица Муравьёва-Амурского, 42',
         'Components': [{'kind': 'country', 'name': 'Россия'},
          {'kind': 'province', 'name': 'Дальневосточный федеральный округ'},
          {'kind': 'province', 'name': 'Хабаровский край'},
          {'kind': 'area', 'name': 'городской округ Хабаровск'},
          {'kind': 'locality', 'name': 'Хабаровск'},
          {'kind': 'street', 'name': 'улица Муравьёва-Амурского'},
          {'kind': 'house', 'name': '42'}]},
        'AddressDetails': {'Country

In [138]:
status_codes

defaultdict(int, {400: 1, -1: 2264})

In [None]:
a = dateparser.parse("Январь 2019", locales=['ru'])
a

datetime.datetime(2019, 1, 24, 0, 0)