In [52]:
# Функция для проверки наличия префикса улицы в элементе списка
def contains_street_prefix(element, street_prefixes_regex):
    return re.search(street_prefixes_regex, element, re.IGNORECASE) is not None

# Функция для удаления префиксов улицы
def remove_street_prefixes(address, street_prefixes_regex):
    # Удаляем префиксы улицы
    cleaned_address = re.sub(street_prefixes_regex, "", address, flags=re.IGNORECASE).strip()
    # Удаляем лишние пробелы и знаки препинания
    cleaned_address = re.sub(r'\s*[.,;!?]+', '', cleaned_address).strip()
    return cleaned_address

def extracting_street(address):
    """
    Идея следующая: 
    В каждом адресе название улицы чаще идет, либо до типа, либо после типа улицы. Типы перечислены в street_prefixes ниже.
    Мы получаем часть адреса, которая содержит тип и исключаем из нее тип, а потом сжимаем пробелы. Таким образом, получаем чистое
    название улицы.
    """
    # Список префиксов
    street_prefixes = [
        "улица", " ул.", " ул", "ул.", "ул", "переулок", ", пер.", ", пер", "пер.", "пер", "проспект", "пр-т.", "пр-т", "пр.", "пр", 
        "бульвар", "б-р.", "б-р", "площадь", "пл.", "пл", "тупик", "набережная", "наб.", "наб", "шоссе", "ш.", "ш", "проезд", "пр-д.", "пр-д", 
        "аллея", "тракт", "тр-т", "просек"
    ]
    
    # Добавляем префиксы в регулярное выражени
    street_prefixes_regex = r"\b(?:{})\b".format("|".join(street_prefixes))
    
    address_list = address.split(',') # разбиваем адрес на части по sep = ','
    address_list = [s.strip() for s in address_list] # по каждой части сжимаем пробелы по краям
    
    # result будет хранить ту часть адреса, которая содержит в себе street_prefixes
    # result = next((element for element in address_list if contains_street_prefix(element, street_prefixes_regex)), "Не найдено")
    try:
        result, index = next(((element, h) for h, element in enumerate(address_list) if contains_street_prefix(element, street_prefixes_regex)))
        house_idx = index + 1
        # Очистка адреса от префиксов улицы
        cleaned_address = remove_street_prefixes(result, street_prefixes_regex)
    except StopIteration:
        #result = "Не найдено"
        house_idx = -1
        cleaned_address = address_list[-2].strip()
    
    return cleaned_address, address_list[house_idx].strip()

In [54]:
# Функция для проверки наличия префикса улицы в элементе списка
def contains_street_prefix(element, street_prefixes_regex):
    return re.search(street_prefixes_regex, element, re.IGNORECASE) is not None

# Функция для удаления префиксов улицы
def remove_street_prefixes(address, street_prefixes_regex):
    # Удаляем префиксы улицы
    cleaned_address = re.sub(street_prefixes_regex, "", address, flags=re.IGNORECASE).strip()
    # Удаляем лишние пробелы и знаки препинания
    cleaned_address = re.sub(r'\s*[.,;!?]+', '', cleaned_address).strip()
    return cleaned_address

# Функция для удаления префиксов дома
def remove_house_prefixes(address, house_prefixes_regex):
    # Удаляем префиксы дома
    cleaned_house = re.sub(house_prefixes_regex, "", address, flags=re.IGNORECASE).strip()
    # Удаляем лишние пробелы и знаки препинания
    cleaned_house = re.sub(r'\s*[.,;!?]+', '', cleaned_house).strip()
    return cleaned_house

# Функция для удаления префиксов корпуса
def remove_korp_prefixes(address, korp_prefixes_regex):
    # Удаляем префиксы корпуса
    cleaned_korp = re.sub(korp_prefixes_regex, "", address, flags=re.IGNORECASE).strip()
    # Удаляем лишние пробелы и знаки препинания
    cleaned_korp = re.sub(r'\s*[.,;!?]+', '', cleaned_korp).strip()
    return cleaned_korp

def extract_house_number(address):
    # Список префиксов
    street_prefixes = [
        "улица", " ул.", " ул", "ул.", "ул", "переулок", ", пер.", ", пер", "пер.", "пер", "проспект", "пр-т.", "пр-т", "пр.", "пр", 
        "бульвар", "б-р.", "б-р", "площадь", "пл.", "пл", "тупик", "набережная", "наб.", "наб", "шоссе", "ш.", "ш", "проезд", "пр-д.", "пр-д", 
        "аллея", "тракт", "тр-т", "просек"
    ]
    
    house_prefixes = ["дом", "д.", "д"]
    
    korp_prefixes = ["корпус", "корп.", "корп", "к.", "к"]

    # Добавляем префиксы в регулярное выражени
    street_prefixes_regex = r"\b(?:{})\b".format("|".join(street_prefixes))
    house_prefixes_regex = r"\b(?:{})\b".format("|".join(house_prefixes))
    korp_prefixes_regex = r"\b(?:{})\b".format("|".join(korp_prefixes))

    address_list = address.split(',') # разбиваем адрес на части по sep = ','
    address_list = [s.strip() for s in address_list] # по каждой части сжимаем пробелы по краям

    try:
        result, index = next(((element, h) for h, element in enumerate(address_list) if contains_street_prefix(element, street_prefixes_regex))) # находим улицу и ее индекс в списке
        #print(result)
        korp = len(address_list) - index - 1                      # определяем сколько элементов после улицы
        #print(korp)
        if korp > 1:                                              # если после улицы идет еще 2 элемента, то значит присутствует корпус

            house_idx = index + 1                                 # индекс номера дома
            house_nm = address_list[house_idx]                    # номера дома
            cleaned_house_nm = remove_house_prefixes(house_nm, house_prefixes_regex).strip()

            korp_idx = index + 2                                  # индекс корпуса
            korp_nm = address_list[korp_idx]                      # номера дома
            cleaned_korp_nm = remove_korp_prefixes(korp_nm, korp_prefixes_regex).strip()

            house_nm_korp = str(cleaned_house_nm) + "к" + str(cleaned_korp_nm)

        else:
            house_idx = index + 1                                 # индекс номера дома
            house_nm = address_list[house_idx]                    # номера дома
            house_nm_korp = remove_house_prefixes(house_nm, house_prefixes_regex).strip()

    except StopIteration:
        #print(result)
        #result = "Не найдено"
        #house_idx = -1
        house_nm_korp = address_list[-2].strip()

    return house_nm_korp