# Домашнее задание № 5

**Ситуация:**\
Спокойное рабочее утро. \
Налив чашку утреннего кофе вы замечаете в Outlook письмо, в котором коллеги просят помощи в решении проблемы. 

Для тестирования API нового сервиса валидации адресов им необходимо получить списки реальных адресов и геокоординат которыми пользуются клиенты компании.\
Они уже обратились за помощью к коллегам DevOps. Те выгрузили из логов сетевого балансера все, что клиенты передавали в поля, предназначенные для адресов.\
Файл durty_data.csv прилагается к письму.

От вас требуется выделить из файла только похожие на адреса и гео-координаты строки. Убрать дубликаты и кавычки, а также разложить результаты на 2 разных листа Excel файла: строковые адреса на один, а гео-координаты на другой.

Используйте любые полученные в предыдущих уроках навыки для решения поставленной задачи.
- работу с Python
- работу с Unix
- работу с БД

*В идеале оформить решение в виде .ipynb файла!* В нем **должно быть**:
1) описание алгоритма решения поставленной задачи (отдельно в начале или пошагово комментариями к коду);
2) все использованные в ходе решения скрипты/команды/запросы.

Результатом работы по вашему алгоритму должен стать xlsx файл, в котором на разных листах лежат все распознанные адреса и геокоординаты.

***Важно!***
* алгоритм решения должен быть описан настолько просто, чтобы не возникало сложностей с его воспроизведением
* использовать можно только механики/модули/методики, изученные на занятиях


#### *Решение*

In [None]:
import re
from openpyxl import Workbook


# Функция очистки строки

def clean_line(line):
    # Очищаем от заклинаний, чтоб не пошел дождь
    line = re.sub(
        r'[\x00-\x1F\x7F]+|\\{2,}|&quot;|&amp;|<[^>]*>|["\']+', '', line)

    # Убираем повторяющиеся пробелы
    line = re.sub(r'\s+', ' ', line).strip()

    return line


# Загружаем файл
with open('durty_data.csv', 'r', encoding='utf-8') as file:
    lines = file.readlines()

# Очищаем строки
lines = [clean_line(line) for line in lines]

# Паттерны для поиска
address_pattern = re.compile(
    r'\b(ул\.|проспект|переулок|пл\.|д\.|стр\.|корп\.|шоссе|город|г\.|Moscow|Street|Ave|Square|Road|Blvd)\b', re.IGNORECASE)
coord_pattern = re.compile(r'^-?\d{1,3}\.\d+,\s*-?\d{1,3}\.\d+$')

addresses = set()  # Используем set для удаления повторов
coordinates = set()  # Используем set для удаления повторов

# Отделяем мух от котлет и удаляем дубли
for line in lines:
    if coord_pattern.match(line):
        coordinates.add(line)
    elif address_pattern.search(line):
        addresses.add(line)

# Пишем в Excel
wb = Workbook()

# Лист для адресов
ws_addresses = wb.active
ws_addresses.title = 'Addresses'
ws_addresses.append(['Address'])
for addr in sorted(addresses):
    ws_addresses.append([addr])

# Лист для координат
ws_coords = wb.create_sheet(title='Coordinates')
ws_coords.append(['Coordinates'])
for coord in sorted(coordinates):
    ws_coords.append([coord])

# Сохраняем
wb.save('cleaned_addresses_and_coords.xlsx')

print("Готово! Файл 'cleaned_addresses_and_coords.xlsx' создан.")

Готово! Файл 'cleaned_addresses_and_coords.xlsx' создан.
