# Неделя 1. Визуализация данных
То, что вы видите перед собой - это **Jupyter Notebook**, такой специальный интерактивный блокнот, который содержит и текст с оформлением и фрагменты кода, при запуске любого из которых под ним появится блок с результатами выполнения.
Почитать подробнее об этой технологии можно вот здесь: https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
В строке браузера вы видите адрес jupyter-сервера, который настроен для выполнения этих заданий. Однако, если у вас есть потребность, вы можете загрузить сам файл с расширением .ipynb и в другие программы и веб-сервисы для работы с таким форматом. Выполнение заданий возможно в любой удобной вам среде.

## Подготовительные действия
### Установка библиотеки
Если среда выполнения не содержит нужной вам библиотеки, необходимо установить ее с помощью команды **pip install**
Это действие достаточно  выполнить один раз за активный сеанс, поэтому и описывается оно только в одном блоке кода.
Для выполнения этого задания нам понадобятся библиотеки:
- **pandas** для парсинга и обработки набора открытых данных в формате csv;
- **geopy** для подсчета расстояний между точками в пространстве.

[Подробнее про pandas](https://proglib.io/p/samouchitel-po-pandas-dlya-nachinayushchih-chast-25-osnovy-analiza-dannyh-s-pandas-2023-07-24)




In [1]:
!pip3 install pandas



In [2]:
!pip3 install geopy

Collecting geopy
  Obtaining dependency information for geopy from https://files.pythonhosted.org/packages/e5/15/cf2a69ade4b194aa524ac75112d5caac37414b20a3a03e6865dfe0bd1539/geopy-2.4.1-py3-none-any.whl.metadata
  Downloading geopy-2.4.1-py3-none-any.whl.metadata (6.8 kB)
Collecting geographiclib<3,>=1.52 (from geopy)
  Obtaining dependency information for geographiclib<3,>=1.52 from https://files.pythonhosted.org/packages/31/b3/802576f2ea5dcb48501bb162e4c7b7b3ca5654a42b2c968ef98a797a4c79/geographiclib-2.1-py3-none-any.whl.metadata
  Downloading geographiclib-2.1-py3-none-any.whl.metadata (1.6 kB)
Downloading geopy-2.4.1-py3-none-any.whl (125 kB)
   ---------------------------------------- 0.0/125.4 kB ? eta -:--:--
   --------- ----------------------------- 30.7/125.4 kB 640.0 kB/s eta 0:00:01
   ---------------------------- ---------- 92.2/125.4 kB 871.5 kB/s eta 0:00:01
   -------------------------------------  122.9/125.4 kB 798.9 kB/s eta 0:00:01
   -------------------------------

### Подключение модуля и парсинг файла
Подключить установленный ранее (или стандартный) модуль можно с помощью инструкции **import**.
Модули подключаются в самом начале кода.

Для работы с данными будем использовать библиотеку **pandas**. В файле *Rus_schools_final.csv* находятся открытые данные о разных школах в РФ.

Прочитайте комментарии и код в следующем фрагменте и попробуйте запустить его, чтоб понять, как он работает.

In [3]:
# Импортируем библиотеки
import pyproj
import pandas as pd


# Парсим интересующий нас xml-файл
df = pd.read_csv('Rus_schools_final.csv', encoding = 'windows-1251')

# Для понимания структуры файла выводим заголовки
df.head()

ModuleNotFoundError: No module named 'pyproj'

## Работа с расстояниями в geopy
В следующем блоке кода продемонстрировано, как можно посчитать расстояние между двух точек, и как можно найти ближайшую точку из множества.

In [None]:
from geopy.distance import geodesic

# Заданные координаты двух точек
point_a = (55.7558, 37.6173)  # Москва
point_b = (59.9391, 30.3158)   # Санкт-Петербург

# Вычисляем расстояние между точками
distance = geodesic(point_a, point_b).kilometers
print(f'Расстояние между Москвой и Санкт-Петербургом: {distance:.2f} км')

# Массив координат для нахождения ближайшей точки
points_array = [
    (55.7558, 37.6173),  # Москва
    (59.9391, 30.3158),  # Санкт-Петербург
    (53.9025, 27.5614),  # Минск
    (48.8566, 2.3522),   # Париж
]

# Координаты исходной точки
target_point = (55.7558, 37.6173)
print(f"Исходная точка: {target_point}")

# Нахождение ближайшей точки из массива
closest_point = min(points_array, key=lambda p: geodesic(target_point, p))
print(f"Ближайшая точка к исходной: {closest_point}")

Расстояние между Москвой и Санкт-Петербургом: 635.75 км
Исходная точка: (55.7558, 37.6173)
Ближайшая точка к исходной: (55.7558, 37.6173)


# Примеры кода для обработки данных о школах
Посчитаем, сколько в наборе данных есть школ с типом "Муниципальное образовательное учреждение"

In [None]:
# Импортируем библиотеки
import pyproj
import pandas as pd


# Парсим интересующий нас xml-файл
df = pd.read_csv('Rus_schools_final.csv', encoding = 'windows-1251')

munic = df.loc[df['struct'] == '(Муниципальное образовательное учреждение)']
print(len(munic))

37567


В следующем блоке кода выведем список названий всех школ, расположенных в Качуге (по сведениям из адреса).

In [None]:
# Импортируем библиотеки
import pyproj
import pandas as pd


# Парсим интересующий нас xml-файл
df = pd.read_csv('Rus_schools_final.csv', encoding = 'windows-1251')

# Фильтрация записей 1
mask = df['addr'].str.contains('Качуг', case=False, na=False)


# Выбор имени тех записей, которые удовлетворяют условию
names = df.loc[mask]['name']

# Печать результата
for sc_name in names.to_list():
  print(sc_name)

Муниципальное образовательное учреждение Вершино-Тутурская основная общеобразовательная школа
Муниципальное образовательное учреждение Качугская средняя общеобразовательная школа № 2
Муниципальное образовательное учреждение Чептыхойская начальная общеобразовательная школа
Муниципальное образовательное учреждение Качугская средняя общеобразовательная школа № 1
Муниципальное образовательное учреждение Чернорудская начальная общеобразовательная школа
Муниципальное образовательное учреждение Шейнская начальная общеобразовательная школа
Муниципальное образовательное учреждение Щаповская начальная общеобразовательная школа
Муниципальное образовательное учреждение Аргунская начальная общеобразовательная школа
Муниципальное образовательное учреждение Больше-Тарельская основная общеобразовательная школа
Муниципальное образовательное учреждение Косогольская начальная общеобразовательная школа
Муниципальное образовательное учреждение Литвиновская начальная общеобразовательная школа
Муниципальное 

Следующий блок содержит код, который находит и выводит список всех школ в 1 километре от МИИГАиК

In [None]:
import pandas as pd
from geopy.distance import geodesic

# Чтение данных из CSV
df = pd.read_csv('Rus_schools_final.csv', encoding = 'windows-1251')

# Точка отсчета (МИИГАиК)
point_a = (55.7639801784494, 37.66334185235405)

# Добавляем столбец distance, содержащий расстояние до точки А
def calculate_distance(row):
    return geodesic((row['lat'], row['lon']), point_a).kilometers

df['distance'] = df.apply(calculate_distance, axis=1)

# Фильтруем объекты, находящиеся ближе 1 км
filtered_df = df[df['distance'] <= 1]

# Извлекаем и имена и типы ближайших объектов
results = filtered_df[['name', 'struct']]

# Вывод результатов
for _,row in results.iterrows():
    print(f"{row['name']} | Тип: {row['struct']}")

Средняя общеобразовательная школа № 320 | Тип: (Государственное образовательное учреждение)
Средняя общеобразовательная школа № 613 | Тип: (Государственное образовательное учреждение)
Центр образования № 1480 | Тип: (Государственное образовательное учреждение)
Открытая (сменная) общеобразовательная школа № 27 | Тип: (Государственное образовательное учреждение)
Средняя общеобразовательная школа № 330 | Тип: (Государственное образовательное учреждение)
Cредняя общеобразовательная школа с углубленным изучением французского языка № 1225 | Тип: (Государственное образовательное учреждение)
ГБОУ Средняя общеобразовательная школа с этнокультурным (еврейским) компонентом образования №1621 "Лаудер Эц-Хаим" | Тип: (Государственное образовательное учреждение)


А теперь найдем самую дальнюю от МИИГАиК школу в России.

In [None]:
import pandas as pd
from geopy.distance import geodesic

# Чтение данных из CSV
df = pd.read_csv('Rus_schools_final.csv', encoding = 'windows-1251')

# Точка отсчета (МИИГАиК)
point_a = (55.7639801784494, 37.66334185235405)

# Добавляем столбец distance, содержащий расстояние до точки А
def calculate_distance(row):
    return geodesic((row['lat'], row['lon']), point_a).kilometers

df['distance'] = df.apply(calculate_distance, axis=1)

# Найдем дальнейшую школу (школу с максимальным расстоянием)
nearest_school_row = df.loc[df['distance'].idxmax()]

# Форматируем вывод нужной информации
output_string = f"""
Имя школы: {nearest_school_row['name']}
Адрес: {nearest_school_row['addr']}
Расстояние до школы: {nearest_school_row['distance']:.2f} километров
"""

# Выводим информацию о самой близкой школе
print(output_string.strip())

Имя школы: Муниципальное общеобразовательное учреждение средняя общеобразовательная школа с.Крабозаводское Южно-Курильский район, (св-во о гос. аккредит. АА 079500 от 27.12.2002)
Адрес: 694500, Россия, Сахалинская область, Южно-Курильский район, с.Крабозаводское, ул.Ключевая, 16
Расстояние до школы: 7091.13 километров


# Задание для самостоятельной проработки темы
После освоения данных интерактивных материалов вам необходимо сделать следующее:
1. Внести изменения в последний блок кода:

  1.1. Заполнить, используя html теги, заголовок уровня `<h1>` с фразой "Отчет за 1 неделю ознакомительной практики по разработке программного обеспечения геосервиса";

  1.2. Заполнить подзаголовок уровня `<h2>` "выполнил:" с указанием ваших ФИО и группы;
  
  1.3. Найдите ближайшую к вашему дому школу, и добавьте в вывод все ее характеристики из файла данных;
  
  1.4. Найдите все школы в радиусе 3 км от вашего дома, в вывод добавьте их название (name) и адреса (addr);

  1.5. Добавьте в вывод количество школ с типом(struct) "Государственное образовательное учреждение";

2. Раскомментировать (убрать в начале строки знак #) строки с сохранением получившегося html в файл;
3. Перезапустить последний блок кода;
4. Из бокового списка файлов скачать файл "result.html" и прикрепить его как ответ на задание в СДО.

In [29]:
import pandas as pd
from geopy.distance import geodesic

# Чтение данных из CSV
df = pd.read_csv('Rus_schools_final.csv', encoding = 'windows-1251')

# Точка отсчета (ваш дом)
point_0 = (58.523041586225524, 31.269010301852386)

result_html='''<html>
    <body>
      <h1>Отчет за 1 неделю ознакомительной практики по разработке программного обеспечения геосервиса</h1>
      <h2>Выполнил: Сивец Р.И. группа 2024-ФГиИБ-ИС-2см</h2>'''

# здесь вставить выполнение пункта 1.3

def calculate_distance(row):
    return geodesic((row['lat'], row['lon']), point_0).kilometers
df['distance'] = df.apply(calculate_distance, axis=1)
nearest_school_row = df.loc[df['distance'].idxmin()]

output_string_1_3 = f"""
Имя школы: {nearest_school_row['name']}
Тип школы: {nearest_school_row ['struct']}
Адрес: {nearest_school_row['addr']}
Координаты: {nearest_school_row['lat']},{nearest_school_row['lon'] }
Расстояние до школы: {nearest_school_row['distance']:.2f} километров
"""

# записать полученное в 1.3 в конце result_html:

result_html = result_html + "<p>"+ output_string_1_3 +"</p>"

# выполнить и дописать в result_html пункты 1.4 и 1.5
output_string_1_4 = f""
def calculate_distance(row):
    return geodesic((row['lat'], row['lon']), point_0).kilometers
df['distance'] = df.apply(calculate_distance, axis=1)
filtered_df = df[df['distance'] <= 3]
results = filtered_df[['name', 'addr']]
for _,row in results.iterrows():
    output_string_1_4 = "<p>"+(output_string_1_4 + f"{row['name']} | Адрес: {row['addr']}")+"</p>"
result_html = result_html +"<p>""<b>"'Список школ в радиусе 3 км:'"</b>""</p>"+"<p>"+ output_string_1_4 + "</p>"

#последнее задание

output_string_1_5 = f""
gov = df.loc[df['struct'] == '(Государственное образовательное учреждение)']
output_string_1_5 = f"Государственных образовательных учреждений: {len(gov)}"

result_html = result_html + output_string_1_5

# Вывод результатов

result_html = result_html + ('''
    </body>
</html>''')
file_html = open("result.html", "w")
file_html.write(result_html)
file_html.close()