# Парсинг данных о полетах из сайта Роскосмоса

Создание скрипта для автоматического получения данных о космических полетах России и СССР из сайта Роскомоса. Данные находятся в открытом доступе.
Источник: (https://www.roscosmos.ru/launch/2025/)

Импортируем необходимые библиотеки.

In [17]:
import requests # для написания HTTP-запросов
import pandas as pd # для работы с таблицами
import time # для облегчения нагрузки на сервер
from bs4 import BeautifulSoup #для работы с HTML-файлами

Чтобы не писать каждый раз повторяющийся код, напишем функцию, которой на вход будем передавать название списка, в который нужно сохранить данные, и необходимый класс тега.

In [54]:
def scrape (name,classname):
# цикл перебирает все необходимые страницы 
    for y in pages:
        BASE_URL = 'https://www.roscosmos.ru/launch/'
        URL = BASE_URL + y
# на страницу в данной итерации делается get-запрос
        r = requests.get(URL)
# извлекаем содержимое класса
        soup = BeautifulSoup(r.text,'lxml')
        table = soup.find('table', class_ = 'table-launch noborder history')
        for elements in table.find_all('td', class_ = classname):
            name.append(elements.text) # сохраняем в списке
        time.sleep(2)
        print (f'Страница {y} готова')
# выводим первые 5 элементов списка на экран
    print (name[:5])

Сохраняем уникальную часть URL для каждого периода в переменной "pages".

In [21]:
pages = ['1950/','1960/','1970/','1980/','1990/','2000/','2010/','2020/','2021/','2022/','2023/','2024/','2025/']

Извлечем данные о датах полетов. Для этого создадим переменную "launch_dates" и запустим созданную функцию. В аргументы передаем название созданного списка и класс тега, в котором хранятся эти данные.

In [83]:
launch_dates = []
scrape(launch_dates, 'pusk-date')

Страница 1950/ готова
Страница 1960/ готова
Страница 1970/ готова
Страница 1980/ готова
Страница 1990/ готова
Страница 2000/ готова
Страница 2010/ готова
Страница 2020/ готова
Страница 2021/ готова
Страница 2022/ готова
Страница 2023/ готова
Страница 2024/ готова
Страница 2025/ готова
['04.10.1957 22:28:34', '03.11.1957 05:30:42', '27.04.1958 12:01', '15.05.1958 10:00:36', '23.09.1958 10:40:23']


In [85]:
print(f'Список с датами запуском состоит из {len(launch_dates)} элементов')

Список с датами запуском состоит из 3420 элементов


Данные успешно сохранены в переменной.

Извлечем данные об уникальных названиях запусков. Для этого также создадим уникальную переменную и запустим функцию.

In [61]:
launch_names = []
scrape(launch_names, 'pusk-name')

Страница 1950/ готова
Страница 1960/ готова
Страница 1970/ готова
Страница 1980/ готова
Страница 1990/ готова
Страница 2000/ готова
Страница 2010/ готова
Страница 2020/ готова
Страница 2021/ готова
Страница 2022/ готова
Страница 2023/ готова
Страница 2024/ готова
Страница 2025/ готова
['Запуск первого искусственного спутника Земли', 'Запуск второго искусственного спутника Земли', 'Запуск космического аппарата', 'Запуск третьего советского искусственного спутника Земли', 'Запуск автоматической межпланетной станции к Луне']


In [63]:
print(f'Список уникальных названий запусков состоит из {len(launch_names)} элементов')

Список уникальных названий запусков состоит из 3420 элементов


Данные успешно извлечены.

Получим данные о портах, откуда были произведены запуски.

In [65]:
launch_port = []
scrape(launch_port,'pusk-place')

Страница 1950/ готова
Страница 1960/ готова
Страница 1970/ готова
Страница 1980/ готова
Страница 1990/ готова
Страница 2000/ готова
Страница 2010/ готова
Страница 2020/ готова
Страница 2021/ готова
Страница 2022/ готова
Страница 2023/ готова
Страница 2024/ готова
Страница 2025/ готова
['Байконур', 'Байконур', 'Байконур', 'Байконур', 'Байконур']


In [71]:
print(f'Список с названиями космопортов, откуда были произведены запуски состоит из {len(launch_port)} элементов')

Список с названиями космопортов, откуда были произведены запуски состоит из 3420 элементов


Получим данные о названиях запущенных ракет.

In [73]:
rockets = []
scrape (rockets, 'pusk-rn')

Страница 1950/ готова
Страница 1960/ готова
Страница 1970/ готова
Страница 1980/ готова
Страница 1990/ готова
Страница 2000/ готова
Страница 2010/ готова
Страница 2020/ готова
Страница 2021/ готова
Страница 2022/ готова
Страница 2023/ готова
Страница 2024/ готова
Страница 2025/ готова
['Спутник', 'Спутник', 'Спутник', 'Спутник', 'Восток']


In [75]:
print(f'Список с названиями запущенных ракет состоит из {len(rockets)} элементов')

Список с названиями запущенных ракет состоит из 3420 элементов


Извлечение данных о результатах полетов.

In [77]:
results = []
scrape(results,'pusk-result')

Страница 1950/ готова
Страница 1960/ готова
Страница 1970/ готова
Страница 1980/ готова
Страница 1990/ готова
Страница 2000/ готова
Страница 2010/ готова
Страница 2020/ готова
Страница 2021/ готова
Страница 2022/ готова
Страница 2023/ готова
Страница 2024/ готова
Страница 2025/ готова
['Успешный', 'Успешный', 'Аварийный', 'Успешный', 'Аварийный']


In [79]:
print(f'Список с результатами полетов состоит из {len(results)} элементов')

Список с результатами полетов состоит из 3420 элементов


Сохраним результаты в виде датафрейма.

In [89]:
roscosmos = pd.DataFrame(columns = ['date','name','port','rocket','result'])
roscosmos['date'] = launch_dates
roscosmos['name'] = launch_names
roscosmos['port'] = launch_port
roscosmos['rocket'] = rockets
roscosmos['result'] = results

In [93]:
roscosmos

Unnamed: 0,date,name,port,rocket,result
0,04.10.1957 22:28:34,Запуск первого искусственного спутника Земли,Байконур,Спутник,Успешный
1,03.11.1957 05:30:42,Запуск второго искусственного спутника Земли,Байконур,Спутник,Успешный
2,27.04.1958 12:01,Запуск космического аппарата,Байконур,Спутник,Аварийный
3,15.05.1958 10:00:36,Запуск третьего советского искусственного спут...,Байконур,Спутник,Успешный
4,23.09.1958 10:40:23,Запуск автоматической межпланетной станции к Луне,Байконур,Восток,Аварийный
...,...,...,...,...,...
3415,05.02.2025 06:59:24,"Запуск космических аппаратов «Космос-2581», «К...",Плесецк,Союз-2.1в,Успешный
3416,28.02.2025 00:24:27,Запуск грузового космического корабля «Прогрес...,Байконур,Союз-2.1а,Успешный
3417,03.03.2025 01:22:17,Запуск космического аппарата «Космос-2584»,Плесецк,Союз-2.1б,Успешный
3418,16.03.2025 13:49:26,"Запуск космических аппаратов «Космос-2585», «К...",Плесецк,Ангара-1.2,Успешный


Готово! Данные из сайта успешно извлечены и сохранены в переменной. Данные можно сохранить на компьютер для создания дашбордов и других манипуляций.