# Строки и операции с ними


<div style="text-align: center;">
  <img src="https://www.astroasheville.org/wp-content/uploads/2019/06/25BrightestStars_Jittasaiyapan_960.jpg" width="800"/>
</div>

## Содержание  

Эта лекция посвящена строкам и операциям над ними. Python обладает мощным инструментарием операций с текстом, что помогает при анализе и форматировании текстовых данных для их более удобного чтения и записи.  

## Задачи 

Освоение этого ноутбука поможет вам:  

- Обрабатывать строки в Python, создавать их, объединять и повторять;
- Использовать встроенные методы `lower()`, `upper()`, `strip()`, `replace()`, и `split()` для обработки данных.  
- Форматировать строки методом `format()` и f-строками.  
- Извлекать из строк конкретные значения, такие как координаты, аттрибуты или метаданные обзоров.

## 1. Создание строк
Вы уже знаете, что строки могут быть созданы с помощью одиночных, двойных и тройных кавычек:

In [7]:
object_name = "Бетельгейзе"
catalog_entry = 'HD 39801'
multiline_string = """Бетельгейзе — это красный сверхгигант.
Она находится в созвездии Ориона."""
print(object_name, catalog_entry)
print(multiline_string)

Бетельгейзе HD 39801
Бетельгейзе — это красный сверхгигант.
Она находится в созвездии Ориона.


Со строкой можно обращаться также, как с кортежом из символов в плане индексации и срезов:

In [5]:
title = 'Астрометрия'
print(title[0]) # показать первый символ
print(title[-1]) # показать последний символ
print(title[5:]) # показать символы с шестого по третий с конца

А
я
метрия


## 2. Соединение строк
Часто нужно объединять множество строк в одну. Оператор `+` превращает левый и правый операнд в одну строку, "склеивая" их:

In [11]:
constellation = "Орион"
description = " является домом для " + object_name + " и множества других ярких звезд."
print("Созвездие " + constellation + description)

Созвездие Орион является домом для Бетельгейзе и множества других ярких звезд.


## Использование f-строк

Вы уже встречали обозначения в виде f-строк в прошлых ноутбуках. Если перед кавычками с объявлением строки написать f, то внутри строки в фигурных скобках можно записывать названия переменных, что позволит вставлять их значение на указанное место:

In [12]:
concatenated_string = f"Звезда {object_name} является частью созвездия {constellation}."
print(concatenated_string)

Звезда Бетельгейзе является частью созвездия Орион.


## 3. Повторение строк с помощью оператора `*`
Оператор `*` позволяет повторить строку целое число раз:

In [17]:
separator = "-" * 30
print(separator)
message = ("ВАЖНОЕ СООБЩЕНИЕ! " * 3)
print(message)

------------------------------
ВАЖНОЕ СООБЩЕНИЕ! ВАЖНОЕ СООБЩЕНИЕ! ВАЖНОЕ СООБЩЕНИЕ! 


## 4. Методы строк
Давайте познакомимся с основными методами строк. Их огромное количество, со всеми можно ознакомиться в официальной документации <https://docs.python.org/3/library/stdtypes.html#string-methods>.


In [22]:
star_name = "-----Сириус А-----"  # Допустим, у нас есть строка с лишним обрамлением. Встроенными методами её можно "почистить":
print(star_name.lstrip('-'))  # Убрать слева
print(star_name.rstrip('-'))  # Убрать справа
print(star_name.strip('-'))  # Убрать с обоих сторон

Сириус А-----
-----Сириус А
Сириус А
-----Сириус А-----


In [21]:
# Можно быстро преобразовывать строчные и заглавные буквы
star_type = "Главная последовательность"
print(star_type.lower())  # все в строчные
print(star_type.upper())  # все в заглавные

главная последовательность
ГЛАВНАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ


In [25]:
# Замена подстроки на строку осуществляется методом replace
star_description = "Вега — это белый карлик."
corrected_description = star_description.replace("белый карлик", "звезда главной последовательности")
print(corrected_description)

Вега — это звезда главной последовательности.


## 5. Поиск индекса подстроки

In [28]:
galaxy_description = "Галактика Андромеды — это ближайшая к нам спиральная галактика."
position = galaxy_description.find("спиральная")
print("Индекс 'спиральная' в строке:", position)
print(galaxy_description[:position]) # показать подстроку, начиная с этой позиции и до конца 

Индекс 'спиральная' в строке: 42
Галактика Андромеды — это ближайшая к нам 


## 6. Считаем число вхождений подстроки в строку

In [29]:
text_data = "Млечный путь является спиральной галактикой. Галактика Андромеда тоже является спиральной."
count_spiral = text_data.count("спираль")
print("Число вхождений слова 'спираль':", count_spiral)

Число вхождений слова 'спираль': 2


## 7. Форматирование строк
С операторами форматирования вы тоже встречались в предыдущих ноутбуках:

In [37]:
declination = -16.7161
right_ascension = "06h 45m 08.9s"
formatted_string = f"""Координаты Сириуса:
{"RA:":^5}{right_ascension:>16}
{"Dec:":^5}{declination:>16.3f}°"""
print(formatted_string)

Координаты Сириуса:
 RA:    06h 45m 08.9s
Dec:          -16.716°


## 8. Разбиение строк
Метод `split(sep)` возвращает список из подстрок строки, которые разделены символами `sep`:

In [39]:
catalog_entry = "NGC 224 - Andromeda Galaxy"
parts = catalog_entry.split(" - ")  # Разбиваем по строке " - "
print(parts)
print("Object ID:", parts[0])  
print("Object Name:", parts[1])

['NGC 224', 'Andromeda Galaxy']
Object ID: NGC 224
Object Name: Andromeda Galaxy


## 9. Объединение списка строк в одну с помощью `join()`
Метод `join(list)` позволяет объединить список строк в одну строку:

In [45]:
word_list = ["Млечный Путь", "Треугольник", "БМО", "ММО", "Андромеда"]
joined_string = " | ".join(word_list)
print(joined_string)

Млечный Путь | Треугольник | БМО | ММО | Андромеда


## 10. Считаем из строки координат сами координаты:

In [51]:
coordinates = """RA: 10h 56m 29s, Dec: +07° 00' 52" """  # Проверочная строка, преобразуем её в десятичные часы и градусы:
ra_dec_split = coordinates.split(", ") # разбиваем по запятой

ra_list = ra_dec_split[0].replace("RA: ", "").split() #убираем RA: и разбиваем по пробелам
print(ra_list)

ra = int(ra_list[0][:-1]) + int(ra_list[1][:-1]) / 60 + int(ra_list[2][:-1]) / 3600 # вытаскиваем последовательно часы, минуты и секунды

dec_list = ra_dec_split[1].replace("Dec: ", "").split() # убираем Dec: и разбиваем по пробелам
print(dec_list)
dec = int(dec_list[0][:-1]) + int(dec_list[1][:-1]) / 60 + int(dec_list[2][:-1]) / 3600 # вытаскиваем последовательно градусы, минуты и секунды. Знак игнорируем

print(f"Прямое восхождение: {ra:.5f}h")
print(f"Склонение: {dec:.5f}°")

['10h', '56m', '29s']
['-07°', "00'", '52"']
Прямое восхождение: 10.94139h
Склонение: -6.98556°


## 11. Проверка на вхождение в строку
Оператор `in` позволяет проверить вхождение элемента в строку (работает и с другими коллекциями тоже):

In [37]:
object_info = "Галактика Млечный Путь, Солнечная система"
if "Млечный Путь" in object_info:
    print("В этой строке есть что-то про нашу Галактику!")
else:
    print("В этой строке нет ничего про Млечный путь...")

В этой строке есть что-то про нашу Галактику!


## Вопросы и упражнения

1. Создайте строку `celestial_body` с названием и типом какого-нибудь небесного тела, которые разделены пробелом.
2. Преобразуйте и выведите строку `celestial_body` так, чтобы только название было из строчных букв.
3. Извлеките и выведите из строки `celestial_body` только тип объекта с помощью встроенных методов.
4. В переменной `amount` лежит целое неотрицательное число. Выведите строку `celestial_body` `amount` раз.
5. Выведите `celestial_body` в виде таблицы, где название отформатировано по левому краю, а тип объекта - по правому, и пусть у неё будет `amount + 1` строк.

   Пример для `celestial_body == 'Солнце Звезда'` и `amount == 3`:
   ```
   | Название | Тип объекта |
   | Солнце   |      Звезда |
   | Солнце   |      Звезда |
   | Солнце   |      Звезда |
   ```
8. В .csv файлах первая строка состоит из строки, которая начинается с символа `#` и дальше содержит названия колонок, разделенные запятыми(например, ). Предположим, что в переменной `first_line` лежит такая первая строка. Как создать список `header`, содержащий в себе названия колонок и только их? Считайте, что в названиях колонок могут быть любые символы, кроме запятых.

   Пример: если `first_line = #Name,type,B_mag,distance`, то в `header` должно содержаться `['Name', 'type', 'B_mag', 'distance']`.
9. В пункте 10 мы считали прямое восхождение и склонение из строки без учета знака склонения. Как при считывании произвольной строки `coordinates` в том же формате можно учесть и положительные, и отрицательные склонения? 

   Пример: для `coordinates = """RA: 10h 56m 29s, Dec: -07° 00' 52" """`

   Вывод: ``` Прямое восхождение: 10.94139h, Склонение: -7.01444°```

Ответы на каждое упражнение запишите в ячейки ниже и сохраните.