# Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

## Работа со строками

Для удобства будем работать с длинной строкой, которая представляет собой целую фразу.

In [1]:
st = "питон греется на солнышке"

Наша фраза – предложение, давайте сделаем первую букву строки заглавной. 

In [2]:
st.capitalize() # получилось

'Питон греется на солнышке'

Всё получилось, однако на самой строке `st` наши изменения никак не отразились:

In [3]:
st # как и было

'питон греется на солнышке'

Это происходит потому, что строки (как и все базовые объекты Python, к которым относятся типы *integer*, *float*, *string*, *boolean*) в Python являются неизменяемым типом данных. Неизменяемость – свойство, которое в программировании означает невозможность изменить значение переменной *in-place*, не переопределяя её, то есть не присваивая ей новое значение явно через `=`. Чтобы сохранить изменения, переменную надо переопределить:

In [4]:
st = st.capitalize()
st # изменения сохранены

'Питон греется на солнышке'

Проверим, правда ли, что наша новая строка начинается с заглавной *П*.

In [5]:
st.startswith("П") # правда

True

А теперь проверим, правда ли, что наша фраза заканчивается точкой.

In [6]:
st.endswith(".")

False

Исправим это! «Склеим» нашу строку и точку (эта операция называется конкатенацией):

In [7]:
st = st + "."
st

'Питон греется на солнышке.'

Теперь получили полноценное предложение. Давайте проверим, правда ли, что наша фраза состоит полностью из букв (без цифр, пробелов и иных символов)?

In [8]:
st.isalpha() # alpha -  только буквы

False

Вполне ожидаемо: в нашей строке есть пробелы и даже точка.

Какие еще полезные операции можно проводить со строками? Заменять символы. Для этого есть метод `.replace()`.

In [13]:
address = "Г.Москва, ул.Мясницкая, д. 25"

Заменим сокращение «Г.» на слово «город»:

In [14]:
address = address.replace("Г.", "город ")
address

'город Москва, ул.Мясницкая, д. 25'

In [15]:
address = address.replace("д. 25", "д.25")
address

'город Москва, ул.Мясницкая, д.25'

Методы можно «наслаивать» друг на друга: ставить точку и продолжать.

In [16]:
sent = "Питон Греется На Солнышке"
sent = sent.replace("Г", "г").replace("Н", "н").replace("С", "с")
sent

'Питон греется на солнышке'

Что еще полезного можно делать со строками? Менять регистр.

In [17]:
name = input("Введите имя и фамилию: ")

Введите имя и фамилию: aLLA tAMBOVTSEVA


Знакомая история, да? Поправим:

In [18]:
name.swapcase() # ура

'Alla Tambovtseva'

Финальный аккорд: посчитаем, сколько раз разные символы встречаются в строке.

In [19]:
st

'Питон греется на солнышке.'

In [20]:
st.count("е")

3

In [21]:
st.count("т")

2

А как найти положение слова в тексте? Для этого есть метод `.find()`.

In [24]:
st.find("греется")

6

Это означает, что слово *греется* начинается с символа, имеющего в строке индекс 6. Проверим глазами:

In [25]:
st

'Питон греется на солнышке.'

Все верно. 

Если такого слова (словом мы называем любую подстроку, то есть последовательность символов) в строке нет, то выводится индекс -1.

In [26]:
st.find("солнце")

-1