# Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

## Работа со строками

Для удобства будем работать с длинной строкой, которая представляет собой целую фразу.

In [1]:
st = "питон греется на солнышке"

Наша фраза – предложение, давайте сделаем первую букву строки заглавной. 

In [2]:
st.capitalize() # получилось

'Питон греется на солнышке'

Всё получилось, однако на самой строке `st` наши изменения никак не отразились:

In [3]:
st # как и было

'питон греется на солнышке'

Это происходит потому, что строки (как и все базовые объекты Python, к которым относятся типы *integer*, *float*, *string*, *boolean*) в Python являются неизменяемым типом данных. Неизменяемость – свойство, которое в программировании означает невозможность изменить значение переменной *in-place*, не переопределяя её, то есть не присваивая ей новое значение явно через `=`. Чтобы сохранить изменения, переменную надо переопределить:

In [4]:
st = st.capitalize()
st # изменения сохранены

'Питон греется на солнышке'

Проверим, правда ли, что наша новая строка начинается с заглавной *П*.

In [5]:
st.startswith("П") # правда

True

А теперь проверим, правда ли, что наша фраза заканчивается точкой.

In [6]:
st.endswith(".")

False

Исправим это! «Склеим» нашу строку и точку (эта операция называется конкатенацией):

In [7]:
st = st + "."
st

'Питон греется на солнышке.'

Теперь получили полноценное предложение. Давайте проверим, правда ли, что наша фраза состоит полностью из букв (без цифр, пробелов и иных символов)?

In [8]:
st.isalpha() # alpha -  только буквы

False

Вполне ожидаемо: в нашей строке есть пробелы и даже точка.

Может возникнуть вопрос: а зачем нам проверять, из каких символов состоит строка? Ведь даже, если строка состоит из цифр, числом она автоматически не станет. Давайте рассмотрим две ситуации, в которых очень полезно знать, какие символы входят в нашу строку.

**Ситуация 1**

Пользователь должен придумать пароль для своей учетной записи. Пароль должен состоять только из цифр и букв.

In [9]:
password = input("Введите пароль: ")

if password.isalnum() == False:
    print("Пароль должен состоять только из букв и цифр!")

Введите пароль: pass18


In [10]:
password = input("Введите пароль: ")

if password.isalnum() == False:
    print("Пароль должен состоять только из букв и цифр!")

Введите пароль: tutu-56
Пароль должен состоять только из букв и цифр!


В примере выше мы использовали метод `.isalnum()`, который позволяет проверить, составлена ли строка только из букв (*alpha*) и цифр (*num*).

**Ситуация 2**

Есть список txt-файлов, и мы хотим их автоматически рассортировать, зная, что если название файла состоит из цифр, то это текст для анализа, а если нет, то это файл с результатами анализа.

In [11]:
files = ["100.txt", "110.txt", "result1.txt", 
         "121.txt", "result2.txt", "123.txt", 
         "result3.txt"]

In [12]:
ans = []
res = []

for f in files:
    name = f.split(".")[0] # разобьем по точке и возьмем первый элемент - до txt (подробнее далее)
    if name.isnumeric():
        ans.append(f)
    else:
        res.append(f)
print(ans)
print(res)

['100.txt', '110.txt', '121.txt', '123.txt']
['result1.txt', 'result2.txt', 'result3.txt']


Понятно, что список файлов не берется из ниоткуда, плюс, обычно мы сортируем файлы не по спискам, а по папкам, но это немного другая история, можете посмотреть [тьюториал](https://www.tutorialspoint.com/python/os_file_methods.htm) по модулю `os`, который позволяет работать с файлами на компьютере, создавать папки, переименовывать их и прочее. 

**Внимание:** для тренировки создайте папку с ненужными или пустыми файлами,чтобы случайно ничего не повредить. Отменить действие будет невозможно. Python не будет спрашивать «заменить файл?» или «переместить в корзину или удалить совсем?», молча перезапишет файл или молча удалит насовсем!

Какие еще полезные операции можно проводить со строками? Заменять символы. Для этого есть метод `.replace()`.

In [13]:
address = "Г.Москва, ул.Мясницкая, д. 25"

Заменим сокращение «Г.» на слово «город»:

In [14]:
address = address.replace("Г.", "город ")
address

'город Москва, ул.Мясницкая, д. 25'

In [15]:
address = address.replace("д. 25", "д.25")
address

'город Москва, ул.Мясницкая, д.25'

Методы можно «наслаивать» друг на друга: ставить точку и продолжать.

In [16]:
sent = "Питон Греется На Солнышке"
sent = sent.replace("Г", "г").replace("Н", "н").replace("С", "с")
sent

'Питон греется на солнышке'

Что еще полезного можно делать со строками? Менять регистр.

In [17]:
name = input("Введите имя и фамилию: ")

Введите имя и фамилию: aLLA tAMBOVTSEVA


Знакомая история, да? Поправим:

In [18]:
name.swapcase() # ура

'Alla Tambovtseva'

Финальный аккорд: посчитаем, сколько раз разные символы встречаются в строке.

In [19]:
st

'Питон греется на солнышке.'

In [20]:
st.count("е")

3

In [21]:
st.count("т")

2

А теперь сделаем это в цикле – для всех символов в строке (только для этого нам потребуются множества: чтобы исключить повторения).

In [22]:
symbols = set(st) # set - множество, поговорим о них позже
symbols

{' ',
 '.',
 'П',
 'а',
 'г',
 'е',
 'и',
 'к',
 'л',
 'н',
 'о',
 'р',
 'с',
 'т',
 'ш',
 'ы',
 'я'}

In [23]:
for s in symbols:
    print(s, ":", st.count(s))

е : 3
о : 2
л : 1
т : 2
  : 3
г : 1
с : 2
ш : 1
а : 1
. : 1
П : 1
ы : 1
я : 1
и : 1
н : 3
р : 1
к : 1


А как найти положение слова в тексте? Для этого есть метод `.find()`.

In [24]:
st.find("греется")

6

Это означает, что слово *греется* начинается с символа, имеющего в строке индекс 6. Проверим глазами:

In [25]:
st

'Питон греется на солнышке.'

Все верно. 

Если такого слова (словом мы называем любую подстроку, то есть последовательность символов) в строке нет, то выводится индекс -1.

In [26]:
st.find("солнце")

-1

### Методы `.split()` и `.join()`

### Метод `.split()`

Возьмем строку `st` и разобьем её на отдельные слова по пробелу. Для этого нам понадобится метод `.split()`:

In [27]:
st.split()

['Питон', 'греется', 'на', 'солнышке.']

В скобках у `.split()` ничего не указано. Это означает, что строка будет разбиваться на части согласно настройкам по умолчанию, то есть по пробелу. Если бы мы хотели разбить строку по другому символу, мы бы указали это явно:

In [28]:
st.split("т") # неразумно, но просто для примера разбиваем по букве т

['Пи', 'он грее', 'ся на солнышке.']

Можно ли разбить строку по пустоте? То есть просто разделить ее на отдельные символы? Попробуем.

In [29]:
st.split("") # нельзя

ValueError: empty separator

Python сообщает нам, что разделитель пустой, и делить строку на части не хочет. Если очень нужно, можно превратить строку в список, а потом убрать из него лишние элементы.

In [30]:
list(st)

['П',
 'и',
 'т',
 'о',
 'н',
 ' ',
 'г',
 'р',
 'е',
 'е',
 'т',
 'с',
 'я',
 ' ',
 'н',
 'а',
 ' ',
 'с',
 'о',
 'л',
 'н',
 'ы',
 'ш',
 'к',
 'е',
 '.']

### Метод `.join()`

Раз есть метод для разбиения строки на список строк, должна быть и обратная операция – для склеивания списка строк в одну большую строку. Возьмём небольшой список `words` и «соберём» из него одну строку, добавив пробелы между элементами. Для этого нам потребуется метод `.join()`:

In [31]:
words = ['a', 'b', 'c', 'd']

In [32]:
" ".join(words) # в кавычках - с помощью чего склеиваем, в скобках - список «частей» строки

'a b c d'

In [33]:
my_w = " ".join(words) 
my_w

'a b c d'

В качестве разделителя могли выбрать что-то другое, например, дефис:

In [34]:
"-".join(words)

'a-b-c-d'

А могли взять что-то менее привычное (хотя с этими символами мы сталкиваемся часто, просто их не видим): символы, обозначающие переход на новую строку или табуляцию.

In [35]:
s = "\n".join(words) # \n - new line, новая строка
print(s)

a
b
c
d


In [36]:
s2 = "\t".join(words) # \t - tabulation, табуляция
print(s2)

a	b	c	d
