## Структуры данных

Вы уже знаете, что данные бывают разных типов. Кроме того, они могут быть по-разному организованы. То, в каком виде хранится некоторый набор данных -- это и есть структура. 

### Списки

**Список**, или **массив** (list) -- это такая структура данных, где все элементы имеют порядковый номер (**индекс**), по которому их можно вызвать. Элементы могут повторяться (т.е. в ячейках с разными индексами могут быть записаны переменные с одинаковым значением / одинаковые константы). В списке могут храниться данные разных типов. Записывается в [ ].

In [12]:
# создать список можно так

a = 5
b = "hello"

my_list = [4.89, a, "spam", True, "spam", b]
print(my_list)

[4.89, 5, 'spam', True, 'spam', 'hello']


In [13]:
# а можно так

sentence = "The cat is on the mat"
letters = list(sentence)  # разбивает строку на минимальные элементы, т.е. посимвольно
words = sentence.split()  # разбивает строку на слова по пробелам

print(words)
print(letters)

['The', 'cat', 'is', 'on', 'the', 'mat']
['T', 'h', 'e', ' ', 'c', 'a', 't', ' ', 'i', 's', ' ', 'o', 'n', ' ', 't', 'h', 'e', ' ', 'm', 'a', 't']


`list()` принимает на вход только 1 аргумент. **Аргумент функции** -- это то, что в скобочках :) Этот аргумент должен быть итерируемым (строка или любая структура данных), т.е. из числа список сделать не получится!

In [14]:
numbers = list(123)

TypeError: 'int' object is not iterable

А что такое `split()`? Это **метод**, который позволяет разбить строку на элементы по определенному символу (по умолчанию это пробел). Про отличия функций от методов мы поговорим позже, а пока достаточно запомнить, что методы пишутся через точку после переменной / константы. У методов тоже могут быть аргументы! Вот так:

* **function(x)** -- функция, e.g. len('the_cat_is_on_the_mat')
* **x.method(y)** -- метод, e.g. 'the_cat_is_on_themat'.split('')

Можно также создать пустой список.

In [15]:
new_list = []
print(new_list)

[]


Списки можно складывать.

In [16]:
more_words = words + ["It", "is", "sleeping"]
print(more_words)

['The', 'cat', 'is', 'on', 'the', 'mat', 'It', 'is', 'sleeping']


Как и с числами, результат сложения можно записывать в ту же самую переменную.

In [17]:
x = 1
x = x + 3
print(x)

vowels = ['a', 'o', 'u']
vowels = vowels + ['e', 'i']
print(vowels)

4
['a', 'o', 'u', 'e', 'i']


А еще можно просто добавить элемент в конец списка. Это называется `append()` и пишется через точку после названия списка. Вот так:

In [18]:
vowels.append('æ')
print(vowels)

['a', 'o', 'u', 'e', 'i', 'æ']


Раз все элементы списка имеют порядковые номера, значит можно вызвать элемент по номеру. **NB!** Нумерация начинается с нуля!!!

Можно считать элементы не только с начала, но и с конца. В таком случае нумерация начинается с     -1.

Чтобы вызвать элемент по его порядковому номеру, или **индексу**, нужно записать этот индекс в [ ] после названия списка.

In [19]:
print(vowels[0])  # первый элемент списка
print(vowels[-1]) # последний элемент списка

a
æ


Кроме того, можно вызывать сразу несколько элементов, сделав т.н. **срез** (slice).

In [20]:
print(vowels[1:])  # все элементы, начиная со 2-го (включительно)
print(vowels[:-2]) # все элементы до предпоследнего (не включая его)
print(vowels[1:3]) # элементы от 2 до 4 (включая 2 и не включая 4)

['o', 'u', 'e', 'i', 'æ']
['a', 'o', 'u', 'e']
['o', 'u']


### Кортежи

**Кортеж** (tuple) -- это тот же массив с проиндексированными элементами, только неизменяемый. Создать его тоже можно разными способами. Элементами могут быть данные любого типа. Записываются кортежи в ( ).

In [36]:
# пустой кортеж
new_tuple = ()
print(new_tuple)

# непустой кортеж
siblings = ('brother', 'sister')
print(siblings)

# кортеж из списка
words = tuple(words)
print(words)

# кортеж из строки
letters = tuple(sentence) # строка разбивается на минимальные единицы, т.е. посимвольно
print(letters)

()
('brother', 'sister')
('the', 'cat', 'is', 'on', 'the', 'mat')
('t', 'h', 'e', ' ', 'c', 'a', 't', ' ', 'i', 's', ' ', 'o', 'n', ' ', 't', 'h', 'e', ' ', 'm', 'a', 't')


Кортежи, как и списки, поддерживают операции сложения и умножения, но просто добавить элемент в кортеж нельзя!

In [22]:
words += siblings # прибавляем siblings к words и записываем результат в words
print(words)

big_family = siblings * 3
print(big_family)

('The', 'cat', 'is', 'on', 'the', 'mat', 'brother', 'sister')
('brother', 'sister', 'brother', 'sister', 'brother', 'sister')


Элемент(ы) кортежа можно вызвать по индексу точно так же, как элементы списка.

In [23]:
print(words[0])   # первый элемент кортежа
print(words[-1])  # последний элемент кортежа
print(words[2:5]) # элементы кортежа со 2 по 5 (включая 2 и не включая 5)

The
sister
('is', 'on', 'the')


### Множества

**Множество** (set) -- это такая структура данных, где элементы не могут повторяться. Хранятся они в неупорядоченном виде, т.е. индексов у них нет. Элементами множества могут быть данные любого типа.

In [24]:
# создаем множество из списка (массива)

sentence = "the cat is on the mat"
words = set(sentence.split())  # превращаем список, который возвращает split(), в массив
animals = set(['cat', 'dog', 'elephant', 'crocodile', 'fox', 'cat', 'elephant'])

print(words)
print(animals)

{'on', 'the', 'is', 'mat', 'cat'}
{'elephant', 'fox', 'cat', 'dog', 'crocodile'}


In [25]:
# создаем множество из строки

letters = set(sentence)  # разбивает строку на минимальные элементы, т.е. посимвольно
print(letters)

{'c', 'o', 'a', 'n', 'h', ' ', 's', 't', 'i', 'm', 'e'}


Обратите внимание, что все элементы получившихся множеств уникальны! Если вам нужно избавиться от повторов в данных, то самое простое решение -- это превратить их в множество.

Множества нельзя складывать, зато можно добавлять в них элементы -- это делается функцией `add()`, которая тоже пишется через точку после названия множества.

In [26]:
animals.add('tiger')
print(animals)

{'elephant', 'tiger', 'fox', 'cat', 'dog', 'crocodile'}


Пустое множество создать тоже можно.

In [27]:
new_set = set() # обратите внимание, что просто скобочек в данном случае недостаточно!
print(new_set)

set()


Множества поддерживают разные специальные операции, которых нельзя так же просто осуществить с другими структурами данных.

In [1]:
a = set([1, 2, 3, 4, 5, 6])
b = set([4, 5, 6, 7, 8, 9])

# объединение
c = a | b
print(c)

# пересечение
c = a & b
print(c)

# разность
c = a - b
print(c)

# симметрическая разность, то есть элементы, входящие в a или в b, но не в оба множества одновременно
c = a ^ b
print(c)

{1, 2, 3, 4, 5, 6, 7, 8, 9}
{4, 5, 6}
{1, 2, 3}
{1, 2, 3, 7, 8, 9}


О словарях мы поговорим в следующий раз, а теперь вернемся к встроенным функциям. 

## Некоторые встроенные функции

О функциях для работы с типами данных -- `type(), str(), int(), float(), bool()` -- и со структурами данных -- `list(), tuple(), set(), dict()` -- уже говорилось выше, функция `input()` объяснялась в лекции, а с `print()` и так все понятно. Остались (пока что) `len()`, `sum()` и `count()`. 

### len()

С помощью `len()` можно узнать длину выражения в скобках. Аргументом этой функции может быть строка или любая структура данных.

In [28]:
# строка
sentence = "the cat is on the mat"
print(len(sentence)) # количество символов в строке

# список
words = sentence.split()
print(len(words)) # количество элементов в списке

# кортеж
words_tup = tuple(words)
print(len(words_tup)) # количество элементов в кортеже

# множество
words_set = set(words)
print(len(words_set)) # количество элементов в множестве

21
6
6
5


С числовыми данными такого сделать не получится!

In [29]:
x = 34
print(len(x))

TypeError: object of type 'int' has no len()

### sum()

Эта функция принимает на вход один аргумент -- какую либо структуру данных, внутри которой лежат целые и/или дробные числа, и складывает их.

In [32]:
# сумма чисел в кортеже
print(sum((5, 8, 56, 9))) # давайте посчитаем скобки!

# сумма чисел в списке
print(sum([78, 4, 7.9])) # внутри могут быть и целые, и дробные числа

# сумма чисел в множестве
my_set = set([7, 34, 874])  # здесь список превращается в множество
print(sum(my_set))

78
89.9
915


Если внутри кортежа, списка или множества **не** числовые даные, то ничего не получится!

In [35]:
print(sum(['cat', 'dog', 'elephant']))

TypeError: unsupported operand type(s) for +: 'int' and 'str'

Наверное, вы уже обратили внимание на то, что аргументом функции может быть другая функция, как в некоторых из приведенных выше примеров.

In [37]:
# sum() -- аргумент print(), список [78, 4, 7.9] -- аргумент sum()
print(sum([78, 4, 7.9]))  

# len() -- аргумент print(), переменная sentence -- аргумент len()
print(len(sentence))

# len() -- аргумент print(), константа "cat" -- аргумент len()
print(len("cat"))

89.9
21
3


Это называется **вложенностью** и очень удобно, когда не хочется плодить лишние переменные. Однако лучше ею не злоупотреблять! Вот такое выражение прекрасно работает, однако человеку его понять достаточно сложно (а в питоне, как мы помним, понятность для человека -- одно из важнейших правил написания кода).

In [38]:
print(float(len(set(('cat', 'dog', 'cat')))))  # что тут произошло?

2.0


### count()

`count()` -- это метод, позволяющий считать количество вхождений указанного аргумента в строке, в списке или в кортеже. Поскольку это метод, пишется он через точку после константы/переменной.

In [11]:
# в строке
print("the cat is on the mat".count("the"))

# в кортеже
print((2, 2, 3, 2, 2, 8).count(2))

# в списке
print([True, False, False, True, True].count(True))

2
4
3


## Условные выражения

Иногда бывает нужно сделать так, чтобы действие выполнялось только при определенном условии. Для этого в питоне есть специальные команды: `if, elif, else`. 

Синтаксис условных конструкций таков:

* Сначала `if`, затем условие и двоеточие
* На следующей строке после **отступа** -- действие которое нужно выполнить
* На следующей строке **без отступа** -- `elif` и следующее условие, если оно есть, и двоеточие
* На следующей строке **с отступом** -- действие, которое нужно выполнить после условия №2
* На следующей строке **без отступа** -- `else` и двоеточие
* На следующей строке **с отступом** -- действие, которое нужно выполнить, если не выполняется ни одно из условий 

Условий может быть сколько угодно. Первое из них обязательно пишется с `if`, остальные -- с `elif`; конструкция с `else` не обязательна. Можно комбинировать условия с помощью операторов `and` и `or`.

In [21]:
year = input("Введите ваш год рождения\n")

if len(year) != 4:
    print("Введено неверное число")
else:
    year = int(year)
    if year <= 0:
        print("Вы родились до нашей эры?!")
    elif year > 0 and year < 1900:
        print("Вы родились до XX века?!")
    elif year > 2010:
        print("Как рано вы научились обращаться с компьютером!")
    else:
        age = 2017 - year
        print("К началу 2018 года вам было", age)

Введите ваш год рождения
2011
Как рано вы научились обращаться с компьютером!


Также можно устанавливать отрицательное условие с помощью оператора `not` и проверять наличие некоторого значения в строке или структуре данных с помощью оператора `in`.

In [2]:
if "cat" not in "cats are fantastic":
    print("How is that possible?!")
else:
    print("Hurray!")

Hurray!


In [58]:
animals = ['elephant', 'crocodile']

if not 'tiger' in animals:
    animals.append('tiger')
print(animals)

['elephant', 'crocodile', 'tiger']


**Отступы** (indents) и двоеточия -- основные элементы питоновского синтаксиса. Код в питоне имеет древовидную структуру (напоминает html, правда?) и каждый последующий (= зависимый от предыдущего) уровень отделяется новым отступом. 

Отступы обозначаются 4 пробелами или знаком табуляции, однако питон не терпит, когда эти обозначения смешиваются внутри одного скрипта! Большинство IDE сами ставят заменяют табуляцию на 4 пробела, но если вы пишете код в текстовом реадакторе, то, возможно, этот параметр придется настроить.

### Задание №1

1. Дано стихотворение

        живут на земле
        существа неземной красоты.
        я думаю, ты догадался,
        что это - коты.
        (да, кошки - хорошее слово, 
        научное слово, но ты,
        читатель, забудь это слово
        и помни лишь слово коты!)
        коты грациозны -
        какая гимнастка
        сравнится с котом?
        взгляни, например,
        как он лижет себя под хвостом!
        коты музыкальны -
        не верь, о читатель,
        пустым разговорам,
        что будто кошачий концерт
        не сравнится с ангельским хором...
        а впрочем, коты
        не боятся людской клеветы.
        коты - они выше мирской суеты.
        поверь, словно светоч среди темноты,
        нам посланы свыше коты!..
        но тот, кто не хочет
        (а ты ведь не хочешь?)
        с котами расстаться,
        тот должен серьёзно
        (да, очень серьёзно!)
        с котами считаться.
        наука открыла:
        природа не можеть терпеть пустоты.
        добавлю: особенно -
        лучшая часть этой самой природы -
        коты.
        держать на голодном пайке?
        говорят,
        можно так обращаться с людьми...
        но если ты держишь котов,
        то корми, и корми, и корми!
        коты в нашем доме
        покой и уют создают, -
        но сами коты
        тоже любят покой и уют!
        и если, допустим,
        внезапно захочешь
        ударить в тамтам,
        сначала подумай,
        приятно ли это котам!
        а главное - даже не пробуй
        к котам обращаться "на ты",
        поскольку любой,
        самый маленький кот -
        это тоже коты!
        советую не забывать,
        что коты -
        несомненные родичи тигров,
        и помнить народную мудрость
        (её я вынес в эпиграф).
        осталось добавить,
        что тех, кто не хочет
        серьёзно считаться с котами,
        коты (и вполне справедливо!)
        считают скотами!
2. Нужно записать стихотворение в переменную
3. Затем разбить его на массив слов по пробелам
4. Распечатать общее количество слов
5. Распечатать количество уникальных слов
6. Посчитать количество вхождений слова "коты"
7. Посчитать количество строк в стихотворении (подсказка: строки разделяются символом `\n`)
8. Обрезать пунктуацию и снова посчитать количество вхождений слова "коты"

Пунктуация обрезается так:

In [10]:
# punctuation - это просто строка со знаками препинания
from string import punctuation
print(punctuation)

sentence = """но тот, кто не хочет
 (а ты ведь не хочешь?)
 с котами расстаться,"""

words = sentence.split()
words = [w.strip(punctuation) for w in words]
print(words)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
['но', 'тот', 'кто', 'не', 'хочет', 'а', 'ты', 'ведь', 'не', 'хочешь', 'с', 'котами', 'расстаться']


### Задание 2

1. Есть массив слов из предыдущего стихотворения (с обрезанной пунктуацией)
2. Пользователь должен ввести с клавиатуры какое-нибудь слово
3. Проверяем, есть ли слово в массиве: если нет, добавляем его туда и печатаем "Слово такое-то добавлено", а если есть, то печатаем ответ "Слово такое-то встречается в тексте столько-то раз"