## Списки

Ещё один тип данных, которые вчера уже попадались - списки.

In [18]:
l = [1, 2, 11, 12, 3, 4, 13, 14]
l

[1, 2, 11, 12, 3, 4, 13, 14]

Работа со списками частично похожа на работу со строками.

- нумерация элементов тоже начинается с 0

In [19]:
l[0]

1

- длина узнаётся так же

In [20]:
len(l)

8

- тоже можно доставать конкретные куски списка через индексацию: будут выданы в виде списка

In [21]:
l[2:4]

[11, 12]

- так же можно менять шаг 

In [22]:
l[::2]

[1, 11, 3, 13]

- и обращаться с конца

In [23]:
l[-2]

13

In [27]:
l[5:1:-1]

[4, 3, 12, 11]

In [28]:
l[5:1:-1]

[4, 3, 12, 11]

В отличие от строк

- элементы списка можно изменять

In [52]:
l[0] = 100500
l

[100500]

In [53]:
l[1:3] = [0, 0]
l

[100500, 0, 0]

In [71]:
l[2:3] = [2, 12, 85, 0, 6, None, 'not a number']
l

[[1, 2], [8, 9], 2, 12, 85, 0, 6, None, 'not a number']

In [72]:
l[:] = [1]
l

[1]

In [73]:
l[:] = [[1, 2], [8, 9]]
l

[[1, 2], [8, 9]]

- новые элементы присоединяются через функцию .append

In [74]:
l.append('1337')
l

[[1, 2], [8, 9], '1337']

In [75]:
l + '1337'

TypeError: can only concatenate list (not "str") to list

- с помощью `+` нельзя присоединить просто отдельный элемент, но можно присоединить другой список

In [76]:
l + [4, 5]

[[1, 2], [8, 9], '1337', 4, 5]

....и даже список, включающий в себя списки

In [77]:
l + [5, [1, 2], [3, 4], [5, 6]]

[[1, 2], [8, 9], '1337', 5, [1, 2], [3, 4], [5, 6]]

In [88]:
list(range(0, 100, 20))

[0, 20, 40, 60, 80]

- http://pythontutor.ru/lessons/lists/problems/increasing_neighbours/

Здесь вам будет нужна функция split(), которая сделает из строки с числами список

In [100]:
inp = '1 2 3 4 5 1'
inp = inp.split()
inp

['1', '2', '3', '4', '5', '1']

In [101]:
inp[1] + inp[3]

'24'

In [119]:
inp = [int(s) for s in inp] # превратить список строчных чисел в список чисел
inp[1] + inp[3]

6

- http://pythontutor.ru/lessons/lists/problems/same_sign_neighbours/

Здесь нужна функция break, останавливающая цикл, если выполняется какое-то условие

In [93]:
for x in range(1, 10):
    print(x)
    if x % 5 == 0:
        break

1
2
3
4
5


- http://pythontutor.ru/lessons/lists/problems/maximal_element/ 

Функция index() возвращает индекс элемента, если он есть в списке. В случае, если элементов несколько, выдаётся индекс первого из них.

### Генерация списков

In [130]:
even_numbers1 = []
for x in range(0, 21, 2):
    even_numbers1.append(x)
even_numbers1

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

In [128]:
even_numbers2 = [x for x in range(0, 21, 2)]
even_numbers2

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

По сути, одно и то же, просто иначе записано

Синтаксис
- выражение записывается в квадратных скобках
- первое выражение (в данном случае переменная x) задаёт элементы списка
- затем идёт цикл, как-то это выражение трасформирующий

Можно усложнять обе части:

In [131]:
even_squares = [x ** 2 for x in range(0, 21, 2)]
even_squares

[0, 4, 16, 36, 64, 100, 144, 196, 256, 324, 400]

In [136]:
[x ** 2 - x / 2 for x in range(0, 21, 2) if x % 4 == 0] # в общем, всё, чего душа желает

[0.0, 14.0, 60.0, 138.0, 248.0, 390.0]

In [138]:
same_list = []
for x in range(0, 21, 2):
    if x % 4 == 0:
        same_list.append(x ** 2 - x / 2)
same_list

[0.0, 14.0, 60.0, 138.0, 248.0, 390.0]

Посмотреть подробнее можно [здесь](https://habr.com/post/30232/)

## Ещё  немного про строки

### .join()

Соединяет элементы последовательности (списка) в строку с разделителем:

str.join(list), где str - разделитель

In [122]:
equation = ['x', '*', '100', '=', '1']
''.join(equation)

'x*100=1'

In [123]:
' '.join(equation)

'x * 100 = 1'

http://pythontutor.ru/lessons/lists/problems/swap_neighbours/

### .replace()
Заменяет все вхождения одной строки на другую. 

str.replace(old, new), где str - изменяемая строка, old - то, что заменяется, new - то, на что заменяется

In [141]:
message = 'I love you!'
message.replace('love', 'hate')

'I hate you'

In [142]:
message = 'oooo'
message.replace('o', 'ol')

'olololol'

### .title(), .lower(), .upper()

Меняют регистр букв в строке

In [143]:
song = 'Wish You Were Here - Pink Floyd'

In [145]:
song.upper()

'WISH YOU WERE HERE - PINK FLOYD'

In [146]:
song = song.lower()
song

'wish you were here - pink floyd'

In [147]:
song.title()

'Wish You Were Here - Pink Floyd'

Дополнительно почитать про методы строк можно [здесь](http://pythontutor.ru/lessons/str/), список методов [здесь](https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html)

### Специальные символы строк

- \n - перенос строки
- \t - табуляция

In [179]:
symbols = 'this\n\tline\n\t\tpretends\n\t\t\tto be\n\tthe code'
print(symbols)

this
	line
		pretends
			to be
	the code


Мини-задача: напишите программу, которая принимает на вход число n и порождает строку, которая при выводе через print() "отодвигает" каждое число на равное ему количество табуляций:

Если n = 4, то:

0

    1
        2
            3

## Словари

Ещё одна изменяемая структура данных -- словарь (`dict`)

Словарь хранит пары ключ значение и предоставляет быстрый доступ к значению по ключу.

In [5]:
# оценки разных людей чему-либо
marks = {'bob': 5, 'alice': 4, 'dan': 5, 'bill': 3}
marks

{'bob': 5, 'alice': 4, 'dan': 5, 'bill': 3}

In [6]:
marks['bob']

5

In [7]:
marks['alice'] = 5
marks['anonymus'] = 1
marks

{'bob': 5, 'alice': 5, 'dan': 5, 'bill': 3, 'anonymus': 1}

In [9]:
print('alice' in marks)
print('mary' in marks)

True
False


In [10]:
print(marks.keys())
print(marks.values())
print(marks.items())

dict_keys(['bob', 'alice', 'dan', 'bill', 'anonymus'])
dict_values([5, 5, 5, 3, 1])
dict_items([('bob', 5), ('alice', 5), ('dan', 5), ('bill', 3), ('anonymus', 1)])


In [11]:
for key in marks:
    print(key, marks[key])

bob 5
alice 5
dan 5
bill 3
anonymus 1


In [12]:
d = {[1, 2]: 1}

TypeError: unhashable type: 'list'

- **порядок итерации по словарю произволен** : в отличие от ситуации со списком списка, элементы в словаре не упорядочены, а лежат в соответствии со своими хешами
- **ключом словаря может быть только неизменяемый тип данных** : например: строки, числа, кортежи (списки, словари, множества не могут быть ключами)

## Кортежи

Кортеж -- неизменяемый список

Одно из применений -- можно использовать как ключ словаря

In [11]:
c = (1, 2, 'Hello')
c

(1, 2, 'Hello')

In [83]:
c[0:2]

(1, 2)

In [12]:
c[0] = 0

TypeError: 'tuple' object does not support item assignment

In [85]:
d = {
    (1, 2): 'a',
    (1, 3): 'b',
    (2, 1): 'c'
}
d

{(1, 2): 'a', (1, 3): 'b', (2, 1): 'c'}

## Множества

Набор уникальных элементов

Поддерживает операцию `in` за константное время (в случае со списком это `O(n)`)

In [87]:
s = set([1, 2, 3, 4, 3, 2, 1])
s

{1, 2, 3, 4}

In [88]:
print(1 in s)
print(5 in s)
print(5 not in s)

True
False
True


In [92]:
s.add(10)
s

{1, 2, 3, 4, 10}

In [93]:
s.add(1)
s

{1, 2, 3, 4, 10}

**элементы множества неупорядочены также как и ключи в массиве**

In [90]:
s[0]

TypeError: 'set' object does not support indexing

доступ к элементам множества можно получить через `for ... in` или `list(s)`

In [94]:
list(s)

[1, 2, 3, 4, 10]

Также есть много удобных функций для множеств, например объединение двух множеств

In [34]:
s1 = {1, 2, 3, 4}
s2 = {2, 3, 4, 5}
s1.union(s2)

{1, 2, 3, 4, 5}

или разность

In [48]:
s1 - s2

{1}

Множества позволяют элегантно решать некоторые задачи, например нахождение количества уникальных слов в тексте

In [99]:
with open('sherlock.txt') as f:
    text = f.read().lower()

word_list = text.split()
word_list[:10]

['the',
 'adventures',
 'of',
 'sherlock',
 'holmes',
 'arthur',
 'conan',
 'doyle',
 'table',
 'of']

In [100]:
word_set = set(word_list)

In [101]:
len(word_set)

14093

найдем, какие буквы не встречаются в данной фразе

In [108]:
s = 'Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit'

In [111]:
print(ord('a'))
print(ord('z'))
print(chr(98))

97
122
b


In [47]:
set(map(chr, range(ord('a'), ord('z')+1))) - set(s.lower())

{'b', 'f', 'g', 'h', 'j', 'k', 'w', 'x', 'y', 'z'}

In [173]:
from collections import Counter

c = Counter()
c.update(text.split())

In [176]:
c.update(['the', 'the'])

In [177]:
c['the']

5252

## Работа с файлами

In [153]:
file = open('sherlock.txt', 'r', encoding='utf-8')
text1 = file.read()
file.close()
text1[:200]

'\n\n\n\n                        THE ADVENTURES OF SHERLOCK HOLMES\n\n                               Arthur Conan Doyle\n\n\n\n                                Table of contents\n\n               A Scandal in Bohem'

In [154]:
with open('sherlock.txt', encoding='utf8') as f:
    text2 = f.read()
text2[:200]

'\n\n\n\n                        THE ADVENTURES OF SHERLOCK HOLMES\n\n                               Arthur Conan Doyle\n\n\n\n                                Table of contents\n\n               A Scandal in Bohem'

In [170]:
with open('out.txt', 'w') as f:
    f.write("\nI'm \nwriting\n to file!!!\n")

In [157]:
with open('sherlock.txt') as f:
    i = 0
    for line in f:
        i += 1
print(i)

12195


In [159]:
import os

In [160]:
os.listdir()

['out.txt',
 'Lesson_1.ipynb',
 '.ipynb_checkpoints',
 'create_corpus_example.py',
 'Lesson_2.ipynb',
 'Lesson_3.ipynb',
 'sherlock.txt',
 'Homework_2.ipynb']

Мини задачка: пройдите по всем файлам в текущей директории и выведите имя и первые 100 символов каждого файла (вам понадобится функция `os.path.isfile`)

In [161]:
os.path.isfile('.ipyn')

False

In [162]:
for path in os.listdir():
    if os.path.isfile(path):
        try:
            with open(path, encoding='utf8') as f:
                print(f.read()[:100])
        except:
            pass


I'm writing to file!!!

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Jupyter Note
import requests
from bs4 import BeautifulSoup
import urllib
import re

# здесь создаётся корпус
mar_
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Списки"
   ]
{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": 




                        THE ADVENTURES OF SHERLOCK HOLMES

                               Arthur
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Homework 2\n"


In [163]:
marks = {
    'bob': {
        'city': 'a',
        'age': 1
    },
    1: 4,
    'dan': [1, 2],
    'bill': 3
}

## Словари json

**json (JavaScript Object Notation)** - формат данных, или даже скорее формат обмена данных

Независим от языка, на котором создаётся (можно передавать данные в формате json между программами, написанными на разных языках)

In [164]:
import json

In [165]:
s = json.dumps(marks)
s

'{"bob": 5, "alice": 5, "dan": 5, "bill": 3, "anonymus": 1}'

In [172]:
json.dump(marks, open('out.txt', 'w'))

In [173]:
s = '{"1": 2}'
json.loads(s)

{'1': 2}

In [174]:
json.load(open('out.txt'))

{'bob': 5, 'alice': 5, 'dan': 5, 'bill': 3, 'anonymus': 1}

In [166]:
json.load(open('Lesson_2.ipynb'))

{'cells': [{'cell_type': 'markdown', 'metadata': {}, 'source': ['## Списки']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['Ещё один тип данных, которые вчера уже попадались - списки.']},
  {'cell_type': 'code',
   'execution_count': 18,
   'metadata': {},
   'outputs': [{'data': {'text/plain': ['[1, 2, 11, 12, 3, 4, 13, 14]']},
     'execution_count': 18,
     'metadata': {},
     'output_type': 'execute_result'}],
   'source': ['l = [1, 2, 11, 12, 3, 4, 13, 14]\n', 'l']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['Работа со списками частично похожа на работу со строками.\n',
    '\n',
    '- нумерация элементов тоже начинается с 0']},
  {'cell_type': 'code',
   'execution_count': 19,
   'metadata': {},
   'outputs': [{'data': {'text/plain': ['1']},
     'execution_count': 19,
     'metadata': {},
     'output_type': 'execute_result'}],
   'source': ['l[0]']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['- длина узнаётся так же']},
