## Списки

Ещё один тип данных, которые вчера уже попадались - списки.

In [1]:
l = [1, 2, 11, 12, 3, 4, 13, 14]
l

[1, 2, 11, 12, 3, 4, 13, 14]

Работа со списками частично похожа на работу со строками.

- нумерация элементов тоже начинается с 0

In [2]:
l[0]

1

- длина узнаётся так же

In [3]:
len(l)

8

- тоже можно доставать конкретные куски списка через индексацию: будут выданы в виде списка

In [4]:
l[2:4]

[11, 12]

- так же можно менять шаг 

In [5]:
l[::2]

[1, 11, 3, 13]

- и обращаться с конца

In [6]:
l[-2]

13

In [7]:
l[5:1:-1]

[4, 3, 12, 11]

In [8]:
l[5:1:-1]

[4, 3, 12, 11]

В отличие от строк

- элементы списка можно изменять

In [9]:
l[0] = 100500
l

[100500, 2, 11, 12, 3, 4, 13, 14]

In [10]:
l[1:3] = [0, 0]
l

[100500, 0, 0, 12, 3, 4, 13, 14]

In [11]:
l[2:3] = [2, 12, 85, 0, 6, None, 'not a number']
l

[100500, 0, 2, 12, 85, 0, 6, None, 'not a number', 12, 3, 4, 13, 14]

In [12]:
l[:] = [1]
l

[1]

In [13]:
l[:] = [[1, 2], [8, 9]]
l

[[1, 2], [8, 9]]

- новые элементы присоединяются через функцию .append

In [14]:
l.append('1337')
l

[[1, 2], [8, 9], '1337']

In [15]:
l + '1337'

TypeError: can only concatenate list (not "str") to list

- с помощью `+` нельзя присоединить просто отдельный элемент, но можно присоединить другой список

In [16]:
l + [4, 5]

[[1, 2], [8, 9], '1337', 4, 5]

....и даже список, включающий в себя списки

In [17]:
l + [5, [1, 2], [3, 4], [5, 6]]

[[1, 2], [8, 9], '1337', 5, [1, 2], [3, 4], [5, 6]]

In [18]:
list(range(0, 100, 20))

[0, 20, 40, 60, 80]

- http://pythontutor.ru/lessons/lists/problems/increasing_neighbours/

Здесь вам будет нужна функция split(), которая сделает из строки с числами список

In [20]:
inp = '1 2 3 4 5 1'
inp = inp.split()
inp

['1', '2', '3', '4', '5', '1']

In [21]:
inp[1] + inp[3]

'24'

In [22]:
inp = [int(s) for s in inp] # превратить список строчных чисел в список чисел
inp[1] + inp[3]

6

- http://pythontutor.ru/lessons/lists/problems/same_sign_neighbours/

Здесь нужна функция break, останавливающая цикл, если выполняется какое-то условие

In [23]:
for x in range(1, 10):
    print(x)
    if x % 5 == 0:
        break

1
2
3
4
5


- http://pythontutor.ru/lessons/lists/problems/maximal_element/ 

Функция index() возвращает индекс элемента, если он есть в списке. В случае, если элементов несколько, выдаётся индекс первого из них.

### Генерация списков

In [24]:
even_numbers1 = []
for x in range(0, 21, 2):
    even_numbers1.append(x)
even_numbers1

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

In [None]:
list(range())

In [25]:
even_numbers2 = [x for x in range(0, 21, 2)]
even_numbers2

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

По сути, одно и то же, просто иначе записано

Синтаксис
- выражение записывается в квадратных скобках
- первое выражение (в данном случае переменная x) задаёт элементы списка
- затем идёт цикл, как-то это выражение трасформирующий

Можно усложнять обе части:

In [26]:
even_squares = [x ** 2 for x in range(0, 21, 2)]
even_squares

[0, 4, 16, 36, 64, 100, 144, 196, 256, 324, 400]

In [28]:
[x ** 2 - x / 2 for x in range(0, 21, 2) if x % 3 == 0] # в общем, всё, чего душа желает

[0.0, 33.0, 138.0, 315.0]

In [29]:
same_list = []
for x in range(0, 21, 2):
    if x % 4 == 0:
        same_list.append(x ** 2 - x / 2)
same_list

[0.0, 14.0, 60.0, 138.0, 248.0, 390.0]

Посмотреть подробнее можно [здесь](https://habr.com/post/30232/)

## Ещё  немного про строки

### .join()

Соединяет элементы последовательности (списка) в строку с разделителем:

str.join(list), где str - разделитель

In [30]:
equation = ['x', '*', '100', '=', '1']
''.join(equation)

'x*100=1'

In [31]:
' '.join(equation)

'x * 100 = 1'

http://pythontutor.ru/lessons/lists/problems/swap_neighbours/

### .replace()
Заменяет все вхождения одной строки на другую. 

str.replace(old, new), где str - изменяемая строка, old - то, что заменяется, new - то, на что заменяется

In [32]:
message = 'I love you!'
message.replace('love', 'hate')

'I hate you!'

In [33]:
message = 'oooo'
message.replace('o', 'ol')

'olololol'

### .title(), .lower(), .upper()

Меняют регистр букв в строке

In [34]:
song = 'Wish You Were Here - Pink Floyd'

In [35]:
song.upper()

'WISH YOU WERE HERE - PINK FLOYD'

In [36]:
song = song.lower()
song

'wish you were here - pink floyd'

In [37]:
song.title()

'Wish You Were Here - Pink Floyd'

Дополнительно почитать про методы строк можно [здесь](http://pythontutor.ru/lessons/str/), список методов [здесь](https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html)

### Специальные символы строк

- \n - перенос строки
- \t - табуляция

In [38]:
symbols = 'this\n\tline\n\t\tpretends\n\t\t\tto be\n\tthe code'
print(symbols)

this
	line
		pretends
			to be
	the code


Мини-задача: напишите программу, которая принимает на вход число n и порождает строку, которая при выводе через print() "отодвигает" каждое число на равное ему количество табуляций:

Если n = 4, то:

0

    1
        2
            3

## Словари

Ещё одна изменяемая структура данных -- словарь (`dict`)

Словарь хранит пары ключ значение и предоставляет быстрый доступ к значению по ключу.

In [39]:
l = list()
d = {}
# оценки разных людей чему-либо
marks = {'bob': 5, 'alice': 4, 'dan': 5, 'bill': 3}
marks

{'bob': 5, 'alice': 4, 'dan': 5, 'bill': 3}

In [40]:
marks['bob']

5

In [41]:
marks['alice'] = 5
marks['anonymus'] = 1
marks

{'bob': 5, 'alice': 5, 'dan': 5, 'bill': 3, 'anonymus': 1}

In [42]:
print('alice' in marks)
print('mary' in marks)

True
False


In [44]:
print(list(marks.keys()))
print(marks.values())
print(marks.items())

['bob', 'alice', 'dan', 'bill', 'anonymus']
dict_values([5, 5, 5, 3, 1])
dict_items([('bob', 5), ('alice', 5), ('dan', 5), ('bill', 3), ('anonymus', 1)])


In [45]:
for key in marks:
    print(key, marks[key])

bob 5
alice 5
dan 5
bill 3
anonymus 1


In [46]:
d = {[1, 2]: 1}

TypeError: unhashable type: 'list'

- **порядок итерации по словарю произволен** : в отличие от ситуации со списком списка, элементы в словаре не упорядочены, а лежат в соответствии со своими хешами
- **ключом словаря может быть только неизменяемый тип данных** : например: строки, числа, кортежи (списки, словари, множества не могут быть ключами)

## Кортежи

Кортеж -- неизменяемый список

Одно из применений -- можно использовать как ключ словаря

In [47]:
c = (1, 2, 'Hello')
c

(1, 2, 'Hello')

In [48]:
c[0:2]

(1, 2)

In [None]:
c[0] = 0

In [None]:
d = {
    (1, 2): 'a',
    (1, 3): 'b',
    (2, 1): 'c'
}
d

## Множества

Набор уникальных элементов

Поддерживает операцию `in` за константное время (в случае со списком это `O(n)`)

In [49]:
s = set([1, 2, 3, 4, 3, 2, 1])
s

{1, 2, 3, 4}

In [50]:
print(1 in s)
print(5 in s)
print(5 not in s)

True
False
True


In [51]:
s.add(10)
s

{1, 2, 3, 4, 10}

In [52]:
s.add(1)
s

{1, 2, 3, 4, 10}

**элементы множества неупорядочены также как и ключи в массиве**

In [53]:
s[0]

TypeError: 'set' object does not support indexing

доступ к элементам множества можно получить через `for ... in` или `list(s)`

In [54]:
list(s)

[1, 2, 3, 4, 10]

Также есть много удобных функций для множеств, например объединение двух множеств

In [55]:
s1 = {1, 2, 3, 4}
s2 = {2, 3, 4, 5}
s1.union(s2)

{1, 2, 3, 4, 5}

или разность

In [56]:
s1 - s2

{1}

Множества позволяют элегантно решать некоторые задачи, например нахождение количества уникальных слов в тексте

In [57]:
with open('sherlock.txt') as f:
    text = f.read().lower()

word_list = text.split()
word_list[:10]

['the',
 'adventures',
 'of',
 'sherlock',
 'holmes',
 'arthur',
 'conan',
 'doyle',
 'table',
 'of']

In [59]:
word_set = set(word_list)

In [60]:
len(word_set)

14093

найдем, какие буквы не встречаются в данной фразе

In [61]:
s = 'Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit'

In [62]:
print(ord('a'))
print(ord('z'))
print(chr(98))

97
122
b


In [None]:
set(map(chr, range(ord('a'), ord('z')+1))) - set(s.lower())

In [None]:
from collections import Counter

c = Counter()
c.update(text.split())

In [None]:
c.update(['the', 'the'])

In [None]:
c['the']

## Работа с файлами

In [63]:
file = open('sherlock.txt', 'r', encoding='utf-8')
text1 = file.read()
file.close()
text1[:200]

'\n\n\n\n                        THE ADVENTURES OF SHERLOCK HOLMES\n\n                               Arthur Conan Doyle\n\n\n\n                                Table of contents\n\n               A Scandal in Bohem'

In [64]:
with open('sherlock.txt', encoding='utf8') as f:
    text2 = f.read()
text2[:200]

'\n\n\n\n                        THE ADVENTURES OF SHERLOCK HOLMES\n\n                               Arthur Conan Doyle\n\n\n\n                                Table of contents\n\n               A Scandal in Bohem'

In [65]:
with open('out.txt', 'w') as f:
    f.write("\nI'm \nwriting\n to file!!!\n")

In [66]:
with open('out.txt', 'a') as f:
    f.write("\nI'm \nwriting\n to file!!!\n")

In [67]:
with open('sherlock.txt') as f:
    i = 0
    for line in f:
        i += 1
print(i)

12195


In [68]:
import os

In [69]:
os.listdir()

['out.txt',
 'Lesson_1.ipynb',
 '.ipynb_checkpoints',
 'create_corpus_example.py',
 'Lesson_2.ipynb',
 'Lesson_3.ipynb',
 'sherlock.txt',
 'Homework_2.ipynb']

Мини задачка: пройдите по всем файлам в текущей директории и выведите имя и первые 100 символов каждого файла (вам понадобится функция `os.path.isfile`)

In [71]:
os.path.isfile('.ipyn')

False

In [72]:
for path in os.listdir():
    if os.path.isfile(path):
        try:
            with open(path, encoding='utf8') as f:
                print(f.read()[:100])
        except:
            pass


I'm 
writing
 to file!!!

I'm 
writing
 to file!!!

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Jupyter Note
import requests
from bs4 import BeautifulSoup
import urllib
import re

# здесь создаётся корпус
mar_
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Списки"
   ]
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Функции"
   




                        THE ADVENTURES OF SHERLOCK HOLMES

                               Arthur
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Homework 2\n"


In [75]:
marks = {'bob': {'city': 'a','age': 1},
    1: 4,
    'dan': [1, 2],
    'bill': 3}

## Словари json

**json (JavaScript Object Notation)** - формат данных, или даже скорее формат обмена данных

Независим от языка, на котором создаётся (можно передавать данные в формате json между программами, написанными на разных языках)

In [73]:
import json

In [76]:
s = json.dumps(marks)
s

'{"bob": {"city": "a", "age": 1}, "1": 4, "dan": [1, 2], "bill": 3}'

In [77]:
json.dump(marks, open('out.txt', 'w'))

In [78]:
s = '{"1": 2}'
json.loads(s)

{'1': 2}

In [81]:
mark = json.load(open('out.txt'))

In [84]:
mark['bob']

{'city': 'a', 'age': 1}

In [85]:
mark['bob']['city']

'a'

In [80]:
json.load(open('Lesson_2.ipynb'))

{'cells': [{'cell_type': 'markdown', 'metadata': {}, 'source': ['## Списки']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['Ещё один тип данных, которые вчера уже попадались - списки.']},
  {'cell_type': 'code',
   'execution_count': 1,
   'metadata': {},
   'outputs': [{'data': {'text/plain': ['[1, 2, 11, 12, 3, 4, 13, 14]']},
     'execution_count': 1,
     'metadata': {},
     'output_type': 'execute_result'}],
   'source': ['l = [1, 2, 11, 12, 3, 4, 13, 14]\n', 'l']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['Работа со списками частично похожа на работу со строками.\n',
    '\n',
    '- нумерация элементов тоже начинается с 0']},
  {'cell_type': 'code',
   'execution_count': 2,
   'metadata': {},
   'outputs': [{'data': {'text/plain': ['1']},
     'execution_count': 2,
     'metadata': {},
     'output_type': 'execute_result'}],
   'source': ['l[0]']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['- длина узнаётся так же']},
  {'

## Создание функций

In [86]:
def greet():
    print('Hello, world')

In [87]:
greet()

Hello, world


In [88]:
def return_greet():
    return 'Hello world'

In [89]:
return_greet()

'Hello world'

In [91]:
hw = return_greet()
hw

'Hello world'

In [93]:
def plus(a, b):
    return a + b

In [94]:
plus(1, 2)

3

In [95]:
plus('good', 'bye')

'goodbye'

**Переменные**: локальные vs глобальные

In [96]:
x = [1]  # глобальная переменная

def f():
    x.append(1)
    print(x)  # так делать не следует !!

f()

[1, 1]


In [None]:
x = [1]  # глобальная переменная

def f():
    x = [2]  # это уже та же самая переменная что и глобальный x
    print(x)
    
f()
print(x)  # видно что глобальный x не изменился

Мини-задачка: напишите функцию factorial(x)