# Базовые типы данных

## Списки (листы)

In [1]:
just_numbers = [4, 1, 13, 0, 6]

In [2]:
# количество элементов в списке
len(just_numbers)

5

In [3]:
# сумма элементов
sum(just_numbers)

24

In [4]:
# сортировка по возрастанию
sorted(just_numbers)

[0, 1, 4, 6, 13]

In [5]:
# изменить порядок сортировки
sorted(just_numbers, reverse = True)

[13, 6, 4, 1, 0]

In [6]:
sorted([1, 9, 10, 99, 100])

[1, 9, 10, 99, 100]

In [7]:
sorted(['1', '9', '10', '99', '100'])

['1', '10', '100', '9', '99']

In [8]:
# создать список из нескольких элементов

[0] * 10

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [9]:
'hello ' * 5

'hello hello hello hello hello '

In [10]:
# иногда удобно для генерации значений
user_id, movie_id, rating, timestamp = ['undef']*4

In [11]:
print(user_id)

undef


### Упражнение
Можно ли использовать sorted для списков, состоящих из чисел и строк одновременно? Попробуйте показать это на примере

In [13]:
sorted(['s',1,2])

TypeError: '<' not supported between instances of 'int' and 'str'

In [14]:
sorted([str(x) for x in ['s',1,2]])

['1', '2', 's']

### Распаковка списков

In [15]:
first, second, third = ['первый', 'второй', 'третий']
second

'второй'

In [16]:
# когда число элементов неизвестно

first, *other = ['первый', 'второй', 'третий']
first, other

('первый', ['второй', 'третий'])

In [17]:
first, *_, last =  ['первый', 'второй', 'третий', 'четвертый']

In [18]:
first, last

('первый', 'четвертый')

In [19]:
_

['второй', 'третий']

In [20]:
first, *_ = ['первый', 'второй', 'третий']

In [21]:
first, _

('первый', ['второй', 'третий'])

### Добавление элементов и сложение

In [22]:
just_numbers = [1, 2, 3]

In [23]:
# добавление элемента к списку
just_numbers.append(15)
just_numbers

[1, 2, 3, 15]

In [24]:
# так не работает
just_numbers = just_numbers.append(15)
print(just_numbers)

None


In [25]:
# склеивание списков
[1, 2, 3] + [4, 5, 6]

[1, 2, 3, 4, 5, 6]

### Фильтрация элементов списка
Аналогично строкам

### Важно!
1. Нумерация элементов начинается с 0

2. Правая граница диапазона не берется в расчет

In [26]:
months = ['jan', 'feb', 'mar', 'apr', 'may', 'jun', 'jul', 'aug', 'sep', 'oct', 'nov', 'dec']

In [27]:
# январь и февраль
months[0:2]

['jan', 'feb']

In [28]:
# первый (нулевой) элемент и последний можно не указывать
# зимние месяцы

months[-3:]

['oct', 'nov', 'dec']

In [29]:
# все месяцы с шагом 2
months[::2]

['jan', 'mar', 'may', 'jul', 'sep', 'nov']

### Упражнение
Выведите на экран весенние месяцы

In [30]:
months[2:5]

['mar', 'apr', 'may']

In [33]:
(months*3)[2::13]

['mar', 'apr', 'may']

### Вложенные списки

In [34]:
user_data = [
    ['Елена', 500],
    ['Алексей', 400],
    ['Татьяна', 250],
    ['Сергей', 110],
]

In [35]:
# обращение ко вложенным элементам

user_data[2][0]

'Татьяна'

### Упражнение
Дан список цен на товары. Выведите на экран производителя LG из третьей по счету строки, обратившись к items

In [36]:
items = [
    ['Электроника', ['Смартфоны', ['iPhone', 63532]]],
    ['Электроника', ['Аксессуары', ['Samsung', 2645]]],
    ['Бытовая техника', ['Холодильники', ['LG', 43278]]],
]

In [39]:
items[2][1][1][0]

'LG'

In [40]:
items[-1][-1][-1][0]

'LG'

### Изменение списков

В примере ниже переменная a и b на самом деле указывают на один и тот же объект. В результате, при добавлении в b очередного элемента этот элемент добавляется и в исходном листе a

In [41]:
a = [1, 2, 3]
b = a

In [42]:
b.append(4)
'a = {}'.format(a)

'a = [1, 2, 3, 4]'

In [43]:
id(a), id(b)

(139689521185800, 139689521185800)

Используем модуль copy

In [44]:
import copy

In [45]:
a = [1, 2, 3]
b = copy.copy(a)

In [46]:
id(a), id(b)

(139689521438472, 139689522732488)

In [47]:
b.append(4)
print('a = {}'.format(a))

print('b = {}'.format(b))

a = [1, 2, 3]
b = [1, 2, 3, 4]


Со словарями та же история

In [48]:
dict_1 = {'a': 1}
dict_2 = dict_1

In [49]:
dict_2.update({'b': 2})

In [50]:
dict_1

{'a': 1, 'b': 2}

### Перебор элементов списка

In [51]:
a = [1, 2, 3, 4, 5]

In [52]:
for i in a:
    print(i)
    
    if i > 3:
        break

1
2
3
4


In [53]:
# функция range:

for i in range(5):
    print(i)

0
1
2
3
4


In [54]:
for i in range(3, 20):
    print(i)

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19


In [55]:
for i in range(3, 20, 5):
    print(i)

3
8
13
18


### Простые проверки

In [56]:
a = range(10**6)

In [57]:
for i in a:
    # вычисления
    
    if i % 200000 == 0:
        print(i)

0
200000
400000
600000
800000


### Упражнение

Имеется поток данных о ценах товаров (считайте, что цена всегда больше 0). Необходимо написать алгоритм определения минимального четного числа в этом потоке.

В качестве усложненного варианта рассмотрите дополнительные условия:

1. Список sys_stdin может быть любого размера или условно бесконечным потоком чисел. Т. е. поместить список в оперативную память целиком нельзя.

2. Не учитывайте в расчете отрицательные числа и 0 (соответственно, начальное условие о положительной цене отменяется).

In [58]:
# sys_stdin сейчас просто название переменной
sys_stdin = [78, 68, 484, 3, 254, 90, 143, 78, 43, 42, 3053, 473, 5, 8593, 16, 3, 1454, 37, 96, 8547]

In [70]:
l_min = sys_stdin[0]
for i in sys_stdin:
    if (l_min > i) and (i % 2 == 0):
        l_min = i
print(l_min)

16


### Немного про итераторы в 2.7 и 3.x

Во второй версии питона range(5) вернет список [0, 1, 2, 3, 4]

In [71]:
range(5)

range(0, 5)

In [72]:
for i in range(10**12):
    print(i)
    
    if i > 10:
        break

0
1
2
3
4
5
6
7
8
9
10
11


Аналог в третьей версии:

In [73]:
list(range(5))

[0, 1, 2, 3, 4]

In [75]:
range(10**12)

range(0, 1000000000000)

## Tuple (кортеж)
Неизменяемый список

In [76]:
t = (1, 2, 3)
type(t)

tuple

In [77]:
t.__sizeof__()

48

In [78]:
[1, 2, 3].__sizeof__()

64

In [79]:
t[0] = 1

TypeError: 'tuple' object does not support item assignment

In [80]:
# кортеж из одного элемента задается так:
t = ('one',)

In [81]:
type(t)

tuple

In [82]:
# без запятой получится строка

type( ('one') )

str

## Множества set
Набор неповторяющихся элементов в случайном порядке

In [83]:
nums = [1, 0, 0, 1]
set(nums)

{0, 1}

### Упражнение
Дан список описаний товаров descriptions. 

Есть подозрение, что некоторые описания содержат много дубликатов одних и тех же слов. Т. е. могут быть переоптимизированными. Для каждого описания товара выведите на экран разницу между количеством уникальных слов и общим количеством слов в этом описании.

In [84]:
descriptions = [
    ['браслет', 'xiaomi', 'mi', 'band', '2.', 'умный', 'браслет', 'xiaomi', 'mi', 'лидер', 'в', 'линейке', 'xiaomi.', 'фитнес', 'браслет', 'для', 'android', '4.4,', 'ios', '7,', 'экран', 'oled.', 'лучший', 'выбор', 'xiaomi'],
    ['браслет', 'huawei', 'honor', 'band', '3.', 'фитнес', 'браслет', 'влагозащищенный', 'сенсорный', 'экран', 'android,', 'ios', 'мониторинг', 'сна'],
    ['браслет', 'samsung', 'gear', 'fit2', 'pro.', 'влагозащищенный', 'сенсорный', 'amoled-экран', 'мониторинг', 'сна,', 'калорий,', 'новинка', 'samsung'],
]

In [85]:
[len(d)-len(set(d)) for d in descriptions]

[5, 1, 1]

## Сравнение больших списков
Дан набор ID товаров из CRM и базы управленческой отчетности, которые частично расходятся. Необходимо определить процент расхождения ID заявок в этих базах.

Более общая постановка задачи: даны два списка, хотя бы один из которых помещается в оперативную память. Необходимо найти общее количество общих элементов этих списков.

In [86]:
power = 7

system_1_data = list(range(1, 10**power, 5))
system_2_data = list(range(1, 10**power, 7))

In [87]:
len(system_1_data), len(system_2_data)

(2000000, 1428572)

Вариант 1

Ищем пересечение простым перебором

In [88]:
%%time
unique_elements_counter = 0

i = 0
for el in system_1_data:
    if el in system_2_data:
        unique_elements_counter += 1
    
    i += 1
    if i % 100 == 0:
        print(i)

print(unique_elements_counter)

100
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1600
1700
1800
1900
2000
2100
2200
2300
2400
2500
2600
2700
2800
2900
3000


KeyboardInterrupt: 

In [89]:
10**7 / 100 / 84000

1.1904761904761905

Вариант 2

Используем поиск по множеству

In [90]:
system_2_set = set(system_2_data)

In [91]:
%%time
common_elements_counter = 0

i = 0
for el in system_1_data:
    if el in system_2_set:
        unique_elements_counter += 1

    i += 1
    if i % 1000000 == 0:
        print(i)

print(common_elements_counter)

1000000
2000000
0
CPU times: user 597 ms, sys: 0 ns, total: 597 ms
Wall time: 597 ms


In [92]:
# запись результатов в Excel

from openpyxl import Workbook
wb = Workbook()

sheet = wb.active

i = 1
for el in system_1_data:
    if el in system_2_set:
        sheet['A{}'.format(i)] = el
        i += 1

wb.save(filename='export_ids.xlsx')

## Списки и строки

In [93]:
queries_string = "смотреть сериалы онлайн,новости спорта,афиша кино,курс доллара,сериалы этим летом,курс по питону,сериалы про спорт"

In [94]:
# преобразование строки в список (например, из CSV-файла)
queries_string.split(',')

['смотреть сериалы онлайн',
 'новости спорта',
 'афиша кино',
 'курс доллара',
 'сериалы этим летом',
 'курс по питону',
 'сериалы про спорт']

In [95]:
# Преобразование списка в строку

','.join(['Столбец 1', 'Столбец 2', 'Столбец 3'])

'Столбец 1,Столбец 2,Столбец 3'

In [96]:
# проверка вхождения элемента в список:

'Москва' in ['Ленинград', 'Одесса', 'Севастополь', 'Москва']

True

### Упражнение
Дана строчка из CSV-файла, которая содержит набор поисковых запросов, разделенных запятой:

queries = "смотреть сериалы онлайн,новости спорта,афиша кино,курс доллара,сериалы этим летом,курс по питону,сериалы про спорт"

Также дан список слов, по которому необходимо отфильтровать исходную строку с поисковыми запросами:

words = ['сериалы', 'курс']

Вам необходимо написать скрипт, который выводит на экран строчку queries, в которой оставлены только те запросы, которые содержат слова из листа words.

In [97]:
queries = "смотреть сериалы онлайн,новости спорта,афиша кино,курс доллара,сериалы этим летом,курс по питону,сериалы про спорт"

In [98]:
words = ['сериалы', 'курс']

In [100]:
','.join([x for w in words for x in queries.split(',') if w in x])

'смотреть сериалы онлайн,сериалы этим летом,сериалы про спорт,курс доллара,курс по питону'

### List comprehension

In [101]:
# Дана последовательность чисел. Мы хотим оставить только те, что делятся на 5
sequence = range( 0, 40, 3 )
sequence

range(0, 40, 3)

In [102]:
list(sequence)

[0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39]

In [103]:
# решение в лоб
for num in sequence:
    if num % 5 == 0:
        print( num )

0
15
30


In [104]:
# если хотим получить отфильтрованный лист, то будет даже так
filteredSequence = []

for num in sequence:
    if num % 5 == 0:
        filteredSequence.append( num )

print( filteredSequence )

[0, 15, 30]


In [105]:
# с list comprehension получается покороче

print( [ x**2 for x in sequence if x % 5 == 0 ] )

[0, 225, 900]


Пример вычисления метрики из набора списков. Столбцы в каждой строке:
- дата
- номер счетчика
- количество визитов

In [106]:
api_response = [
    ['2017-12-26', '777', 184],
    ['2017-12-27', '111', 146],
    ['2017-12-28', '777', 98],
    ['2017-12-29', '777', 206],
    ['2017-12-30', '111', 254],
    ['2017-12-31', '777', 89],
    ['2018-01-01', '111', 54],
    ['2018-01-02', '777', 68],
    ['2018-01-03', '777', 74],
    ['2018-01-04', '111', 89],
    ['2018-01-05', '777', 104],
    ['2018-01-06', '777', 99],
    ['2018-01-07', '777', 145],
    ['2018-01-08', '111', 184],
]

In [107]:
sum([line[2] for line in api_response])

1794

In [109]:
[x for x in api_response if '2018-01-' in x[0]]

[['2018-01-01', '111', 54],
 ['2018-01-02', '777', 68],
 ['2018-01-03', '777', 74],
 ['2018-01-04', '111', 89],
 ['2018-01-05', '777', 104],
 ['2018-01-06', '777', 99],
 ['2018-01-07', '777', 145],
 ['2018-01-08', '111', 184]]

### Упражнение

Посчитайте среднее значение визитов за день только за 2018 год для счетчика 777

In [115]:
sum([x[2] for x in api_response if '2018-' in x[0] and x[1] == '777'])/len([x[2] for x in api_response if '2018-' in x[0] and x[1] == '777'])

98.0

## Словари

In [117]:
stats = {
    '2017-05-01': 100,
    '2017-05-02': 101,
    '2017-05-03': 102
}

In [118]:
# обращение к элементу словаря
print( stats['2017-05-01'] )

100


In [119]:
# пройтись по элементам словаря
for key in stats.values():
    print( key )

100
101
102


In [120]:
# количество ключей
print( len( stats ) )

3


### При обращении к словарю ключ должен существовать

In [121]:
stats['2017-05-04']

KeyError: '2017-05-04'

In [122]:
# проверка на наличие ключа в словаре
newDate = '2017-05-04'
newDateValue = 103

if newDate in stats:
    print('Значение для ключа уже существует')
    
else:
    print('Добавляю новый ключ')
    stats[ newDate ] = newDateValue

print( stats )

Добавляю новый ключ
{'2017-05-01': 100, '2017-05-02': 101, '2017-05-03': 102, '2017-05-04': 103}


Можно использовать метод setdefault

In [123]:
stats = {
    '2017-05-01': 100,
    '2017-05-02': 101,
    '2017-05-03': 102
}

In [124]:
stats.setdefault('2017-05-09', 0)
stats['2017-05-09'] = 109
stats

{'2017-05-01': 100, '2017-05-02': 101, '2017-05-03': 102, '2017-05-09': 109}

In [125]:
# setdefault не изменяет значение, если ключ уже был в словаре
stats = {'2017-05-01': 100}

stats.setdefault('2017-05-01', 0)
stats

{'2017-05-01': 100}

### Упражнение
Имеется список с координатами мест и названием страны, в которое находится это место. Напишите алгоритм, который считает распределение количества мест по странам. Список координат может быть любого размера.

In [126]:
data = [
    [55, 37, 'Россия'],
    [43, 131, 'Россия'],
    [48, 2, 'Франция'],
    [42, 5, 'Франция'],
    [51, 55, 'Россия'],
]

In [127]:
{'Россия': 3, 'Франция': 2}

{'Россия': 3, 'Франция': 2}

In [148]:
d = {}
for x in data:
    d.setdefault(x[2], 0)
    d[x[2]] += 1
print(d)

{'Россия': 3, 'Франция': 2}


## Словари и списки

In [129]:
# попарное сравнение значений списков

test = [ 1, 0, 0, 1 ]
predictions = [ 0.89, 0.34, 0.08, 0.67 ]

In [130]:
for pairs in zip( test, predictions ):
    print( pairs )

(1, 0.89)
(0, 0.34)
(0, 0.08)
(1, 0.67)


Словарь из двух списков

In [131]:
categories = [ 'Еда', 'Авто', 'Политика' ]
audience = [ 100, 200, 300 ]

In [132]:
category_audience = zip( categories, audience )
for element in category_audience:
    print( element )

('Еда', 100)
('Авто', 200)
('Политика', 300)


In [133]:
categoriesDict = dict( zip( categories, audience ) )
print( categoriesDict )

{'Еда': 100, 'Авто': 200, 'Политика': 300}


## Словарь из списка
Похоже на  list comprehension

In [134]:
{n: n**2 for n in range(10)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

In [135]:
results = [('date', '2018-01-01'), ('counter', '777'), ('visits', 154)]

In [136]:
{metric: value for (metric, value) in results}

{'date': '2018-01-01', 'counter': '777', 'visits': 154}

## Сортировка списка по элементам

In [137]:
results = [
    {'cost': 98, 'revenue': 103, 'source': 'vk'},
    {'cost': 153, 'revenue': 179, 'source': 'yandex'},
    {'cost': 110, 'revenue': 103, 'source': 'facebook'},
    {'cost': 34, 'revenue': 35, 'source': 'adwords'},
    {'cost': 24, 'revenue': 11, 'source': 'twitter'},
]

In [138]:
sorted(results, key=lambda x: -x['revenue'])

[{'cost': 153, 'revenue': 179, 'source': 'yandex'},
 {'cost': 98, 'revenue': 103, 'source': 'vk'},
 {'cost': 110, 'revenue': 103, 'source': 'facebook'},
 {'cost': 34, 'revenue': 35, 'source': 'adwords'},
 {'cost': 24, 'revenue': 11, 'source': 'twitter'}]

## Сортировка вложенных словарей

In [139]:
results = {
    'vk': {'revenue': 103, 'cost': 98},
    'yandex': {'revenue': 179, 'cost': 153},
    'facebook': {'revenue': 103, 'cost': 110},
    'adwords': {'revenue': 35, 'cost': 34},
    'twitter': {'revenue': 11, 'cost': 24},
}

In [142]:
# сортировка по ключам в обратном порядке
sorted(results.items(), key = lambda x: x[1]['revenue'], reverse=True)

[('yandex', {'revenue': 179, 'cost': 153}),
 ('vk', {'revenue': 103, 'cost': 98}),
 ('facebook', {'revenue': 103, 'cost': 110}),
 ('adwords', {'revenue': 35, 'cost': 34}),
 ('twitter', {'revenue': 11, 'cost': 24})]

### Упражнение

Для каждого источника посчитайте ROI (revenue / cost - 1) и отсортируйте результат по убыванию ROI

In [143]:
sorted(results.items(), key = lambda x: x[1]['revenue']/x[1]['cost']-1, reverse=True)

[('yandex', {'revenue': 179, 'cost': 153}),
 ('vk', {'revenue': 103, 'cost': 98}),
 ('adwords', {'revenue': 35, 'cost': 34}),
 ('facebook', {'revenue': 103, 'cost': 110}),
 ('twitter', {'revenue': 11, 'cost': 24})]

## Группировки в больших массивах данных

In [144]:
# имеется большой лист значений, в первом столбце которого количество элементов относительно невелико

big_data_list = [
    ['google', 'cpc', 925],
    ['yandex', 'organic', 790],
    ['market', 'cpc', 465],
    ['google', 'organic', 413],
    ['google', 'cpc', 398],
    ['direct', 'none', 115],
    ['yandex', 'cpc', 43]
]

In [145]:
{'yandex': 123, 'google': 123213}

{'yandex': 123, 'google': 123213}

In [146]:
stats = {}

for line in big_data_list:
    stats.setdefault(line[0], 0)
    stats[line[0]] += line[2]

stats

{'google': 1736, 'yandex': 833, 'market': 465, 'direct': 115}

### Упражнение

Посчитайте количество уникальных значений канала в листе big_data_list (второй столбец)

In [None]:
{'cpc': ..., 'organic': ..., 'none': ...}

In [None]:
logs = [
    '123',
    '123',
    '123',
    '567',
    '567',
    '567',
]

In [149]:
stats = {}

for line in big_data_list:
    stats.setdefault(line[1], 0)
    stats[line[1]] += 1

stats

{'cpc': 4, 'organic': 2, 'none': 1}