# Базовые типы данных

## Списки (листы)

In [1]:
just_numbers = [4, 1, 13, 0, 6]

In [2]:
# количество элементов в списке
len(just_numbers)

5

In [3]:
# сумма элементов
sum(just_numbers)

24

In [4]:
# сортировка по возрастанию
sorted(just_numbers)

[0, 1, 4, 6, 13]

In [5]:
# изменить порядок сортировки
sorted(just_numbers, reverse = True)

[13, 6, 4, 1, 0]

In [6]:
sorted([1, 9, 10, 99, 100])

[1, 9, 10, 99, 100]

In [7]:
sorted(['1', '9', '10', '99', '100'])

['1', '10', '100', '9', '99']

In [11]:
# создать список из нескольких элементов

[0] * 10

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [10]:
'hello ' * 5

'hello hello hello hello hello '

In [None]:
# иногда удобно для генерации значений
user_id, movie_id, rating, timestamp = ['undef']*4

In [None]:
print(user_id)

### Упражнение
Можно ли использовать sorted для списков, состоящих из чисел и строк одновременно? Попробуйте показать это на примере

In [8]:
mixed = [0,2,'5','10']

In [9]:
sorted(mixed)

TypeError: '<' not supported between instances of 'str' and 'int'

In [12]:
a = ['r', 5, 'tiutg', 8]
sorted([i for i in a if isinstance(i, str)]) + sorted([i for i in a if isinstance(i, int)])

['r', 'tiutg', 5, 8]

In [13]:
sorted([str(v) for v in [1, 'a', 2]])

['1', '2', 'a']

### Распаковка списков

In [14]:
first, second, third = ['первый', 'второй', 'третий']
second

'второй'

In [15]:
# когда число элементов неизвестно

first, *other = ['первый', 'второй', 'третий']
first, other

('первый', ['второй', 'третий'])

In [16]:
first, *_, last =  ['первый', 'второй', 'третий', 'четвертый']

In [17]:
first, last

('первый', 'четвертый')

In [18]:
_

['второй', 'третий']

In [19]:
first, *_ = ['первый', 'второй', 'третий']

In [20]:
first, _

('первый', ['второй', 'третий'])

### Добавление элементов и сложение

In [25]:
just_numbers = [1, 2, 3]

In [26]:
# добавление элемента к списку
just_numbers.append(15)
just_numbers

[1, 2, 3, 15]

In [23]:
# так не работает
just_numbers = just_numbers.append(15)
print(just_numbers)

None


In [27]:
# склеивание списков
[1, 2, 3] + [4, 5, 6]

[1, 2, 3, 4, 5, 6]

In [31]:
a = [1, 2, 3]  
a.extend([4, 5, 6])

In [32]:
a

[1, 2, 3, 4, 5, 6]

### Фильтрация элементов списка
Аналогично строкам

### Важно!
1. Нумерация элементов начинается с 0

2. Правая граница диапазона не берется в расчет

In [33]:
months = ['jan', 'feb', 'mar', 'apr', 'may', 'jun', 'jul', 'aug', 'sep', 'oct', 'nov', 'dec']

In [34]:
# январь и февраль
months[0:2]

['jan', 'feb']

In [35]:
# первый (нулевой) элемент и последний можно не указывать
# зимние месяцы

months[-3:]

['oct', 'nov', 'dec']

In [36]:
# все месяцы с шагом 2
months[::2]

['jan', 'mar', 'may', 'jul', 'sep', 'nov']

### Упражнение
Выведите на экран весенние месяцы

In [37]:
months[2:5]

['mar', 'apr', 'may']

In [38]:
months[-10:-7]

['mar', 'apr', 'may']

In [39]:
months[months.index('mar'):months.index('may')+1]

['mar', 'apr', 'may']

### Вложенные списки

In [40]:
user_data = [
    ['Елена', 500],
    ['Алексей', 400],
    ['Татьяна', 250],
    ['Сергей', 110],
]

In [44]:
# обращение ко вложенным элементам

user_data[0][1]

500

### Упражнение
Дан список цен на товары. Выведите на экран производителя LG из третьей по счету строки, обратившись к items

In [45]:
items = [
    ['Электроника', ['Смартфоны', ['iPhone', 63532]]],
    ['Электроника', ['Аксессуары', ['Samsung', 2645]]],
    ['Бытовая техника', ['Холодильники', ['LG', 43278]]],
]

In [48]:
items[2][1][1][0]

'LG'

In [52]:
items[-1][-1][-1][0]

'LG'

### Изменение списков

В примере ниже переменная a и b на самом деле указывают на один и тот же объект. В результате, при добавлении в b очередного элемента этот элемент добавляется и в исходном листе a

In [65]:
a = [1, 2, 3]
b = a

In [70]:
b.append(4)
'a = {}'.format(a)

'a = [1, 2, 3, 4, 4, 4, 4, 4]'

In [71]:
id(a), id(b)

(1703589477192, 1703589477192)

Используем модуль copy

In [72]:
import copy

In [73]:
a = [1, 2, 3]
b = copy.copy(a)

In [74]:
id(a), id(b)

(1703589520776, 1703589544392)

In [77]:
b.append(4)
print('a = {}'.format(a))

print('b = {}'.format(b))

a = [1, 2, 3]
b = [1, 2, 3, 4, 4, 4]


Со словарями та же история

In [None]:
dict_1 = {'a': 1}
dict_2 = dict_1

In [None]:
dict_2.update({'b': 2})

In [None]:
dict_1

### Перебор элементов списка

In [78]:
a = [1, 2, 3, 4, 5]

In [81]:
for i in a:
    
    print(i)
    if i > 3:
        break
    
   

1
2
3
4


In [83]:
# функция range:

for i in range(5):
    print(i)

0
1
2
3
4


In [84]:
for i in range(3, 20):
    print(i)

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19


In [85]:
for i in range(3, 20, 5):
    print(i)

3
8
13
18


### Простые проверки

In [86]:
a = range(10**6)

In [89]:
for i in a:
    # вычисления
    
    if i % 200000 == 0:
        print(i/len(a))

0.0
0.2
0.4
0.6
0.8


### Упражнение

Имеется поток данных о ценах товаров (считайте, что цена всегда больше 0). Необходимо написать алгоритм определения минимального четного числа в этом потоке.

В качестве усложненного варианта рассмотрите дополнительные условия:

1. Список sys_stdin может быть любого размера или условно бесконечным потоком чисел. Т. е. поместить список в оперативную память целиком нельзя.

2. Не учитывайте в расчете отрицательные числа и 0 (соответственно, начальное условие о положительной цене отменяется).

In [91]:
# sys_stdin сейчас просто название переменной
sys_stdin = [78, 68, 484, 3, 254, 90, 143, 78, 43, 42, 3053, 473, 5, 8593, 16, 3, 1454, 37, 96, 8547]

In [96]:
min(a for a in sys_stdin if a%2==0)

16

In [97]:
sorted([x for x in sys_stdin if x%2==0])[0]

16

In [108]:
min_value = 0
for x in sys_stdin:

    if x%2==0:
        if min_value==0:
            min_value = x
        else:
            if x < min_value:
                min_value = x
min_value

16

### Немного про итераторы в 2.7 и 3.x

Во второй версии питона range(5) вернет список [0, 1, 2, 3, 4]

In [98]:
range(5)

range(0, 5)

In [104]:
for i in range(10**10):
    print(i)
    
    if i > 10:
        break

0
1
2
3
4
5
6
7
8
9
10
11


Аналог в третьей версии:

In [99]:
list(range(5))

[0, 1, 2, 3, 4]

## Tuple (кортеж)
Неизменяемый список

In [109]:
t = (1, 2, 3)
type(t)

tuple

In [110]:
t.__sizeof__()

48

In [111]:
[1, 2, 3].__sizeof__()

64

In [112]:
t[0] = 1

TypeError: 'tuple' object does not support item assignment

In [113]:
# кортеж из одного элемента задается так:
t = ('one',)

In [114]:
type(t)

tuple

In [115]:
# без запятой получится строка

type( ('one') )

str

## Множества set
Набор неповторяющихся элементов в случайном порядке

In [116]:
nums = [1, 0, 0, 1]
set(nums)

{0, 1}

### Упражнение
Дан список описаний товаров descriptions. 

Есть подозрение, что некоторые описания содержат много дубликатов одних и тех же слов. Т. е. могут быть переоптимизированными. Для каждого описания товара выведите на экран разницу между количеством уникальных слов и общим количеством слов в этом описании.

In [117]:
descriptions = [
    ['браслет', 'xiaomi', 'mi', 'band', '2.', 'умный', 'браслет', 'xiaomi', 'mi', 'лидер', 'в', 'линейке', 'xiaomi.', 'фитнес', 'браслет', 'для', 'android', '4.4,', 'ios', '7,', 'экран', 'oled.', 'лучший', 'выбор', 'xiaomi'],
    ['браслет', 'huawei', 'honor', 'band', '3.', 'фитнес', 'браслет', 'влагозащищенный', 'сенсорный', 'экран', 'android,', 'ios', 'мониторинг', 'сна'],
    ['браслет', 'samsung', 'gear', 'fit2', 'pro.', 'влагозащищенный', 'сенсорный', 'amoled-экран', 'мониторинг', 'сна,', 'калорий,', 'новинка', 'samsung'],
]

In [119]:
for i in descriptions:
    l = len(set(i)) - len(i)
    print (l)

-5
-1
-1


In [120]:
[len(set(d)) - len(d) for d in descriptions]

[-5, -1, -1]

In [None]:
for description in descriptions:
    difference = 0
    for i in range(1, len(description)):
        if description[i] in description[:i]:
            difference += 1
    print(difference)

## Сравнение больших списков
Дан набор ID товаров из CRM и базы управленческой отчетности, которые частично расходятся. Необходимо определить процент расхождения ID заявок в этих базах.

Более общая постановка задачи: даны два списка, хотя бы один из которых помещается в оперативную память. Необходимо найти общее количество общих элементов этих списков.

In [2]:
power = 7

system_1_data = list(range(1, 10**power, 5))
system_2_data = list(range(1, 10**power, 7))

In [122]:
len(system_1_data), len(system_2_data)

(2000000, 1428572)

Вариант 1

Ищем пересечение простым перебором

In [None]:
%%time
unique_elements_counter = 0

i = 0
for el in system_1_data:
    if el in system_2_data:
        unique_elements_counter += 1
    
    i += 1
    if i % 100 == 0:
        print(i)

print(unique_elements_counter)

In [6]:
10**7 / 100 / 84000

1.1904761904761905

Вариант 2

Используем поиск по множеству

In [4]:
system_2_set = set(system_2_data)

In [7]:
%%time
common_elements_counter = 0

i = 0
for el in system_1_data:
    if el in system_2_set:
        common_elements_counter += 1

    i += 1
    if i % 1000000 == 0:
        print(i)

print(common_elements_counter)

1000000
2000000
285715
Wall time: 895 ms


In [None]:
# запись результатов в Excel

from openpyxl import Workbook
wb = Workbook()

sheet = wb.active

i = 1
for el in system_1_data:
    if el in system_2_set:
        sheet['A{}'.format(i)] = el
        i += 1

wb.save(filename='export_ids.xlsx')

## Списки и строки

In [8]:
queries_string = "смотреть сериалы онлайн,новости спорта,афиша кино,курс доллара,сериалы этим летом,курс по питону,сериалы про спорт"

In [9]:
# преобразование строки в список (например, из CSV-файла)
queries_string.split(',')

['смотреть сериалы онлайн',
 'новости спорта',
 'афиша кино',
 'курс доллара',
 'сериалы этим летом',
 'курс по питону',
 'сериалы про спорт']

In [10]:
# Преобразование списка в строку

','.join(['Столбец 1', 'Столбец 2', 'Столбец 3'])

'Столбец 1,Столбец 2,Столбец 3'

In [11]:
# проверка вхождения элемента в список:

'Москва' in ['Ленинград', 'Одесса', 'Севастополь', 'Москва']

True

### Упражнение
Дана строчка из CSV-файла, которая содержит набор поисковых запросов, разделенных запятой:

queries = "смотреть сериалы онлайн,новости спорта,афиша кино,курс доллара,сериалы этим летом,курс по питону,сериалы про спорт"

Также дан список слов, по которому необходимо отфильтровать исходную строку с поисковыми запросами:

words = ['сериалы', 'курс']

Вам необходимо написать скрипт, который выводит на экран строчку queries, в которой оставлены только те запросы, которые содержат слова из листа words.

In [None]:
queries = "смотреть сериалы онлайн,новости спорта,афиша кино,курс доллара,сериалы этим летом,курс по питону,сериалы про спорт"

In [None]:
words = ['сериалы', 'курс']

### List comprehension

In [12]:
# Дана последовательность чисел. Мы хотим оставить только те, что делятся на 5
sequence = range( 0, 40, 3 )
sequence

range(0, 40, 3)

In [13]:
list(sequence)

[0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39]

In [14]:
# решение в лоб
for num in sequence:
    if num % 5 == 0:
        print( num )

0
15
30


In [15]:
# если хотим получить отфильтрованный лист, то будет даже так
filteredSequence = []

for num in sequence:
    if num % 5 == 0:
        filteredSequence.append( num )

print( filteredSequence )

[0, 15, 30]


In [16]:
# с list comprehension получается покороче

print( [ x**2 for x in sequence if x % 5 == 0 ] )

[0, 225, 900]


Пример вычисления метрики из набора списков. Столбцы в каждой строке:
- дата
- номер счетчика
- количество визитов

In [17]:
api_response = [
    ['2017-12-26', '777', 184],
    ['2017-12-27', '111', 146],
    ['2017-12-28', '777', 98],
    ['2017-12-29', '777', 206],
    ['2017-12-30', '111', 254],
    ['2017-12-31', '777', 89],
    ['2018-01-01', '111', 54],
    ['2018-01-02', '777', 68],
    ['2018-01-03', '777', 74],
    ['2018-01-04', '111', 89],
    ['2018-01-05', '777', 104],
    ['2018-01-06', '777', 99],
    ['2018-01-07', '777', 145],
    ['2018-01-08', '111', 184],
]

In [18]:
sum([line[2] for line in api_response])

1794

In [19]:
sum([line[2] for line in api_response])

1794

### Упражнение

Посчитайте среднее значение визитов за день только за 2018 год для счетчика 777

In [23]:
line = [line[2] for line in api_response if line[1]=='777' and '2018' in line[0]]
sum(line) / len(line)

98.0

## Словари

In [24]:
stats = {
    '2017-05-01': 100,
    '2017-05-02': 101,
    '2017-05-03': 102
}

In [25]:
# обращение к элементу словаря
print( stats['2017-05-01'] )

100


In [29]:
# пройтись по элементам словаря
for key in stats.values():
    print( key )

100
101
102


In [31]:
for key,value in stats.items():
    print(key)

2017-05-01
2017-05-02
2017-05-03


In [27]:
# количество ключей
print( len( stats ) )

3


### При обращении к словарю ключ должен существовать

In [30]:
stats['2017-05-04']

KeyError: '2017-05-04'

In [35]:
# проверка на наличие ключа в словаре
newDate = '2017-05-05'
newDateValue = 103

if newDate in stats:
    print('Значение для ключа уже существует')
    
else:
    print('Добавляю новый ключ')
    stats[ newDate ] = newDateValue

print( stats )

Добавляю новый ключ
{'2017-05-01': 100, '2017-05-02': 101, '2017-05-03': 102, '2017-05-04': 103, '2017-05-05': 103}


Можно использовать метод setdefault

In [36]:
stats = {
    '2017-05-01': 100,
    '2017-05-02': 101,
    '2017-05-03': 102
}

In [37]:
stats.setdefault('2017-05-09', 0)
stats['2017-05-09'] = 109
stats

{'2017-05-01': 100, '2017-05-02': 101, '2017-05-03': 102, '2017-05-09': 109}

In [None]:
# setdefault не изменяет значение, если ключ уже был в словаре
stats = {'2017-05-01': 100}

stats.setdefault('2017-05-01', 0)
stats

### Упражнение
Имеется список с координатами мест и названием страны, в которое находится это место. Напишите алгоритм, который считает распределение количества мест по странам. Список координат может быть любого размера.

In [None]:
data = [
    [55, 37, 'Россия'],
    [43, 131, 'Россия'],
    [48, 2, 'Франция'],
    [42, 5, 'Франция'],
    [51, 55, 'Россия'],
]

In [None]:
{'Россия': 3, 'Франция': 2}

## Словари и списки

In [None]:
# попарное сравнение значений списков

test = [ 1, 0, 0, 1 ]
predictions = [ 0.89, 0.34, 0.08, 0.67 ]

In [None]:
for pairs in zip( test, predictions ):
    print( pairs )

Словарь из двух списков

In [38]:
categories = [ 'Еда', 'Авто', 'Политика' ]
audience = [ 100, 200, 300 ]

In [None]:
category_audience = zip( categories, audience )
for element in category_audience:
    print( element )

In [39]:
categoriesDict = dict( zip( categories, audience ) )
print( categoriesDict )

{'Еда': 100, 'Авто': 200, 'Политика': 300}


## Словарь из списка
Похоже на  list comprehension

In [None]:
{n: n**2 for n in range(10)}

In [None]:
results = [('date', '2018-01-01'), ('counter', '777'), ('visits', 154)]

In [None]:
{metric: value for (metric, value) in results}

## Сортировка списка по элементам

In [40]:
results = [
    {'cost': 98, 'revenue': 103, 'source': 'vk'},
    {'cost': 153, 'revenue': 179, 'source': 'yandex'},
    {'cost': 110, 'revenue': 103, 'source': 'facebook'},
    {'cost': 34, 'revenue': 35, 'source': 'adwords'},
    {'cost': 24, 'revenue': 11, 'source': 'twitter'},
]

In [44]:
sorted(results, key=lambda x: -x['cost'])

[{'cost': 153, 'revenue': 179, 'source': 'yandex'},
 {'cost': 110, 'revenue': 103, 'source': 'facebook'},
 {'cost': 98, 'revenue': 103, 'source': 'vk'},
 {'cost': 34, 'revenue': 35, 'source': 'adwords'},
 {'cost': 24, 'revenue': 11, 'source': 'twitter'}]

## Сортировка вложенных словарей

In [48]:
results = {
    'vk': {'revenue': 103, 'cost': 98},
    'yandex': {'revenue': 179, 'cost': 153},
    'facebook': {'revenue': 103, 'cost': 110},
    'adwords': {'revenue': 35, 'cost': 34},
    'twitter': {'revenue': 11, 'cost': 24},
}

In [51]:
# сортировка по ключам в обратном порядке
sorted(results.items(), key = lambda x: x[1]['revenue'], reverse=True)

[('yandex', {'revenue': 179, 'cost': 153}),
 ('vk', {'revenue': 103, 'cost': 98}),
 ('facebook', {'revenue': 103, 'cost': 110}),
 ('adwords', {'revenue': 35, 'cost': 34}),
 ('twitter', {'revenue': 11, 'cost': 24})]

In [None]:
# сортировка по ключам вложенного словаря
# x[1] - обращение к значению ключа

sorted(results.items(), key = lambda x: x[1]['revenue'], reverse=True)

### Упражнение

Для каждого источника посчитайте ROI (revenue / cost - 1) и отсортируйте результат по убыванию ROI

## Группировки в больших массивах данных

In [52]:
# имеется большой лист значений, в первом столбце которого количество элементов относительно невелико

big_data_list = [
    ['google', 'cpc', 925],
    ['yandex', 'organic', 790],
    ['market', 'cpc', 465],
    ['google', 'organic', 413],
    ['google', 'cpc', 398],
    ['direct', 'none', 115],
    ['yandex', 'cpc', 43]
]

In [53]:
{'yandex': 123, 'google': 123213}

{'yandex': 123, 'google': 123213}

In [54]:
stats = {}

for line in big_data_list:
    stats.setdefault(line[0], 0)
    stats[line[0]] += line[2]

stats

{'google': 1736, 'yandex': 833, 'market': 465, 'direct': 115}

### Упражнение

Посчитайте количество уникальных значений канала в листе big_data_list (второй столбец)

In [None]:
{'cpc': ..., 'organic': ..., 'none': ...}

In [None]:
logs = [
    '123',
    '123',
    '123',
    '567',
    '567',
    '567',
]