# Практическая работа № 4
## Коллекции (продолжение)


### 4. Множества
Множество в Python — это неупорядоченный набор уникальных объектов. Множества изменяемы и чаще всего используются для удаления дубликатов и всевозможных проверок
на вхождение.
Чтобы объявить пустое множество, можно воспользоваться литералом set или использовать фигурные скобки, чтобы объявить множество и одновременно добавить туда
какие-то элементы.

In [2]:
empty_set = set()
number_set = {1, 2, 3, 3, 4, 5}
print(number_set)

{1, 2, 3, 4, 5}


Чтобы добавить элемент в множество, используется метод add. Также множества в
Python поддерживают стандартные операции над множествами --- такие как объединение, разность, пересечение и симметрическая разность.

In [3]:
odd_set = set()
even_set = set()
for number in range(10):
    if number % 2:
        odd_set.add(number)
    else:
        even_set.add(number)
print(odd_set)
print(even_set)

{1, 3, 5, 7, 9}
{0, 2, 4, 6, 8}


Теперь найдём объединение и пересечение этих множеств:

In [4]:
union_set = odd_set | even_set
print(union_set)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}


In [5]:
general_set = odd_set & even_set
general_set

set()

Разность двух множеств – это множество, в которое входят все элементы первого множества, не входящие во второе множество.

In [9]:
difference_set = general_set - odd_set
difference_set

set()

In [134]:
even_set.remove(2)
print(even_set)

{0, 4, 6, 8}


In [135]:
dir(set)

['__and__',
 '__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__iand__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__isub__',
 '__iter__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__rand__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__ror__',
 '__rsub__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__xor__',
 'add',
 'clear',
 'copy',
 'difference',
 'difference_update',
 'discard',
 'intersection',
 'intersection_update',
 'isdisjoint',
 'issubset',
 'issuperset',
 'pop',
 'remove',
 'symmetric_difference',
 'symmetric_difference_update',
 'union',
 'update']

In [138]:
even_set.add(2)
even_set

{0, 2, 4, 6, 8}

Также в питоне существует неизменяемый аналог типа set --- тип frozenset.

In [139]:
dir(frozenset)

['__and__',
 '__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__rand__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__ror__',
 '__rsub__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__xor__',
 'copy',
 'difference',
 'intersection',
 'isdisjoint',
 'issubset',
 'issuperset',
 'symmetric_difference',
 'union']

### List comprehensions (списочные выражения)
Лаконичная конструкция для создания списков и других коллекций, когда цикл пишут прямо в скобках.
Раньше мы делали так:

In [54]:
square_list = []
for number in range(10):
    square_list.append(number ** 2)
print(square_list)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


Это же можно сделать в 1 строку:

In [55]:
square_list = [number ** 2 for number in range(10)]
print(square_list)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


В списочных выражениях можно использовать условия:

In [56]:
even_list = [num for num in range(10) if num % 2 == 0]
print(even_list)

[0, 2, 4, 6, 8]


Для словарей:

In [57]:
square_map = {number: number ** 2 for number in range(5)}
print(square_map)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}


Если применять list comprehensions с фигурными скобками, но без двоеточий, получим set:

In [58]:
reminders_set = {num % 10 for num in range(100)}
print(reminders_set)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}


### 5. Самостоятельно

Дана строка с некоторым текстом. 

Требуется создать словарь, который в качестве ключей будет принимать буквы, а в качестве значений – количество этих букв в тексте. Для построения словаря создайте функцию count_it(sequence), принимающую строку с текстом. Функция должна возвратить словарь из 3-х самых часто встречаемых букв.

In [1]:
# Решение
def count_it(sequence):
    # При помощи генератора создаем словарь, где ключом выступает уникальный элемент строки, а значением - его частота (вычисляется методом count()) 	
    num_frequency = {item: sequence.count(item) for item in sequence}

    # Сортируем словарь по значениям в порядке возрастания. Для этого методом items() формируем пары “(ключ, значение)” в виде кортежей по всем элементам словаря. Т. к. нужно сортировать по значениям, берем второй элемент кортежей. В результате получим список из кортежей “(ключ, значение)”
    sorted_num_frequency = sorted(num_frequency.items(), key=lambda element: element[1])

    # Возвращаем последние 3 элемента списка, т. е. кортежи с самыми большими значениями второй компоненты, которые преобразовываем в словарь 
    return dict(sorted_num_frequency[-3:])

# Тесты
print(count_it('фывралвралофравврапыорпаоывпаовпа'))
print(count_it('ывфравдыарыолрафдлваылвпаврпарпаорпаорп'))
print(count_it('dfgjgjhgdjfgjfgfsd'))

{'р': 5, 'в': 6, 'а': 7}
{'п': 5, 'р': 7, 'а': 8}
{'f': 4, 'j': 4, 'g': 5}


Посчитать, через сколько итераций функция random.randint(1, 10) выдаст повтор.
Будем добавлять неповторяющиеся случайные числа в множество random_set. Если
очередное число уже есть в random_set --- выйдем из цикла. Затем посчитаем длину
множества (и прибавим 1, т.к. не учли последнее число)

In [15]:
# Решение
def count_it(sequence):
    let_freq = {}
    for letter in sequence:
        let_freq[letter] = sequence.count(letter)  
    
    sorted_let_freq = sorted(let_freq.items(), reverse = True, key=lambda element: element[1])
    
    return dict(sorted_let_freq[0:3])
print(count_it('ssssffelklkbnlbknv'))


{'s': 4, 'l': 3, 'k': 3}


In [2]:
# Решение
import random
random_set = set()
while True:
    new_number = random.randint(1, 10)
    if new_number in random_set:
        break
    random_set.add(new_number)
print(len(random_set) + 1)

5


## Файлы

### 1. Текстовые файлы

Для открытия файлов используется встроенный метод open, которому нужно передать путь к файлу. Функция open возвращает файловый объект, с которым мы потом можем работать. 
Файлы можно открывать в следующих режимах:
- w -  запись,
- r - чтение,
- r+ - чтение и запись, 
- a - дозапись.
Чтобы записать что-то в файл, применяем к файловому объекту метод write, и передаем ему строку. Метод write возвращает количество символов, которые мы записали.

Стоит также указывать кодировку. Значение по умолчаню 'utf8', но если его не указать явно, могут возникнуть трудности с русской раскладкой.


In [20]:
f = open('new_file.txt','w', encoding = 'utf8')
#f = open('new_file.txt','w')
#f.write('The world is changed.\nI taste it in the water.\n')z
#f.write('The world is changed')
f.write('Измученный дорогой, я выбился из сил.\nИ в доме лесника я ночлега попросил.\n')

75

Хороший тон - всегда закрывать за собой файлы.

In [21]:
f.close()

Давайте откроем этот файл для чтения и записи.

In [22]:
f = open('new_file.txt','r+', encoding = 'utf8')
f.read()

'Измученный дорогой, я выбился из сил.\nИ в доме лесника я ночлега попросил.\n'

Метод tell() указывает положение каретки

In [23]:
f.tell()

136

Если попытаемся прочитать еще раз, то ничего не найдем

In [24]:
f.read()

''

Чтобы прочитать файл заново, нужно использовать метод seek() и перенести указатель на начало файла

In [25]:
f.seek(0)
f.tell()

0

In [26]:
print(f.read())
f.close()

Измученный дорогой, я выбился из сил.
И в доме лесника я ночлега попросил.



Можно еще читать файлы построчно, и даже формировать из строк список

In [49]:
f = open('new_file.txt', 'r+', encoding = 'utf8')
print(f.readline())
f.close()

Измученный дорогой я выбился из сил.



In [52]:
f = open('new_file.txt', 'r+', encoding = 'utf8')
print(f.readlines())
f.close()

['Измученный дорогой я выбился из сил.\n', 'И в доме лесника я ночлега попросил.\n']


Можно открывать файлы при помощи контекстного менеджера, тогда не нужно заботиться о закрытии файла.
Вы можете открыть файл
с помощью оператора with, записать файловый объект в переменную f и потом работать
с файлом внутри этого контекстного блока. После выхода из блока интерпретатор Python
закроет файл.

In [53]:
with open('new_file.txt', 'r+', encoding = 'utf8') as f:
    print(f.read())

Измученный дорогой я выбился из сил.
И в доме лесника я ночлега попросил.



Как думаете, что будет, если переместить каретку в начало файла, открытого для записи, а потом его просто закрыть?

In [29]:
f = open('new_file.txt','w', encoding = 'utf8')
f.seek(0)
f.close()

In [33]:
print(f.name)
print(f.closed)

new_file.txt
True


### 2. CSV (Comma Separated Values)

По сути, он является обычным текстовым файлом, в котором каждый новый элемент отделен от предыдущего запятой или другим разделителем. Обычно каждая запись начинается с новой строки. Данные CSV можно легко экспортировать в электронные таблицы или базы данных. В Python есть специальная библиотека для работы с такими файлами.
Давайте прочитаем данные из отчета об анкетировании на первом занятии.

In [1]:
import csv

In [3]:
with open('Entering_quiz_2.csv', encoding = 'utf8') as csvfile:    
    reader_object = csv.reader(csvfile, delimiter = ",")
    for row in reader_object:
        print(row)


['Отметка времени', 'Баллы', 'Укажите Вашу основную специальность', 'На каком курсе учитесь?', 'Оцените уровень Вашей подготовки в программировании вообще', 'Оцените уровень Вашей подготовки в программировании на Python', 'Как у Вас с математикой?', 'А что насчет машинного обучения?', 'Чего ждете от этого курса?', 'Напишите свой вариант', 'Как с английским?', 'Какую операционную систему сейчас используете?']
['04.10.2022 12:41:12', '', 'ссссс', '3', 'ниндзя', 'средний', 'Отлично!', 'Люблю, умею, практикую', 'Сам не знаю, просто все побежали - и я побежал, Хочу делать нейронные сети, NLP (работа с естественным языком), Техническое зрение', 'тралала', '', '']
['04.10.2022 14:30:49', '', 'Промышленная электроника', 'работаю', 'ниндзя', 'начальный', 'Терпимо', 'Впервые слышу', 'Основы ООП, Функциональное программирование', '', '', '']
['08.10.2022 11:59:02', '', 'Прикладная математика и информатика', '4', 'начальный', 'начальный', 'Отлично!', 'Интересовался, проходил курсы / учили этому в 

Здорово. Но ничего непонятно. Давайте попробуем разобрать данные

In [53]:
with open('Entering_quiz_2.csv', encoding = 'utf8') as csvfile:    
    reader_object = csv.reader(csvfile, delimiter = ",")
    count = 0
    ans = []
    for row in reader_object:
        if count == 0:
            print(f'Файл содержит столбцы: {", ".join(row)}')
            header = row
            count += 1
        else:
            ans.append(row)
            count += 1

Файл содержит столбцы: Отметка времени, Баллы, Укажите Вашу основную специальность, На каком курсе учитесь?, Оцените уровень Вашей подготовки в программировании вообще, Оцените уровень Вашей подготовки в программировании на Python, Как у Вас с математикой?, А что насчет машинного обучения?, Чего ждете от этого курса?, Напишите свой вариант, Как с английским?, Какую операционную систему сейчас используете?


In [54]:
header

['Отметка времени',
 'Баллы',
 'Укажите Вашу основную специальность',
 'На каком курсе учитесь?',
 'Оцените уровень Вашей подготовки в программировании вообще',
 'Оцените уровень Вашей подготовки в программировании на Python',
 'Как у Вас с математикой?',
 'А что насчет машинного обучения?',
 'Чего ждете от этого курса?',
 'Напишите свой вариант',
 'Как с английским?',
 'Какую операционную систему сейчас используете?']

In [55]:
len(ans)

79

In [61]:
print(ans[37])

['нулевой', 'нулевой', 'Терпимо', 'Что-то слышал, но не интересовался', 'Типы данных, базовые конструкции и основы Python, Основы ООП, Функциональное программирование, Научиться манипулировать данными, строить красивые графики и извлекать из них полезную информацию, Хочу делать нейронные сети, NLP (работа с естественным языком), Техническое зрение, DeepLearning!!! (что бы это ни значило))), Машинное обучение, Распознавание объектов на видео', '', 'Достаточно для чтения технической документации', 'Windows']


Видим, что у нас есть пара бессодержательных столбцов. Давайте их удалим

In [63]:
for item in ans:
    del item[0:2]
ans[37]

['Терпимо',
 'Что-то слышал, но не интересовался',
 'Типы данных, базовые конструкции и основы Python, Основы ООП, Функциональное программирование, Научиться манипулировать данными, строить красивые графики и извлекать из них полезную информацию, Хочу делать нейронные сети, NLP (работа с естественным языком), Техническое зрение, DeepLearning!!! (что бы это ни значило))), Машинное обучение, Распознавание объектов на видео',
 '',
 'Достаточно для чтения технической документации',
 'Windows']

In [65]:
header

['Отметка времени',
 'Баллы',
 'Укажите Вашу основную специальность',
 'На каком курсе учитесь?',
 'Оцените уровень Вашей подготовки в программировании вообще',
 'Оцените уровень Вашей подготовки в программировании на Python',
 'Как у Вас с математикой?',
 'А что насчет машинного обучения?',
 'Чего ждете от этого курса?',
 'Напишите свой вариант',
 'Как с английским?',
 'Какую операционную систему сейчас используете?']

Итак. У нас имеется два списка с заголовками и данными столбцов. Мы можем собрать их в словарь.
Однако в библиотеке csv есть инструмент  DictReader, который позволяет, во-первых, задать именна стобцов, если они неопределены или нам не нравятся, во-вторых, обращаться к данным не по индексу, а по имени. 

In [107]:
with open('Entering_quiz_2.csv', encoding = 'utf8') as csvfile:    
    names = ['t','s', 'spec','class','Pr_lvl','Py_lvl','Mth_lvl','ML_lvl','Wait','Own','Eng_lvl','OS']
    reader_object = csv.DictReader(csvfile, delimiter = ",", fieldnames = names)
    count = 0
    ans = [[],[]]
    for row in reader_object:
        if count == 0:
            header = row
            count += 1        
        else:
            ans[0].append(row['Py_lvl']) 
            ans[1].append(row['class'])   
            count += 1
                                    
ans            

[['средний',
  'начальный',
  'начальный',
  'средний',
  'нулевой',
  'средний',
  'начальный',
  'нулевой',
  'начальный',
  'нулевой',
  'средний',
  'нулевой',
  'средний',
  'нулевой',
  'начальный',
  'нулевой',
  'нулевой',
  'начальный',
  'нулевой',
  'нулевой',
  'нулевой',
  'нулевой',
  'нулевой',
  'нулевой',
  'начальный',
  'начальный',
  'средний',
  'нулевой',
  'средний',
  'нулевой',
  'нулевой',
  'нулевой',
  'нулевой',
  'нулевой',
  'нулевой',
  'нулевой',
  'начальный',
  'нулевой',
  'средний',
  'начальный',
  'начальный',
  'начальный',
  'начальный',
  'начальный',
  'средний',
  'начальный',
  'начальный',
  'нулевой',
  'нулевой',
  'начальный',
  'нулевой',
  'средний',
  'средний',
  'средний',
  'средний',
  'начальный',
  'нулевой',
  'начальный',
  'начальный',
  'средний',
  'средний',
  'начальный',
  'нулевой',
  'начальный',
  'нулевой',
  'средний',
  'средний',
  'начальный',
  'начальный',
  'средний',
  'начальный',
  'начальный',
  'средний',

Как сохранить данные в csv-файл?


In [118]:
with open('new_csv.csv', mode = 'w', encoding = 'utf-8') as w_file:
    file_writer = csv.writer(w_file, delimiter = ",",lineterminator="\r")
    file_writer.writerow(['Py_lvl'])
    file_writer.writerow(ans[0])     

## Самостоятельно

Сохранить в отдельный csv-файл данные о специальностях, уровне знания математики и ангийского

Затем считать этот файл и напечатать его содержимое.