### Чтение файлов .csv

Самый простой способ хранения табличных данных &ndash; файлы .csv. По сути, это всё те же текстовые файлы. В каждой строке такого файла хранится одна строка таблицы, её ячейки разделены специальным символом-разделителем (delimiter). По умолчанию этот символ &ndash; запятая (именно поэтому формат называется .csv &ndash; comma-separated values). Если в роли разделителя выступает другой символ, могут использоваться другие расширения, например, .tsv (tab-separated values).

**Задание для совместного выполнения:** напишем программу, которая открывает файл **work_types.csv** и строит словарь, в котором ключи &ndash; типы работ, а значения &ndash; соответствующие им веса оценок (в числовом представлении).

https://pkholyavin.github.io/compsci/data/work_types.csv

In [None]:
!wget https://pkholyavin.github.io/compsci/data/work_types.csv

In [None]:
with open("work_types.csv", "r", encoding="utf-8") as f:
    lines = f.readlines()

# заведём пустой словарь
data = {}
# переберём все строчки
for line in lines:
    # каждую строчку избавим от \n и разобьём по запятой
    line = line.strip().split(",")
    # первая часть - ключ, вторая - значение (сделаем из него вещественное число)
    data[line[0]] = float(line[1])

print(data)

{'работа на уроке': 1.0, 'домашняя работа': 1.0, 'самостоятельная работа': 1.2, 'практическая работа': 1.3, 'проверочная работа': 1.3, 'контрольная работа': 1.5}


**Задание для совместного выполнения:** напишем программу, которая открывает файл **student_marks.csv** и строит список словарей, в которых ключи &ndash; названия столбцов, а значения &ndash; содержимое ячеек. Каждой строке таблицы должен соответствовать один словарь.

Подсказка: вспомним функцию `zip()`, которая позволяет перебирать элементы двух последовательностей сразу.

https://pkholyavin.github.io/compsci/data/student_marks.csv

In [None]:
!wget https://pkholyavin.github.io/compsci/data/student_marks.csv

In [None]:
with open("student_marks.csv", "r", encoding="utf-8") as f:
    lines = f.readlines()

# отдельно обработаем заголовок
header = lines[0].split(",")

# заведём пустой список для результата
marks_list = []
# переберём все строчки, кроме заголовка
for line in lines[1:]:
    # превратим строчку в список значений, разбив по запятой
    line = line.strip().split(",")
    # заведём новый маленький словарь
    line_dict = {}
    # попарно для каждого названия столбца заведём значение
    for h, v in zip(header, line):
        line_dict[h] = v
    # добавим словарь в список
    marks_list.append(line_dict)

print(marks_list)

[{'фамилия': 'Голубева', 'имя': 'Марина', 'предмет': 'французский язык', 'вид работы': 'проверочная работа', 'оценка\n': '4'}, {'фамилия': 'Ветровская', 'имя': 'Анастасия', 'предмет': 'фонетика', 'вид работы': 'практическая работа', 'оценка\n': '3'}, {'фамилия': 'Звездин', 'имя': 'Артемий', 'предмет': 'информатика', 'вид работы': 'работа на уроке', 'оценка\n': '5'}, {'фамилия': 'Ветровская', 'имя': 'Анастасия', 'предмет': 'информатика', 'вид работы': 'практическая работа', 'оценка\n': '4'}, {'фамилия': 'Солодовников', 'имя': 'Виктор', 'предмет': 'французский язык', 'вид работы': 'контрольная работа', 'оценка\n': '5'}, {'фамилия': 'Солодовников', 'имя': 'Виктор', 'предмет': 'информатика', 'вид работы': 'практическая работа', 'оценка\n': '2'}, {'фамилия': 'Воронцова', 'имя': 'Кира', 'предмет': 'математика', 'вид работы': 'работа на уроке', 'оценка\n': '5'}, {'фамилия': 'Громов', 'имя': 'Илья', 'предмет': 'французский язык', 'вид работы': 'домашняя работа', 'оценка\n': '5'}, {'фамилия': '

Альтернативный вариант:

In [None]:
with open("student_marks.csv", "r", encoding="utf-8") as f:
    lines = f.readlines()

header = lines[0].split(",")

marks_list = []
for line in lines[1:]:
    line = line.strip().split(",")
    line_dict = dict(zip(header, line))
    marks_list.append(line_dict)

print(marks_list)

[{'фамилия': 'Голубева', 'имя': 'Марина', 'предмет': 'французский язык', 'вид работы': 'проверочная работа', 'оценка\n': '4'}, {'фамилия': 'Ветровская', 'имя': 'Анастасия', 'предмет': 'фонетика', 'вид работы': 'практическая работа', 'оценка\n': '3'}, {'фамилия': 'Звездин', 'имя': 'Артемий', 'предмет': 'информатика', 'вид работы': 'работа на уроке', 'оценка\n': '5'}, {'фамилия': 'Ветровская', 'имя': 'Анастасия', 'предмет': 'информатика', 'вид работы': 'практическая работа', 'оценка\n': '4'}, {'фамилия': 'Солодовников', 'имя': 'Виктор', 'предмет': 'французский язык', 'вид работы': 'контрольная работа', 'оценка\n': '5'}, {'фамилия': 'Солодовников', 'имя': 'Виктор', 'предмет': 'информатика', 'вид работы': 'практическая работа', 'оценка\n': '2'}, {'фамилия': 'Воронцова', 'имя': 'Кира', 'предмет': 'математика', 'вид работы': 'работа на уроке', 'оценка\n': '5'}, {'фамилия': 'Громов', 'имя': 'Илья', 'предмет': 'французский язык', 'вид работы': 'домашняя работа', 'оценка\n': '5'}, {'фамилия': '

### Сортировка: продвинутый уровень

Чтобы задать сложный принцип сортировки, можно использовать т.н. лямбда-функции:

In [1]:
a = [1, 3, 4, 2, 6, 7]
print(sorted(a, key=lambda x: x ** 2 - 5 * x))

[3, 2, 1, 4, 6, 7]


Синтаксис такой:

`key=lambda x: выражение с x, по которому будем сравнивать сортируемые элементы`

In [2]:
names = [
    ["John", 20, 170], # имя, возраст, рост
    ["Jane", 24, 175],
    ["Jill", 22, 177],
]
print(sorted(names, key=lambda x: x[0])) # сортируем по имени
print(sorted(names, key=lambda x: x[1])) # сортируем по возрасту
print(sorted(names, key=lambda x: x[2])) # сортируем по росту

[['Jane', 24, 175], ['Jill', 22, 177], ['John', 20, 170]]
[['John', 20, 170], ['Jill', 22, 177], ['Jane', 24, 175]]
[['John', 20, 170], ['Jane', 24, 175], ['Jill', 22, 177]]


Если табличные данные заданы как список словарей:

In [3]:
names = [
    {"name": "John", "age": 20, "height": 170},
    {"name": "Jane", "age": 24, "height": 175},
    {"name": "Jill", "age": 22, "height": 177},
]
print(sorted(names, key=lambda x: x["name"]))
print(sorted(names, key=lambda x: x["age"]))
print(sorted(names, key=lambda x: x["height"]))

[{'name': 'Jane', 'age': 24, 'height': 175}, {'name': 'Jill', 'age': 22, 'height': 177}, {'name': 'John', 'age': 20, 'height': 170}]
[{'name': 'John', 'age': 20, 'height': 170}, {'name': 'Jill', 'age': 22, 'height': 177}, {'name': 'Jane', 'age': 24, 'height': 175}]
[{'name': 'John', 'age': 20, 'height': 170}, {'name': 'Jane', 'age': 24, 'height': 175}, {'name': 'Jill', 'age': 22, 'height': 177}]


Сортировка по двум параметрам (сначала по одному, потом по другому):

In [4]:
names = [
    {"name": "John", "age": 20, "height": 170},
    {"name": "Jane", "age": 24, "height": 175},
    {"name": "Jill", "age": 22, "height": 175},
    {"name": "Jack", "age": 22, "height": 177},
]
print(sorted(names, key=lambda x: (x["age"], x["height"])))

[{'name': 'John', 'age': 20, 'height': 170}, {'name': 'Jill', 'age': 22, 'height': 175}, {'name': 'Jack', 'age': 22, 'height': 177}, {'name': 'Jane', 'age': 24, 'height': 175}]


In [5]:
word_frequencies = {"word1": 10, "word2": 4, "word4": 8, "word3": 3}
print(sorted(word_frequencies))
print(sorted(word_frequencies, key=lambda x: word_frequencies[x]))

['word1', 'word2', 'word3', 'word4']
['word3', 'word2', 'word4', 'word1']


### Задания

**Задания для самостоятельного выполнения:**

1. Определите количество учеников в классе и составьте алфавитный список.

* Создайте список, куда будете добавлять имена учеников
* Пройдите циклом по всем данным в списке словарей
* Из имени и фамилии в каждой строке таблицы склейте полное имя
* Проверьте, есть ли оно в вашем списке
* Добавьте его туда
* Отсортируйте список и выведите построчно на экран

2. Определите, для каких предметов есть данные об оценках.

* Аналогично первому заданию

3. Для каждого ученика определите средний балл по каждому предмету.

* Пройдите циклом по списку учеников
* Для каждого ученика пройдите вторым циклом по списку предметов
* Составьте список оценок ученика по предмету
* Вычислите среднее значение (сумма, делённая на количество элементов)

ИЛИ

* Задайте пустой словарь `grades_dict`
* Пройдите циклом по всем строкам таблицы
* Определите имя ученика и запишите в переменную `student_name`
* Если его нет в словаре `grades_dict`, добавьте его туда, значением сделайте пустой словарь. Тогда у вас получится словарь словарей
* Определите название предмета и запишите в переменную `subject`
* Если его нет в маленьком словаре `grades_dict[student_name]`, добавьте его туда, значением сделайте пустой список
* В список `grades_dict[student_name][subject]` с помощью `.append()` добавьте оценку (в виде `float`)
* Задайте новый цикл, где вы будете перебирать все `student_name` внутри `grades_dict`
* Задайте внутренний цикл, где вы будете перебирать все `subject` внутри `grades_dict[student_name]`
* Для каждого списка `grades_dict[student_name][subject]` сложите в нём все значения и поделите на длину списка

4. Улучшите данные о среднем балле, используя значения весов из первой таблицы.

* Аналогично предыдущему, но при составлении списка оценок нужно составить параллельный список, содержащий веса каждой оценки
* Среднее значение будет вычисляться как сумма значений первого списка, делённая на сумму значений второго списка

5. Найдите ученика с максимальным средним баллом по информатике.

* Используя код выше, составьте словарь, где ключами будут имена учеников, а значениями &ndash; словари, в которых ключи &ndash; названия предметов, а значения &ndash; средние оценки  
`average_grades_dict = {"Голубева Марина": {"информатика": 4.5, ...}, ...}`
* Используя функцию `max()` и параметр `key`, найдите в этом словаре `x`, для которого значение `average_grades_dict[x]["информатика"]` будет максимальным

**Домашнее задание:** файл **messages.csv** содержит данные о сообщениях в некотором чате. Доступна информация: имя пользователя, дата сообщения, количество слов. Найдите среднее, максимальное и минимальное количество слов в сообщениях каждого пользователя. Найдите пользователя с самым длинным сообщением, отправленным после 18:00.

https://pkholyavin.github.io/compsci/data/messages.csv

In [None]:
!wget https://pkholyavin.github.io/compsci/data/messages.csv