### Чтение файлов .csv

Самый простой способ хранения табличных данных &ndash; файлы .csv. По сути, это всё те же текстовые файлы. В каждой строке такого файла хранится одна строка таблицы, её ячейки разделены специальным символом-разделителем (delimiter). По умолчанию этот символ &ndash; запятая (именно поэтому формат называется .csv &ndash; comma-separated values). Если в роли разделителя выступает другой символ, могут использоваться другие расширения, например, .tsv (tab-separated values).

**Задание для совместного выполнения:** напишем программу, которая открывает файл **work_types.csv** и строит словарь, в котором ключи &ndash; типы работ, а значения &ndash; соответствующие им веса оценок (в числовом представлении).

https://pkholyavin.github.io/compsci/data/work_types.csv

In [None]:
!wget https://pkholyavin.github.io/compsci/data/work_types.csv

**Задание для совместного выполнения:** напишем программу, которая открывает файл **student_marks.csv** и строит список словарей, в которых ключи &ndash; названия столбцов, а значения &ndash; содержимое ячеек. Каждой строке таблицы должен соответствовать один словарь.

Подсказка: вспомним функцию `zip()`, которая позволяет перебирать элементы двух последовательностей сразу.

https://pkholyavin.github.io/compsci/data/student_marks.csv

In [None]:
!wget https://pkholyavin.github.io/compsci/data/student_marks.csv

### Сортировка: продвинутый уровень

Чтобы задать сложный принцип сортировки, можно использовать т.н. лямбда-функции:

In [1]:
a = [1, 3, 4, 2, 6, 7]
print(sorted(a, key=lambda x: x ** 2 - 5 * x))

[3, 2, 1, 4, 6, 7]


Синтаксис такой:

`key=lambda x: выражение с x, по которому будем сравнивать сортируемые элементы`

In [2]:
names = [
    ["John", 20, 170], # имя, возраст, рост
    ["Jane", 24, 175],
    ["Jill", 22, 177],
]
print(sorted(names, key=lambda x: x[0])) # сортируем по имени
print(sorted(names, key=lambda x: x[1])) # сортируем по возрасту
print(sorted(names, key=lambda x: x[2])) # сортируем по росту

[['Jane', 24, 175], ['Jill', 22, 177], ['John', 20, 170]]
[['John', 20, 170], ['Jill', 22, 177], ['Jane', 24, 175]]
[['John', 20, 170], ['Jane', 24, 175], ['Jill', 22, 177]]


Если табличные данные заданы как список словарей:

In [3]:
names = [
    {"name": "John", "age": 20, "height": 170},
    {"name": "Jane", "age": 24, "height": 175},
    {"name": "Jill", "age": 22, "height": 177},
]
print(sorted(names, key=lambda x: x["name"]))
print(sorted(names, key=lambda x: x["age"]))
print(sorted(names, key=lambda x: x["height"]))

[{'name': 'Jane', 'age': 24, 'height': 175}, {'name': 'Jill', 'age': 22, 'height': 177}, {'name': 'John', 'age': 20, 'height': 170}]
[{'name': 'John', 'age': 20, 'height': 170}, {'name': 'Jill', 'age': 22, 'height': 177}, {'name': 'Jane', 'age': 24, 'height': 175}]
[{'name': 'John', 'age': 20, 'height': 170}, {'name': 'Jane', 'age': 24, 'height': 175}, {'name': 'Jill', 'age': 22, 'height': 177}]


Сортировка по двум параметрам (сначала по одному, потом по другому):

In [4]:
names = [
    {"name": "John", "age": 20, "height": 170},
    {"name": "Jane", "age": 24, "height": 175},
    {"name": "Jill", "age": 22, "height": 175},
    {"name": "Jack", "age": 22, "height": 177},
]
print(sorted(names, key=lambda x: (x["age"], x["height"])))

[{'name': 'John', 'age': 20, 'height': 170}, {'name': 'Jill', 'age': 22, 'height': 175}, {'name': 'Jack', 'age': 22, 'height': 177}, {'name': 'Jane', 'age': 24, 'height': 175}]


In [5]:
word_frequencies = {"word1": 10, "word2": 4, "word4": 8, "word3": 3}
print(sorted(word_frequencies))
print(sorted(word_frequencies, key=lambda x: word_frequencies[x]))

['word1', 'word2', 'word3', 'word4']
['word3', 'word2', 'word4', 'word1']


### Задания

**Задания для самостоятельного выполнения:**

1. Определите количество учеников в классе и составьте алфавитный список.

2. Определите, для каких предметов есть данные об оценках.

3. Для каждого ученика определите средний балл по каждому предмету.

4. Улучшите данные о среднем балле, используя значения весов из первой таблицы.

5. Найдите ученика с максимальным средним баллом по информатике.

**Дополнительное задание:** файл **messages.csv** содержит данные о сообщениях в некотором чате. Доступна информация: имя пользователя, дата сообщения, количество слов. Найдите среднее, максимальное и минимальное количество слов в сообщениях каждого пользователя. Найдите пользователя с самым длинным сообщением, отправленным после 18:00.

https://pkholyavin.github.io/compsci/data/messages.csv

In [None]:
!wget https://pkholyavin.github.io/compsci/data/messages.csv