Формат CSV

CSV (от англ. Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных. Строка таблицы соответствует строке текста, которая содержит одно или несколько полей, разделенных запятыми.

Например, таблица:

    Rank   	       Language     	        Share       
1	Python	31.17%
2	Java	17.75%
3	JavaScript	8%
4	C#	7.05%
5	PHP	6.09%
в формате csv будет выглядеть так:

Rank,Language,Share
1,Python,31.17%
2,Java,17.75%
3,JavaScript,8%
4,C#,7.05%
5,PHP,6.09%

Обратите внимание, пробелов после запятой быть не должно.

Ручная работа с файлами

Рассмотрим текстовый файл products.csv, содержащий информацию о товарах некоторого интернет магазина. Файл содержит информацию о трех столбцах:

keywords (ключевые слова)
price (цена)
product_name (имя продукта)
и имеет следующее содержимое:

keywords,price,product_name
Садовый стул,1699,ВЭДДО
Садовый стул,2999,ЭПЛАРО
Садовый табурет,1699,ЭПЛАРО
Садовый стол,1999,ТЭРНО
Складной стол,7499,ЭПЛАРО
Настил,1299,РУННЕН
Стеллаж,1299,ХИЛЛИС
Кружка,39,СТЕЛЬНА
Молочник,299,ВАРДАГЕН
Термос для еды,699,ЭФТЕРФРОГАД
Ситечко,59,ИДЕАЛИСК
Чайник заварочный,499,РИКЛИГ
Кофе-пресс,699,УПХЕТТА
Чашка с блюдцем,249,ИКЕА
Кружка,249,ЭМНТ
Ситечко,199,САККУННИГ
Кружка,199,ФИНСТИЛТ
Тарелка,269,ЭВЕРЕНС

Разделителем записей был выбран символ новой строки, а разделителем полей — символ запятой.

В результате мы получили текстовый файл, который легко читается и человеком и компьютерной программой.

Поскольку любой csv файл является текстовым, то нам не составит труда обработать его "руками", подобно тому, как мы обрабатываем обычный текстовый файл.

In [6]:
with open('products.csv', encoding='utf-8') as file:
    data = file.read()
    for line in data.splitlines():
        print(line.split(','))

['keywords', 'price', 'product_name']
['Садовый стул', '1699', 'ВЭДДО']
['Садовый стул', '2999', 'ЭПЛАРО']
['Садовый табурет', '1699', 'ЭПЛАРО']
['Садовый стол', '1999', 'ТЭРНО']
['Складной стол', '7499', 'ЭПЛАРО']
['Настил', '1299', 'РУННЕН']
['Стеллаж', '1299', 'ХИЛЛИС']
['Кружка', '39', 'СТЕЛЬНА']
['Молочник', '299', 'ВАРДАГЕН']
['Термос для еды', '699', 'ЭФТЕРФРОГАД']
['Ситечко', '59', 'ИДЕАЛИСК']
['Чайник заварочный', '499', 'РИКЛИГ']
['Кофе-пресс', '699', 'УПХЕТТА']
['Чашка с блюдцем', '249', 'ИКЕА']
['Кружка', '249', 'ЭМНТ']
['Ситечко', '199', 'САККУННИГ']
['Кружка', '199', 'ФИНСТИЛТ']
['Тарелка', '269', 'ЭВЕРЕНС']


Для построчного разделения текста удобно использовать строковый метод splitlines(), вместо метода split('\n')

Мы также можем создать вложенный список (таблицу) для более удобного взаимодействия с данными:

In [12]:
with open('products.csv', encoding='utf-8') as file:
    data = file.read()
    table = [r.split(',') for r in data.splitlines()]
    # print(*table)
    for line in table:
        print(line)

['keywords', 'price', 'product_name']
['Садовый стул', '1699', 'ВЭДДО']
['Садовый стул', '2999', 'ЭПЛАРО']
['Садовый табурет', '1699', 'ЭПЛАРО']
['Садовый стол', '1999', 'ТЭРНО']
['Складной стол', '7499', 'ЭПЛАРО']
['Настил', '1299', 'РУННЕН']
['Стеллаж', '1299', 'ХИЛЛИС']
['Кружка', '39', 'СТЕЛЬНА']
['Молочник', '299', 'ВАРДАГЕН']
['Термос для еды', '699', 'ЭФТЕРФРОГАД']
['Ситечко', '59', 'ИДЕАЛИСК']
['Чайник заварочный', '499', 'РИКЛИГ']
['Кофе-пресс', '699', 'УПХЕТТА']
['Чашка с блюдцем', '249', 'ИКЕА']
['Кружка', '249', 'ЭМНТ']
['Ситечко', '199', 'САККУННИГ']
['Кружка', '199', 'ФИНСТИЛТ']
['Тарелка', '269', 'ЭВЕРЕНС']


С помощью такой таблицы мы можем обратиться к цене седьмого по счету товара:

In [10]:
print(table[7][1])

1299


Или мы можем также отсортировать товары по цене и напечатать 5 самых дешевых товаров.

In [11]:
with open('products.csv', encoding='utf-8') as file:
    data = file.read()
    table = [r.split(',') for r in data.splitlines()]
    del table[0]                                        # удаляем заголовок
    table.sort(key=lambda item: int(item[1]))
    for line in table[:5]:
        print(line)

['Кружка', '39', 'СТЕЛЬНА']
['Ситечко', '59', 'ИДЕАЛИСК']
['Ситечко', '199', 'САККУННИГ']
['Кружка', '199', 'ФИНСТИЛТ']
['Чашка с блюдцем', '249', 'ИКЕА']


Обратите внимание на то, что мы удалили первый элемент из списка, так как он содержит не данные, а заголовки. Также стоит обратить внимание на то, что в лямбда-функции мы преобразуем элемент item[1] к числовому типу, иначе сортировка будет работать не так, как полагается.

В приведенном выше файле products.csv символ запятой использовался в качестве разделителя полей. Однако бывают ситуации, в которых сам символ запятой является легитимным символом. Например, столбец keywords может содержать (и как правило на практике содержит) несколько ключевых слов. В таком случае структура файла нарушается. Для решения такой проблемы можно использовать два подхода.

1 подход. Если поле содержит запятые, то это поле должно быть заключено в двойные кавычки. Если этого не сделать, то данные невозможно будет корректно обработать.

Содержимое файла products.csv может иметь вид:

keywords,price,product_name
"Садовый стул, стул для дачи",1699,ВЭДДО
Садовый стул,2999,ЭПЛАРО
Садовый табурет,1699,ЭПЛАРО
Садовый стол,1999,ТЭРНО
"Складной стол, обеденный стол",7499,ЭПЛАРО
Настил,1299,РУННЕН
Стеллаж,1299,ХИЛЛИС
"Кружка, сосуд, стакан с ручкой",39,СТЕЛЬНА
Молочник,299,ВАРДАГЕН
Термос для еды,699,ЭФТЕРФРОГАД
Ситечко,59,ИДЕАЛИСК
Чайник заварочный,499,РИКЛИГ
Кофе-пресс,699,УПХЕТТА
Чашка с блюдцем,249,ИКЕА
"Кружка, стакан с ручкой",249,ЭМНТ
Ситечко,199,САККУННИГ
Кружка,199,ФИНСТИЛТ
"Тарелка, блюдце",269,ЭВЕРЕНС

Обратите внимание на записи с номерами 1, 5, 8, 15 и 18. В этих записях в столбце keywords используется символ запятой, и для правильной обработки данных нам необходимо соответствующее поле обрамить символом двойных кавычек.

Обратите внимание на то, что при таком содержимом файла products.csv наш код, написанный выше, является нерабочим, так как он разделит каждую строку через символ запятой.

2 подход. Использовать в качестве разделителя другой символ, например, символ табуляции (\t), который весьма редко встречается в качестве валидного содержимого файла.

keywords	price	product_name
Садовый стул, стул для дачи	1699	ВЭДДО
Садовый стул	2999	ЭПЛАРО
Садовый табурет	1699	ЭПЛАРО
Садовый стол	1999	ТЭРНО
Складной стол, обеденный стол	7499	ЭПЛАРО
Настил	1299	РУННЕН
Стеллаж	1299	ХИЛЛИС
Кружка, сосуд, стакан с ручкой	39	СТЕЛЬНА
Молочник	299	ВАРДАГЕН
Термос для еды	699	ЭФТЕРФРОГАД
Ситечко	59	ИДЕАЛИСК
Чайник заварочный	499	РИКЛИГ
Кофе-пресс	699	УПХЕТТА
Чашка с блюдцем	249	ИКЕА
Кружка, стакан с ручкой	249	ЭМНТ
Ситечко	199	САККУННИГ
Кружка	199	ФИНСТИЛТ
Тарелка, блюдце	269	ЭВЕРЕНС

Формат данных csv, в котором разделителем является символ табуляции, называют tsv (англ. tab separated values — «значения, разделенные табуляцией»).

tsv — текстовый формат для представления табличных данных. Каждая запись в таблице — строка текстового файла. Каждое поле записи отделяется от других символом табуляции, а точнее — горизонтальной табуляции.

tsv и csv — формы более общего формата dsv (англ. delimiter separated values — «значения, разграниченные разделителем»).

Приведенный ниже код правильно обрабатывает файл products.tsv, в котором символом разделителя выбран символ табуляции (\t):

In [13]:
with open('products.tsv', encoding='utf-8') as file:
    data = file.read()
    table = [r.split('\t') for r in data.splitlines()]
    del table[0]
    table.sort(key=lambda item: int(item[1]))
    for line in table[:5]:
        print(line)

['Кружка, сосуд, стакан с ручкой', '39', 'СТЕЛЬНА']
['Ситечко', '59', 'ИДЕАЛИСК']
['Ситечко', '199', 'САККУННИГ']
['Кружка', '199', 'ФИНСТИЛТ']
['Чашка с блюдцем', '249', 'ИКЕА']


Модуль csv

Несмотря на то что csv формат очень прост и мы можем работать с ним, как с обычным текстовым файлом, на практике используется встроенный модуль csv.

В данном модуле есть два основных объекта: reader и writer, созданные, чтобы читать и создавать csv файлы соответственно.

Чтение данных с помощью reader

Для импорта модуля мы используем строку кода:

In [14]:
import csv

Этот модуль входит в стандартную библиотеку, и его не нужно устанавливать каким‑то особенным способом.

Рассмотрим все тот же файл products.csv, содержащий информацию о товарах интернет магазина:

keywords,price,product_name
Садовый стул,1699,ВЭДДО
Садовый стул,2999,ЭПЛАРО
Садовый табурет,1699,ЭПЛАРО
Садовый стол,1999,ТЭРНО
Складной стол,7499,ЭПЛАРО
Настил,1299,РУННЕН
Стеллаж,1299,ХИЛЛИС
Кружка,39,СТЕЛЬНА
Молочник,299,ВАРДАГЕН
Термос для еды,699,ЭФТЕРФРОГАД
Ситечко,59,ИДЕАЛИСК
Чайник заварочный,499,РИКЛИГ
Кофе-пресс,699,УПХЕТТА
Чашка с блюдцем,249,ИКЕА
Кружка,249,ЭМНТ
Ситечко,199,САККУННИГ
Кружка,199,ФИНСТИЛТ
Тарелка,269,ЭВЕРЕНС

In [15]:
import csv

with open('products.csv', encoding='utf-8') as file:
    rows = csv.reader(file)                               # создаем reader объект
    for row in rows:
        print(row)

['keywords', 'price', 'product_name']
['Садовый стул', '1699', 'ВЭДДО']
['Садовый стул', '2999', 'ЭПЛАРО']
['Садовый табурет', '1699', 'ЭПЛАРО']
['Садовый стол', '1999', 'ТЭРНО']
['Складной стол', '7499', 'ЭПЛАРО']
['Настил', '1299', 'РУННЕН']
['Стеллаж', '1299', 'ХИЛЛИС']
['Кружка', '39', 'СТЕЛЬНА']
['Молочник', '299', 'ВАРДАГЕН']
['Термос для еды', '699', 'ЭФТЕРФРОГАД']
['Ситечко', '59', 'ИДЕАЛИСК']
['Чайник заварочный', '499', 'РИКЛИГ']
['Кофе-пресс', '699', 'УПХЕТТА']
['Чашка с блюдцем', '249', 'ИКЕА']
['Кружка', '249', 'ЭМНТ']
['Ситечко', '199', 'САККУННИГ']
['Кружка', '199', 'ФИНСТИЛТ']
['Тарелка', '269', 'ЭВЕРЕНС']


Самая важная строка кода в программе — это строка с созданием reader объекта:

In [None]:
rows = csv.reader(file)

Объект reader дает доступ к построчному итератору, полностью аналогичному работе с файлом или списком.

После выполнения этой строки в переменную rows будет записан итератор, с помощью которого можно «пробежаться» циклом по файлу. В каждой итерации цикла при этом будет доступна соответствующая строка файла, уже разбитая по запятым и представляющая собой список. При этом автоматически будут учтены все нюансы с запятыми внутри кавычек и самими кавычками.

In [38]:
import csv

with open('products1.csv', encoding='utf-8') as file:
    rows = csv.reader(file)
    # for row in rows:
    #     print(row)
    # table = [row for row in rows]
    table = list(rows)
    for row in table:
        print(row)

['keywords', 'price', 'product_name']
['Садовый стул, стул для дачи', '1699', 'ВЭДДО']
['Садовый стул', '2999', 'ЭПЛАРО']
['Садовый табурет', '1699', 'ЭПЛАРО']
['Садовый стол', '1999', 'ТЭРНО']
['Складной стол, обеденный стол', '7499', 'ЭПЛАРО']
['Настил', '1299', 'РУННЕН']
['Стеллаж', '1299', 'ХИЛЛИС']
['Кружка, сосуд, стакан с ручкой', '39', 'СТЕЛЬНА']
['Молочник', '299', 'ВАРДАГЕН']
['Термос для еды', '699', 'ЭФТЕРФРОГАД']
['Ситечко', '59', 'ИДЕАЛИСК']
['Чайник заварочный', '499', 'РИКЛИГ']
['Кофе-пресс', '699', 'УПХЕТТА']
['Чашка с блюдцем', '249', 'ИКЕА']
['Кружка, стакан с ручкой', '249', 'ЭМНТ']
['Ситечко', '199', 'САККУННИГ']
['Кружка', '199', 'ФИНСТИЛТ']
['Тарелка, блюдце', '269', 'ЭВЕРЕНС']


In [39]:
print(table[1][0])
print(table[2][0])

Садовый стул, стул для дачи
Садовый стул


Так как каждая строка файла, полученная из итератора, является списком, к ней можно применять все способы работы со списками.

In [40]:
import csv

with open('products.csv', encoding='utf-8') as file:
    rows = csv.reader(file)
    for keywords, price, product_name in rows:
        print(f'Ключевые слова: {keywords}, цена: {price}, название: {product_name}')

Ключевые слова: keywords, цена: price, название: product_name
Ключевые слова: Садовый стул, цена: 1699, название: ВЭДДО
Ключевые слова: Садовый стул, цена: 2999, название: ЭПЛАРО
Ключевые слова: Садовый табурет, цена: 1699, название: ЭПЛАРО
Ключевые слова: Садовый стол, цена: 1999, название: ТЭРНО
Ключевые слова: Складной стол, цена: 7499, название: ЭПЛАРО
Ключевые слова: Настил, цена: 1299, название: РУННЕН
Ключевые слова: Стеллаж, цена: 1299, название: ХИЛЛИС
Ключевые слова: Кружка, цена: 39, название: СТЕЛЬНА
Ключевые слова: Молочник, цена: 299, название: ВАРДАГЕН
Ключевые слова: Термос для еды, цена: 699, название: ЭФТЕРФРОГАД
Ключевые слова: Ситечко, цена: 59, название: ИДЕАЛИСК
Ключевые слова: Чайник заварочный, цена: 499, название: РИКЛИГ
Ключевые слова: Кофе-пресс, цена: 699, название: УПХЕТТА
Ключевые слова: Чашка с блюдцем, цена: 249, название: ИКЕА
Ключевые слова: Кружка, цена: 249, название: ЭМНТ
Ключевые слова: Ситечко, цена: 199, название: САККУННИГ
Ключевые слова: Кружка

При создании reader объекта мы можем его настраивать, указывая:

аргумент delimiter — односимвольная строка, используемая для разделения полей, по умолчанию имеет значение ','
аргумент quotechar — односимвольная строка, используемая для кавычек в полях, содержащих специальные символы, по умолчанию имеет значение '"'.

Пусть содержимое файла products.csv имеет вид (в качестве разделителя выбран символ ';'):

keywords;price;product_name
"Садовый стул, стул для дачи";1699;ВЭДДО
Садовый стул;2999;ЭПЛАРО
Садовый табурет;1699;ЭПЛАРО
Садовый стол;1999;ТЭРНО
"Складной стол, обеденный стол";7499;ЭПЛАРО
Настил;1299;РУННЕН
Стеллаж;1299;ХИЛЛИС
"Кружка, сосуд, стакан с ручкой";39;СТЕЛЬНА
Молочник;299;ВАРДАГЕН
Термос для еды;699;ЭФТЕРФРОГАД
Ситечко;59;ИДЕАЛИСК
Чайник заварочный;499;РИКЛИГ
Кофе-пресс;699;УПХЕТТА
Чашка с блюдцем;249;ИКЕА
"Кружка, стакан с ручкой";249;ЭМНТ
Ситечко;199;САККУННИГ
Кружка;199;ФИНСТИЛТ
"Тарелка, блюдце";269;ЭВЕРЕНС

In [41]:
import csv

with open('products2.csv', encoding='utf-8') as file:
    rows = csv.reader(file, delimiter=';', quotechar='"')
    for index, row in enumerate(rows):
        if index > 5:
            break
        print(row)

['keywords', 'price', 'product_name']
['Садовый стул, стул для дачи', '1699', 'ВЭДДО']
['Садовый стул', '2999', 'ЭПЛАРО']
['Садовый табурет', '1699', 'ЭПЛАРО']
['Садовый стол', '1999', 'ТЭРНО']
['Складной стол, обеденный стол', '7499', 'ЭПЛАРО']


При создании reader объекта мы указываем, что символ-разделитель записей delimiter в нашем файле — точка с запятой, а символ кавычек quotechar — двойные кавычки. Кроме того, мы используем встроенную функцию enumerate() для нумерации строк.

Обратите внимание на то, что для корректной обработки данных мы должны все еще исключить первую строку из обработки, которая содержит названия столбцов.

Чтение данных с помощью DictReader

Иcпользовать reader объект не всегда удобно, так как он возвращает сырые списки из строк файла, к тому же первой строкой является строка с названиями столбцов, которая практически всегда удаляется, так как мешает правильной обработке данных.

В модуле csv есть специальный объект DictReader, который поддерживает создание объекта-словаря на основе названий столбцов. С помощью DictReader объекта мы можем обращаться к полям не по индексу, а по названию, что делает код более понятным.

In [43]:
import csv

with open('products3.csv', encoding='utf-8') as file:
    rows = csv.DictReader(file, delimiter=';', quotechar='"')
    for row in rows:
        print(row)

{'keywords': 'Садовый стул, стул для дачи', 'price': '1699', 'product_name': 'ВЭДДО'}
{'keywords': 'Садовый стул', 'price': '2999', 'product_name': 'ЭПЛАРО'}
{'keywords': 'Садовый табурет', 'price': '1699', 'product_name': 'ЭПЛАРО'}
{'keywords': 'Садовый стол', 'price': '1999', 'product_name': 'ТЭРНО'}
{'keywords': 'Складной стол, обеденный стол', 'price': '7499', 'product_name': 'ЭПЛАРО'}
{'keywords': 'Настил', 'price': '1299', 'product_name': 'РУННЕН'}
{'keywords': 'Стеллаж', 'price': '1299', 'product_name': 'ХИЛЛИС'}
{'keywords': 'Кружка, сосуд, стакан с ручкой', 'price': '39', 'product_name': 'СТЕЛЬНА'}
{'keywords': 'Молочник', 'price': '299', 'product_name': 'ВАРДАГЕН'}
{'keywords': 'Термос для еды', 'price': '699', 'product_name': 'ЭФТЕРФРОГАД'}
{'keywords': 'Ситечко', 'price': '59', 'product_name': 'ИДЕАЛИСК'}
{'keywords': 'Чайник заварочный', 'price': '499', 'product_name': 'РИКЛИГ'}
{'keywords': 'Кофе-пресс', 'price': '699', 'product_name': 'УПХЕТТА'}
{'keywords': 'Чашка с блю

Обратите внимание на то, что переменная row имеет тип dict в Python 3.8+. В более ранних версиях переменная row имела тип OrderedDict, который мы изучим чуть позже.

In [44]:
import csv

with open('products3.csv', encoding='utf-8') as file:
    rows = csv.DictReader(file, delimiter=';', quotechar='"')
    expensive = sorted(rows, key=lambda item: int(item['price']), reverse=True)
    for record in expensive[:5]:
        print(record)

{'keywords': 'Складной стол, обеденный стол', 'price': '7499', 'product_name': 'ЭПЛАРО'}
{'keywords': 'Садовый стул', 'price': '2999', 'product_name': 'ЭПЛАРО'}
{'keywords': 'Садовый стол', 'price': '1999', 'product_name': 'ТЭРНО'}
{'keywords': 'Садовый стул, стул для дачи', 'price': '1699', 'product_name': 'ВЭДДО'}
{'keywords': 'Садовый табурет', 'price': '1699', 'product_name': 'ЭПЛАРО'}


При создании DictReader объекта значениями по умолчанию для аргументов delimiter и quotechar являются ',' (символ запятой) и '"' (символ двойной кавычки) соответственно.

Обратите внимание на то, что при использовании DictReader мы не избавляемся от первой строки, содержащей названия столбцов. Они хранятся в атрибуте fieldnames объекта DictReader. При этом к элементам строк мы обращаемся теперь не по индексам (int(item[1])), а по их названиям (int(item['price'])), что намного удобнее.

Запись данных с помощью writer

Для записи данных в csv файл можно использовать специальный writer объект.

In [45]:
import csv

columns = ['first_name', 'second_name', 'class_number', 'class_letter']
data = [['Тимур', 'Гуев', 11, 'А'], ['Руслан', 'Чаниев', 9, 'Б'], ['Артур', 'Харисов', 10, 'В']]

with open('students.csv', 'w', encoding='utf-8', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(columns)                 # запись заголовков
    for row in data:                         # запись строк
        writer.writerow(row)

создает файл students.csv с содержимым:

first_name,second_name,class_number,class_letter
Тимур,Гуев,11,А
Руслан,Чаниев,9,Б
Артур,Харисов,10,В

Обратите внимание на необязательный параметр newline функции open(), который имеет значение '' (пустой строки). Он отвечает за переводы строк при чтении или записи в текстовый файл. По умолчанию имеет значение None, в этом случае все разделители строк преобразуются в '\n'. Если в файле оказывается лишний перевод строки, то следует использовать этот параметр в режиме newline='', тогда '\n' будет преобразован в пустую строку.

При создании writer объекта мы так же можем его настраивать, задавая delimiter и многие другие параметры.

In [None]:
import csv

columns = ['first_name', 'second_name', 'class_number', 'class_letter']
data = [['Тимур', 'Гуев', 11, 'А'], ['Руслан', 'Чаниев', 9, 'Б'], ['Роман', 'Белых', 10, 'В']]

with open('students.csv', 'w', encoding='utf-8', newline='') as file:
    writer = csv.writer(file, delimiter=';', quoting=csv.QUOTE_NONNUMERIC)
    writer.writerow(columns)
    for row in data:
        writer.writerow(row)

создает файл с содержимым:

"first_name";"second_name";"class_number";"class_letter"
"Тимур";"Гуев";11;"А"
"Руслан";"Чаниев";9;"Б"
"Роман";"Белых";10;"В"

Значение аргумента quoting=csv.QUOTE_NONNUMERIC означает, что в кавычки будут браться все нечисловые значения. По умолчанию символом кавычки является ", если нужно поменять символ, то используйте уже знакомый нам именованный аргумент quotechar

Для задания параметра quoting используются специальные константы из модуля csv:

QUOTE_ALL: указывает объектам записи указывать все поля
QUOTE_MINIMAL: указывает объектам записи заключать в кавычки только те поля, которые содержат специальные символы, такие как разделитель delimiter, кавычка quotechar или любой из символов в lineterminator
QUOTE_NONNUMERIC: указывает объектам записи указывать все нечисловые поля
QUOTE_NONE: указывает объектам записи никогда не заключать в кавычки поля

Помимо метода writerow() можно использовать и метод writerows(), чтобы записать сразу несколько строк. Единственным аргументом этого метода может быть коллекция коллекций. То есть, каждый элемент списка rows в нашем случае должен быть коллекцией. Если rows будет, например, списком чисел, программа завершится с ошибкой.

In [None]:
import csv

columns = ['first_name', 'second_name', 'class_number', 'class_letter']
data = [['Тимур', 'Гуев', 11, 'А'], ['Руслан', 'Чаниев', 9, 'Б'], ['Роман', 'Белых', 10, 'В']]

with open('students.csv', 'w', encoding='utf-8', newline='') as file:
    writer = csv.writer(file, delimiter=';', quoting=csv.QUOTE_NONNUMERIC)
    writer.writerow(columns)
    writer.writerows(data)

создает файл students.csv с содержимым:

"first_name";"second_name";"class_number";"class_letter"
"Тимур";"Гуев";11;"А"
"Руслан";"Чаниев";9;"Б"
"Роман";"Белых";10;"В"

Запись данных с помощью DictWriter

Для записи данных в csv файл также можно использовать DictWriter объект, который позволяет записывать содержимое словаря в файл.

In [None]:
import csv

data = [{'first_name': 'Тимур', 'second_name': 'Гуев', 'class_number': 11, 'class_letter': 'А'},
        {'first_name': 'Руслан', 'second_name': 'Чаниев', 'class_number': 9, 'class_letter': 'Б'},
        {'first_name': 'Роман', 'second_name': 'Белых', 'class_number': 10, 'class_letter': 'В'}]

columns = ['first_name', 'second_name', 'class_number', 'class_letter']

with open('students.csv', 'w', encoding='utf-8', newline='') as file:
    writer = csv.DictWriter(file, fieldnames=columns, delimiter=';', quoting=csv.QUOTE_NONNUMERIC)
    writer.writeheader()                 # запись заголовков
    for row in data:                     # запись строк
        writer.writerow(row)

создает файл students.csv с содержимым:

"first_name";"second_name";"class_number";"class_letter"
"Тимур";"Гуев";11;"А"
"Руслан";"Чаниев";9;"Б"
"Роман";"Белых";10;"В"

Мы также можем использовать метод writerows() объекта DictWriter для записи сразу нескольких строк. Таким образом вместо строк кода:

In [None]:
for row in data:
    writer.writerow(row)

можно написать:

In [None]:
writer.writerows(data)

Обратите внимание на то, что ключи словарей, которые записываются в файл, должны совпадать с названиями полей, которые переданы в качестве аргумента fieldnames, иначе будет возникать ошибка ValueError.

Примечания

Примечание 1. Спецификация формата csv:

каждая строка файла — это одна строка таблицы
разделителем (delimiter) значений колонок является символ запятой ,. Однако на практике часто используются другие разделители, например: ; или символ табуляции \t (формат TSV)
значения, содержащие зарезервированные символы (двойная кавычка, запятая, точка с запятой, новая строка), обрамляются двойными кавычками ". Если в значении встречаются кавычки — они представляются в файле в виде двух кавычек подряд

Примечание 4. Достаточно распространенная ошибка при чтении данных из csv файла — это передача в csv.reader (csv.DictReader) не файлового объекта, а текстовых данных, считанных из файла. Это не вызывает ошибки, но результат будет отличаться от ожидаемого.

Примечание 5. При создании reader объекта важно, чтобы файл был открыт в режиме чтения ('r'), аналогично при создании writer объекта — в режиме записи ('w').

Примечание 6. Так как reader объект является итератором, мы можем преобразовать его в список или кортеж с помощью встроенных функций list() и tuple() соответственно, но не можем преобразовать в множество, т.к. его элементами могут быть только неизменяемые объекты, которыми списки не являются.

метод  pandas.read_csv  принимает .csv файл и возвращает pandas.DataFrame (это что-то наподобие  экселевской   таблички). Если указать неверный разделитель, ошибки не возникнет -  просто получим винегрет с одной колонкой. Атрибут pandas.shape содержит кортеж из количества строк и столбцов. Идея в том, что  перебирая разделители находим корректный  DataFrame с количеством столбцов  больше одного и добавляем его в список датафреймов.

In [50]:
import pandas as pd

# Функция, которая получает список файлов и возвращает список DataFrames
def get_list_df(list_src_topics: list) -> list:
    list_df = []  # Инициализируем пустой список для хранения DataFrames
    for file in list_src_topics:  # Итерируемся по каждому файлу в переданном списке
        for s in [';', ',', '|']:  # Перебираем возможные разделители
            # Пытаемся считать файл, используя текущий разделитель
            df = pd.read_csv(file, encoding='utf-8-sig', sep=s)
            # Проверяем, сформировался ли DataFrame с более чем одной колонкой
            if df.shape[1] > 1:  # Если DataFrame имеет более одной колонки
                list_df.append(df)  # Добавляем DataFrame в список
                break  # Выходим из внутреннего цикла, если успешное считывание
    return list_df  # Возвращаем список DataFrames

# Пример вызова функции с файлом 'products.csv'
get_list_df(['products.csv'])

[             keywords  price product_name
 0        Садовый стул   1699        ВЭДДО
 1        Садовый стул   2999       ЭПЛАРО
 2     Садовый табурет   1699       ЭПЛАРО
 3        Садовый стол   1999        ТЭРНО
 4       Складной стол   7499       ЭПЛАРО
 5              Настил   1299       РУННЕН
 6             Стеллаж   1299       ХИЛЛИС
 7              Кружка     39      СТЕЛЬНА
 8            Молочник    299     ВАРДАГЕН
 9      Термос для еды    699  ЭФТЕРФРОГАД
 10            Ситечко     59     ИДЕАЛИСК
 11  Чайник заварочный    499       РИКЛИГ
 12         Кофе-пресс    699      УПХЕТТА
 13    Чашка с блюдцем    249         ИКЕА
 14             Кружка    249         ЭМНТ
 15            Ситечко    199    САККУННИГ
 16             Кружка    199     ФИНСТИЛТ
 17            Тарелка    269      ЭВЕРЕНС]

Вам доступен csv файл grades.csv, имеющий следующее содержание:

name;grade
Timur;100
Ruslan;97

Ниже представлена программа, которая должна открывать данный файл и выводить содержимое каждой строки в виде списка. В программе допущена ошибка, поэтому она выводит:

['n']
['a']
['m']
['e']
['', '']
['g']
['r']
['a']
['d']
['e']
[]
['T']
...

Найдите и исправьте ее, чтобы результатом работы программы были строки:

['name', 'grade']
['Timur', '100']
['Ruslan', '97']

In [57]:
import csv

with open('grades.csv', encoding='utf-8') as csv_file:
    # считываем содержимое файла
    # text = csv_file.read()
    # создаем reader объект и указываем в качестве разделителя символ ;
    # rows = csv.reader(text, delimiter=';')
    rows = csv.reader(csv_file, delimiter=';')
    # выводим каждую строку
    for row in rows:
        print(row)

['name', 'grade']
['Timur', '100']
['Ruslan', '97']


При попытке выполнить приведенную ниже программу возникает ошибка. Найдите и исправьте ее, чтобы программа создала файл writing_test.csv, имеющий следующее содержание:

first_col,second_col
value1,value2

In [62]:
import csv

with open('writing_test.csv', 'w', encoding='utf-8', newline='') as csv_file:
    # создаем writer объект и указываем названия столбцов
    writer = csv.DictWriter(csv_file, fieldnames=['first_col', 'second_col'])
    # записываем первую строку с названиями столбцов
    writer.writeheader()
    # записываем строку с данными
    writer.writerows([{'first_col': 'value1', 'second_col': 'value2'}])

In [None]:
import csv

with open('writing_test.csv', 'w', encoding='utf-8') as csv_file:
    keys, data = ['first_col', 'second_col'], ['value1', 'value2']
    writer = csv.DictWriter(csv_file, fieldnames=keys)
    writer.writeheader()
    writer.writerow(dict(zip(keys, data)))

Скидки
Наступил ноябрь, и во многих магазинах начались распродажи, но как многим известно, зачастую товары со скидкой оказываются дороже, чем без нее. Вам доступен файл sales.csv, который содержит данные о ценообразовании различной бытовой техники. В первом столбце записано название товара, во втором — старая цена, в третьем — новая цена со скидкой:

name;old_price;new_price
Встраиваемая посудомоечная машина De'Longhi DDW 06S;23089;31862
Вытяжка Falmec Afrodite 60/600;27694;18001
...
Напишите программу, которая выводит названия тех товаров, цена на которые уменьшилась. Товары должны быть расположены в своем исходном порядке, каждый на отдельной строке.

Примечание 1. Разделителем в файле sales.csv является точка с запятой, при этом кавычки не используются.

Примечание 3. Начальная часть ответа выглядит так:

Вытяжка Falmec Afrodite 60/600
Духовой шкаф AEG BS 5836600
Вытяжка MAUNFELD PLYM 60
...

Примечание 4. При открытии файла используйте явное указание кодировки UTF-8.

In [106]:
import csv

with open('sales.csv', encoding='utf-8-sig') as file:
    rows = csv.DictReader(file, delimiter=';')
    # best = sorted(rows, key=lambda x:int(x['old_price'])-int(x['new_price'])>0, reverse=True)
    for row in rows:
        if int(row['old_price']) > int(row['new_price']): 
            print(row['name'])

Вытяжка Falmec Afrodite 60/600
Духовой шкаф AEG BS 5836600
Вытяжка MAUNFELD PLYM 60
Весы Momert 7462
Кухонная мойка Blanco Classic Pro 5 S-IF
Вакуумный упаковщик Hurakan HKN-V300
Морозильная камера Frostor F2000B
Холодильник Atlant XM-4210
Стиральная машина Bosch WLK 20263
Швейная машина, оверлок Toyota JET B 224
Весы Mystery MES-1805
Винный шкаф Caso WineMaster 38
Варочная поверхность Gorenje G6 N40
Вытяжка Kuppersberg Onda 50
Весы Energy ENM-408
Фен Centek CT-2234
Встраиваемый холодильник Liebherr ICS 3013
Массажер для тела Yamaguchi Axiom Matrix
Варочная поверхность Neff N 74TD00N0
Духовой шкаф Smeg SF99
Вытяжка Korting KHC 6956
Варочная поверхность Smeg SR775OT
Вытяжка Cata TF 5250
Стиральная машина Miele WMV 960 WPS
Электрочайник Bugatti VERA
Стиральная машина Bosch WAW 24440
Тостер Velikie Reki Pyshka-8
Пылесос Karcher CV 38/2
Вакуумный упаковщик Rommelsbacher VAC 155
Швейная машина, оверлок Jaguar EL-109
Встраиваемая посудомоечная машина Electrolux ESL 8820
Стиральная машина Whi

In [102]:
import csv

with open('sales.csv', encoding='utf-8-sig') as file:
    data = file.read()
    table = [i.split(';') for i in data.splitlines()]
    del table[0]
    table.sort(key=lambda x: int(x[1]) - int(x[2]) > 0, reverse=True)
    for row in table[:5]:
        print(row[0])

Вытяжка Falmec Afrodite 60/600
Духовой шкаф AEG BS 5836600
Вытяжка MAUNFELD PLYM 60
Весы Momert 7462
Кухонная мойка Blanco Classic Pro 5 S-IF


Средняя зарплата
Вам доступен файл salary_data.csv, который содержит анонимную информацию о зарплатах сотрудников в различных компаниях. В первом столбце записано название компании, а во втором — зарплата очередного сотрудника:

company_name;salary
Atos;135000
ХайТэк;24400
Philax;128600
Инлайн Груп;43900
IBS;70600
Oracle;131600
Atos;91000
...
Напишите программу, которая упорядочивает компании по возрастанию средней зарплаты ее сотрудников и выводит их названия, каждое на отдельной строке. Если две компании имеют одинаковые средние зарплаты, они должны быть расположены в лексикографическом порядке их названий.

Примечание 1. Средняя зарплата компании определяется как отношение суммы всех зарплат к их количеству.

Примечание 2. Разделителем в файле salary_data.csv является точка с запятой, при этом кавычки не используются.

Примечание 4. Начальная часть ответа выглядит так:

Информзащита
Форс
OFT group
...
Примечание 5. При открытии файла используйте явное указание кодировки UTF-8.

In [129]:
import csv

best = {}
with open('salary_data.csv', encoding='utf-8-sig') as file:
    rows = csv.DictReader(file, delimiter=';', quotechar='"')
    for row in rows:
        company = row['company_name']
        salary = int(row['salary'])
        
        if company in best:
            best[company]['total_salary'] += salary
            best[company]['count'] += 1
        else:
            best[company] = {'total_salary': salary, 'count': 1}
            
very_best = sorted(best.items(), key=lambda x:x[1]['total_salary']/x[1]['count'])

for i in very_best:
    print(i)

('Информзащита', {'total_salary': 25626900, 'count': 333})
('Форс', {'total_salary': 25669500, 'count': 333})
('OFT group', {'total_salary': 28535000, 'count': 367})
('Oracle', {'total_salary': 27215700, 'count': 349})
('Atos', {'total_salary': 24573800, 'count': 313})
('Микрон', {'total_salary': 27246900, 'count': 347})
('Гринатом', {'total_salary': 22899700, 'count': 291})
('ХайТэк', {'total_salary': 26530200, 'count': 336})
('Сател', {'total_salary': 26060100, 'count': 329})
('Лига Цифровой Экономики', {'total_salary': 27095200, 'count': 342})
('TerraLink', {'total_salary': 27271700, 'count': 341})
('АйТеко', {'total_salary': 25771700, 'count': 322})
('Itransition', {'total_salary': 26908400, 'count': 336})
('Эвотор', {'total_salary': 26689300, 'count': 333})
('Angara', {'total_salary': 24971800, 'count': 311})
('OCS Distribution', {'total_salary': 27508100, 'count': 342})
('Hikvision', {'total_salary': 26626700, 'count': 331})
('Тринити', {'total_salary': 27397100, 'count': 339})
(

In [None]:
import csv
d = {}
with open('salary_data.csv', encoding='utf-8') as file:
    rows = list(csv.reader(file, delimiter=';'))
    for key, value in rows[1:]:
        d[key] = d.get(key, []) + [int(value)]

    d_sort = sorted(d, key=lambda x: (sum(d[x]) / len(d[x]), x)) # упорядочивает список сначала по средней зарплате, затем лексикографически.
    print(*d_sort, sep='\n')