# CSV (comma-separated value) - это формат представления табличных данных (например, это могут быть данные из таблицы или данные из БД).
Этот модуль используется для работы с такими файлами, в которых данные записаны через запятую.

# 1 пояснение
Для изучения модуля создается файл testdata.csv через Jupyter в корневом каталоге с текстом: 

number,product,model,location

n1,computer,3750,dns

n2,earphones,3850,citi-link

n3,ipad,3650,mvideo

n4,book,3630,eldorado

# Чтение
Для чтения данных из CSV-файла используют функцию reader ().

In [9]:
import csv

with open('testdata.csv') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

['number', 'product', 'model', 'location']
['n1', 'computer', '3750', 'dns']
['n2', 'earphones', '3850', 'citi-link']
['n3', 'ipad', '3650', 'mvideo']
['n4', 'book', '3630', 'eldorado']


При чтении файла каждая строка анализируемых входных данных преобразуется в список строк.

# Запись
Сначала следует создать объект записи c помощью функции writer (), а затем итерировать по строкам, используя метод writerow () для их вывода.

In [17]:
import csv

data = [['number', 'product', 'model', 'location'],
        ['1', 'computer', '3750', 'dns, Spb'],
        ['2', 'earphones', '3850', 'citi-link, Msc'],
        ['3', 'ipad', '3650', 'mvideo, Sochi'],
        ['4', 'book', '3630', 'eldorado, Perm']]


with open('testdatanew.csv', 'w') as f:
    writer = csv.writer(f)
    for row in data:
        writer.writerow(row)

with open('testdatanew.csv') as f:
    print(f.read())

number,product,model,location
1,computer,3750,"dns, Spb"
2,earphones,3850,"citi-link, Msc"
3,ipad,3650,"mvideo, Sochi"
4,book,3630,"eldorado, Perm"



Обратим внимание на кавычки в последнем столбце. Когда запятая находится в кавычках, модуль csv не воспринимает её как разделитель.

Иногда лучше, чтобы все строки были в кавычках. Чтобы добавить кавычки, следует изменить их поведение c помощью аргумента quoting.

In [19]:
import csv

data = [['number', 'product', 'model', 'location'],
        ['1', 'computer', '3750', 'dns, Spb'],
        ['2', 'earphones', '3850', 'citi-link, Msc'],
        ['3', 'ipad', '3650', 'mvideo, Sochi'],
        ['4', 'book', '3630', 'eldorado, Perm']]


with open('testdatanew.csv', 'w') as f:
    writer = csv.writer(f, quoting=csv.QUOTE_ALL)
    for row in data:
        writer.writerow(row)

with open('testdatanew.csv') as f:
    print(f.read())

"number","product","model","location"
"1","computer","3750","dns, Spb"
"2","earphones","3850","citi-link, Msc"
"3","ipad","3650","mvideo, Sochi"
"4","book","3630","eldorado, Perm"



Доступны четыре опции управления режимом использования кавычек, определенные в виде констант в модуле csv.

QUOTE_ALL. В кавычки заключаются все значения, независимо от типа.

QUOTE_NONE. Поля не заключаются в кавычки. При использовании c методом reader символы кавычек включаются в значения полей (обычно они интерпретируются как разделители и отбрасываются).

QUOTE_NONNUMERIC. В кавычки заключаются все нечисловые поля. При использовании c методом reader входные поля, не заключенные в кавычки, преобразуются в числа c плавающей точкой.

QUOTE_MINIMAL. В кавычки заключаются только поля, содержащие специальные символы (символы, которые могли бы сбить c толку анализатор, такие как символ-разделитель, заданный параметрами диалекта или опциями). Это поведение задано по умолчанию.

# Диалекты
Ввиду отсутствия строгого стандарта для файлов CSV анализатор должен проявлять определенную гибкость. Для обеспечения этой гибкости предусмотрено множество параметров, позволяющих управлять способом чтения и записи данных. Вместо того чтобы передавать каждый из этих параметров по отдельности методам reader () и writer (), они группируются в объект диалекта. Полный список зарегистрированных диалектов можно получить c помощью функции list_dialects().

In [20]:
import csv
print(csv.list_dialects() )

['excel', 'excel-tab', 'unix']


В диалекте unix в кавычки заключаются все поля c двойными кавычками, а в качестве разделителя записей используется символ \n.

Если во входном файле вместо запятых в качестве разделителей полей используются символы канала (|), то можно зарегистрировать соответствующий диалект.

testdata.pipes

"Title l"|"Title 2"|"Title 3"

1|first|08/18/07

In [33]:
import csv
csv.register_dialect('pipes', delimiter='|')
with open('testdata.pipes', 'r') as f:
    reader = csv.reader(f, dialect='pipes')
    for row in reader:
        print(row)

['Title 1', 'Title 2', 'Title 3']
['1', 'first', '08/18/07']


## Использование имен полей

Помимо средств для работы c последовательностями данных модуль csv включает классы, предназначенные для работы со строками как словарями, что позволяет использовать именованные поля. Классы DictReader и DictWriter преобразуют строки в словари вместо списков. Ключи могут передаваться словарю или же будут браться из первой строки входного файла (если она содержит заголовки).

In [39]:
import csv

with open('testdata.csv', 'r') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(row)

{'number': 'n1', 'product': 'computer', 'model': '3750', 'location': 'dns'}
{'number': 'n2', 'product': 'earphones', 'model': '3850', 'location': 'citi-link'}
{'number': 'n3', 'product': 'ipad', 'model': '3650', 'location': 'mvideo'}
{'number': 'n4', 'product': 'book', 'model': '3630', 'location': 'eldorado'}


Объекту на основе класса DictWriter должен предоставляться список имен полей, чтобы он мог расположить столбцы в правильном порядке при их выводе.

In [56]:
import csv
data = [
    { 'number': 'n1', 'product': 'computer', 'model': '3750', 'location': 'dns'},
    {'location': 'mvideo', 'product': 'ipad', 'model': '3650','number': 'n3'},
    { 'model': '3630', 'location': 'eldorado','number': 'n4','product': 'book'},
    {'location': 'citi-link', 'number': 'n2', 'model': '3850', 'product': 'earphones'}, 
]

with open('testdatanew2.csv', 'w') as f:
    writer = csv.DictWriter(f, fieldnames=list(data[0].keys()))
    writer.writeheader()
    for d in data:
        writer.writerow(d)
with open('testdatanew2.csv') as f:
    print(f.read())     

number,product,model,location
n1,computer,3750,dns
n3,ipad,3650,mvideo
n4,book,3630,eldorado
n2,earphones,3850,citi-link



# Задание
Запишите в файл csv данные. Одним из столбцов должны быть числа. Заключите данные в кавычки, используя QUOTE_ALL, а затем QUOTE_NONNUMERIC. Ответьте на вопрос: почему одинаковые результаты? (исходя из описания опций)