# Модуль ```csv```


csv-файл - это тип обычного текстового файла, в котором используется определенная структура для упорядочивания табличных данных. Поскольку это простой текстовый файл, он может содержать только фактические текстовые данные, другими словами, символы ASCII или Unicode.

Структура csv файла схожа с обычными таблицами. У таблиц есть несколько основных элементов:
- заготовок;
- строки;
- столбцы (элементы строк).

Формат csv содержит эти же элементы. Заготовок всегда располагается в первой строке файла. Заготовок опционален, т.е. он может отсутствовать. Каждая строка файла образует строку таблици. Элементы строки (столбцы) должны быть разделены определенным разделителем, который можно задать самостоятельно. Обычно символ-разделитель называется разделителем. В качестве разделителя могут использоваться разные символы, например, символы табуляции (```\t```), двоеточия (```:```) и точки с запятой (```;```) и др. Для правильного анализа csv-файла необходимо заранее знать, какой разделитель используется.

Вот как выглядит эта структура:

```csv
column1;column2;column3
foo;bar;baz
1;2;3.2
```

Здесь первая строка является заголовком. На самом деле она ничем не отличается от остальных.

Формат csv удобен при работе с табличными данными. В этот формат можно легко преобразовать данные, полученные из базы данных. Очень часто в этом формате распространяются датасеты для анализа данных. Обычно каждый столбец этого формата имеет один тип данных, например, в датасете о погоде в столбце суточной температуры будут храниться числа с плавающей точкой. Необходимо выбирать символ для точки (запятая или точка), а также разделитель. Нельзя делать разделителем запятую, если она является разделителем в числе. Такой способ организации данных позволяет просто преобразовать данные в текстовый формат и наоборот. В связи с тем, что csv формат хранит текстовые данные, то работать с ними можно и напрямую, читая строки файла и совершая над ними какие-либо манипуляции.

Основным недостатком csv формата является его плохая человекочитаемость, т.к. в большом файле трудно разобрать, где и какие данных находятся.

Библиотка ```csv``` входит в стандартную библиотеку Python и предоставляет возможности для чтения и записи данных в csv-файл. Для начала работы достаточно импортировать этот модуль.

In [10]:
import csv


print(csv.__doc__)

CSV parsing and writing.

This module provides classes that assist in the reading and writing
of Comma Separated Value (CSV) files, and implements the interface
described by PEP 305.  Although many CSV files are simple to parse,
the format is not formally defined by a stable specification and
is subtle enough that parsing lines of a CSV file with something
like line.split(",") is bound to fail.  The module supports three
basic APIs: reading, writing, and registration of dialects.


DIALECT REGISTRATION:

Readers and writers support a dialect argument, which is a convenient
handle on a group of settings.  When the dialect argument is a string,
it identifies one of the dialects previously registered with the module.
If it is a class or instance, the attributes of the argument are used as
the settings for the reader or writer:

    class excel:
        delimiter = ','
        quotechar = '"'
        escapechar = None
        doublequote = True
        skipinitialspace = False
        line

Чтение из csv-файла выполняется с помощью ```reader``` объекта. csv-файл открывается как текстовый файл встроенной функцией ```open```, которая возвращает файловый объект. Затем он передается конструктору ```reader``` объекта, который, в свою очередь, выполняет тяжелую работу.

Чтение можно производить не только файлов, но и строк напрямую. Для этого необходимо функции ```csv.reader```, которая является конструктором ```reader``` объекта, передать список строк, которые необходимо разобрать.

In [11]:
for item in csv.reader(['1,2,3', 'q,w,e', 'True,None,1 + 1j']):
    print(item)

['1', '2', '3']
['q', 'w', 'e']
['True', 'None', '1 + 1j']


Каждая строка, возвращаемая ```reader``` объектом, представляет собой список элементов типа ```str```, содержащих данные, найденные путем удаления разделителей.

In [12]:
with open('python_pd/05_files/data.csv', 'r') as f:
    reader = csv.reader(f, delimiter=';')
    for i, line in enumerate(reader):
        if i == 0:
            # чтение заголовка, в файле data.csv он есть
            print(f'{i}: {" ".join(line)}')
        else:
            # вывод и выравнивание остальных строк
            print(f'{i}: {" ".join([" " * (7-len(s)) + s for s in line])}')

0: column1 column2 column3
1:     foo     bar     baz
2:       1       2       3


Для записи данных в csv файл есть ```writer``` объект. Он создается
классом ```csv.DictWriter```, который в качестве аргументов принимает
файловый объект, заголовки полей и разделитель.

Для записи заголовка в файл можно воспользоваться методом
```writeheader```, без его вызова заголовой записан не будет. Запись
самих данных, т.е. каждой строки, происходит через вызов метода
```writerow```. Этот метод принимает словарь формата
```{'имя_поля': значне, ...}```. Ключи этого словаря должны быть
названиями полей или столбцов, количество ключей должно совпадать с
количеством полей, обозначенным через атрибут ```fieldnames```
```writer``` объекта.

Используя цикл для записи данных будте внимательны и следите за тем,
чтобы метод ```writeheader``` вызывался один раз. Иначе заголовок файла
бедет записан несколько раз.

In [14]:
with open('python_pd/05_files/data.csv', 'w', newline='') as f:
    fields = ['column1', 'column2', 'column3']
    writer = csv.DictWriter(f, fieldnames=fields, delimiter=';')
    writer.writeheader()
    writer.writerow({'column1': 'foo', 'column2': 'bar', 'column3': 'baz'})
    writer.writerow({'column1': 1, 'column2': 2, 'column3': 3})

# Полезные ссылки

- [Документация к модулю ```csv```](https://docs.python.org/3/library/csv.html)
- [Reading and Writing CSV Files in Python](https://realpython.com/python-csv/)