# Чтение и запись данных в текстовом формате

В библиотеке pandas имеется ряд функций для чтения табличных данных,
представленных в виде объекта DataFrame.

`read_csv `Загружает данные с разделителями из файла, URL-адреса или похожего на файл объекта. По умолчанию разделителем является запятая

`read_table` Загружает данные с разделителями из файла, URL-адреса или похожего на файл объекта. По умолчанию разделителем является символ табуляции `('\t')`

`read_fwf` Читает данные в формате с фиксированной шириной столбцов (без разделителей)

`read_clipboard` Вариант `read_table`, который читает данные из буфера обмена. Полезно для преобразования в таблицу данных на веб-странице

`read_excel` Читает табличные данные из файлов Excel в формате XLS или XLSX

`read_hdf` Читает HDF5-файлы, записанные pandas

`read_html` Читает все таблицы, обнаруженные в HTML-документе

`read_json` Читает данные из строки в формате JSON (JavaScript Object Notation)

`read_msgpack` Читает данные pandas, представленные в двоичном формате MessagePack

`read_pickle` Читает произвольный объект, хранящийся в формате Python pickle

`read_sas` Читает набор данных в одном из пользовательских форматов хранения системы SAS

`read_sql` Читает результаты SQL-запроса (применяя пакет SQLAlchemy) в объект pandas DataFrame

`read_stata` Читает набор данных из файла в формате Stata

`read_feather` Читает данные из двоичного файла в формате Feather

Для обработки дат и нестандартных типов требуется больше усилий. Нач-
нем с текстового файла, содержащего короткий список данных через запятую
(формат CSV):

In [None]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Поскольку данные разделены запятыми, мы можем прочитать их в DataFrame
с помощью функции read_csv:

In [None]:
df = pd.read_csv('/content/drive/MyDrive/file1.csv')

In [None]:
df

Unnamed: 0,a;b;c;d;message
0,1;2;3;4;hello
1,5;6;7;8;word
2,9;10;11;12;foo


Поскольку данные разделены запятыми, мы можем прочитать их в DataFrame
с помощью функции read_csv:

In [None]:
df = pd.read_csv('/content/drive/MyDrive/file1.csv') # ексель сохранил косячно поделив файл не запятыми, а ;
df

Unnamed: 0,a;b;c;d;message
0,1;2;3;4;hello
1,5;6;7;8;word
2,9;10;11;12;foo


Можно было бы также воспользоваться функцией read_table, указав раз-
делитель:

In [None]:
pd.read_table('/content/drive/MyDrive/file1.csv', sep=';')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,word
2,9,10,11,12,foo


Прочитать его можно двумя способами. Можно поручить pandas выбрать
имена столбцов по умолчанию, а можно задать их самостоятельно:

In [None]:
pd.read_table('/content/drive/MyDrive/file1.csv', sep=';', header = None)

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,word
3,9,10,11,12,foo


In [None]:
pd.read_table('/content/drive/MyDrive/file1.csv', sep=';',  names = ['q', 'w', 'e', 'r', 'qqq'])

Unnamed: 0,q,w,e,r,qqq
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,word
3,9,10,11,12,foo


Допустим, мы хотим, чтобы столбец message стал индексом возвращаемого
объекта DataFrame. Этого можно добиться, задав аргумент index_col, в кото-
ром указать, что индексом будет столбец с номером 5 или с именем 'qqq':

In [None]:
names = ['q', 'w', 'e', 'r', 'qqq']
pd.read_table('/content/drive/MyDrive/file1.csv', sep=';', names = names, index_col = 'qqq')

Unnamed: 0_level_0,q,w,e,r
qqq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
message,a,b,c,d
hello,1,2,3,4
word,5,6,7,8
foo,9,10,11,12


Аргументы функций read_csv и read_table

`path` Строка, обозначающая путь в файловой системе, URL-адрес или похожий на файл объект

`sep` или `delimiter` Последовательность символов или регулярное выражение, служащее для разделения
полей в строке

`header` Номер строки, содержащей имена столбцов. По умолчанию равен 0 (первая строка). Если строки-заголовка нет, должен быть равен None

`index_col` Номера или имена столбцов, трактуемых как индекс строк в результирующем объекте. Может быть задан один номер (имя) или список номеров (имен), определяющий иерархический индекс

`names` Список имен столбцов результирующего объекта; задается, если header=None

`skiprows` Количество игнорируемых начальных строк или список номеров игнорируемых строк (нумерация начинается с 0)

`na_values` Последовательность значений, интерпретируемых как маркеры отсутствующих данных

`comment` Один или несколько символов, начинающих комментарий, который продолжается до конца строки

`parse_dates` Пытаться разобрать данные как дату и время; по умолчанию False. Если равен True, то производится попытка разобрать все столбцы. Можно также задать список столбцов, которые следует объединить перед разбором (если, например, время и даты заданы в разных столбцах)

`keep_date_col` В случае когда для разбора данных столбцы объединяются, следует ли отбрасывать объединенные столбцы. По умолчанию True
converters Словарь, содержащий отображение номеров или имен столбцов на функции. Например, {'foo': f} означает, что нужно применить функцию f ко всем значениям в столбце foo

`dayfirst` При разборе потенциально неоднозначных дат предполагать международный формат (т. е. 7/6/2012 означает «7 июня 2012 года»). По умолчанию False

`date_parser` Функция, применяемая для разбора дат

`nrows` Количество читаемых строк от начала файла

`iterator` Возвращает объект TextParser для чтения файла порциями

`chunksize` Размер порции при итерировании

`skip_footer` Сколько строк в конце файла игнорировать

`verbose` Печатать разного рода информацию о ходе разбора, например количество отсутствующих значений, помещенных в нечисловые столбцы

`encoding` Кодировка текста в случае Unicode. Например, 'utf–8' означает, что текст представлен в кодировке UTF-8

`squeeze` Если в результате разбора данных оказалось, что имеется только один столбец, вернуть объект Series

`thousands` Разделитель тысяч, например ',' или '.'

# Чтение текстовых файлов порциями

Для обработки очень больших файлов или для того, чтобы определить
правильный набор аргументов, необходимых для обработки большого файла,
иногда требуется прочитать небольшой фрагмент файла или последовательно
читать файл небольшими порциями.

Прежде чем приступать к обработке большого файла, попросим pandas
отображать меньше данных:

In [None]:
pd.options.display.max_rows = 10

После этого считывем файл, как в предыдущем разделе, и считается только 10 строк 

# Вывод данных в текстовом формате

С помощью метода to_csv объекта DataFrame мы можем вывести данные
в файл через запятую:

In [None]:
data = pd.read_table('/content/drive/MyDrive/file1.csv', sep=';')

In [None]:
data.to_csv('/content/drive/MyDrive/out.csv')