In [1]:
# -*- coding: utf-8 -*-
import numpy as np

# Чтение и запись данных

№№ Чтение

Библиотека `NumPy` предоставляет ряд средств, которые позволяют считывать данные из файлов разного формата, а также сохранять массивы в виде файлов для дальнейшего использования. Полный список функций, реализующих считывание и запись файлов, можно найти в разделе Input and output официальной документации по [ссылке](https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.io.html). Мы рассмотрим наиболее часто применяемые из этих функций.

Для преобразования данных, хранящихся в текстовом виде, можно использовать две функции `np.loadtxt` и `np.genfromtxt`. Последняя функция может обработать данные, содержащие ошибки или пропуски. В остальном же эти функции похожи. Рассмотрим примеры их работы. Создадим вначале текстовой файл `data.csv`, содержащий данные числовые следующего вида:
```
t,x,y
0.1,0.1,0.2
0.2,0.15,0.1
0.3,0.2,0.15
0.4,0.25,0.2
```

In [7]:
%%writefile data.csv
t,x,y
0.1,1.1,3.2
0.2,1.15,2.1
0.3,1.2,1.15
0.4,1.25,2.2

Overwriting data.csv


Файлы такого формата получили название CSV-файлов (comma separated values --- значения разделенные запятыми) и широко применяются для хранения табличных данных не требующих форматирования. В качестве разделителя также часто используется точка с запятой. В таком формате удобно хранить результаты не очень объемных вычислений. Рассмотрим, как с помощью `np.loadtxt` можно извлечь данные из CSV-файла.

In [8]:
data = np.loadtxt(fname='data.csv', skiprows=1, delimiter=',')
print(data)

[[ 0.1   1.1   3.2 ]
 [ 0.2   1.15  2.1 ]
 [ 0.3   1.2   1.15]
 [ 0.4   1.25  2.2 ]]


Параметр `skiprows` равный $1$ указывает на то, что при считывании необходимо пропустить первую строку, так как в ней содержатся не числовые данные (названия колонок). Параметр `delimiter` задает разделитель. В нашем случае это запятая, но можно задать любой символ. По умолчанию за разделитель считается пробел. По завершении считывания файла функция возвращает двумерный массив. Однако можно считать каждую колонку в отдельную переменную, воспользовавшись параметром `unpack`.

In [9]:
t, x, y = np.loadtxt(fname='data.csv', unpack=True, skiprows=1, delimiter=',')
print(t, x, y)

[ 0.1  0.2  0.3  0.4] [ 1.1   1.15  1.2   1.25] [ 3.2   2.1   1.15  2.2 ]


Есть возможность указать тип считываемых значений явным образом с помощью аргумента `dtype`, причем для разных колонок можно указать разный тип данных. Делается это следующим образом.

In [21]:
types = {'names': ('t', 'x', 'y'),
         'formats': ('f4', 'i4', 'i4')}
data = np.loadtxt(fname='data.csv', dtype=types, skiprows=1, delimiter=',')

При этом создается массив специального смешанного типа, к однотипным элементам которого можно обращается по именам полей, которые мы указали в переменной `types`. В случае, если необходимо работать с объемными таблицами с разнородными данными, то предпочтительнее использовать библиотеку `Pandas`, которая специально предназначена для этого.

In [25]:
data['t']

array([ 0.1       ,  0.2       ,  0.30000001,  0.40000001], dtype=float32)

В случае однородных данных достаточно передать `dtype` один аргумент.

In [29]:
data = np.loadtxt(fname='data.csv', dtype=np.float64, skiprows=1, delimiter=',')