# Чтение и запись массива в файл

Научные данные часто считываются из текстового файла, который может содержать комментарии, пропущенные значения и пустые строки. Столбцы значений могут быть выровнены в соответствии с форматом полей фиксированной ширины либо отделены друг от друга одним или несколькими символами-разделителями (такими как пробелы, табуляции или запятые). Кроме того, в файле
может содержаться описательный заголовок и даже сноски-примечания, которые затрудняют парсинг при использовании только строковых методов Python.

Библиотека NumPy предоставляет несколько функций для считывания данных из текстового файла. Самый простой метод ```np.loadtxt``` обрабатывает множество общих вариантов, а более интеллектуальный метод ```np.genfromtxt``` обеспечивает улучшенную обработку пропущенных значений и сносок. Эти и другие методы описаны в следующих разделах.

## Методы np.save и np.load

Существует независимый от платформы бинарный формат для сохранения
массива NumPy:

Массив ```a``` сохраняется в бинарном файле my-array.npy (расширение .npy добавляется, если оно не задано явно). Затем массив можно снова загрузить с помощью NumPy в любой другой операционной системе командой

В этом случае обязательно должно быть указано расширение .npy.

## Метод np.loadtxt

Прототип этого метода:

```python
np.loadtxt(fname, dtype=<class 'float'>, comments='#',delimiter=None, converters=None,skiprows=0, usecols=None, unpack=False, ndmin=0)
```

Ниже приводится описание аргументов:

- *fname*  – единственный обязательный аргумент, который может быть именем файла, указателем на открытый файл или генератором, возвращающим строки данных для обработки (парсинга)

- *dtype* тип данных массива, по умолчанию float, но его можно явно установить в этом аргументе dtype. По существу, именно здесь устанавливаются значения имен и типов данных для структурированного массива;

- *comments* – комментарии в файле обычно начинаются с некоторого символа, как, например, # (в исходном коде Python) или %. Чтобы библиотека NumPy игнорировала содержимое всех строк, начинающихся с  такого символа, используется аргумент comments, для которого по умолчанию задано значение #;

- *delimiter*  – строка, используемая для разделения столбцов данных в файле. По умолчанию задано значение None, означающее, что любое количество пробельных символов (пробелов, табуляций) разделяет данные. Для считывания файлов в формате csv (данные, разделенные запятыми) необходимо установить delimiter=',';

- *converters*  – необязательный словарь, отображающий индекс столбца в функцию, преобразующую строковые значения из этого столбца в данные (например, типа float);

- *skiprows* – целое число, определяющее количество пропускаемых строк в начале файла, прежде чем начать считывание данных (например, для пропуска строк заголовка). По умолчанию равно 0 (заголовка нет);

- *usecols* – последовательность индексов столбцов, определяющая, какие столбцы из файла должны возвращаться как данные. По умолчанию задано значение None, означающее, что все столбцы должны быть обработаны и возвращены;

- *unpack* – по умолчанию таблица данных возвращается в одном массиве из строк и столбцов, отображающих структуру считываемого файла. При установке unpack=True этот массив будет преобразован (транспонирован) так, чтобы можно было выбирать отдельные столбцы и присваивать их различным переменным;

- *ndmin* – минимальное количество измерений, которое должен иметь возвращаемый массив. По умолчанию задано значение 0 (так что файл, содержащий единственное число, считывается как скалярное значение). Можно установить значение 1 или 2.

Например, для считывания первого, третьего и четвертого столбцов из файла *data.txt* в три отдельных одномерных массива выполняется следующая инструкция:

```python
col1 , col3 , col4 = np.loadtxt('data.txt', usecols=(0, 2, 3), unpack=True)
```


---

**Пример 1**. Использование метода ```np.lodtxt``` лучше всего продемонстрировать
на примере. Рассмотрим следующий текстовый файл с данными, относящимися к некоторой (вымышленной) группе студентов. Эти данные содержатся в файле ```eg6-astudent-data.txt```, который можно скачать в ресурсах.

```txt
# Student data collected on 17 July 2014.
# Researcher: Dr Wicks, University College Newbury.
# The following data relate to N = 20 students. It
# has been totally made up and so therefore is 100%
# anonymous.
Subject Sex DOB Height Weight BP VO2max
(ID) M/F dd/mm/yy m kg mmHg mL.kg-1.min-1
JW-1 M 19/12/95 1.82 92.4 119/76 39.3
JW-2 M 11/1/96 1.77 80.9 114/73 35.5
JW-3 F 2/10/95 1.68 69.7 124/79 29.1
JW-6 M 6/7/95 1.72 75.5 110/60 45.5
# JW-7 F 28/3/96 1.66 72.4 101/68 -
JW-9 F 11/12/95 1.78 82.1 115/75 32.3
JW-10 F 7/4/96 1.60 - -/- 30.1
JW-11 M 22/8/95 1.72 77.2 97/63 48.8
JW-12 M 23/5/96 1.83 88.9 105/70 37.7
JW-14 F 12/1/96 1.56 56.3 108/72 26.0
JW-15 F 1/6/96 1.64 65.0 99/67 35.7
JW-16 M 10/9/95 1.63 73.0 131/84 29.9
JW-17 M 17/2/96 1.67 89.8 101/76 40.2
JW-18 M 31/7/96 1.66 75.1 -/- -
JW-19 F 30/10/95 1.59 67.3 103/69 33.5
JW-22 F 9/3/96 1.70 - 119/80 30.9
JW-23 M 15/5/95 1.97 89.2 124/82 -
JW-24 F 1/12/95 1.66 63.8 100/78 -
JW-25 F 25/10/95 1.63 64.4 -/- 28.0
JW-26 M 17/4/96 1.69 - 121/82 39.
```

Вычислим по отдельности средний рост студентов мужскогои женского пола.
Для этого необходимы второй и четвертый столбцы, в них нет пропущенных
данных, поэтому можно использовать метод ```np.loadtxt```. Сначала сформируем
запись ```dtype``` для этих двух полей, затем прочитаем соответствующие столбцы
после пропуска первых девяти строк заголовка:

In [5]:
import numpy as np
fname = 'eg6-a-student-data.txt'

In [6]:
dtype1 = np.dtype([('gender', '|S1'), ('height', 'f8')])

In [7]:
a = np.loadtxt(fname, dtype=dtype1, skiprows=9, usecols=(1,3))

In [8]:
a

array([(b'M', 1.82), (b'M', 1.77), (b'F', 1.68), (b'M', 1.72),
       (b'F', 1.78), (b'F', 1.6 ), (b'M', 1.72), (b'M', 1.83),
       (b'F', 1.56), (b'F', 1.64), (b'M', 1.63), (b'M', 1.67),
       (b'M', 1.66), (b'F', 1.59), (b'F', 1.7 ), (b'M', 1.97),
       (b'F', 1.66), (b'F', 1.63), (b'M', 1.69)],
      dtype=[('gender', 'S1'), ('height', '<f8')])

Для вычисления среднего роста студентов мужского пола требуется индекс
только тех записей, в которых поле gender содержит значение ```M```. Для этой цели
можно создать массив логических значений:

In [9]:
m = a['gender'] == b'M'

In [10]:
m

array([ True,  True, False,  True, False, False,  True,  True, False,
       False,  True,  True,  True, False, False,  True, False, False,
        True])

В массиве ```m``` содержатся элементы ```True``` или ```False``` для каждой из 19 корректных записей (одна запись закомментирована), соответствующие мужскому
или женскому полу студента. Поэтому значения роста студентов мужского
пола могут выглядеть так:

In [11]:
print(a['height'][m])

[1.82 1.77 1.72 1.72 1.83 1.63 1.67 1.66 1.97 1.69]


Для вычисления средних значений роста необходимо выполнить следующие инструкции:

In [12]:
m_av = a['height'][m].mean()

In [13]:
f_av = a['height'][~m].mean()

In [14]:
print('Male average: {:.2f} m, Female average: {:.2f} m'.format(m_av, f_av))

Male average: 1.75 m, Female average: 1.65 m


    Обратите внимание: выражение ~m («не m») инвертирует (меняет на противоположные) логические значения в массиве m.

Для выполнения аналогичных аналитических операций с весами студентов
необходимо проделать немного больше работы, потому что некоторые значения пропущены (обозначены символом дефиса «-»). Можно было бы воспользоваться методом ```np.genfromtxt```, но вместо этого мы напишем метод преобразования. Будем заменять пропущенные значения абсолютно бессмысленным с физической точки зрения значением −99. Функция ```parse_weight``` ожидает строковый аргумент и возвращает значение типа ```float```:

In [15]:
def parse_weight(s):
    try:
        return float(s)
    except ValueError:
        return -99.

Это функция, которую необходимо передать как метод преобразования для
столбца 4:

In [16]:
 dtype2 = np.dtype([('gender', '|S1'), ('weight', 'f8')])

In [17]:
b = np.loadtxt(fname, dtype=dtype2, skiprows=9, usecols=(1, 4),converters={4: parse_weight})

Теперь необходимо маскировать некорректные данные и  проиндексировать обрабатываемый массив с  помощью массива логических значений, как это делалось ранее:

In [18]:
mv = b['weight'] > 0 # Только элементы с индексом True - корректные данные.

In [19]:
m_wav = b['weight'][mv & m].mean() # Корректный элемент, пол мужской.

In [20]:
f_wav = b['weight'][mv & ~m].mean() # Корректный элемент, пол женский.

In [21]:
print('Male average: {:.2f} kg, Female average: {:.2f} kg'.format(m_wav, f_wav))

Male average: 82.44 kg, Female average: 66.94 kg


Теперь считываем данные о  кровяном давлении. Здесь возникает проблема, так как значения систолического и диастолического давления разделены не пробелом, а символом слеша (/). Один вариант решения этой проблемы – переформатирование каждой строки для замены слеша на пробел до передачи записей в метод ```np.loadtxt```. Напомню, что ```fname``` может быть генератором, а не только именем файла или ссылкой на открытый файл: напишем соответствующую функцию генератора ```reformat_lines```, которая принимает объект открытого файла ```file``` и после описанной выше замены передает строки (поочередно, по одной) этого файла в метод ```np.loadtxt```. Это приведет к нарушению нумерации столбцов из-за побочного эффекта при разделении дат рождения на три столбца, поэтому в переформатированных строках значения кровяного давления теперь в столбцах с индексами 7 и 8.

---

**Листинг 1**. Считывание столбца значений кровяного давления

In [24]:
# eg6-a-read-bp.py
import numpy as np
fname = 'eg6-a-student-data.txt'
dtype3 = np.dtype([('gender', '|S1'), ('bps', 'f8'), ('bpd', 'f8')])

def parse_bp(s):
    try:
        return float(s)
    except ValueError:
        return -99.

def reformat_lines(fi):
    for line in fi:
        line = line.replace('/', ' ')
        yield line
    with open(fname) as fi:
        gender, bps, bpd = np.loadtxt(reformat_lines(fi), dtype3 , skiprows=9,usecols=(1, 7, 8),converters={7: parse_bp , 8: parse_bp},unpack=True)
# Теперь необходимо как-то обработать эти данные.

## Метод np.genfromtxt

Метод NumPy ```genfromtxt``` похож на метод ```np.loadtxt```, но принимает немного
больше аргументов и  способен справляться с  проблемой пропущенных элементов данных.

Перечисленные ниже аргументы совпадают с  аргументами для метода
```np.loadtxt```: fname (единственный обязательный аргумент), dtype, comments,
converters, usecols и unpack.

### Заголовки и примечания

Вместо аргумента ```skiprows``` метода ```np.loadtxt``` для метода ```np.genfromtxt```
существуют два необязательных аргумента ```skip_header``` и ```skip_footer```, в которых определяется количество пропускаемых строк в начале и в конце файла соответственно.

### Поля фиксированной ширины

Аргумент ```delimiter``` работает так же, как для метода ```np.loadtxt```, но может быть задан еще в виде последовательности целых чисел, определяющих значения ширины для каждого считываемого поля, если между столбцами данных нет разделителей. Например, предположим, что приведенный ниже текстовый файл *data.txt*
должен интерпретироваться как состоящий из четырех столбцов с размерами 2, 1,
9 и 3 символа (для наглядности пробелы обозначены специальным символом «⌴»):

```
⌴12⌴⌴100.231.03
⌴11⌴1201.842.04
⌴11⌴⌴⌴99.324.02
```

Следовательно, первая строка должна быть разделена так: ' 1', '2', '100.231', '.03'. Здесь нет символов-разделителей, поэтому подобное разделение невозможно выполнить с помощью ```np.loadtxt```, только с применением метода ```np.genfromtxt```:

### Пропущенные данные

Если набор данных неполон, то метод ```np.loadtxt``` неспособен выполнить парсинг полей с пропущенными данными и преобразовать их в корректные значения для итогового массива  – будет сгенерировано исключение. Но метод ```np.genfromtxt``` устанавливает пропущенные или некорректные элементы равными значениям по умолчанию, приведенным в таблице 1.

**Таблица 1**. Значения по умолчанию для заполнения пропущенных полей данных, используемые методом ```np.genfromtxt```

|Тип данных|Значение по умолчанию|
|:---------|:--------------------|
|int|-1|
|float|np.nan|
|bool|False|
|complex|np.nan + 0.j|

Например, в  файле с  данными, разделенными запятыми, существует два
способа обозначения пропущенных данных: пустые поля и элементы «???»:

```
10.1,4,-0.1,2
10.2,4,,0
10.3,???,,4
10.4,2,0.,
10.5,-1,???,3
```

В этом случае метод ```np.genfromtxt``` устанавливает для пропущенных полей
значения по умолчанию:

```
[(10.1, 4, -0.1, 2) (10.2, 4, nan, 0) (10.3, -1, nan, 4) (10.4, 2, 0.0, -1)
 (10.5, -1, nan, 3)]
```

Аргументы ```missing_values``` и ```filling_values``` позволяют более точно управлять значениями по умолчанию, которые должны использоваться в  каждом столбце. Если аргумент ```missing_values``` определен как последовательность строк, то каждая строка связывается с соответствующим по порядку столбцом в файле данных. Если аргумент ```missing_values``` задан как словарь строковых значений, то ключи обозначают либо индексы столбцов (если это целые числа), либо имена столбцов (если это строки). Соответствующий аргумент ```filling_values``` отображает эти индексы или имена столбцов в значения по умолчанию. Если аргумент ```filling_values``` задан как единственное значение, то оно используется для пропущенных данных во всех столбцах.

Например, для замены некорректных значений (обозначенных как «???») в столбце 1 на 999, пропущенных или некорректных значений (также обозначенных как «???») в столбце 2 на −99 и пропущенных значений в столбце 3 на 0 выполняется следующая инструкция:

```
[(10.1, 4, -0.1, 2) (10.2, 4, -99.0, 0) (10.3, 999, -99.0, 4)
 (10.4, 2, 0.0, 0) (10.5, -1, -99.0, 3)]
```

Следует особо отметить, что пропущенные элементы во втором столбце были заменены на 999 вместо значения по умолчанию −1 – это весьма важно, если −1 является допустимым значением для данного столбца (но при этом необходим дополнительный код для распознавания и обработки специальных значений, таких как 999).

### Имена столбцов

Аргумент names предоставляет способ определения имен для столбцов считываемых данных. Если для этого аргумента задано значение ```True```, то имена считываются из первой корректной строки после пропуска строк, количество которых определено аргументом ```skip_header```. Если аргумент names представлен строкой имен, разделенных запятыми, или последовательностью строк, то эти строки используются как имена столбцов. По умолчанию для аргумента ```names``` задано значение ```None```, а имена полей берутся из аргумента ```dtype```, если они определены

**Пример  2**. В  эксперименте по исследованию эффекта Струпа (психология)
в группе студентов замерялось время чтения 25 названий цветов, расположенных
в случайном порядке, сначала написанных черным цветом, затем цветами, не соответствующими названию цвета (например, слово «красный» было написано синим
цветом). Результаты представлены в текстовом файле stroop.txt, который можно скачать здесь: https://scipython.com/eg/baj. Пропущенные данные обозначены символом X.

```
Subject Number, Gender, Time (words in black), Time (words in color)
1,F,18.72,31.11
2,F,21.14,52.47
3,F,19.38,33.92
4,M,22.03,50.57
5,M,21.41,29.63
6,M,15.18,24.86
7,F,14.13,33.63
8,F,19.91,42.39
9,F,X,43.60
10,F,26.56,42.31
11,F,19.73,49.36
12,M,18.47,31.67
13,M,21.38,47.28
14,M,26.05,45.07
15,F,X,X
16,F,15.77,38.36
17,F,15.38,33.07
18,M,17.06,37.94
19,M,19.53,X
20,M,23.29,49.60
21,M,21.30,45.56
22,M,17.12,42.99
23,F,21.85,51.40
24,M,18.15,36.95
25,M,33.21,61.59
```

Можно прочитать эти данные с помощью метода np.genfromtxt и обработать результаты эксперимента, используя код в листинге 2.

---

**Листинг 2**. Анализ данных, полученных в ходе эксперимента по изучению эффекта Струпа

In [28]:
# eg6-stroop.py
import numpy as np
# Считывание данных из файла stroop.txt, определение пропущенных значений и
# замена их на значение NaN.
data = np.genfromtxt('stroop.txt', skip_header=1,dtype=[('student', 'u8'), ('gender', 'S1'),('black', 'f8'), ('color', 'f8')],delimiter=',',missing_values='X')
nwords = 25
# Удаление некорректных строк из набора данных.
filtered_data = data[np.isfinite(data['black']) & np.isfinite(data['color'])]
# Извлечение строк по полям пола (M/F) и цвету слова (black/color) и нормализация
# по времени, затраченному на прочтение слова.
fb = filtered_data['black'][filtered_data['gender']==b'F'] / nwords
mb = filtered_data['black'][filtered_data['gender']==b'M'] / nwords
fc = filtered_data['color'][filtered_data['gender']==b'F'] / nwords
mc = filtered_data['color'][filtered_data['gender']==b'M'] / nwords
# Итоговая статистика: среднее значение и стандартное отклонение по полу и цвету слова.
mu_fb , sig_fb = np.mean(fb), np.std(fb)
mu_fc , sig_fc = np.mean(fc), np.std(fc)
mu_mb , sig_mb = np.mean(mb), np.std(mb)
mu_mc , sig_mc = np.mean(mc), np.std(mc)
print('Mean and (standard deviation) times per word (sec)')
print('gender | black | color | difference')
print(' F | {:4.3f} ({:4.3f}) | {:4.3f} ({:4.3f}) | {:4.3f}'
 .format(mu_fb, sig_fb, mu_fc, sig_fc, mu_fc - mu_fb))
print(' M | {:4.3f} ({:4.3f}) | {:4.3f} ({:4.3f}) | {:4.3f}'
 .format(mu_mb, sig_mb, mu_mc, sig_mc, mu_mc - mu_mb))

Mean and (standard deviation) times per word (sec)
gender | black | color | difference
 F | 0.770 (0.137) | 1.632 (0.306) | 0.862
 M | 0.849 (0.186) | 1.679 (0.394) | 0.830


При отсутствии каких-либо значений, определяемых аргументом ```filling_values```, метод ```np.genfromtxt``` будет заменять некорректные поля значением ```np.nan```.

Необходимо рассмотреть только тех студентов, для которых замерено
время в обеих частях эксперимента, поэтому здесь создается отфильтрованный набор данных.

Выводимый результат показывает существенное замедление скорости чтения слов, написанных другим цветом, по сравнению со скоростью чтения слов, написанных черным цветом:

## Метод np.savetxt

Метод ```np.savetxt``` сохраняет массив NumPy как текстовый файл. Его сигнатура
приведена ниже:

```python
np.savetxt(fname , X, fmt='%.18e', delimiter=' ',newline='\n', header='', footer='', comments='# ')
```
Описание аргументов:

- *fname* – имя файла или ссылка (дескриптор) на открытый файл, в который будут сохраняться данные массива;

- *X* – имя сохраняемого массива;

- *fmt* – строка, определяющая спецификаторы формата в стиле языка C, при выводе данных массива. По умолчанию это строка '%.18e';

- *delimiter* – строка, разделяющая столбцы в файле вывода; по умолчанию – один пробел;

- *newline* – строка, разделяющая строки в  файле вывода; по умолчанию используется Unix-стиль '\n'. Пользователи Windows могут предпочесть установку для newline последовательности символов, применяемую на их платформе: '\r\n';

- *header* – строка (возможно, несколько строк), которая должна быть записана в начале файла вывода;

- *footer* – строка (возможно, несколько строк), которая должна быть записана в конце файла вывода;

- *comments* – строка, которая должна добавляться в строки header и footer, чтобы пометить их как комментарии. По умолчанию это строка '# '. Это удобно,если файл в дальнейшем будет считываться методами np.loadtxt или np.genfromtxt, а  при использовании комментариев не  требуется явно определять количество строк заголовка и примечания.

**Пример 3**.Период распада группы радиоактивных ядер можно имитировать
следующим образом. Рассмотрим отрезок времени, разделенный на короткие дискретные интервалы продолжительностью Δt ≪ τ, где τ – полное время распада (которое относится ко времени полураспада t 1/2 как τ = t1/2/ln 2). Вероятность того, что рассматриваемое ядро распадется за время Δt, равна p = Δt/τ.

На каждом временно́м шаге этой имитации выполняется цикл по ядрам, не  распавшимся на предыдущем шаге, и  произвольным образом выбирается случайное число из равномерного распределения [0, 1): если это случайное число меньше p, то считается, что ядро распалось.

Код в листинге 3 определяет функцию для выполнения описанной выше имитации для набора из N0 = 500 ядер радиоактивного углерода 14C с периодом полураспада t1/2 = 5730 лет. Выполняется nsims = 10 симуляций, и результаты сохраняются в файле с разделением данных запятыми 14C-sim.csv с кратким описательным заголовком.

**Листинг 3**. Имитация радиоактивного распада ядер 14C

In [30]:
import random
import numpy as np

def decay_sim(thalf , N0=500, tgrid=None , nhalflives=4):
    """Simulate the radioactive decay of N0 nuclei.
     thalf is the half -life in some units of time.
     If tgrid is provided , it should be a sequence of evenly -spaced time points
     to run the simulation on.
     If tgrid is None , it is calculated from nhalflives , the number of
     half -lives to run the simulation for.
    """
    # """Имитация радиоактивного распада N0 ядер.
    #
    # thalf - период полураспада в некоторых единицах времени.
    # Если задано значение tgrid, то оно должно быть последовательностью равномерно
    # распределенных точек времени для выполнения имитации.
    # Если tgrid содержит значение None, то оно вычисляется по nhalflives, числу,
    # соответствующему периоду полураспада, для выполнения имитации.
    #
    # """
    # Вычисление периода распада по периоду полураспада.
    tau = thalf / np.log(2)
    if tgrid is None:
    # Создание сетки из Nt точек времени до значения tmax.
        Nt, tmax = 100, thalf * nhalflives
        tgrid, dt = np.linspace(0, tmax, Nt, retstep=True)
    else:
        # tgrid задан: вывод Nt и шаг времени dt.
        Nt = len(tgrid)
        dt = tgrid[1] - tgrid[0]
    N = np.empty(Nt, dtype=int)
    N[0] = N0
    # Вероятность того, что заданное ядро распадется за время dt.
    p = dt / tau
    for i in range(1, Nt):
        # На каждом шаге времени начинаем обработку нераспавшихся ядер,
        # оставшихся с предыдущего шага.
        N[i] = N[i-1]
        # Поочередно рассматриваем каждое ядро и решаем, распадается оно или нет.
        for j in range(N[i-1]):
            r = random.random()
            if r < p:
                # Это ядро распадается.
                N[i] -= 1
    return tgrid, N

N0 = 500
# Период полураспада углерода 14C в годах.
thalf = 5730
# Использование Nt шагов времени до значений tmax в годах.
Nt, tmax = 100, 20000
tgrid = np.linspace(0, tmax , Nt)
# Повторение имитации "эксперимента" nsims раз.
nsims = 10
Nsim = np.empty((Nt, nsims))
for i in range(nsims):
    _, Nsim[:, i] = decay_sim(thalf , N0, tgrid)
    # Сохранение временной сетки, за которой следуют результаты имитации в столбцах.
    # Сохраняются целые значения для данных, и создается файл с данными, разделенными
    # запятыми, с двухстрочным заголовком.

np.savetxt('14C-sim.csv', np.hstack((tgrid[:, None], Nsim)),
fmt = '%d', delimiter=',',
header=f'Simulations of the radioactive decay of {N0} 14C nuclei.\n'
f'Columns are time in years followed by {nsims} decay simulations.')


Файл вывода 14C-sim.csv будет содержать приблизительно такие данные:

```
# Simulations of the radioactive decay of 500 14C nuclei.
# (Имитации радиоактивного распада 500 ядер 14C.)
# Columns are time in years followed by 10 decays.
# (В столбцах указано время в годах, далее - данные о 10 имитациях распада.)
0,500,500,500,500,500,500,500,500,500,500
202,489,486,487,491,487,486,485,487,490,490
404,479,478,483,479,477,476,480,474,484,482
606,462,467,470,463,464,463,470,454,474,471
...
```

Этот файл можно считать в массив NumPy следующей инструкцией:

In [31]:
arr = np.loadtxt('14C-sim.csv', delimiter=',')

# Упражнения

## Задачи

**Задача 1**. В следующем текстовом файле *ex6-2-b-mountain-data.txt* содержатся данные о вершинах-восьмитысячниках в алфавитном порядке.

```
ex6-2-b-mountain-data.txt This file contains a list of the 14
highest mountains in the world with their names, height, year
of first ascent, year of first winter ascent, and location as
longitude and latitude in degrees (d), minutes (m) and seconds
(s). Note: as of 2019, no winter ascent has been made of K2.

--------------------------------------------------------------------
Name Height First ascent First winter Location
 m date ascent date (WGS84)
--------------------------------------------------------------------
Annapurna I 8091 3/6/1950 3/2/1987 28d35m46sN 83d49m13sE
Broad Peak 8051 9/6/1957 5/3/2013 35d48m39sN 76d34m06sE
Cho Oyu 8201 19/10/1954 12/2/1985 28d05m39sN 86d39m39sE
Dhaulagiri I 8167 13/5/1960 21/1/1985 27d59m17sN 86d55m31sE
Everest 8848 29/5/1953 17/2/1980 27d59m17sN 86d55m31sE
Gasherbrum I 8080 5/7/1958 9/3/2012 35d43m28sN 76d41m47sE
Gasherbrum II 8034 7/7/1956 2/2/2011 35d45m30sN 76d39m12sE
K2 8611 31/7/1954 - 35d52m57sN 76d30m48sE
Kangchenjunga 8568 25/5/1955 11/1/1986 27d42m09sN 88d08m54sE
Lhotse 8516 18/5/1956 31/12/1988 27d57m42sN 86d56m00sE
Makalu 8485 15/5/1955 9/2/2009 27d53m21sN 87d05m19sE
Manaslu 8163 9/5/1956 12/1/1984 28d33m0sN 84d33m35sE
Nanga Parbat 8126 3/7/1953 16/2/2016 35d14m15sN 74d35m21sE
Shishapangma 8027 2/5/1964 14/1/2005 28d21m8sN 85d46m47sE
--------------------------------------------------------------------
```

Использовать метод NumPy ```genfromtxt``` для считывания этих данных в соответствующий структурированный массив для определения следующих фактов:
а)	 самая низкая вершина-восьмитысячник;
б)	 самая северная, восточная, южная и западная вершина;
в)	 самое позднее первое восхождение на вершину;
г)	 первая вершина, на которую было совершено восхождение зимой.
Также создать другой структурированный массив, содержащий список вершин с указанием их высоты в футах и даты первого восхождения с упорядочением по возрастанию высоты.

**Задача 2**. Файл *busiest_airports.txt*, предоставляет подробную информацию о 30 самых загруженных аэропортах в мире в 2014 г. Поля, разделенные табуляциями: трехбуквенный код IATA, название аэропорта, место расположения аэропорта, широта
и долгота (оба значения в градусах).

```
FRA	Frankfurt Airport	Frankfurt, Hesse, Germany	50.026	8.543
DEN	Denver International Airport	Denver, Colorado, United States	39.862	-104.673
BKK	Suvarnabhumi Airport	Bang Phli, Samut Prakan, Thailand	13.681	100.747
SYD	Sydney Kingsford-Smith Airport	Sydney, New South Wales, Australia	-33.946	151.177
GRU	Sao Paulo-Guarulhos International Airport	Guarulhos, Sao Paulo, Brazil	-23.432	-46.470
CLT	Charlotte Douglas International Airport	Charlotte, North Carolina, United States	35.214	-80.943
SFO	San Francisco International Airport	San Mateo County, California, United States	37.619	-122.375
IAH	George Bush Intercontinental Airport	Houston, Texas, United States	29.984	-95.341
ATL	Hartsfield-Jackson Atlanta International Airport	Atlanta, Georgia, United States	33.637	-84.428
ICN	Seoul Incheon International Airport	Incheon, Republic of Korea	37.469	126.451
DFW	Dallas-Fort Worth International Airport	Dallas-Fort Worth, Texas, United States	32.897	-97.038
HND	Tokyo Haneda Airport	Ota, Tokyo, Japan	35.552	139.780
LAS	McCarran International Airport	Las Vegas, Nevada, United States	36.080	-115.152
PHX	Phoenix Sky Harbor International Airport	Phoenix, Arizona, United States	33.434	-112.012
PVG	Shanghai Pudong International Airport	Pudong, Shanghai, China	31.143	121.805
DXB	Dubai International Airport	Garhoud, Dubai, United Arab Emirates	25.253	55.364
MIA	Miami International Airport	Miami-Dade County, Florida, United States	25.793	-80.291
IST	Istanbul Ataturk Airport	Istanbul, Turkey	40.977	28.815
AMS	Amsterdam Airport Schiphol	Haarlemmermeer, North Holland, Netherlands	52.309	4.764
CAN	Guangzhou Baiyun International Airport	Huadu, Guangzhou, Guangdong, China	23.392	113.299
LAX	Los Angeles International Airport	Los Angeles, California, United States	33.943	-118.408
CGK	Soekarno-Hatta International Airport	Cengkareng, Banten, Indonesia	-6.126	106.656
LHR	London Heathrow Airport	Hillingdon, London, United Kingdom	51.477	-0.461
JFK	John F. Kennedy International Airport	Queens, New York City, New York, United States	40.640	-73.779
SIN	Singapore Changi Airport	Changi, Singapore	1.350	103.994
CDG	Charles de Gaulle Airport	Roissy-en-France, Ile-de-France, France	49.013	2.550
HKG	Hong Kong International Airport	Chek Lap Kok, Hong Kong, China	22.309	113.915
ORD	O'Hare International Airport	Chicago, Illinois, United States	41.979	-87.905
KUL	Kuala Lumpur International Airport	Sepang, Selangor, Malaysia	2.746	101.710
PEK	Beijing Capital International Airport	Chaoyang, Beijing, China	40.080	116.585
```



Написать программу для определения расстояния между двумя аэропортами, определяемыми по их трехбуквенному коду IATA, с использованием формулы гаверсинуса и с предположением о том, что радиус сферической поверхности Земли равен 6378.1 км.

**Задача 3**. Всемирный банк предоставляет обширную совокупность наборов данных по широкому диапазону «индикаторов», которые можно найти здесь:
https://data.worldbank.org/. Наборы данных, относящиеся к показателям детской
вакцинации против туберкулеза (BCG),полиомиелита (Pol3) и кори в трех странах Юго-Восточной Азии с  1960 по  2013  г., доступны здесь: *wb-data.dat*. Поля разделены точками с запятой, а пропущенные данные обозначены как '..'.

Использовать методы NumPy для считывания этих данных и создания трех
графиков (по каждой вакцине отдельно) и сравнитьпоказатели (коэффициенты)
вакцинации в этих трех странах.
