# Представление и визуализация данных

Машинное обучение — это создание моделей на основе данных: по этой причине мы начнем с обсуждения того, как данные могут быть представлены, чтобы их мог понять компьютер. Наряду с этим мы будем опираться на примеры matplotlib из предыдущего раздела и покажем несколько примеров визуализации данных.

## Данные в библиотеке scikit-learn

Данные в scikit-learn, за очень немногими исключениями, хранятся в виде **двумерного массива** размером  `[n_samples, n_features]`.

- **n_samples:**  Количество образцов: каждый образец (выборка) представляет собой элемент для обработки (например, классификации). Образцом может быть документ, изображение, звук, видео, астрономический объект, строка в базе данных или файле CSV или что-то еще, что вы можете описать с помощью фиксированного набора количественных характеристик.
- **n_features:**  Количество характеристик или отличительных признаков, которые можно использовать для количественного описания каждого элемента. Признаки обычно имеют вещественные значения, но в некоторых случаях могут иметь логические или дискретные значения.

Количество признаков должно быть зафиксировано заранее. Однако их число может быть очень большим (например, миллионы признаков), причем большинство из них могут являться нулями для данной выборки. Это тот случай, когда матрицы `scipy.sparse` могут быть полезны, поскольку они гораздо эффективнее используют память, чем массивы numpy.

Каждая выборка (точка данных) представляет собой строку в массиве данных, а каждый признак — это столбец.

### Простой пример: Iris Dataset

В качестве примера простого набора данных, хранящегося в scikit-learn. мы рассмотрим данные о цветках ирисов.
Данные состоят из измерений трех разных видов ирисов. Существует три вида ирисов
в наборе данных, которые отображены ниже:

Iris Setosa
<img src="figures/iris_setosa.jpg" width="50%">

Iris Versicolor
<img src="figures/iris_versicolor.jpg" width="50%">

Iris Virginica
<img src="figures/iris_virginica.jpg" width="50%">



### Вопрос:

**Если мы хотим разработать алгоритм для распознавания видов ирисов, какими могут быть данные?**

Помните: нам нужен двумерный массив размером `[n_samples x n_features]`.

- На что будут ссылаться `n_samples`?

- На что может ссылаться `n_features`?

Помните, что для каждой выборки должно быть **фиксированное** количество признаков, а номер признака ``i`` должен быть одинаковым для каждой выборки.

### Загрузим набор данных Iris Data из Scikit-learn

В Scikit-learn есть базовый набор данных об этих видах ирисов. Данные содержат следующую информацию:

Признаки набора данных Iris:

  1. sepal length in cm (длина чашелистика в см)
  2. sepal width in cm (ширина чашелистика в см)
  3. petal length in cm (длина лепестка в см)
  4. petal width in cm (ширина лепестка в см)
   
Целевые классы для прогнозирования:

  1. Iris Setosa (Ирис Сетоза)
  2. Iris Versicolour (Ирис разноцветный)
  3. Iris Virginica (Ирис Вирджиния)
  

<img src="figures/petal_sepal.jpg" alt="Sepal" style="width: 50%;"/>

"Petal-sepal". Licensed under CC BY-SA 3.0 via Wikimedia Commons - https://commons.wikimedia.org/wiki/File:Petal-sepal.jpg#/media/File:Petal-sepal.jpg

``scikit-learn`` содержит копию CSV-файла iris вместе со вспомогательной функцией для загрузки его в массивы numpy:

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
iris

Результирующий набор данных представляет собой объект ``Bunch`` (т.е. словарь, который предоставляет свои ключи как атрибуты): можно посмотреть, что доступно, используя метод ``keys()``:

In [None]:
iris.keys()

In [None]:
print(iris.DESCR)

Признаки для всех образцов хранятся в атрибуте ``data``:

In [None]:
n_samples, n_features = iris.data.shape
print(n_samples)
print(n_features)
# the sepal length, sepal width, petal length and petal width of the first sample (first flower)
print(iris.data[0])

Инормация о классе каждого образца хранится в атрибуте ``target``:

In [None]:
print(iris.data.shape)
print(iris.target.shape)

In [None]:
print(iris.target)

Имена классов хранятся в атрибуте ``target_names``:

In [None]:
print(iris.target_names)

Эти данные четырехмерны, но можно визуализировать два измерения одновременно, используя простую диаграмму рассеяния. Опять же, начнём с включения inline-режима matplotlib:

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

In [None]:
x_index = 2

y_index = 0

# this formatter will label the colorbar with the correct target names
formatter = plt.FuncFormatter(lambda i, *args: iris.target_names[int(i)])

plt.scatter(iris.data[:, x_index], iris.data[:, y_index], c=iris.target, label=[0, 1, 2])
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index])
#plt.legend(loc="best", title="Классы", labels=[0, 1, 2])
plt.show()

### Быстрое упражнение:

**Измените** `x_index` **и** `y_index` **в вышерасположенном скрипте и  найдите комбинацию двух признаков, 
которые максимально разделяют три класса.**

Это упражнение является предварительным анализом для процедуры **уменьшения размерности (dimensionality reduction)**, которая будет рассмотрена позднее.

## Другие доступные наборы данных

Scikit-learn предоставляет множество наборов данных для тестирования алгоритмов обучения. Они бывают трёх типов:

- **Packaged Data:** Упакованные данные, эти небольшие наборы данных поставляются вместе с установкой scikit-learn и могут быть загружены с помощью инструментов в sklearn.datasets.load_*.
- **Downloadable Data:** Загружаемые данные, эти большие наборы данных доступны для загрузки, а scikit-learn с использованием программных средств, которые упрощают этот процесс. Эти средства можно найти в ``sklearn.datasets.fetch_*``.
- **Generated Data:** Сгенерированные данные, существует несколько наборов данных, которые генерируются на основе моделей с использованием случайного начального числа. Они доступны в ``sklearn.datasets.make_*``.

Вы можете изучить доступные загрузчики, сборщики и генераторы наборов данных, используя функцию табуляции IPython. После импорта подмодуля наборов данных ``datasets`` из ``sklearn`` введите

    datasets.load_<TAB>

or

    datasets.fetch_<TAB>

or

    datasets.make_<TAB>

чтобы просмотреть список доступных функций.


In [None]:
from sklearn import datasets


Загружаемые данные, использующие функции ``fetch_`` хранятся локально внутри подкаталога вашего домашнего каталога.
within a subdirectory of your home directory.
Можно использовать следующую функцию, чтобы определить полный путь к этому подкаталогу:

In [None]:
from sklearn.datasets import get_data_home
get_data_home()

Имейте в виду: многие из этих наборов данных довольно велики, и их загрузка может занять много времени!

Если вы начинаете загрузку в блокноте IPython и хотите прервать ее, вы можете использовать функцию «прерывания ядра» ipython, доступную в меню или с помощью сочетания клавиш ``Ctrl-m i``.

Вы можете нажать ``Ctrl-m h``, чтобы просмотреть список всех сочетаний клавиш для быстрого вызова команд ``ipython``.

## Работа с файловыми данными 

Типичный набор данных содержит описание *n* объектов наблюдения, каждый из которых характеризуется заданным набором из *m* признаков. 
Таким образом, данные представляют собой некоторую матрицу *A* размером *n×m* . Элемент этой матрицы *A<sub>ij</sub>* является значением *j*-го признака *i*-го объекта наблюдения.  
Наиболее распространённый вариант хранения/передачи данных, для обеспечения совместимости, использует текстовый формат представления данных. 
В этом случае данные хранятся в текстовом файле в виде таблицы, представленной в csv-формате (Comma-Separated Values). То есть в файле содержится *n* строк по *m* чисел (значений) в каждой строке, разделённых специальными знаками (разделителями). В качестве разделителей обычно используют запятые или точки с запятой. Каждая строка описывает признаки одного конкретного объекта наблюдения в некотором заданном порядке.  
Первая строка может использоваться как заголовок, в котором содержатся названия признаков в том порядке, в котором они представлены в следующих *n* строках.  
Каждая строка должна содержать одинаковое количество значений.  
Нужно отметить, что в качестве разделителя целой и дробной части вещественных чисел может использоваться как точка, так и запятая в зависимости от локализации файла. 
Признаки могут быть представлены не только числами, но и в виде символьной информации.  
Таким образом, при чтении файла данных необходимо учитывать следующее:
- Символ разделителя.
- Наличие заголовка в первой строке.
- Формат представления вещественных чисел.
- Использование признаков в символьном виде.
- Возможное наличие специальных символов для обозначения отсутствующих значений.  
  
Рассмотрим различные случаи представления наборов данных в виде текстовых файлов.  
1. Только числовые значения, вещественные и целые, без заголовка, разделитель – запятая.
2. Первые четыре параметра – вещественные значения, пятый параметр – название класса, без заголовка, разделитель – запятая.
3. Первые четыре параметра – вещественные значения, пятый параметр – название класса, первая строка – заголовок, разделитель – запятая.
4. Первые четыре параметра – вещественные значения, пятый параметр – название класса, первая строка – заголовок, разделитель – точка с запятой.
5. Первые четыре параметра – вещественные значения, пятый параметр – название класса, первая строка – заголовок, разделитель – запятая, некоторые значения параметров отсутствуют и указаны как символ "?".
6. Первые четыре параметра – вещественные значения, пятый параметр – название класса, без заголовка, разделитель – пробел.
  
Для загрузки текстовых таблиц в массивы языка Python чаще всего используют две библиотеки – numpy и pandas.  
В numpy чаще всего для чтения табличных данных используют функцию **genfromtxt**. Поскольку эта функция выполняет конвертирование в массив numpy в два прохода, то есть возможность обрабатывать отсутствующие значения в таблице. На первом проходе строки файла конвертируются в последовательность строк. На втором проходе каждая строка конвертируется в определённые значения таблицы.  

Сначала посмотрим содержимое файла с данными.

In [None]:
f = open('iris.data')
sss = f.read()
print(sss)

Теперь попробуем загрузить эти данные в массив *NumPy*.

In [None]:
import numpy as np

iris = np.genfromtxt('iris.data')
print(iris.shape)
print(iris)

То есть функция распознала, что в файле содержится 150 строк, но сами строки не распознаны в связи с отсутствием указания разделителя. По умолчанию в качестве разделителя предполагаются любые последовательные пробелы. Добавим в параметры функции параметр `delimiter`.

In [None]:
import numpy as np

iris = np.genfromtxt('iris.data', delimiter=',')
print(iris.shape)
print(iris)

Укажем дополнительно формат столбцов.

In [None]:
import numpy as np

iris = np.genfromtxt('iris.data', delimiter=',', dtype=['f8','f8','f8','f8','U20'])
print(iris.shape)
print(iris)

А это не массив NumPy. Поэтому надо отдельно загрузить массив с данными и отдельно – массив с метками, сохраняя порядок.

In [None]:
import numpy as np

iris_data = np.genfromtxt('iris.data', delimiter=',', usecols=(0,1,2,3))
print(iris_data.shape)
print(iris_data)

iris_target = np.genfromtxt('iris.data', delimiter=',', dtype='U20', usecols=(4))
print(iris_target.shape)
iris_target

Ну и наконец, загрузим данные в массив NumPy, заменив метки-строки на числовые значения - индексы массива имён классов объектов.

In [None]:
import numpy as np

convertfunc = lambda x: 0.0 if x.decode('utf-8') == iris_s[0] else 1. if x.decode('utf-8') == iris_s[1] else 2.0

iris_s = list(dict.fromkeys(iris_target))  # формируем массив имён классов объектов, устраняя дубликаты из массива с метками
print(iris_s)

iris = np.genfromtxt('iris.data', delimiter=',', converters={4: convertfunc})
print(iris.shape)
print(iris)

In [None]:
import numpy as np

def convertfunc(x):
    for i in range(0, len(iris_s)):
        if x.decode('utf-8') == iris_s[i]: return float(i)

iris_s = list(dict.fromkeys(iris_target))
print(iris_s)

iris = np.genfromtxt('iris.data', delimiter=',', converters={4: convertfunc})
print(iris.shape)
print(iris)
print(iris_s[int(iris[67,4])])

Вариант 3: Первые четыре параметра – вещественные значения, пятый параметр – название класса, *первая строка – заголовок*, разделитель – запятая.

Опять посмотрим содержимое файла с данными.

In [None]:
f = open('iris3.data')
sss = f.read()
print(sss)

Для пропуска заголовка используется параметр `skip_header`.

In [None]:
import numpy as np

iris_data = np.genfromtxt('iris3.data', delimiter=',', skip_header=1, usecols=(0,1,2,3))
print(iris_data.shape)
print(iris_data)

## Pandas

Для ввода табличных данных из файлов используется функции `read_csv`


In [None]:
import pandas as pd

from pandas import Series, DataFrame

iris_df = pd.read_csv('iris3.data')
iris_df

Полезные параметры функции `read_csv`:

`header=None`

`sep=';'`

In [None]:
iris_df = pd.read_csv('iris.data', header=None)
iris_df

Преобразование в *np-массив* и удаление столбца с именами классов

In [None]:
iris_df = pd.read_csv('iris3.data')
iris_df.values[:, :-1]

Удаление столбца классов для объекта DataFrame выполняется несколько иначе. Используйте метод `iloc`.

In [None]:
iris_df.iloc[:, :-1]

## Упражнение 2

1) Введите данные в массив NumPy из файла `iris5.data`. Найдите образцы с ошибками в параметрах и удалите их из набора.
2) Введите данные в DataFrame из файла `iris5.data`. Найдите образцы с ошибками в параметрах и удалите их из набора. 