# Загрузка данных  
Первым делом в области машинного обучения является загрузка исходных данных. Сырые данные могут быть файлами журнала операций, наборами данных или базой данных. Кроме того, часто необходимо получать данные из нескольких разных источников. Основные бибилиотеки для загрузки внешних данных: `pandas` и `scikit-learn`.

### 1. Загрузка образца набора данных  
##### Задача
Требуется загрузить существующий набор данных
##### Решение
Библиотека `Scikit-learn` поставляется с рядом популярных наборов данных для исползования

In [6]:
# Загрузить наборы данных scikit-learn
from sklearn import datasets

# Загрузить набор изображений рукописных цифр
digits = datasets.load_digits()

# Создать матрицу признаков
features = digits.data

# Создать вектор целей
target = digits.target

# Взглянуть на первое наблюдение
features[0]

array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

##### Другие популярные наборы данных в scikit-learn
* `load_boston` содержит 503 образцов цен на жилье в Бостоне; это хороший набор данных для изучения регрессионных алгоритмов    
* `load_iris` содержит 1450 образцов измерений цветков ириса; это хороший набор данных для изучения классификационных алгоритмов   
* `load_digits` содержит 1797 образцов изображений рукописных цифр; это хороший набор данных для тренировки модели, классифицирующей изображения      

##### Дополнительные материалы
Игрушечные наборы данных: https://scikit-learn.org/stable/datasets/index.html#toy-datasets     
Набор изображений рукописных цифр: https://scikit-learn.org/stable/auto_examples/datasets/plot_digits_last_image.html 

### 2. Создание симулированного набора данных
##### Задача
Требуется сгенерировать набор симулированных данных
##### Решение
Бибилиотека `scikit-learn` предлагает целый раяд методов для создания симулированных данных. Из них особенно ценными являются три метода:
* `make_regression`, предназначен для работы с линейной регрессией;    
* `make_classification`, предназначен для работы с задачами классификации;    
* `make_blobs`, предназначен для работы с кластеризирующими методами.   

In [11]:
# Загрузить библиотеку
from sklearn.datasets import make_regression

# Сгенерировать матрицу признаков, вектор целей и истинные коэффициенты
features, target, coefficients = make_regression(n_samples=100,
                                                n_features=3,
                                                n_informative=3,
                                                n_targets=1,
                                                noise=0.0,
                                                coef=True,
                                                random_state=100)

# Взглянуть на матрицу признаков и вектор целей
print('Матрица признаков\n', features[:3])
print('Вектор целей\n', target[:3])

Матрица признаков
 [[ 0.81684707  0.67272081 -0.58359505]
 [-0.87573084  0.11760846  0.17637048]
 [-0.53664043  0.8231244  -0.40228992]]
Вектор целей
 [16.85852128 11.69635075 28.89687844]


In [9]:
# Загрузить библиотеку
from sklearn.datasets import make_classification

# Сгенерировать матрицу признаков и вектор целей
features, target = make_classification(n_samples=100,
                                       n_features=3,
                                       n_informative=3,
                                       n_redundant=0,
                                       n_classes=2,
                                       weights=[.25, .75],
                                       random_state=1)

# Взглянуть на матрицу признаков и вектор целей
print('Матрица признаков\n', features[:3])
print('Вектор целей\n', target[:3])

Матрица признаков
 [[ 1.06354768 -1.42632219  1.02163151]
 [ 0.23156977  1.49535261  0.33251578]
 [ 0.15972951  0.83533515 -0.40869554]]
Вектор целей
 [1 0 0]


In [14]:
# Загрузить библиотеку
from sklearn.datasets import make_blobs

# Сгенерировать матрицу признаков и вектор целей
features, target = make_blobs(n_samples=100,
                              n_features=2,
                              centers=3,
                              cluster_std=0.5,
                              shuffle=True,
                              random_state=1)

# Взглянуть на матрицу признаков и вектор целей
print('Матрица признаков\n', features[:3])
print('Вектор целей\n', target[:3])

Матрица признаков
 [[ -1.22685609   3.25572052]
 [ -9.57463218  -4.38310652]
 [-10.71976941  -4.20558148]]
Вектор целей
 [0 1 1]


В функциях `make_regression` и `make_classification` параметр `n_informative` задает количество признаков, исползуемых для создания вектора целей. Если значения параметра `n_infromative` меньше общего количества признаков (`n_features`), то результирующий набор данных будет иметь избыточные признаки, котороые можно идентифицировать с помощью методов отбора признаков.    
Кроме того функция `make_classification` содержит параметр `weights`, который позволяет симулировать наборы данных с несбалансированными классами. Например, `weights = [.25, .75]` возвращает набор данных с 25% наблюдений, принадлежащих к одному классу, и с 75% наблюдей, принадлежащих ко второму классу.
Для функции `make_blobs` параметр `centers` задает количество сгенерированных кластеров. С помощью библиотеки `matplotlib` можно визуализировать кластеры, созданные функцией `make_blobs`.

In [15]:
%matplotlib notebook

# Загрузить библиотеку
import matplotlib.pyplot as plt

# Взглянуть на диаграмму рассеяния
plt.scatter(features[:, 0], features[:, 1], c=target)
plt.show()

<IPython.core.display.Javascript object>

### Дополнительные материалы
Документация по `make_reggression` : https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression     
Документация по `make_classification` : https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification    
Документация по `make_blobs` : https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs

### 3. Загрузка файла CSV
##### Задача
Требуется импортировать файл значений с разделителями-запятыми (в формате CSV)
##### Решение
Используем функцию `read_csv` библиотеки `pandas`

In [12]:
# Загрузить библитотеку
import pandas as pd 

# Создать URL-адрес
url = 'http://drive.dilibrium.ru/datasets/toy-finance.csv'

# Загрузить набор данных
dataframe = pd.read_csv(url, sep=';')

# Взглянуть на первые пять строк
dataframe.head()

Unnamed: 0,Дата,Сумма руб.,Счет,Группа,Категория
0,15.09.2018,73400,наличные,Операционные_расходы,Договоры на поддержку другими вендорами
1,15.09.2018,30000,наличные,перевод_между_своими_счетами,наличные под отчет
2,15.09.2018,400000,наличные,Операционные_расходы,ФОТ
3,15.09.2018,9000,наличные,Операционные_расходы,Аренда офиса
4,28.09.2018,120000,наличные,Операционные_расходы,Командировочные расходы


В отношении CSV-файлов следует отметить два момента:
* во-первых, бывает полезно заглянуть внутрь файла перед загрузкой, чтобы увидеть структуру данных и какие параметры необходимо установить, чтобы файл загрузить;
* во-вторых, функция `read_csv` имеет более 30 параметров, которые существуют в основном для того, чтобы дать возможность обрабатывать широкий спект CSV-файлов.     



Например, в формате CSV значения разделены запятыми, однако часто в качестве разделителя могут быть использованы другие символы, например, символы табуляции. Параметр `sep` библиотеки `pandas` позволяет задавать используемый разделитель явно.
Также в формате CSV – первая строка как правило является строкой для определения заголовков столбцов, хотя это не всегда так. Параметр `header` позволяет указывать, существует строка заголовка и где она находится. Если такой строки нет, устанавливаем `header=None`.

### 4. Загрузка файла Excel
##### Задача 
Требуется загрузить электронную таблицу Excel
##### Решение
Используем функцию `read_excel` библиотеки `pandas` 

In [13]:
# Создать URL-адрес
url = 'http://drive.dilibrium.ru/datasets/toy-finance-excel.xls'

# Загрузить данные
df = pd.read_excel(url)  # df принятое в сообществе сокращение для dataframe

# Взглянуть на последние пять строк
df.tail()

Unnamed: 0,Дата,"Сумма, руб.",Счет,Группа,Категория
408,2019-02-27,42298.0,расчетный счет,Инвестиции,"Компьютерное, сетевое и системное оборудование"
409,2019-02-27,37000.0,расчетный счет,Операционные_расходы,Договоры на поддержку другими вендорами
410,2019-02-28,2462.32,расчетный счет,Операционные_расходы,Услуги банка
411,2019-02-28,8313.09,расчетный счет,Операционные_расходы,ФОТ
412,2019-02-28,1243.0,расчетный счет,Налоги_и_отчисления,НДФЛ


Отличительной особенностью является дополнительный параметр `sheet_name`, который указывает какой лист в файле Excel нужно загрузить. Параметр `sheet_name` может принимать как строковые занчения, содержащие имя листа, так и целые числа, указывающие на позицию листа ( с нулевой индексацией). Если нужно загрузить несколько листов, их необходимо включить в список. Например, `sheet_name=[0, 1, 2, 'Ежемесячные продажи']` вернет словарь  типов `DataFrame()`, содержащих листы из списка.

### 5. Загрузка файла JSON 
##### Задача
Требуется загрузить файл JSON для предобработки данных
##### Решение
Используем функцию `read_json` библиотеки `pandas`

In [11]:
# Создать URL-адрес
url = 'http://drive.dilibrium.ru/datasets/toy-finance.json'

# Загрузить данные
df = pd.read_json(url, orient='columns')

# Взглянуть на данные
df

Unnamed: 0,Дата,Сумма руб.,Счет,Группа,Категория
0,15.09.2018,73400,наличные,Операционные_расходы,Договоры на поддержку другими вендорами
1,15.09.2018,30000,наличные,перевод_между_своими_счетами,наличные под отчет
2,15.09.2018,400000,наличные,Операционные_расходы,ФОТ
3,15.09.2018,9000,наличные,Операционные_расходы,Аренда офиса
4,28.09.2018,120000,наличные,Операционные_расходы,Командировочные расходы
...,...,...,...,...,...
408,27.02.2019,42298,расчетный счет,Инвестиции,Компьютерное сетевое и системное оборудование
409,27.02.2019,37000,расчетный счет,Операционные_расходы,Договоры на поддержку другими вендорами
410,28.02.2019,2462.32,расчетный счет,Операционные_расходы,Услуги банка
411,28.02.2019,8313.09,расчетный счет,Операционные_расходы,ФОТ


Ключевой особенностью чтения файла JSON является параметр `orient`, который указывает `pandas` как структурирован файл JSON. Однако, чтобы выяснить какое значение параметра `orient` является правильным (`split`, `records`, `index`, `columns` и `values`) необходимо поэкспериментировать.     
Библиотека `pandas` предлагает полезный инструмент – функцию `json_normalize`, которая помогает преобразовать полуструктурированные данные JSON в `DataFrame()` `pandas`.

### 6. Опрашивание базы данных SQL
##### Задача
Требуется загрузить данные из базы данных с помощью языка структурированных данных SQL
##### Решение
Используем функцию `read_sql_query` бибилиотеки `pandas`

In [66]:
# Загрузить бибилиотеки
import pandas as pd
import pymysql
import sqlalchemy

# Создать подключение к базе данных
DB_HOST = '185.11.246.52'
DB_USER = 'ds_user'
DB_PASSWORD = 'sample0000'
DB_NAME = 'ds_sample'

try:
    connection = pymysql.connect(host=DB_HOST,
                                 user=DB_USER,
                                 password=DB_PASSWORD,                             
                                 db=DB_NAME,
                                 charset='utf8mb4',
                                 cursorclass=cur.DictCursor
                                )
    with connection:
        cursor = connection.cursor()
        cursor.execute("SELECT VERSION()")
        version = cursor.fetchone()
        db_version = version['VERSION()']
        cursor.execute("SHOW TABLES")
        tables = cursor.fetchone()
        db_table = tables['Tables_in_ds_sample']       
except:
    print('Connection failed!')
else:
    print('Connection success!')
    print(f'Database version: {db_version}, table name: {db_table}')

# Загрузить данные
df = pd.read_sql_query(f'SELECT * FROM {db_table}', connection)

# Взглянуть на данные
df.head()

    



Connection success!
Database version: 5.5.64-MariaDB, table name: sample


Unnamed: 0,id,timedate,costs,accounts,costs_items,category
0,1,2018-09-15,73400.0,наличные,Операционные_расходы,Договоры на поддержку другими вендорами
1,2,2018-09-15,30000.0,наличные,перевод_между_своими_счетами,наличные под отчет
2,3,2018-09-15,400000.0,наличные,Операционные_расходы,ФОТ
3,4,2018-09-15,9000.0,наличные,Операционные_расходы,Аренда офиса
4,5,2018-09-15,120000.0,наличные,Операционные расходы,


Извлечение данных из баз данных – один из самых распространенных на практике рецептов по извлечению данных. В данном примере сначала создается подключение к базе данных с помощью `connect` библиотеки `pymysql`. Затем используем функцию `read_aql_query` библиотеки `pandas`, чтобы опросить базу даннух с помощью SQL и поместить результаты во фрейм данных.