<center>
<img src="../../img/ods_stickers.jpg">
## Открытый курс по машинному обучению
<center>Автор материала: Данила Сергей Владимирович, sergey.danila.

# <center>Pandas. Работа с базами данных</center>
## <center>Введение.</center>
Pandas - это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные. В современном мире огромные массивы данных хранятся в базах данных. В курсе <a href="https://github.com/Yorko/mlcourse_open">OpenDataScience</a>  во практически во всех домашних заданиях и семенарах данные загружаются из csv файлов. Я в своей статье попробую приоткрыть тему доступа к данным находящихся в популярных <a href="https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D0%A1%D0%A3%D0%91%D0%94"> реляционных СУБД</a>. Чтобы использовать данные на полную катушку, нужно обладать знаниями языка <a href="https://ru.wikipedia.org/wiki/SQL">SQL</a>. Даже если вы не знакомы с SQL, думаю, не составит труда разобраться с данным материалом.
Не хотел браться за написание данного материала т.к. мне он представляется достаточно тревиальным. Но видя уже вторую ссесию подряд данный вопрос в возможных темах для тьюториалов и видя непонимание в глазах некоторых IT-шников, глядящих на какой нибудь не сильно сложный join таки решился на это. Надеюсь, данная работа кому-нибудь таки пригодится.

Python достаточно давно и хорошо  работает с различными СУБД посредством модулей, реализующими работу с конкретными базами данных. Чтобы пользователю не нужно было разбираться  в деталях реализации той или оной СУБД для python был разработан программный интерфейс DB-API. <strong><a href="https://habrahabr.ru/post/321510/">Python DB-API</a></strong> – это не конкретная библиотека, а набор правил, которым подчиняются отдельные модули, реализующие работу с конкретными базами данных. Отдельные нюансы реализации для разных баз могут отличаться, но общие принципы позволяют использовать один и тот же подход при работе с разными базами данных.

В pandas встроена поддержка <a href="https://ru.wikipedia.org/wiki/SQLAlchemy" >SQLAlchemy</a> которая представляет нам еще более удобный механизм доступа к данным в базе. SQLAlchemy Engine это слой абстракции над DB-API.
Он содержит DB-API драйвера для разных СУБД, их можно указать в строке подключения.
Engine.execute() и Engine.connect() два основных метода.
Так же у него есть свой пул соединений.
create_engine() - фабричная функция для создания Engine.

Т.е. для нас вся работа с СУБД сводится к созданию engine к нужной базе и всё. А далее методами pandas to_sql - сохраняем данные в базу, а методом  -получаем данные из базы.

### <left>Работа с разными базами данных используя SQLAlchemy.</left> ###
Обратимся к <a href="http://pandas.pydata.org/pandas-docs/stable/io.html#engine-connection-examples">документации pandas</a> где указаны примеры подключения к БД:

In [None]:
# from sqlalchemy import create_engine

# engine = create_engine('postgresql://scott:tiger@localhost:5432/mydatabase')

# engine = create_engine('mysql+mysqldb://scott:tiger@localhost/foo')

# engine = create_engine('oracle://scott:tiger@127.0.0.1:1521/sidname')

# engine = create_engine('mssql+pyodbc://mydsn')

# sqlite://<nohostname>/<path>
# where <path> is relative:
# engine = create_engine('sqlite:///foo.db')

# or absolute, starting with a slash:
# engine = create_engine('sqlite:////absolute/path/to/foo.db')


from __future__ import absolute_import, division, print_function, unicode_literals

# отключим предупреждения
import warnings

warnings.simplefilter("ignore")
import numpy as np
import pandas as pd
from sqlalchemy import create_engine

Используем датасет mlbootcamp5 из первых домашних работ '../../data/mlbootcamp5_train.csv'

In [None]:
df = pd.read_csv("../../data/mlbootcamp5_train.csv", sep=";", index_col="id")
df.head()

Сохраним данные из датафрейма df  в MySQL базу:

In [None]:
# для того, чтобы воспользоваться данной СУБД у Вас в системе должен стоять драйвер,
# на моей системе он ставился следующей командой:
# apt-get install python3-mysqldb

In [None]:
# хост БД: localhost
# пользователь БД testuser
# пароль: 321
# БД: edu
mysql_conn = create_engine("mysql+mysqldb://testuser:321@localhost:3306/edu")

In [None]:
# сохраним наш датафрейм df в базу в таблицу train:

df.to_sql(
    name="train", con=mysql_conn, if_exists="replace", index=True, index_label="id_s"
)

таблица в которую мы пишем может уже существовать в БД, поэтому мы должны определить поведение системы с помощью параметра if_exists 

<code>if_exists : {'fail', 'replace', 'append'}, default 'fail'</code>  -параметр if_exists может принимать следующие 3 значения:<br />
        <strong>fail</strong>:- If table exists, do nothing. - ничего не делать, если таблица существует,<br />
        <strong>replace</strong>-: If table exists, drop it, recreate it, and insert data. -если таблица существует пересоздать её и вставить данные,<br />
        <strong>append</strong>-: If table exists, insert data. Create if does not exist. - если таблица существует, то дописать данные в конец. Если таблица не существует, создать её.

A теперь вытащим данные из таблицы sql запросом. 
Например, создадим новый датафрейм со всеми людьми имеющими сердечно-сосудистые заболения 

In [None]:
sql = "SELECT * FROM train WHERE cardio=1"

mysql_df = pd.read_sql_query(sql, mysql_conn)
mysql_df.head()

In [None]:
# сравним с исходным df
print(mysql_df.shape, df[df["cardio"] == 1].shape)

Как видим, оба датафрейма вовзращают одинаковое кол-во строк 34979 только вот кол-во столбцов отличается на 1 т.к. при добавлении данных в таблицу также, по умолчанию, добавляется столбец с индексом. Это поведение можно изменить добавив параметр index=False при вызове функции to_sql.

Давайте убедимся, что независимо от реализации СУБД работа с ней в pandas не меняется.
Сделаем тоже самое уже для PostgreSQL:

In [None]:
# для того, чтобы воспользоваться данной СУБД у Вас в системе должен стоять драйвер psycopg2,
# на моей системе он ставился следующей командой:
#!pip3 install psycopg2

In [None]:
# хост БД: localhost
# пользователь БД testuser
# пароль: 4321
# БД: edu
pgsql_conn = create_engine("postgresql://testuser:4321@localhost:5432/edu")

In [None]:
# пишем в базу:
df.to_sql(name="train", con=pgsql_conn, if_exists="replace")

# достаём из базы:
sql = "SELECT * FROM train WHERE cardio=1"

pgsql_df = pd.read_sql_query(sql, pgsql_conn)
pgsql_df.head()

In [None]:
# всё тоже самое, ничего нового:
print(mysql_df.shape, pgsql_df.shape, df[df["cardio"] == 1].shape)

Работа с mySQL и c PostgreSQL требует наличия соответствующих СУБД, созданных в них баз данных, пользователей к БД, установленных драйверов СУБД. Уверен, что большинству, как и мне, было бы лень ставить соответствующий софт, чтобы погонять игрушечные примеры. Для таких случает есть "лайтовый" вариант  <a href="https://ru.wikipedia.org/wiki/SQLite">SQLite</q> - компактная встраиваемая СУБД. Данная СУБД может создаваться "на лету" в виде файла. Поддержка SQLite встроена в python и не потребует установки отдельных драйверов.

In [None]:
# создадим новую базу и коннект к ней
sqlite_conn = create_engine("sqlite:///../../data/mybase.db")
# пишем в базу:
df.to_sql(name="train", con=sqlite_conn, if_exists="replace")

# достаём из базы:
sql = "SELECT * FROM train WHERE cardio=1"

sqlite_df = pd.read_sql_query(sql, sqlite_conn)
sqlite_df.head()

In [None]:
# сравним выдачу, ничего нового:
print(mysql_df.shape, pgsql_df.shape, sqlite_df.shape, df[df["cardio"] == 1].shape)

Список подддерживаемых SQLAlchemy диалектов СУБД можно посмотреть <a href="http://docs.sqlalchemy.org/en/latest/dialects/index.html">здесь</a>, а это практически все популярные СУБД.

### <left>Возможности SQL.</left> ###

Для разнообразия, воспользуемся встроенным в python модулем для работы с SQLite базами

In [None]:
import sqlite3

# создадим новую БД:
db = "../../data/mybase.sqlite"
conn = sqlite3.connect(db)

In [None]:
# запишем в неё весь датафрейм df:
df.to_sql("train", conn, if_exists="replace", index=False)

sql = "SELECT * FROM train"
df_sql = pd.read_sql_query(sql, conn)
df_sql.head()

In [None]:
# сверим размерности
print(df.shape, df_sql.shape)

Теперь можно манипулировать данными не используя синтаксис pandas, а используя более привычный, по крайней мере для меня, sql-синтаксис.
Составим запрос:

In [None]:
sql_string = "SELECT age,"
sql_string += "age/365.25 as years, "  # преобразуем возраст в года
sql_string += (
    "cast(age/365.25 as int) as years_full, "  #  а также посчитаем число полных лет
)
#  значения пола 1 и 2 как то не привычно. Переделаем на "классическое" представление :
sql_string += (
    "CASE WHEN gender=2 THEN 1 ELSE 0 END as gender_b , "  # 1-мужской, и 0 -женский
)
sql_string += 'CASE WHEN gender=2 THEN upper("m") ELSE "W" END as gender_chr , '  #  ну или в символьное M/W
sql_string += "height, weight, ap_hi, ap_lo, cholesterol, gluc, smoke,alco, active, cardio "  # добавим остальные поля
sql_string += " FROM train  "  # укажем таблицу
sql_string += " WHERE  ap_hi> ap_lo "  # отфильтруем ошибочные данные там где нижнее давление больше или равно верхнему.
sql_string += " ORDER BY cast(age/365.25 as int) , cholesterol "  # упорядочим выборку по кол-ву полных лет  и уровню холестерина
print(sql_string)  # получился такой вот sql запрос

In [None]:
# теперь результатом его выполнения можно использовать как dataframe
df_new = pd.read_sql_query(sql_string, conn)
df_new.head(10)

In [None]:
# проверим размерности отфильтрованных данных:
print(df[df["ap_hi"] > df["ap_lo"]].shape, df_new.shape)

как мы видим в выборке у нас появились новые столбцы. А также кол-во записей уменьшилось из-за того что мы отбросили некорректные данные.
Ну и на последок еще одни пример на JOIN,  собственно то, ради чего и нужен sql.

In [None]:
# перезапишем таблицу с исходной выборкой train добавим в нее весь датаблок, а также добавим столбец с индексом
df.to_sql("train", conn, if_exists="replace", index=True)
sql = "SELECT * FROM train"
df_sql = pd.read_sql_query(sql, conn)
df_sql.head()

In [None]:
# создадим новую таблицу 'x' куда попадут все столбцы кроме cardio
sql = "SELECT id, age, gender, height, weight, ap_hi, ap_lo,cholesterol, gluc, smoke, alco, active FROM train"
df_sql2 = pd.read_sql_query(sql, conn)


df_sql2.to_sql("x", conn, if_exists="replace", index=False)
df_sql2.head()

In [None]:
# создадим новую таблицу 'y' в котором будут только столбцы id  и cardio, при этом отфильтруем только те записи, где cardio=1
sql = "SELECT id, cardio FROM train WHERE cardio=1"
df_sql3 = pd.read_sql_query(sql, conn)


df_sql3.to_sql("y", conn, if_exists="replace", index=False)
df_sql3.head()

In [None]:
# сравним размерности новых таблиц
print(df_sql2.shape, df_sql3.shape)

Как видим, они не совпадают по кол-ву строк. И восстановить данные средствами pandas было бы проблемматично. 
А средствами sql это сделать достаточно легко. Нужно просто написать соответствующий запрос:

In [None]:
sql = "SELECT x.*, COALESCE(y.cardio,0) as cardio  FROM x LEFT JOIN y ON x.id=y.id"  # вот и весь запрос.
df_result = pd.read_sql_query(sql, conn)


df_result.to_sql(
    "new_train", conn, if_exists="replace", index=False
)  # сохраним данные в таблицу new_train
df_result.head()

In [None]:
# ни одной строчки не потеряли:
print(df_result.shape)

Проверим что столбец cardio в обеих таблицах идентичен

In [None]:
sql = "SELECT train.ID, train.cardio,new_train.cardio FROM  train INNER JOIN new_train   ON train.id=new_train.id WHERE train.cardio=new_train.cardio"  # вот и весь запрос.
df_compare = pd.read_sql_query(sql, conn)
print(df_compare.shape)  # получаем 70000 строк т.е. таблицы идентичны

In [None]:
df_compare.head()

На этом хочу поставить точку.