## SQLite и Pandas

Сегодня мы поработаем над тем как извлекать данные из базы данных SQLite. Для начала импортируем нужные нам библиотечки.

In [1]:
import sqlite3
import pandas as pd

Напоминаю, что "библиотека" в питоне -- это просто .py-файлики, содержащие наборы функций и объектов, которые можно просто извлекать и использовать. 

Импортировав две библиотеки выше мы добавили их в нашу рабочую среду и теперь они готовы к использованию. 

Вы можете написать свои библиотеки для конкретных повторяющихся задач. Иногда это удобно. Иногда нет.

In [2]:
# Создаем коннектор к файлу нашей базы данных. 
# Само собой, файлик Базы Данных должен лежать рядом с файлом блокнота (который вы сейчас читаете). 
con = sqlite3.connect('ДЗ4.db')

In [3]:
# Не спрашивайте
cur = con.cursor()

In [4]:
# Таким образом исполняется запрос к Базе Данных. 
# Здесь Python передает предложение SELECT в СУБД (в данном случае это библиотечка sqlite3) и выполняет его, а возвращает набор данных из таблицы (результат работы SELECT)

cur.execute('SELECT * FROM EmpPoint').fetchall()

[('Маша', 5, '2020-01-01'),
 ('Петя', 4, '2020-01-01'),
 ('Вася', 3, '2020-01-01'),
 ('Саша', 4, '2020-01-01'),
 ('Маша', 5, '2020-01-01'),
 ('Петя', 4, '2020-01-01'),
 ('Вася', 3, '2020-01-01'),
 ('Саша', 4, '2020-01-01'),
 ('Маша', 4, '2020-01-02'),
 ('Петя', 4, '2020-01-02'),
 ('Вася', 4, '2020-01-02'),
 ('Саша', 5, '2020-01-02'),
 ('Маша', 5, '2020-01-03'),
 ('Петя', 3, '2020-01-03'),
 ('Вася', 2, '2020-01-03'),
 ('Саша', 5, '2020-01-03'),
 ('Маша', 3, '2020-01-04'),
 ('Петя', 3, '2020-01-04'),
 ('Вася', 3, '2020-01-04'),
 ('Саша', 3, '2020-01-04'),
 ('Максим', 2, '2020-01-04'),
 ('Маша', 5, '2020-01-05'),
 ('Петя', 3, '2020-01-05'),
 ('Вася', 3, '2020-01-05'),
 ('Саша', 3, '2020-01-05')]

In [9]:
# Можно выполнять и более сложные селекты

cur.execute("""

    SELECT AVG(Score), Date, Department
    FROM EmplScore as S
    LEFT JOIN EmplDep as D
    ON S.Name = D.Name
    GROUP BY Department, Date
    HAVING AVG(Score) > 3
    ORDER BY Date

""").fetchall()

[(5.0, '2021-01-31', 'HR-admin'),
 (5.0, '2021-01-31', 'HR-analytics'),
 (5.0, '2021-01-31', 'IT'),
 (5.0, '2021-02-28', 'HR-analytics')]

# Pandas


В Пандасе есть встроенный метод read_sql для исполнения SQL-запросов. И он неплохо работает с SQLite.

Обратите внимание на то, как мы передаем в него коннектор (объект con) для подключения к Базе Данных. 

Выражение 'df =' означает, что результат работы метода read_sql мы складываем в уже пандасовский объект с названием df.

In [12]:
df = pd.read_sql("""

    SELECT AVG(Score), Date, Department
    FROM EmplScore as S
    LEFT JOIN EmplDep as D
    ON S.Name = D.Name
    GROUP BY Department, Date
    HAVING AVG(Score) > 3
    ORDER BY Date

""", con)

Мы извлекли из БД таблицу и сложили ее в пандас-датафрейм df (это уже объект в Python).

Далее можем работать с ним как пожелаем.

In [13]:
df

Unnamed: 0,AVG(Score),Date,Department
0,5.0,2021-01-31,HR-admin
1,5.0,2021-01-31,HR-analytics
2,5.0,2021-01-31,IT
3,5.0,2021-02-28,HR-analytics


Почитать: https://medium.com/@bigdataschool/%D0%B8%D0%BD%D1%82%D0%B5%D0%B3%D1%80%D0%B0%D1%86%D0%B8%D1%8F-sqlite-%D0%B8-pandas-456d813462c5

In [7]:
pd.read_sql( """

SELECT DISTINCT Employee 
FROM EmpPoint

""", con)

Unnamed: 0,Employee
0,Маша
1,Петя
2,Вася
3,Саша
4,Максим


In [8]:
pd.read_sql( """

SELECT Employee, COUNT(*) AS Count
FROM EmpPoint
WHERE Point = 5
GROUP BY Employee
ORDER BY Count DESC

""", con)

Unnamed: 0,Employee,Count
0,Маша,4
1,Саша,2
