# Python и базы данных
* Подключение к SQLite, SAP Hana и Teradata
* Примеры запросов
* Pandas и базы данных

# Что мы знаем про SQL?

* SQL - structured query language
* Ранее был известен как SEQUEL -  Structured English QUEry Language

# Основные команды SQL
## Выводим  данные из таблицы по определенным колонкам

SELECT col_name1, col_name2, … <BR>
  FROM table_name;  <BR>

## Выводим все данные из таблицы
SELECT * FROM table_name;    <BR>  

## Создаем таблицу
CREATE TABLE table_name1 ( <BR>
  col_name1, col_type1, <BR>
  col_name2, col_type2, <BR>
  col_name3, col_type3 <BR>
  PRIMARY KEY (col_name1), <BR>
  FOREIGN KEY (col_name2)  <BR>
); 

## Вставляем данные в таблицу
INSERT INTO table_name (col_name1, col_name2, col_name3, …) <BR>
  VALUES (value1, value2, value3, …);  <BR>
    
## Удаляем базу данных
DROP DATABASE database_name; <br>

<a href="https://tproger.ru/translations/sql-recap/"> подробнее про SQL команды здесь</a>

<img src="img/Lesson_9.jpg" width = 500 align=left>

In [69]:
from tqdm import tqdm_notebook

# SQL Alchemy

In [159]:
from sqlalchemy import create_engine, MetaData, Table
# Создаем подключение базе данных
engine = create_engine('sqlite:///census.sqlite')
connection = engine.connect()

In [160]:
# Выгружаем имена таблиц
print(engine.table_names())

['census', 'state_fact']


In [163]:
# MetaData - класс, который содержит информацию о таблицах
metadata = MetaData()
# Если нам нужно получить инфорацию о таблице(reflection)
census = Table('census', metadata, autoload=True, autoload_with=engine)

In [168]:
# Выводим метаданные таблицы
census

Table('census', MetaData(bind=None), Column('state', VARCHAR(length=30), table=<census>), Column('sex', VARCHAR(length=1), table=<census>), Column('age', INTEGER(), table=<census>), Column('pop2000', INTEGER(), table=<census>), Column('pop2008', INTEGER(), table=<census>), schema=None)

In [169]:
# Выводим метаданные таблицы
print(repr(census))

Table('census', MetaData(bind=None), Column('state', VARCHAR(length=30), table=<census>), Column('sex', VARCHAR(length=1), table=<census>), Column('age', INTEGER(), table=<census>), Column('pop2000', INTEGER(), table=<census>), Column('pop2008', INTEGER(), table=<census>), schema=None)


In [100]:
# Выводим метаданные таблицы
print(repr(metadata.tables['census']))

Table('census', MetaData(bind=None), Column('state', VARCHAR(length=30), table=<census>), Column('sex', VARCHAR(length=1), table=<census>), Column('age', INTEGER(), table=<census>), Column('pop2000', INTEGER(), table=<census>), Column('pop2008', INTEGER(), table=<census>), schema=None)


In [99]:
# Выводим названия колонок
print(census.columns.keys())

['state', 'sex', 'age', 'pop2000', 'pop2008']


In [170]:
# Е
# engine =create_engine('sqlite:///census.sqlite')
# connection = engine.connect()

# Выгружаем данные с помощью select
stmt = 'SELECT * FROM census'

# Выполняем запрос 
results = connection.execute(stmt).fetchall()

Выводим результаты
for i in range(5):
    print(results[i])

('Illinois', 'M', 0, 89600, 95012)
('Illinois', 'M', 1, 88445, 91829)
('Illinois', 'M', 2, 88729, 89547)
('Illinois', 'M', 3, 88868, 90037)
('Illinois', 'M', 4, 91947, 91111)


In [178]:
# Можем выбрать строку по индексу
first_row = results[0]
print(first_row)

('Illinois', 'M', 0, 89600, 95012)


In [176]:
# Можем вывести первый элемент первой строки
print(first_row[0])

Illinois


In [177]:
# Можем вывести колонку названию
print(first_row['state'])

Illinois


In [184]:
# Альтернативный вариант запроса c помощью объекта select
stmt = select([census])
# Выполняем запрос 
results = connection.execute(stmt).fetchall()

# Выводим результаты
for i in range(5):
    print(results[i])

('Illinois', 'M', 0, 89600, 95012)
('Illinois', 'M', 1, 88445, 91829)
('Illinois', 'M', 2, 88729, 89547)
('Illinois', 'M', 3, 88868, 90037)
('Illinois', 'M', 4, 91947, 91111)


In [186]:
# Создадим соединение с базой данных
engine = create_engine('postgresql+psycopg2://student:datacamp@postgresql.csrrinzqubik.us-east-1.rds.amazonaws.com:5432/census')

# Выведеме названия таблицы
print(engine.table_names())

['census', 'state_fact', 'vrska', 'census1', 'data', 'data1', 'employees3', 'users', 'employees', 'employees_2']


In [187]:
# Фильтр where
states = ['New York', 'California', 'Texas']

# Создаем запрос
stmt = select([census])

# Добавим в запрос условие where
stmt = stmt.where(census.columns.state.in_(states))

# Выведем результаты запроса
for i,res in enumerate(connection.execute(stmt)):
    print(res.state, res.pop2000)
    if i == 10:
        break

New York 126237
New York 124008
New York 124725
New York 126697
New York 131357
New York 133095
New York 134203
New York 137986
New York 139455
New York 142454
New York 145621


In [191]:
results[0].keys()

['state', 'sex', 'age', 'pop2000', 'pop2008']

# Практическая часть

In [205]:
# Написать функцию которая на вход получает название штата и выдает численность его населения
# По умаолчанию за 2008 год, но при жалании за 2000 
# А также при жалении выводит тем роста численности в регионе
# <-- Ваш код здесь -->

In [197]:
# Добавляем опции условия с помощью and_
from sqlalchemy import and_

# Создаем запрос
stmt = select([census])

# Добавляем условие выбираем только женщинское население из Калифорнии
stmt = stmt.where(

    and_(census.columns.state == 'California',
         census.columns.sex != 'M'
         )
)

# Loop over the ResultProxy printing the age and sex
for i, result in enumerate(connection.execute(stmt)):
    print(result)
    if i == 10:
        break
    


('California', 'F', 0, 239605, 274356)
('California', 'F', 1, 236543, 269140)
('California', 'F', 2, 240010, 262556)
('California', 'F', 3, 245739, 259061)
('California', 'F', 4, 254522, 255544)
('California', 'F', 5, 260264, 253899)
('California', 'F', 6, 261296, 247677)
('California', 'F', 7, 264083, 250117)
('California', 'F', 8, 270447, 233293)
('California', 'F', 9, 271482, 231261)
('California', 'F', 10, 270567, 235225)


In [204]:
# Создаем запрос чтобы выгрузить  одну колонку - штат
stmt = select([census.columns.state])

# Добавляем в запрос вывод штатов в алфавитном порядке
stmt = stmt.order_by(census.columns.state)

# Выполняем запрос
results = connection.execute(stmt).fetchall()


for result in results:
    print(result.state)


Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama


Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massachusetts
Massac

South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
South Dakota
Tennessee
Tennessee
Tennessee
Tennessee
Tennessee
Tennessee
Tenn

In [123]:
# Для обратного порядка можно использовать desc
from sqlalchemy import desc

# Создаем запрос
stmt = select([census.columns.state])

# Дополняем запрос выводом в обратном порядке
rev_stmt = stmt.order_by(desc(census.columns.state))

# Выполняем запрос и выводим результаты
rev_results = connection.execute(rev_stmt).fetchall()

print(rev_results[:10])

[('Wyoming',), ('Wyoming',), ('Wyoming',), ('Wyoming',), ('Wyoming',), ('Wyoming',), ('Wyoming',), ('Wyoming',), ('Wyoming',), ('Wyoming',)]


# Практическая часть

In [208]:
#  выведите штаты в алвавитном порядке, а возраст по убыванию
# <-- Ваш код здесь -->

In [219]:
# Различные операции с данными в sqlalchemy можно проводить с помощью func
from sqlalchemy import func
# Создадим запрос, который считает количество уникальных штатов
stmt = select([func.count(census.columns.state.distinct())])
# Выполняем запрос
distinct_state_count = connection.execute(stmt).scalar()
# Выводим результат
print(distinct_state_count)


51


In [221]:
# Названия колонок
print(results[0].keys())

['state', 'population']


In [222]:
# Агрегируем с помощью group_by
# Создадим выражение считающее численность населения
# Название будущей колонки задается с помощью label
pop2008_sum = func.sum(census.columns.pop2008).label('population')

# Создадим запрос выводящий штат и численность населения
stmt = select([census.columns.state, pop2008_sum])
# Добавим группировку group_by
stmt = stmt.group_by(census.columns.state)
# Выполним запрос
results = connection.execute(stmt).fetchall()

print(results)

[('Alabama', 4649367), ('Alaska', 664546), ('Arizona', 6480767), ('Arkansas', 2848432), ('California', 36609002), ('Colorado', 4912947), ('Connecticut', 3493783), ('Delaware', 869221), ('District of Columbia', 588910), ('Florida', 18257662), ('Georgia', 9622508), ('Hawaii', 1250676), ('Idaho', 1518914), ('Illinois', 12867077), ('Indiana', 6373299), ('Iowa', 3000490), ('Kansas', 2782245), ('Kentucky', 4254964), ('Louisiana', 4395797), ('Maine', 1312972), ('Maryland', 5604174), ('Massachusetts', 6492024), ('Michigan', 9998854), ('Minnesota', 5215815), ('Mississippi', 2922355), ('Missouri', 5891974), ('Montana', 963802), ('Nebraska', 1776757), ('Nevada', 2579387), ('New Hampshire', 1314533), ('New Jersey', 8670204), ('New Mexico', 1974993), ('New York', 19465159), ('North Carolina', 9121606), ('North Dakota', 634282), ('Ohio', 11476782), ('Oklahoma', 3620620), ('Oregon', 3786824), ('Pennsylvania', 12440129), ('Rhode Island', 1046535), ('South Carolina', 4438870), ('South Dakota', 800997),

In [223]:
# Print the keys/column names of the results returned
print(results[0].keys())

['state', 'population']


In [224]:
# Практическая часть
# Создайте запрос и сделайте выгрузку 
# в которой будет количество значений колонки возраст для каждого штата
# <-- Ваш код здесь -->

In [217]:
# Выведем все DataFrame
import pandas as pd
# Создадим DataFrame из результатов
df = pd.DataFrame(results)
# Назовем колонки своими именами
df.columns = results[0].keys()
df.head()

Unnamed: 0,state,population
0,Alabama,4649367
1,Alaska,664546
2,Arizona,6480767
3,Arkansas,2848432
4,California,36609002


# Практическая часть 

In [225]:
# Использвуя данные df
# Постройте столбчатую диаграмму численности населения по штатам
# <-- Ваш код здесь -->

# SQLite

In [55]:
import sqlite3

# Cоздаем подключение к готовой базе или создаем новую
conn = sqlite3.connect("mydatabase.db") 
cursor = conn.cursor()

# Cоздаем запрос
# Создание таблицы
query = """CREATE TABLE albums
                  (title text, artist text, release_date text,
                   publisher text, media_type text)
               """
# Если захочется удалить таблицу
# query = "DROP TABLE albums"

# Отправляем запрос
cursor.execute(query)

<sqlite3.Cursor at 0x1193a98f0>

In [56]:
# Cоздаем запрос
# Вставляем данные в таблицу
query = """INSERT INTO albums
                  VALUES ('Glow', 'Andy Hunter', '7/24/2012',
                  'Xplore Records', 'MP3')"""
cursor.execute(query)
# Сохраняем изменения
conn.commit()

In [57]:
# Вставляем множество данных в таблицу используя безопасный метод "?"
albums = [('Exodus', 'Andy Hunter', '7/9/2002', 'Sparrow Records', 'CD'),
          ('Until We Have Faces', 'Red', '2/1/2011', 'Essential Records', 'CD'),
          ('The End is Where We Begin', 'Thousand Foot Krutch', '4/17/2012', 'TFKmusic', 'CD'),
          ('The Good Life', 'Trip Lee', '4/10/2012', 'Reach Records', 'CD')]

query = "INSERT INTO albums VALUES (?,?,?,?,?)"
# Отправляем запрос 
cursor.executemany(query, albums)
# Сохраняем изменения
conn.commit()


In [62]:
conn = sqlite3.connect("mydatabase.db")
cursor = conn.cursor()
 
query = "DELETE FROM albums WHERE artist = 'Andy Hunter'"
 
cursor.execute(query)
conn.commit()

In [63]:
 conn = sqlite3.connect("mydatabase.db")
cursor = conn.cursor()
 
query = "SELECT * FROM albums WHERE artist=?"
cursor.execute(query, [("Red")])
print(cursor.fetchall()) # or use fetchone()

[('Until We Have Faces', 'Red', '2/1/2011', 'Essential Records', 'CD')]


In [68]:
# Выводим все строки из таблицы с идентификатором строки
query = "SELECT rowid, * FROM albums ORDER BY artist"
for row in cursor.execute(query):
    print(row)

(3, 'Until We Have Faces', 'Red', '2/1/2011', 'Essential Records', 'CD')
(4, 'The End is Where We Begin', 'Thousand Foot Krutch', '4/17/2012', 'TFKmusic', 'CD')
(5, 'The Good Life', 'Trip Lee', '4/10/2012', 'Reach Records', 'CD')


In [65]:
 
print("Results from a LIKE query:")
query = "SELECT * FROM albums WHERE title LIKE 'The%'"
cursor.execute(query)
 
print(cursor.fetchall())

Here's a listing of all the records in the table:
(3, 'Until We Have Faces', 'Red', '2/1/2011', 'Essential Records', 'CD')
(4, 'The End is Where We Begin', 'Thousand Foot Krutch', '4/17/2012', 'TFKmusic', 'CD')
(5, 'The Good Life', 'Trip Lee', '4/10/2012', 'Reach Records', 'CD')
Results from a LIKE query:
[('The End is Where We Begin', 'Thousand Foot Krutch', '4/17/2012', 'TFKmusic', 'CD'), ('The Good Life', 'Trip Lee', '4/10/2012', 'Reach Records', 'CD')]


# Практическая часть

In [None]:
# Создайте новую базу данных, 
# создайте в ней таблцу census
# заполните ее данными из файла census.csv
# state, sex,age, pop2000, pop2008

# <-- Ваш код здесь -->

# Teradata и SAP HANA 

In [None]:
# Teradata пример выгрузки данных:
import teradatasql

# готовим запрос
fields = '*'
db_view = 'SBX_048_HRDLake_VD.dw_dm_fvs_hr_8_1_ncnf'
query = "SELECT {} FROM {}".format(fields,db_view)

In [None]:
# создаем менеджер соединения
with teradatasql.connect(None, host='tdsb14.cgs.sbrf.ru', user='mylogin', password='mypas') as conn:
    # отправляем запрос
    cur=conn.cursor()
    data_gen = cur.execute(query).fetchall()
    # создаем список из выгруженных строк
    data = [row for row in data_gen]
    # записываем все в DataFrame
    sql_df = pd.DataFrame(data, columns=[c[0] for c in cur.description])
    # после менеджер контекста закрывает соединение

In [150]:
# SAP HANA пример выгрузки данных
import pyhdb
# from hanapas import *

userid = ['466709']
query = '''select * from "SF_SBER_SMART_SERVICES"."USER_JOBCODE_RECOMMENDATION"
            where EXTID_USER IN ({})'''.format(','.join(userid))

In [152]:
# Создаем соединение
con_hana = pyhdb.connect(host="localhost",
                     port=30015, 
                     user=mylogin, password=mypassword_prod)
cursor = con_hana.cursor()
# Отправляем запрос и формируем DataFrame
result = pd.DataFrame(cursor.execute(query).fetchall(), columns=[disc[0] for disc in cursor.description])
# Закрываем соединение
cursor.close()


In [153]:
result

Unnamed: 0,ID,EXTID_USER,EXTID_JOBCODE,REC_SCORE,CREATE_DATE
0,5298573,466709,25014869,0.937,2018-10-31
1,5298574,466709,25021034,0.924,2018-10-31
2,5298575,466709,25010955,0.9111,2018-10-31
3,5298576,466709,25019184,0.8981,2018-10-31
4,5298577,466709,25019475,0.8851,2018-10-31
5,5298578,466709,25018778,0.8722,2018-10-31
6,5298579,466709,25018720,0.8592,2018-10-31
7,5298580,466709,25021093,0.8462,2018-10-31
8,5298581,466709,25004788,0.8333,2018-10-31
9,5298582,466709,25004651,0.8203,2018-10-31
