# SQL - анализ данных

**Задания**
* Посчитайте, сколько книг вышло после 1 января 2000 года;
* Для каждой книги посчитайте количество обзоров и среднюю оценку;
* Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
* Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
* Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

**Описание данных**

**Таблица books**

Содержит данные о книгах:

    book_id — идентификатор книги;
    author_id — идентификатор автора;
    title — название книги;
    num_pages — количество страниц;
    publication_date — дата публикации книги;
    publisher_id — идентификатор издателя.
    
**Таблица authors**

Содержит данные об авторах:

    author_id — идентификатор автора;
    author — имя автора.

**Таблица publishers**

Содержит данные об издательствах:

    publisher_id — идентификатор издательства;
    publisher — название издательства;

**Таблица ratings**

Содержит данные о пользовательских оценках книг:

    rating_id — идентификатор оценки;
    book_id — идентификатор книги;
    username — имя пользователя, оставившего оценку;
    rating — оценка книги.
    
**Таблица reviews**

Содержит данные о пользовательских обзорах на книги:

    review_id — идентификатор обзора;
    book_id — идентификатор книги;
    username — имя пользователя, написавшего обзор;
    text — текст обзора.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # порт подключения
             'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], db_config['pwd'], db_config['host'], db_config['port'],
db_config['db']) 
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
query = '''
SELECT *
FROM books
LIMIT 5
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [3]:
query = '''
SELECT *
FROM authors
LIMIT 5
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [4]:
query = '''
SELECT *
FROM publishers
LIMIT 5
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [5]:
query = '''
SELECT *
FROM ratings
LIMIT 5
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [6]:
query = '''
SELECT *
FROM reviews
LIMIT 5
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


**Посчитайте, сколько книг вышло после 1 января 2000 года**

In [7]:
query = '''
SELECT COUNT(title) AS count_books
FROM books
WHERE publication_date > '2000-01-01'
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count_books
0,819


819 книг вышло после 1 января 2000 года 

**Для каждой книги посчитайте количество обзоров и среднюю оценку**

In [8]:
query = '''
SELECT 
    books.title AS title,
    books.book_id AS id,
    AVG(ratings.rating) AS mean_rating,
    COUNT(DISTINCT reviews.text) AS count
FROM
    books
INNER JOIN ratings ON ratings.book_id = books.book_id
INNER JOIN reviews ON reviews.book_id = books.book_id
GROUP BY
     books.title,
     books.book_id
order by
     mean_rating DESC
'''
pd.io.sql.read_sql(query, con = engine)


Unnamed: 0,title,id,mean_rating,count
0,Wherever You Go There You Are: Mindfulness Me...,972,5.00,2
1,Piercing the Darkness (Darkness #2),513,5.00,2
2,The Walking Dead Book One (The Walking Dead #...,901,5.00,2
3,Captivating: Unveiling the Mystery of a Woman'...,136,5.00,2
4,Arrows of the Queen (Heralds of Valdemar #1),86,5.00,2
...,...,...,...,...
989,The World Is Flat: A Brief History of the Twen...,915,2.25,3
990,Junky,371,2.00,2
991,His Excellency: George Washington,316,2.00,2
992,Drowning Ruth,202,2.00,3


Есть книги без обзоров, но с максимальным рейтингом 5

**Определите издательство, которое выпустило наибольшее число книг толще 50 страниц**

In [9]:
query = '''
SELECT publishers.publisher, COUNT(books.book_id) AS books
FROM books
LEFT JOIN publishers ON books.publisher_id = publishers.publisher_id
WHERE books.book_id IN
    (SELECT books.book_id
     FROM books
     GROUP BY books.book_id
     HAVING books.num_pages > 50)
GROUP BY publishers.publisher
ORDER BY COUNT(books.book_id) DESC
LIMIT 1;

'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,books
0,Penguin Books,42


Издательство Penguin Books выпустило наибольшее число книг толще 50 страниц, что составило 42 книги

**Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками**

In [10]:
query = '''
SELECT authors.author, AVG(ratings.rating) as mean_rating
FROM books
LEFT JOIN authors ON books.author_id = authors.author_id
LEFT JOIN ratings ON books.book_id = ratings.book_id
WHERE books.book_id IN

    (SELECT books.book_id
     FROM books
     LEFT JOIN ratings ON books.book_id = ratings.book_id
            
GROUP BY books.book_id
HAVING count(ratings.rating) >= 50)

GROUP BY authors.author
ORDER BY AVG(ratings.rating) DESC
LIMIT 1;

'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,mean_rating
0,J.K. Rowling/Mary GrandPré,4.287097


Авторы J.K. Rowling/Mary GrandPré обладает самой высокой средней оценкой книг с более 50 проставленных оценок пользователя. Их рейтинг составил 4,3. 

**Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок**

In [11]:
query = '''
SELECT AVG(sub.count)
FROM 
    (SELECT count(*)
     FROM reviews
     WHERE username IN
         (SELECT username
          FROM ratings
          GROUP BY username
          HAVING count(rating) > 50)
    GROUP BY username) AS sub;

'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg
0,24.333333


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок составило 24,3