# Проект по SQL

# Описание проеката:
 В период воздействия короновируса на общество, граждане остаются дома и их досуг складывается условно схожим образом, наша команда делает ставку на чтение книг. В рамках проекта предстоит исследовать БД, что бы сформулировать ценностное предложение для нового продукта - сервиса для чтения по подписке.

# Цель:
Анализ БД конкурирующего сервиса. Оценка данных проводится через техническое задание:
- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

Описание данных


Таблица books содержит данные о книгах:

 - book_id — идентификатор книги;
 - author_id — идентификатор автора;
 - title — название книги;
 - num_pages — количество страниц;
 - publication_date — дата публикации книги;
 - publisher_id — идентификатор издателя.

Таблица authors содержит данные об авторах:

 - author_id — идентификатор автора;
 - author — имя автора.

Таблица publishers содержит данные об издательствах:

 - publisher_id — идентификатор издательства;
 - publisher — название издательства;

Таблица ratings содержит данные о пользовательских оценках книг:

 - rating_id — идентификатор оценки;
 - book_id — идентификатор книги;
 - username — имя пользователя, оставившего оценку;
 - rating — оценка книги.

Таблица reviews содержит данные о пользовательских обзорах на книги:

 - review_id — идентификатор обзора;
 - book_id — идентификатор книги;
 - username — имя пользователя, написавшего обзор;
 - text — текст обзора.

In [1]:
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
def select (query):
    return pd.io.sql.read_sql(query, con = engine)

# Посмотрим на таблицы:

# Books

In [3]:
select('''
SELECT 
    *
FROM books
LIMIT 5
''')

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [4]:
select('''
SELECT title, COUNT(title) AS counter 
FROM books 
GROUP BY title
HAVING (COUNT(title)>1)
   ''')

Unnamed: 0,title,counter
0,Memoirs of a Geisha,2


# Autors

In [5]:
select('''
SELECT 
    *
FROM authors
LIMIT 5
'''
)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [6]:
select('''
SELECT author, COUNT(author) AS counter 
FROM authors 
GROUP BY author
HAVING (COUNT(author)>1)
   ''')

Unnamed: 0,author,counter


# Publishers

In [7]:
select('''
SELECT 
    *
FROM publishers
LIMIT 5
'''
)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [8]:
select('''
SELECT publisher, COUNT(publisher) AS counter 
FROM publishers
GROUP BY publisher
HAVING (COUNT(publisher)>1)
   ''')

Unnamed: 0,publisher,counter


# Ratings

In [9]:
select('''
SELECT 
    *
FROM ratings
LIMIT 5
'''
)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [10]:
select('''
SELECT username, COUNT(username) AS counter 
FROM ratings
GROUP BY username
HAVING (COUNT(username)>1)
   ''')

Unnamed: 0,username,counter
0,jnelson,42
1,zjohnston,35
2,lewisdesiree,46
3,patrickhudson,43
4,ulowe,48
...,...,...
155,dmiller,44
156,shermannatalie,50
157,charlesraymond,42
158,isaiahreyes,38


# Reviews

In [11]:
select('''
SELECT 
    *
FROM reviews
LIMIT 5
'''
)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [12]:
select('''
SELECT username, COUNT(username) AS counter 
FROM reviews
GROUP BY username
HAVING (COUNT(username)>1)
   ''')

Unnamed: 0,username,counter
0,zjohnston,14
1,jnelson,21
2,lewisdesiree,19
3,patrickhudson,15
4,ulowe,16
...,...,...
155,shermannatalie,24
156,dmiller,18
157,charlesraymond,16
158,isaiahreyes,15


In [13]:
select('''
SELECT 
    table_name, column_name, data_type, is_nullable 
FROM 
    INFORMATION_SCHEMA.COLUMNS 
WHERE 
    table_name IN ('books', 'authors', 'ratings', 'reviews', 'publishers')
ORDER BY
    table_name
''')

Unnamed: 0,table_name,column_name,data_type,is_nullable
0,authors,author_id,integer,NO
1,authors,author,text,YES
2,books,publisher_id,integer,YES
3,books,publication_date,date,YES
4,books,num_pages,integer,YES
5,books,author_id,integer,YES
6,books,title,text,YES
7,books,book_id,integer,NO
8,publishers,publisher_id,integer,NO
9,publishers,publisher,text,YES


### Посчитайте, сколько книг вышло после 1 января 2000 года

In [14]:
select('''
SELECT 
    COUNT(*) AS count
FROM 
    books
WHERE
    publication_date > '2000-01-01'
'''
)

Unnamed: 0,count
0,819


Итого: 819 книг с начала 2000года.

### Для каждой книги посчитайте количество обзоров и среднюю оценку

In [19]:
select('''
SELECT
    books.book_id,
    books.title,
    COUNT(DISTINCT reviews.review_id) AS count_review,
    AVG(ratings.rating) AS avg_rating
FROM
    books
LEFT JOIN ratings ON books.book_id = ratings.book_id 
LEFT JOIN reviews ON books.book_id = reviews.book_id 

GROUP BY
    books.book_id 
        
    
ORDER BY
    count_review DESC
'''
)

Unnamed: 0,book_id,title,count_review,avg_rating
0,948,Twilight (Twilight #1),7,3.662500
1,963,Water for Elephants,6,3.977273
2,734,The Glass Castle,6,4.206897
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667
996,808,The Natural Way to Draw,0,3.000000
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.000000
998,221,Essential Tales and Poems,0,4.000000


### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [16]:
select('''
SELECT
    publishers.publisher,
    COUNT(book_id) AS books_count
FROM
    books
    LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE 
    num_pages >= 50
GROUP BY
    publishers.publisher
ORDER BY
    books_count DESC
LIMIT 1
'''
)

Unnamed: 0,publisher,books_count
0,Penguin Books,42


Нужное нам издательство Penguin Books. Для понимания, мы вывели топ-3, так же второе и третье место занимают Vintage и Grand Central Publishing.

### Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [17]:
select('''
SELECT 
    authors.author,
    AVG(ratings.rating) AS avg_rating
FROM 
    books
LEFT JOIN ratings on books.book_id = ratings.book_id
LEFT JOIN authors on books.author_id = authors.author_id
WHERE
    books.book_id IN (
        SELECT ratings.book_id
        FROM ratings
        GROUP BY ratings.book_id
        HAVING COUNT(ratings.rating) >= 50)
GROUP BY
    authors.author
ORDER BY
    avg_rating DESC
LIMIT 1
'''
)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


Джоан Роулинг - средняя оценка 4.28. (Думаю, что заслуженно.)

### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [18]:
select('''
WITH
    rating_sub AS (
        SELECT
            ratings.username,
            COUNT(rating_id) AS rating_count
        FROM
            ratings
        GROUP BY
            ratings.username
        HAVING
            COUNT(rating_id) > 50
        ),
    review_sub AS (
        SELECT
            reviews.username,
            COUNT(review_id) AS reviews_count
        FROM
            reviews
        GROUP BY
            reviews.username
    )
SELECT
    FLOOR(AVG(reviews_count)) as avg_reviews
FROM
    rating_sub
    LEFT JOIN review_sub ON review_sub.username = rating_sub.username
'''
)

Unnamed: 0,avg_reviews
0,24.0


Среднее количество обзоров 24 

### Выводы:
 - Мы не знаем дату выгрузки БД, будем считать, что она свежая. За 22 года (с 2000г), мы обладаем 819 книгами.
 - Книгой с большим количеством максимальных средних оценок, является Twilight.
 - Топ издательство - Penguin Books - 42книги.
 - Актор, с самой высокой оценкой: Джоан Роулинг - средняя оценка 4.28. 
 - Среднее количество обзоров, для пользователей поставивших больше 50 оценок 24

дополнение:
 - Проверка показала, что в данных есть пропуски
 - Книга "Memoirs of a Geisha" в разделе "Books", встречается два раза
 - Так же в разделе "Books" есть книги без отзывов.