## Проект по SQL

**Цель** - проанализировать базу данных, где содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**Задачи:**
1. Посчитать, сколько книг вышло после 1 января 2000 года;
2. Для каждой книги посчитать количество обзоров и среднюю оценку;
3. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры;
4. Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками;
5. Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

**Ход исследования:**
1. Исследовать таблицы — вывести первые строки.
2. Выполнить задачи (по одному SQL-запросу для решения каждого задания).
3. Вывести результаты каждого запроса.
4. Описать выводы по каждой из решённых задач.

**Описание данных**

*Таблица books*

Содержит данные о книгах:\
`book_id` — идентификатор книги;\
`author_id` — идентификатор автора;\
`title` — название книги;\
`num_pages` — количество страниц;\
`publication_date` — дата публикации книги;\
`publisher_id` — идентификатор издателя.

*Таблица authors*

Содержит данные об авторах:\
`author_id` — идентификатор автора;\
`author` — имя автора.

*Таблица publishers*

Содержит данные об издательствах:\
`publisher_id` — идентификатор издательства;\
`publisher` — название издательства;

*Таблица ratings*

Содержит данные о пользовательских оценках книг:\
`rating_id` — идентификатор оценки;\
`book_id` — идентификатор книги;\
`username` — имя пользователя, оставившего оценку;\
`rating` — оценка книги.

*Таблица reviews*

Содержит данные о пользовательских обзорах:\
`review_id` — идентификатор обзора;\
`book_id` — идентификатор книги;\
`username` — имя автора обзора;\
`text` — текст обзора.

 ## Подключимся к базе данных и ознакомимся с данными

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# подключение к базе

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

**Исследуем таблицы — выведем первые строки**

In [4]:
# Посмотрим первые строки таблицы books

query = '''
           SELECT * FROM books
           LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


In [5]:
# Посмотрим первые строки таблицы authors

query = '''
           SELECT * FROM authors
           LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


In [6]:
# Посмотрим первые строки таблицы publishers

query = '''
           SELECT * FROM publishers
           LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


In [7]:
# Посмотрим первые строки таблицы ratings

query = '''
           SELECT * FROM ratings
           LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


In [8]:
# Посмотрим первые строки таблицы reviews

query = '''
           SELECT * FROM reviews
           LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


## Посчитаем, сколько книг вышло после 1 января 2000 года

In [9]:
query = '''
           SELECT COUNT(book_id) 
           FROM books
           WHERE CAST(publication_date AS timestamp) > '2000-01-01'
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,819


819 книг вышло после 1 января 2000 года.

## Для каждой книги посчитаем количество обзоров и среднюю оценку

In [10]:
query = '''
           SELECT DISTINCT b.book_id,
                  b.title,
                  COUNT(DISTINCT rw.review_id) AS total_review, 
                  ROUND(AVG(r.rating),2) AS avg_score
           FROM books AS b
           LEFT JOIN reviews AS rw ON b.book_id = rw.book_id
           LEFT JOIN ratings AS r ON b.book_id = r.book_id
           GROUP BY b.book_id
           ORDER BY total_review DESC
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,total_review,avg_score
0,948,Twilight (Twilight #1),7,3.66
1,207,Eat Pray Love,6,3.40
2,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.29
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
4,497,Outlander (Outlander #1),6,4.13
...,...,...,...,...
995,191,Disney's Beauty and the Beast (A Little Golden...,0,4.00
996,221,Essential Tales and Poems,0,4.00
997,387,Leonardo's Notebooks,0,4.00
998,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.00


Больше всего ревью у книги "Twilight", ее средняя оценка - 3,66. Также есть и такие книги, у которых нет отзывов, но есть оценки.

## Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры

In [11]:
query = '''
           SELECT p.publisher,
                  COUNT(b.book_id) AS total_books
           FROM books AS b 
           LEFT JOIN publishers AS p ON b.publisher_id = p.publisher_id
           WHERE num_pages > 50
           GROUP BY p.publisher
           ORDER BY total_books DESC
           LIMIT 1
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,total_books
0,Penguin Books,42


Издательство Penguin Books выпустило наибольшее число книг толще 50 страниц. Количество книг - 42. 

## Определим автора с самой высокой средней оценкой книг — учитывать будем только книги с 50 и более оценками

In [12]:
query = '''
           SELECT c.author,
                  ROUND(AVG(c.avg_rating),3) AS avg_rating
           FROM (SELECT DISTINCT a.author,
                        ROUND(AVG(r.rating),3) AS avg_rating
                 FROM books AS b 
                 LEFT JOIN ratings AS r ON b.book_id = r.book_id
                 LEFT JOIN authors AS a ON b.author_id = a.author_id
                 GROUP BY b.book_id, a.author
                 HAVING COUNT(DISTINCT r.rating_id) > 50
                 ORDER BY avg_rating DESC) AS c
          GROUP BY c.author
          ORDER BY avg_rating DESC
          LIMIT 1
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.284


Автор с самой высокой средней оценкой книг – J.K. Rowling/Mary GrandPré. Средняя оценка книг - 4.41.

## Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [13]:
query = '''
           SELECT ROUND(AVG(count),2)
           FROM (SELECT COUNT(review_id)
                 FROM reviews AS rw
                 WHERE rw.username IN (SELECT r.username
                                       FROM ratings AS r
                                       GROUP BY r.username
                                       HAVING COUNT(DISTINCT r.rating_id) > 50)
                 GROUP BY rw.username) AS a
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,round
0,24.33


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24.

## Общие выводы

Мы провели исследование базы данных, и вот, что нам удалось выяснить:
* 819 книг вышло после 1 января 2000 года.
* Больше всего ревью у книги "Twilight". Количество ревью - 7, средняя оценка - 3,66. Также есть и такие книги, у которых нет отзывов, но есть оценки.
* Издательство Penguin Books выпустило наибольшее число книг толще 50 страниц. Количество книг - 42. 
* Автор с самой высокой средней оценкой книг – J.K. Rowling/Mary GrandPré. Средняя оценка книг - 4.41.
* Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24.