# SQL

Цель проекта - проанализировать базу данных.
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.

***Необходимо ответить на следующие вопросы:***
1) Сколько книг вышло после 1 января 2000 года;

2) Для каждой книги посчитайте количество обзоров и среднюю оценку;

3)  Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

4) Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

5) Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

**Описание данных:**

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Импортируем библиотеки и подключаем базу данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Исследуем таблицы

In [2]:
tables = [
        'books',
        'authors',
        'publishers',
         'ratings',
         'reviews'
        ]

for i in tables:
    query = ''' SELECT * FROM '''
    query = query + i
    display(i.upper())
    display(pd.io.sql.read_sql(query, con = engine).head())

'BOOKS'

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


'AUTHORS'

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


'PUBLISHERS'

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


'RATINGS'

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


'REVIEWS'

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Таблицы подключаются корректно.

## Задачи

### Посчитайте, сколько книг вышло после 1 января 2000 года

In [3]:
query = ''' SELECT COUNT(DISTINCT book_id) 
            FROM books
            WHERE publication_date >= DATE('2000-01-01')
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,count
0,821


В нашей базе 819 книг, выпущенных после 2000-01-01.

### Для каждой книги посчитайте количество обзоров и среднюю оценку

In [4]:
query = ''' SELECT COUNT(*)
            FROM books
            LEFT JOIN (SELECT book_id, COUNT(review_id) AS count_rev FROM reviews GROUP BY book_id) AS rev
            ON books.book_id = rev.book_id
            LEFT JOIN (SELECT book_id, AVG(rating) AS avg_rating FROM ratings GROUP BY book_id) AS reti
            ON books.book_id = reti.book_id
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,count
0,1000


In [5]:
query = ''' SELECT books.book_id, books.title, rev.count_rev, reti.avg_rating
            FROM books
            LEFT JOIN (SELECT book_id, COUNT(review_id) AS count_rev FROM reviews GROUP BY book_id) AS rev
            ON books.book_id = rev.book_id
            LEFT JOIN (SELECT book_id, AVG(rating) AS avg_rating FROM ratings GROUP BY book_id) AS reti
            ON books.book_id = reti.book_id
            LIMIT 1000
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,count_rev,avg_rating
0,652,The Body in the Library (Miss Marple #3),2.0,4.500000
1,273,Galápagos,2.0,4.500000
2,51,A Tree Grows in Brooklyn,5.0,4.250000
3,951,Undaunted Courage: The Pioneering First Missio...,2.0,4.000000
4,839,The Prophet,4.0,4.285714
...,...,...,...,...
995,64,Alice in Wonderland,4.0,4.230769
996,55,A Woman of Substance (Emma Harte Saga #1),2.0,5.000000
997,148,Christine,3.0,3.428571
998,790,The Magicians' Guild (Black Magician Trilogy #1),2.0,3.500000


Присоединив к таблице books через LEFT JOIN 2 подзапроса из таблиц reviews и ratings по ключам book_id, мы получили данные по количеству обзоров и средней оценке пользователей.

In [6]:
query = ''' SELECT books.book_id, books.title, rev.count_rev, reti.avg_rating
            FROM books
            LEFT JOIN (SELECT book_id, COUNT(review_id) AS count_rev FROM reviews GROUP BY book_id) AS rev
            ON books.book_id = rev.book_id
            LEFT JOIN (SELECT book_id, AVG(rating) AS avg_rating FROM ratings GROUP BY book_id) AS reti
            ON books.book_id = reti.book_id
            WHERE count_rev IS NULL OR avg_rating IS NULL
            LIMIT 1000
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_id,title,count_rev,avg_rating
0,387,Leonardo's Notebooks,,4.0
1,191,Disney's Beauty and the Beast (A Little Golden...,,4.0
2,672,The Cat in the Hat and Other Dr. Seuss Favorites,,5.0
3,808,The Natural Way to Draw,,3.0
4,83,Anne Rice's The Vampire Lestat: A Graphic Novel,,3.666667
5,221,Essential Tales and Poems,,4.0


Так же получили что 5 книг не имеют обзоров.

### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [7]:
query = ''' SELECT publisher, COUNT(books.publisher_id)
            FROM books
            LEFT JOIN publishers ON books.publisher_id = publishers.publisher_id
            WHERE num_pages > 50
            GROUP BY publisher
            ORDER BY count DESC
            LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher,count
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
5,Bantam,19
6,Berkley,17
7,St. Martin's Press,14
8,Berkley Books,14
9,William Morrow Paperbacks,13


Присоединив к таблице books через LEFT JOIN таблицу publishers по ключу publisher_id, задав условие num_pages > 50 и сгрупировав таблицу по столбцу publisher, мы получили ответ : **Penguin Books - 42 книги**.

### Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [8]:
query = ''' SELECT authors.author,
                   books.author_id, 
                   COUNT(books.book_id) AS count_book,
                   SUM(reti.ratings_count) AS ratings_count,
                   AVG(reti.avg_rating) AS avg_rating
            FROM books
            LEFT JOIN authors ON books.author_id = authors.author_id
            LEFT JOIN (SELECT book_id, 
                              COUNT(rating) AS ratings_count,
                              AVG(rating) AS avg_rating
                       FROM ratings GROUP BY book_id) AS reti
            ON books.book_id = reti.book_id
            WHERE reti.ratings_count >= 50
            GROUP BY books.author_id, authors.author
            ORDER BY avg_rating DESC 
            LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author,author_id,count_book,ratings_count,avg_rating
0,J.K. Rowling/Mary GrandPré,236,4,310.0,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,402,1,53.0,4.264151
2,J.R.R. Tolkien,240,2,162.0,4.258446
3,Louisa May Alcott,376,1,52.0,4.192308
4,Rick Riordan,498,1,62.0,4.080645
5,William Golding,621,1,71.0,3.901408
6,J.D. Salinger,235,1,86.0,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,469,1,57.0,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,630,1,66.0,3.787879
9,Dan Brown,106,2,143.0,3.75454


Несмотря на то, что "Повелитель мух" ТОПчик, ***лидер по оценкам пользователей - J.K. Rowling/Mary GrandPré (4.28)***

### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [9]:
query = ''' SELECT username, COUNT(rating) AS rating_numbers
            FROM ratings
            GROUP BY username
            HAVING  COUNT(rating) >= 50
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,username,rating_numbers
0,sfitzgerald,55
1,jennifermiller,53
2,xdavis,51
3,paul88,56
4,lesliegibbs,50
5,martinadam,56
6,vanessagardner,50
7,richard89,55
8,shermannatalie,50


Этим запросом мы нашли пользователей которые поставили больше 50 оценок. Далее применим его в подзапросе.

In [10]:
query = ''' SELECT username, COUNT(review_id)
            FROM reviews
            WHERE username IN (SELECT username
                                FROM ratings
                                GROUP BY username 
                                HAVING COUNT(rating) > 50)
            GROUP BY username
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,username,count
0,sfitzgerald,28
1,jennifermiller,25
2,xdavis,18
3,paul88,22
4,martinadam,27
5,richard89,26


Так мы можем видеть сколько обзоров написал каждый.

In [11]:
query = ''' SELECT COUNT(username)/COUNT(DISTINCT username) AS good_rev_avg
            FROM reviews
            WHERE username IN (SELECT username
                                FROM ratings
                                GROUP BY username 
                                HAVING COUNT(rating) >= 50)
        '''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,good_rev_avg
0,24


Получилось что в среднем пользователь поставивший более 50 оценок, пишет 24 обзора.