#Учебная финальная работа по SQL

### Описание работы

Компания купила крупный сервис для чтения книг по подписке. Задача - проанализировать базу данных.

В базе данных информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.


### Цели исследования

- Изучение базы данных;
- Анализ базы данных;
- выполнение запросов для решения каждого задания:

    - Посчитайте, сколько книг вышло после 1 января 2000 года;
    - Для каждой книги посчитайте количество обзоров и среднюю оценку;
    - Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
    - Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
    - Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Изучение баз данных

### Загрузка библиотек и параметров подключения

In [None]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})


### Просмотр всех баз данных

Для более глубокого осмысления данных осматриваю данные в два этапа. Сначала весь файл, затем только первую строку. На первом этапе понимаю сколько строк содержит база.

In [None]:
query = """ SELECT * FROM books """
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [None]:
query = """ SELECT *
            FROM books
            LIMIT 1 """
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93


In [None]:
query = """ SELECT *
            FROM authors
            LIMIT 1"""
# чтобы выполнить SQL-запрос, используем Pandas 636строк
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt


In [None]:
query = """ SELECT *
            FROM publishers
            LIMIT 1 """
# чтобы выполнить SQL-запрос, используем Pandas 340строк
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace


In [None]:
query = """ SELECT *
            FROM ratings
            LIMIT 1"""
# чтобы выполнить SQL-запрос, используем Pandas 2793строк
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4


In [None]:
query = """ SELECT *
            FROM reviews AS r
                        LIMIT 1"""
# чтобы выполнить SQL-запрос, используем Pandas 6456строк
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...


### Выводы

В первой части работы были выполнены выгрузки баз  данных. Базы выгрузились нормально, сведения подтверждают ранее объявленные структуры. Число строк в базах:

- books - 1000 строк;
- authors - 636 строк;
- publishers - 340 строк;
- ratings - 2793 строки;
- reviews - 6456 строк.

##SQL-запросы для решения задания

### Посчитайте, сколько книг вышло после 1 января 2000 года

In [None]:
query = """ SELECT COUNT (book_id)
            FROM books
            WHERE publication_date > '2000-01-01' """
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,819


В период с 1 января 2000 года по данным базы book_id вышло 819 книг

### Для каждой книги посчитайте количество обзоров и среднюю оценку

In [None]:
query = """ SELECT b.title, COUNT (r.rating_id), AVG (r.rating)
            FROM ratings AS r
            LEFT JOIN books AS b ON r.book_id = b.book_id
            GROUP BY  b.title
            """
# чтобы выполнить SQL-запрос, используем Pandas 2793строк
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,title,count,avg
0,The Count of Monte Cristo,23,4.217391
1,Count Zero (Sprawl #2),2,2.500000
2,The Botany of Desire: A Plant's-Eye View of th...,2,3.500000
3,The Poisonwood Bible,22,4.363636
4,The Canterbury Tales,6,3.333333
...,...,...,...
994,Of Love and Other Demons,2,4.500000
995,In the Heart of the Sea: The Tragedy of the Wh...,3,3.333333
996,Welcome to Temptation (Dempseys #1),2,5.000000
997,World's End (The Sandman #8),2,4.500000


За весь период ведения базы рейтинг был назначен почти на каждую книгу. Количество рейтингов в столбце - count, среднее значение - в аvg.

### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц

In [None]:
query = """ SELECT *
            FROM (SELECT COUNT (book_id) , p.publisher
                  FROM books AS b
                  LEFT JOIN publishers AS p ON p.publisher_id = b.publisher_id
                  WHERE num_pages > 50
                  GROUP BY p.publisher) AS t
            ORDER BY count DESC
            LIMIT 1
            """
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count,publisher
0,42,Penguin Books


Издательство Penguin Books выпустило больше всего книг (42 шт.) толщиной более 50 страниц.


### Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [None]:
query = """ SELECT author
            FROM authors
            WHERE author_id IN (SELECT author_id
                          FROM books
                          WHERE book_id IN (SELECT book_id
                              FROM (SELECT book_id, AVG (rating)
                                    FROM ratings
                                    WHERE book_id IN (SELECT book_id
                                                      FROM (SELECT COUNT (rating), book_id
                                                            FROM ratings
                                                            GROUP BY  book_id
                                                            HAVING COUNT(rating) >= 50) AS t)
                                   GROUP BY book_id
                                   HAVING AVG (rating) > 0
                                   ORDER BY avg DESC
                                   LIMIT 1
                                   ) AS t
                              )
                             )
            """
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author
0,J.K. Rowling/Mary GrandPré


Это  - J.K. Rowling/Mary GrandPré!

### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [None]:
query = """ SELECT AVG (count)
            FROM (SELECT username, COUNT (review_id)
                  FROM reviews AS r
                  WHERE username IN (SELECT username
                                     FROM (SELECT COUNT (rating), username
                                     FROM ratings
                                     GROUP BY  username
                                     HAVING COUNT(rating) > 50) AS t)
                  GROUP BY username)  AS tt
            """
# чтобы выполнить SQL-запрос, используем Pandas 6456строк
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg
0,24.333333


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24 и одна треть.

## Общие выводы

Все базы исправны и управляемы, данные выгружаются.

