# SQL

## Общие сведения по проекту

**Краткое описание:** Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать. Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке.


**Цель** — проанализировать базу данных и сформулировать ценностное предложение для нового продукта.

**Задачи:**
* Посчитать, сколько книг вышло после 1 января 2000 года;
* Для каждой книги посчитать количество обзоров и среднюю оценку;
* Определить издательство, которое выпустило наибольшее число книг толще 50 страниц, чтобы исключить из анализа брошюры;
* Определить автора с самой высокой средней оценкой книг (учитывать только книги с 50 и более оценками);
* Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.



**Описание данных:**

**books:**
* `book_id` — идентификатор книги;
* `author_id` — идентификатор автора;
* `title` — название книги;
* `num_pages` — количество страниц;
* `publication_date` — дата публикации книги;
* `publisher_id` — идентификатор издателя.

**authors:**
* `author_id` — идентификатор автора;
* `author` — имя автора.

**publishers:**
* `publisher_id` — идентификатор издательства;
* `publisher` — название издательства;

**ratings:**
* `rating_id` — идентификатор оценки;
* `book_id` — идентификатор книги;
* `username` — имя пользователя, оставившего оценку;
* `rating` — оценка книги.

**reviews:**
* `review_id` — идентификатор обзора;
* `book_id` — идентификатор книги;
* `username` — имя пользователя, написавшего обзор;
* `text` — текст обзора.



**План работы:**
1. Исследовать таблицы — вывести первые строки;
2. Сделать по одному SQL-запросу для решения каждого задания;
3. Вывести результат каждого запроса в тетрадке;
4. Опишите выводы по каждой из решённых задач.

## Исследование таблиц

In [1]:
# Импорт необходимых библиотек
import pandas as pd
from sqlalchemy import create_engine

# Подключение к базе данных
db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-final-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

# Сохранение коннектора
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Таблица books

In [2]:
# Запрос всей таблицы и вывод первых 5 строк
query = '''
            SELECT * 
            FROM books
        '''
books = pd.io.sql.read_sql(query, con = engine)

books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [3]:
# Вывод информации
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


**Вывод:** в таблице 1000 записей, столбцы соответсвуют описанию данных.

### Таблица authors

In [4]:
# Запрос всей таблицы и вывод первых 5 строк
query = '''
            SELECT * 
            FROM authors
        '''
authors = pd.io.sql.read_sql(query, con = engine)
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [5]:
# Вывод информации
authors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


**Вывод:** в таблице 636 записей, столбцы соответсвуют описанию данных.

### Таблица publishers

In [6]:
# Запрос всей таблицы и вывод первых 5 строк
query = '''
            SELECT * 
            FROM publishers
        '''
publishers = pd.io.sql.read_sql(query, con = engine)
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [7]:
# Вывод информации
publishers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


**Вывод:** в таблице 340 записей, столбцы соответсвуют описанию данных.

### Таблица ratings

In [8]:
# Запрос всей таблицы и вывод первых 5 строк
query = '''
            SELECT * 
            FROM ratings
        '''
ratings = pd.io.sql.read_sql(query, con = engine)
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [9]:
# Вывод информации
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


**Вывод:** в таблице 6 456 записей, столбцы соответсвуют описанию данных.

### Таблица reviews

In [10]:
# Запрос всей таблицы и вывод первых 5 строк
query = '''
            SELECT * 
            FROM reviews
        '''
reviews = pd.io.sql.read_sql(query, con = engine)
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


In [11]:
# Вывод информации
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


**Вывод:** в таблице 2 793 записи, столбцы соответсвуют описанию данных.

## Задания

### Посчитать, сколько книг вышло после 1 января 2000 года

In [12]:
query = '''
            SELECT COUNT(book_id) count_of_books
            FROM books 
            WHERE publication_date >= '01-01-2000'
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count_of_books
0,821


**Вывод:** с 1 января 2000 года вышло 821 книга.

### Для каждой книги посчитать количество обзоров и среднюю оценку

In [13]:
query = '''
        SELECT 
            books.title AS title,
            books.book_id AS id,
            AVG(ratings.rating) AS avg_rating,
            COUNT(DISTINCT reviews.text) AS count_review
        FROM
            books
        LEFT JOIN ratings ON ratings.book_id = books.book_id
        LEFT JOIN reviews ON reviews.book_id = books.book_id
        GROUP BY
             books.title,
             books.book_id
        ORDER BY
             count_review DESC
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,title,id,avg_rating,count_review
0,Twilight (Twilight #1),948,3.662500,7
1,Water for Elephants,963,3.977273,6
2,The Glass Castle,734,4.206897,6
3,Harry Potter and the Prisoner of Azkaban (Harr...,302,4.414634,6
4,The Curious Incident of the Dog in the Night-Time,695,4.081081,6
...,...,...,...,...
995,Anne Rice's The Vampire Lestat: A Graphic Novel,83,3.666667,0
996,The Natural Way to Draw,808,3.000000,0
997,The Cat in the Hat and Other Dr. Seuss Favorites,672,5.000000,0
998,Essential Tales and Poems,221,4.000000,0


In [14]:
query = '''
        SELECT 
            books.title AS title,
            books.book_id AS id,
            AVG(ratings.rating) AS avg_rating,
            COUNT(DISTINCT reviews.text) AS count_review
        FROM
            books
        LEFT JOIN ratings ON ratings.book_id = books.book_id
        LEFT JOIN reviews ON reviews.book_id = books.book_id
        GROUP BY
             books.title,
             books.book_id
        ORDER BY
             avg_rating DESC
        LIMIT 50
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,title,id,avg_rating,count_review
0,A Woman of Substance (Emma Harte Saga #1),55,5.0,2
1,Dead Souls,182,5.0,2
2,The Walking Dead Book One (The Walking Dead #...,901,5.0,2
3,Alas Babylon,62,5.0,2
4,Welcome to Temptation (Dempseys #1),967,5.0,2
5,Evening Class,224,5.0,2
6,Tai-Pan (Asian Saga #2),610,5.0,2
7,The Demon-Haunted World: Science as a Candle i...,699,5.0,2
8,Women,993,5.0,2
9,Angels Fall,76,5.0,2


**Вывод:** 43 книги имеют оценку 5, но при этом обзоров, как правило, не более 2-х. У 6 книг отсутствует рейтинг и обзор. Максимальное количество обзоров у книги Twilight (Twilight #1).

### Определить издательство, которое выпустило наибольшее число книг толще 50 страниц, чтобы исключить из анализа брошюры

In [15]:
query = '''
        SELECT b.publisher_id, p.publisher, COUNT(*) count_books
        FROM books b
        LEFT JOIN publishers p ON b.publisher_id = p.publisher_id
        WHERE num_pages > 50
        GROUP BY b.publisher_id, p.publisher
        ORDER BY COUNT(*) DESC
        LIMIT 10
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher,count_books
0,212,Penguin Books,42
1,309,Vintage,31
2,116,Grand Central Publishing,25
3,217,Penguin Classics,24
4,35,Bantam,19
5,33,Ballantine Books,19
6,45,Berkley,17
7,46,Berkley Books,14
8,284,St. Martin's Press,14
9,83,Delta,13


**Вывод:** издательство Penguin Books выпустило наибольше число книг в количестве 42шт, толще 50 страниц.

### Определить автора с самой высокой средней оценкой книг (учитывать только книги с 50 и более оценками)

In [16]:
query = '''
        SELECT
            authors.author AS author,
            ROUND(AVG(ratings.rating), 1) AS avg_rating
        FROM ratings
        JOIN books ON books.book_id = ratings.book_id
        JOIN authors ON books.author_id = authors.author_id
        WHERE ratings.book_id IN (
            SELECT ratings.book_id
            FROM ratings
            GROUP BY ratings.book_id
            HAVING COUNT(ratings.book_id) >= 50)
        GROUP BY authors.author_id
        ORDER BY AVG(ratings.rating) DESC
        LIMIT 10
        '''
data = pd.io.sql.read_sql(query, con = engine)
data

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.3
1,Markus Zusak/Cao Xuân Việt Khương,4.3
2,J.R.R. Tolkien,4.2
3,Louisa May Alcott,4.2
4,Rick Riordan,4.1
5,William Golding,3.9
6,J.D. Salinger,3.8
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.8
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.8
9,Lois Lowry,3.8


**Вывод:** самая высокая средняя оценка у автора J.K. Rowling/Mary GrandPré.

### Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [17]:
query = '''
        SELECT ROUND(AVG (reviews_count)) as avg_reviews_count
        FROM ( 
            SELECT username,
            COUNT(review_id) as reviews_count
            FROM reviews
            GROUP BY username
            HAVING username IN (
                            SELECT username
                            FROM ratings
                            GROUP BY username
                            HAVING COUNT (rating_id) > 50
                            )
        ) as reviews
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg_reviews_count
0,24.0


**Вывод:** пользователи, которые поставили больше 50 оценок, в среднем оставляют 24 обзора.

## Общий вывод

**Всего 5 таблиц:**
* `books` - данные о книгах, содержит 1 000 строк и 6 столбцов;
* `authors` - данные об авторах, содержит 636 строк и 2 столбца;
* `publishers` - данные об издательствах, содержит 340 строк, 2 столбца;
* `rating` - данные о пользовательских обзорах, содержит 6 456 строк, 4 столбца;
* `reviews` - данные о пользовательских обзорах, содержит 2 793 строки, 4 столбца.


**Отчет по задачам:**
1. После 1 января 2000 года вышло 819 книг.
2. 43 книги имеют оценку 5, но при этом обзоров, как правило, не более 2-х. У 6 книг отсутствует рейтинг и обзор. Максимальное количество обзоров у книги Twilight (Twilight #1).
3. Издательство Penguin Books выпустило наибольше число книг в количестве 42шт, толще 50 страниц.
4. Самая высокая средняя оценка у автора J.K. Rowling/Mary GrandPré.
5. Пользователи, которые поставили больше 50 оценок, в среднем оставляют 24 обзора.