# Проект по SQL

**Описание проекта:** Коронавирус застал мир врасплох, изменив привычный порядок вещей. На какое-то время жители городов перестали выходить на улицу, посещать кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.
Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. 

**Цель проекта:** Ваша первая задача как аналитика — проанализировать базу данных.
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**Описание данных**

Таблица **books**

Содержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

Таблица **authors**

Содержит данные об авторах:
- author_id — идентификатор автора;
- author — имя автора.

Таблица **publishers**

Содержит данные об издательствах:
- publisher_id — идентификатор издательства;
- publisher — название издательства;

Таблица **ratings**

Содержит данные о пользовательских оценках книг:
- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.
- Таблица reviews
- Содержит данные о пользовательских обзорах:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.

Таблица **reviews**

Содержит данные о пользовательских обзорах:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.

**Задания**
1. [Посчитайте, сколько книг вышло после 1 января 2000 года;](#section1)
2. [Для каждой книги посчитайте количество обзоров и среднюю оценку;](#section2)
3. [Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;](#section3)
4. [Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;](#section4)
5. [Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.](#section5)
6. [Выводы](#section6)


**Доступ к базе данных**

In [1]:
pip install --upgrade pandas sqlalchemy

Note: you may need to restart the kernel to use updated packages.


In [2]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [3]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [4]:
# уберем ограничение по количеству выводимых символов
pd.options.display.max_colwidth = 150

In [5]:
# функция для чтения таблиц
def SQL(text):
    return pd.io.sql.read_sql(text, con = engine) 

Посмотрим на все таблицы:

In [6]:
# выполним SQL-запрос, используем Pandas
# выведем первые 5 строк таблицы books
books = SQL('''SELECT * 
               FROM books 
               LIMIT 5''')
books

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope #1),322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before Columbus,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [7]:
books_count = SQL('''SELECT COUNT(*) AS "Количество строк" 
                     FROM books''')
books_count

Unnamed: 0,Количество строк
0,1000


Таблица **books** имеет 6 столбоц и 1000 строк

In [8]:
# выполним SQL-запрос, используем Pandas
# выведем первые 5 строк таблицы authors
authors = SQL('''SELECT * 
                 FROM authors LIMIT 5''')
authors

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [9]:
authors_count = SQL('''SELECT COUNT(*) AS "Количество строк" 
                       FROM authors LIMIT 5''')
authors_count

Unnamed: 0,Количество строк
0,636


Таблица **authors** имеет два столбцы и 636 строк

In [10]:
# выполним SQL-запрос, используем Pandas
# выведем первые 5 строк таблицы publishers
publishers = SQL('''SELECT * 
                    FROM publishers 
                    LIMIT 5''')
publishers

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [11]:
publishers_count = SQL('''SELECT COUNT(*) 
                          FROM publishers''')
publishers_count

Unnamed: 0,count
0,340


Таблица **publishers** имеет два столбца и 340 строк

In [12]:
# выполним SQL-запрос, используем Pandas
# выведем первые 5 строк таблицы ratings
ratings = SQL('''SELECT * 
                 FROM ratings 
                 LIMIT 5''')
ratings

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [13]:
ratings_count = SQL('''SELECT COUNT(*) 
                       FROM publishers''')
ratings_count

Unnamed: 0,count
0,340


Таблица **ratings** имеет 4 столбца и 340 строк

In [14]:
# выполним SQL-запрос, используем Pandas
# выведем первые 5 строк таблицы reviews
reviews = SQL('''SELECT *
                 FROM reviews
                 LIMIT 5''')
reviews

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. Over provide race technology continue these.
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Among admit investment argue security.
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but person sport treatment industry. Kitchen decision deep the. Social party body the.
3,4,3,johnsonamanda,Finally month interesting blue could nature cultural bit. Prepare beat finish grow that smile teach. Dream me play near.
4,5,3,scotttamara,Nation purpose heavy give wait song will. List dinner another whole positive radio fast. Music staff many green.


In [15]:
ratings_count = SQL('''SELECT COUNT(*) 
                       FROM reviews''')
ratings_count

Unnamed: 0,count
0,2793


Таблица reviws имеет 4 столбца и 2793 строки

<a id='section1'></a>
## Посчитайте, сколько книг вышло после 1 января 2000 года;

In [16]:
count_books = SQL('''SELECT COUNT(*) AS "Количество книг" 
                     FROM books 
                     WHERE publication_date > '2000-01-01' ''')
count_books

Unnamed: 0,Количество книг
0,819


В результате анализа, мы выяснили, что с 1 января 2000 года было выпущено 819 книг

<a id='section2'></a>
## Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [17]:
reviews_count = SQL('''SELECT b.book_id AS id,
                                b.title AS Название_книги,
                                COUNT(DISTINCT re.review_id) AS Количество_отзывов,
                                ROUND(AVG(ra.rating), 2) AS Средняя_оценка
                        FROM books AS b
                        JOIN ratings AS ra ON b.book_id = ra.book_id
                        LEFT JOIN reviews AS re ON b.book_id = re.book_id
                        GROUP BY b.book_id,
                                b.title
                        ORDER BY Количество_отзывов DESC,
                                Средняя_оценка DESC
                       LIMIT 10''')

reviews_count

Unnamed: 0,id,Название_книги,Количество_отзывов,Средняя_оценка
0,948,Twilight (Twilight #1),7,3.66
1,302,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),6,4.41
2,299,Harry Potter and the Chamber of Secrets (Harry Potter #2),6,4.29
3,656,The Book Thief,6,4.26
4,734,The Glass Castle,6,4.21
5,497,Outlander (Outlander #1),6,4.13
6,750,The Hobbit or There and Back Again,6,4.13
7,695,The Curious Incident of the Dog in the Night-Time,6,4.08
8,779,The Lightning Thief (Percy Jackson and the Olympians #1),6,4.08
9,963,Water for Elephants,6,3.98


Таким образом, книга **"Twilight (Twilight #1)"** имеет наибольшее количество обзоров — 7, а её средняя оценка составляет 3.6. 

Далее идут книги которые имеют по 6 обзоров. Тройка книг с наивысшими рейтингами среди них:

1. **Harry Potter and the Prisoner of Azkaban (Harry Potter #3)**
2. **Harry Potter and the Chamber of Secrets (Harry Potter #2)**
3. **The Book Thief**

Эти книги выделяются не только количеством отзывов, но и высоким качеством оценок, что подтверждает их популярность среди читателей.

In [18]:
rating_count = SQL('''SELECT b.book_id AS id,
                             b.title AS Название_книги,
                             COUNT(DISTINCT re.review_id) AS Количество_отзывов,
                             ROUND(AVG(ra.rating), 2) AS Средняя_оценка
                      FROM books AS b
                      LEFT JOIN reviews AS re ON b.book_id = re.book_id
                      JOIN ratings AS ra ON b.book_id = ra.book_id
                      GROUP BY b.book_id,
                               b.title
                      ORDER BY Средняя_оценка DESC,
                               Количество_отзывов DESC
                      LIMIT 20
                      ''')
rating_count

Unnamed: 0,id,Название_книги,Количество_отзывов,Средняя_оценка
0,17,A Dirty Job (Grim Reaper #1),4,5.0
1,553,School's Out—Forever (Maximum Ride #2),3,5.0
2,444,Moneyball: The Art of Winning an Unfair Game,3,5.0
3,418,March,2,5.0
4,390,Light in August,2,5.0
5,347,In the Hand of the Goddess (Song of the Lioness #2),2,5.0
6,297,Hard Times,2,5.0
7,213,Emily of New Moon (Emily #1),2,5.0
8,136,Captivating: Unveiling the Mystery of a Woman's Soul,2,5.0
9,275,Geek Love,2,5.0


В результате анализа рейтингов и количества отзывов можно сделать следующие выводы:

1. Лидерство по рейтингу: Книга **"A Dirty Job (Grim Reaper #)"** занимает первое место с  рейтингом **5.0**, и хотя имеет **4 отзыва**. 

2. Популярные книги с высоким рейтингом: Книги **"School's Out—Forever (Maximum Ride #2)"** и **"Moneyball: The Art of Winning an Unfair Game"** также имеют рейтинг 5.0, но с меньшим количеством отзывов — по 3. 


<a id='section3'></a>
## Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [19]:
book_publishing = SQL('''SELECT  publisher AS Издательство,
                                 COUNT(title) AS Количество_книг                          
                         FROM books AS b
                         JOIN publishers AS p ON b.publisher_id = p.publisher_id
                         WHERE num_pages > 50
                         GROUP BY Издательство
                         ORDER BY Количество_книг DESC
                         LIMIT 1''')
book_publishing

Unnamed: 0,Издательство,Количество_книг
0,Penguin Books,42


Издательство Penguin Books	выпустило больше всех книг - 42

<a id='section4'></a>
## Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [20]:
top_author = SQL('''SELECT a.author_id AS id, 
                           a.author AS Имя_автора,
                           ROUND(AVG(r.rating), 2) AS Средний_рейтинг
                    FROM authors AS a
                    JOIN books AS b ON a.author_id = b.author_id
                    JOIN ratings AS r ON b.book_id = r.book_id
                    WHERE b.book_id IN (
                                SELECT book_id
                                FROM ratings
                                GROUP BY book_id
                                HAVING COUNT(rating_id) >= 50
                                )
                    GROUP BY a.author_id
                    ORDER BY Средний_рейтинг DESC
                    LIMIT 1''')
top_author

Unnamed: 0,id,Имя_автора,Средний_рейтинг
0,236,J.K. Rowling/Mary GrandPré,4.29


Автором с самой высокой оценкой книг среди книг у которых оценок больше 50, является J.K. Rowling/Mary GrandPré

<a id='section5'></a>
## Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [21]:
avg_reviews = SQL('''SELECT AVG(sort.count_reviev) AS Среднее_количество_обзоров
                     FROM(
                        SELECT username,
                               COUNT(review_id) AS count_reviev
                        FROM reviews
                        WHERE username IN (
                                SELECT username
                                FROM ratings
                                GROUP BY username
                                HAVING COUNT(rating_id) > 48
                        )
                        GROUP BY username) AS sort''')
avg_reviews

Unnamed: 0,Среднее_количество_обзоров
0,24.0


Среднее количество обзоров от пользователей которые поставили больше 48 оценок - 24.

<a id='section6'></a>
## Выводы:

В результате проведенного анализа получилось:

- Общее количество выпущенных книг после 1 января 2000 года, составляет 819

- Книга "Twilight (Twilight #1)" выделяется на фоне остальных благодаря наибольшему числу обзоров (7) и средней оценке 3.6. 

- Книга "A Dirty Job (Grim Reaper #)" занимает первое место по рейтингу с 5.0 с наибольшим количеством обзоров (4)

- Издательство Penguin Books выделяется как лидер по количеству выпущенных книг — 42, а автор J.K. Rowling/Mary GrandPré имеет наивысшую оценку среди авторов с более чем 50 отзывами

- Среднее количество обзоров от пользователей, оставивших более 48 оценок, составляет 24
