# Проект по SQL

Компания купила крупный сервис для чтения книг по подписке. Задача — проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**Описание данных**

Таблица ***books***

Содержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.


Таблица ***authors***

Содержит данные об авторах:

- author_id — идентификатор автора;
- author — имя автора.

Таблица ***publishers***

Содержит данные об издательствах:

- publisher_id — идентификатор издательства;
- publisher — название издательства;

Таблица ***ratings***

Содержит данные о пользовательских оценках книг:

- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

Таблица ***reviews***

Содержит данные о пользовательских обзорах:

- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.


## Изучение данных из файлов и подготовка к анализу

**Импортируем библиотеки**

In [1]:
import pandas as pd 
from sqlalchemy import create_engine 

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
 db_config['pwd'], 
 db_config['host'], 
 db_config['port'], 
 db_config['db']) 
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
query = """
  SELECT *
  FROM books;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [4]:
query = """
  SELECT *
  FROM authors;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [5]:
query = """
  SELECT *
  FROM publishers;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [6]:
query = """
  SELECT *
  FROM ratings;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [7]:
query = """
  SELECT *
  FROM reviews;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


## Анализ данных

**Посчитаем, сколько книг вышло после 1 января 2000 года**

In [8]:
# Напишем функцию для выполнения запросов.
def select(query):
    return pd.io.sql.read_sql(query, con = engine)

In [9]:
pub_date_books = ''' SELECT 
    COUNT(*) AS pub_date_books                                           --найдем общее количество строк в таблице books
FROM 
    books
WHERE 
    publication_date >= '2000-01-01' '''
select(pub_date_books)

Unnamed: 0,pub_date_books
0,821


**Вывод**

C 1 января 2000 года выпустили **821** книгу.

**Для каждой книги посчитаем количество обзоров и среднюю оценку**

In [10]:
reviews_rating = '''                              
SELECT                                            -- выведем название книги, количество обзоров и средний рейтинг
    books.title AS title,
    Rat.avg_rat AS avg_rating,                    
    Rev.c_rev AS reviews_count             
FROM
    books
LEFT JOIN 
    (SELECT
        book_id,
        AVG(rating) AS avg_rat
    FROM
        ratings
    GROUP BY 
        book_id
    ) AS Rat ON Rat.book_id = books.book_id
LEFT JOIN
    (SELECT 
        book_id,
        COUNT(review_id) AS c_rev
    FROM
        reviews
    GROUP BY 
        book_id
    ) AS Rev ON Rev.book_id = books.book_id
ORDER BY
    avg_rating DESC;
'''
select(reviews_rating)

Unnamed: 0,title,avg_rating,reviews_count
0,Pop Goes the Weasel (Alex Cross #5),5.00,2.0
1,The Ghost Map: The Story of London's Most Terr...,5.00,2.0
2,In the Hand of the Goddess (Song of the Liones...,5.00,2.0
3,Tai-Pan (Asian Saga #2),5.00,2.0
4,How to Be a Domestic Goddess: Baking and the A...,5.00,1.0
...,...,...,...
995,The World Is Flat: A Brief History of the Twen...,2.25,3.0
996,Junky,2.00,2.0
997,His Excellency: George Washington,2.00,2.0
998,Drowning Ruth,2.00,3.0


**Вывод**


По среднему рейтингу можно выделить следующие топ-5 книг:
- Pop Goes the Weasel (Alex Cross #5) - 5 / 2
- The Ghost Map: The Story of London's Most Terr. - 5 / 2
- In the Hand of the Goddess (Song of the Liones. - 5 / 2
- Tai-Pan (Asian Saga #2) - 5 / 2
- How to Be a Domestic Goddess: Baking and the A. - 5 /	1


**Определим издательство, которое выпустило наибольшее число книг толще 50 страниц**

In [11]:
publisher = """
 SELECT
   publishers.publisher_id,
   publisher,                                                            -- выведем название издательства
   MAX(subq.books_count) AS max_publishes                                -- найдем количество книг 
 FROM 
   publishers
 LEFT JOIN
  (
  SELECT 
    books.publisher_id,
    COUNT(books.book_id) AS books_count
  FROM books
  WHERE books.num_pages > 50                                             -- отфильтруем по количеству страниц в книге больше 50
  GROUP BY
    books.publisher_id
  ) AS subq 
 ON 
   publishers.publisher_id = subq.publisher_id
 WHERE
   subq.publisher_id IS NOT NULL
 GROUP BY
    publishers.publisher_id
 ORDER BY
     max_publishes DESC                                                  -- отсортируем по количеству книг по убыванию
 LIMIT 
     1;                                                                  -- выведем 1 строку таблицы
"""
select(publisher)

Unnamed: 0,publisher_id,publisher,max_publishes
0,212,Penguin Books,42


**Вывод**

***Penguin books*** -издательство, которое выпустило наибольшее число книг(**42** книги) толще 50 страниц.

**Определим автора с самой высокой средней оценкой книг(учтём только книги с 50 и более оценками)**

In [12]:
best_author = """                                            -- найдём количество и средний рейтинг по автору в подзапросе,
 SELECT                                                      -- во внешнем запросе рассчитаем среднее полученных значений 
    authors.author AS author,
    AVG(subq.avg_rating) AS avg_author_rating
 FROM
    authors
 INNER JOIN
    books ON books.author_id = authors.author_id
 INNER JOIN
   ( 
    SELECT
      book_id,
      AVG(rating) AS avg_rating,
      COUNT(rating_id) AS ratings_count
    FROM
      ratings
    GROUP BY
      book_id
    ) AS subq 
    ON subq.book_id = books.book_id
    WHERE
      subq.ratings_count > 50
  GROUP BY
    author
  ORDER BY
    avg_author_rating DESC                                                   -- отсортируем рейтинг авторов по убыванию
   LIMIT 
     1;                                                                      -- выведем 1 строку таблицы
   """
select(best_author)

Unnamed: 0,author,avg_author_rating
0,J.K. Rowling/Mary GrandPré,4.283844


**Вывод**

***J.K. Rowling/Mary GrandPré*** - автор с самой высокой средней оценкой книг(**4.3**)

**Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок**

In [13]:
avg = '''                                                                            -- выведем среднее по количеству обзоров
SELECT 
    avg(count) AS rounded_avg_review    
FROM
    (SELECT
        COUNT(text)
    FROM 
        reviews
    FULL OUTER JOIN (SELECT username, COUNT(rating_id) as cnt FROM ratings GROUP BY username) AS cnt_rating
    ON cnt_rating.username = reviews.username where cnt > 50
    GROUP BY reviews.username) as count;                                  
'''
select(avg)

Unnamed: 0,rounded_avg_review
0,24.333333


**Вывод**

В среднем около 24.33 текстовых обзоров пользователей, которые поставили более 50 оценок.

# Общий вывод

C 1 января 2000 года выпустили **821** книгу.

По среднему рейтингу можно выделить следующие топ-5 книг:
- Pop Goes the Weasel (Alex Cross #5) - 5 / 2
- The Ghost Map: The Story of London's Most Terr. - 5 / 2
- In the Hand of the Goddess (Song of the Liones. - 5 / 2
- Tai-Pan (Asian Saga #2) - 5 / 2
- How to Be a Domestic Goddess: Baking and the A. - 5 /	1

**Penguin books** - издательство, которое выпустило наибольшее число книг(**42** книги) толще 50 страниц.

**J.K. Rowling/Mary GrandPré** - автор с самой высокой средней оценкой книг(**4.3**).

В среднем около **24.33** текстовых обзоров пользователей, которые поставили более 50 оценок.