# Проект по SQL

**Описание проекта:**

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать. Наша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. 

**Цель исследования:**

Путем анализа базы данных сформулировать ценностное предложение для нового продукта.


**Задания:**
1. Посчитайте, сколько книг вышло после 1 января 2000 года;
2. Для каждой книги посчитайте количество обзоров и среднюю оценку;
3. Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
4. Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
5. Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.


**Описание данных:**


1. Таблица **books** cодержит данные о книгах:
- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.
2. Таблица **authors** cодержит данные об авторах:
- `author_id` — идентификатор автора;
- `author` — имя автора.
3. Таблица **publishers** cодержит данные об издательствах:
- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;
4. Таблица **ratings** cодержит данные о пользовательских оценках книг:
- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.
5. Таблица **reviews** cодержит данные о пользовательских обзорах:
- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя автора обзора;
- `text` — текст обзора.

## Загрузка и изучение данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
#pd.io.sql.read_sql(sql=text(query), con = con)

### Изучим таблицы

In [3]:
for i in ['books', 'authors', 'publishers', 'ratings', 'reviews']:
    print(f' Название таблицы:', i)
    query = 'SELECT * FROM ' + i + ' LIMIT 5;'
    display(pd.io.sql.read_sql(query, con = engine))
    query = 'SELECT * FROM ' + i + ';'
    display(pd.io.sql.read_sql(query, con = engine).info())

 Название таблицы: books


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


None

 Название таблицы: authors


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


None

 Название таблицы: publishers


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


None

 Название таблицы: ratings


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


None

 Название таблицы: reviews


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


None

- Таблицы содержат информацию о 1000 книгах, 636 авторах, 340 издательств, 6456 оценок книг и 2793 обзора.

## Задания

### Посчитаем, сколько книг вышло после 1 января 2000 года

In [4]:
query = '''
SELECT COUNT(book_id) "Кол-во книг"
FROM books 
WHERE publication_date > '01-01-2000'
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,Кол-во книг
0,819


- После 1 января 2000 года выпустили 819 книг

### Для каждой книги посчитаем количество обзоров и среднюю оценку

In [5]:
query = '''
SELECT 
    books.title AS title,
    books.book_id AS id,
    COUNT(DISTINCT reviews.review_id) cnt_reviews,
    AVG(ratings.rating) avg_rating
FROM
    books
LEFT JOIN reviews ON reviews.book_id = books.book_id
LEFT JOIN ratings ON ratings.book_id = books.book_id

GROUP BY
    books.book_id
ORDER BY 
    cnt_reviews DESC
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,title,id,cnt_reviews,avg_rating
0,Twilight (Twilight #1),948,7,3.662500
1,Water for Elephants,963,6,3.977273
2,The Glass Castle,734,6,4.206897
3,Harry Potter and the Prisoner of Azkaban (Harr...,302,6,4.414634
4,The Curious Incident of the Dog in the Night-Time,695,6,4.081081
...,...,...,...,...
995,Anne Rice's The Vampire Lestat: A Graphic Novel,83,0,3.666667
996,The Natural Way to Draw,808,0,3.000000
997,The Cat in the Hat and Other Dr. Seuss Favorites,672,0,5.000000
998,Essential Tales and Poems,221,0,4.000000


Мы вывели средний рейтинг и кол-во обзоров по каждой книге. 
- У книги `Twilight (Twilight #1)` больше всего обзоров, но рейтинг не самый высокий.
- Так же есть книги, у которых нет обзоров и у них рейтинг не хуже, чем у тех книг, по которым есть обзор.

### Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [6]:
query = '''
SELECT publishers.publisher, 
       COUNT(*) cnt_books
FROM books
LEFT JOIN publishers ON books.publisher_id = publishers.publisher_id
WHERE num_pages > 50
GROUP BY publishers.publisher
ORDER BY COUNT(*) DESC
LIMIT 1
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,cnt_books
0,Penguin Books,42


- Издательство `Penguin Books` выпустило наибольшее число книг толще 50 страниц - 42 шт.

### Определим автора с самой высокой средней оценкой книг — учитываем только книги с 50 и более оценками

In [7]:
query = '''
SELECT 
    authors.author,
    AVG(ratings.rating) avg_rating
FROM
    ratings
JOIN books ON books.book_id = ratings.book_id
JOIN authors ON books.author_id = authors.author_id
WHERE ratings.book_id IN 
      (
       SELECT book_id
       FROM ratings
       GROUP BY book_id
       HAVING COUNT(rating_id) >= 50
       )
GROUP BY authors.author
ORDER BY AVG(ratings.rating) DESC
LIMIT 1
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


- Автор с самой высокой средней оценкой книг - `J.K. Rowling/Mary GrandPré` 

### Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок

In [8]:
query = '''
SELECT AVG(count_reviews)
FROM (
      SELECT COUNT(review_id) count_reviews
      FROM reviews
      WHERE username IN
            (
            SELECT username
            FROM ratings
            GROUP BY username
            HAVING COUNT(rating_id) > 48
            )
      GROUP BY username) reviews
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg
0,24.0


- В среднем 24 обзора от пользователей, которые поставили больше 48 оценок

## Общий вывод

- После 1 января 2000 года выпустили 819 книг
- У книги Twilight (Twilight #1) больше всего обзоров, но рейтинг не самый высокий
- Так же есть книги, у которых нет обзоров и у них рейтинг не хуже, чем у тех книг, по которым есть обзор
- Издательство Penguin Books выпустило наибольшее число книг толще 50 страниц - 42 шт
- Автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré
- В среднем 24 обзора от пользователей, которые поставили больше 48 оценок