# Проект по SQL

Коронавирус застал мир врасплох, изменив привычный порядок вещей. На какое-то время жители городов перестали выходить на улицу, посещать кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.
Компания решила быть на волне и купила крупный сервис для чтения книг по подписке. 

**Цель исследования:** на основании анализа предложенной базы данных сформулировать ценностное предложение для нового продукта (приложения для чтения книг)

**Задачи:**
- проанализировать базу данных;
- посчитать, сколько книг вышло после 1 января 2000 года;
- посчитать,  количество обзоров и среднюю оценку;
- определите издательство, которое выпустило наибольшее число книг толще 50 страниц;
- определите автора с самой высокой средней оценкой книг;
- посчитать  среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

**Описание данных**

Таблица books

Содержит данные о книгах:

-  book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

Таблица authors

Содержит данные об авторах:

- author_id — идентификатор автора;
- author — имя автора.

Таблица publishers

Содержит данные об издательствах:

- publisher_id — идентификатор издательства;
- publisher — название издательства;

Таблица ratings

Содержит данные о пользовательских оценках книг:

- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

Таблица reviews

Содержит данные о пользовательских обзорах:

- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.

In [1]:
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)


In [3]:
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Вывод данных

In [4]:
query = '''SELECT * FROM books'''
con=engine.connect()
books = pd.io.sql.read_sql(sql=text(query), con = con)
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


In [6]:
query = '''SELECT * FROM authors'''
con=engine.connect()
authors = pd.io.sql.read_sql(sql=text(query), con = con)
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [7]:
authors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


In [8]:
query = '''SELECT * FROM publishers'''
con=engine.connect()
publishers = pd.io.sql.read_sql(sql=text(query), con = con)
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [9]:
publishers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


In [10]:
query = '''SELECT * FROM ratings'''
con=engine.connect()
ratings = pd.io.sql.read_sql(sql=text(query), con = con)
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [11]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


In [12]:
query = '''SELECT * FROM reviews'''
con=engine.connect()
reviews = pd.io.sql.read_sql(sql=text(query), con = con)
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [13]:
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


В таблице books представлена информация о 1000 книг. Данные книги написали 636 авторов, представленные в таблице authors. Эти две таблицы соединены по внешнему ключу author_id. В таблице books также указано, какое именно издательство напечатало книгу, информация о наименования вынесена в отдельную таблицу publishers? связь между таблицами по ключу publisher_id. Отзывы и обзоры на книги представлены в таблицах ratings и reviews соответственно, связь по book_id.

### Cколько книг вышло после 1 января 2000 года?

In [14]:
query = '''SELECT COUNT(distinct book_id)
FROM books
WHERE publication_date > '2000-01-01' '''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,819


После 01.01.2000 вышло 819 книг.

### Посчитать количество обзоров и среднюю оценку для каждой книги

In [15]:
query = '''with temp as (SELECT books.book_id, title, rating_id, rating, review_id
FROM books LEFT JOIN ratings USING (book_id)
LEFT JOIN reviews USING (book_id))

SELECT book_id, title, COUNT(distinct review_id) as count_reviews, AVG(rating) as avg_rating
FROM temp
GROUP BY book_id, title
ORDER BY 3 DESC, 4 DESC'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,title,count_reviews,avg_rating
0,948,Twilight (Twilight #1),7,3.662500
1,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
2,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.287500
3,656,The Book Thief,6,4.264151
4,734,The Glass Castle,6,4.206897
...,...,...,...,...
995,191,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
996,387,Leonardo's Notebooks,0,4.000000
997,221,Essential Tales and Poems,0,4.000000
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


Самое большое количество обзоров - 7. Данные представлены в порядке убывания количества обзоров и дале в порядке убывания рейтинга.

### Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так исключатся из анализа брошюры

In [16]:
query = ''' 

with temp as (SELECT publisher, COUNT(book_id)
FROM books INNER JOIN publishers USING (publisher_id)
WHERE num_pages > 50
GROUP BY publisher
ORDER BY 2 DESC)

SELECT publisher, count
FROM temp
WHERE count = (SELECT MAX(count)
                FROM temp)

'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher,count
0,Penguin Books,42


Издательство, выпустившее наибольшее количество книг толще 50 страниц, называется Penguin Books. Оно выпустило 42 книги.

### Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками

In [17]:
query = ''' 

with temp as (SELECT author, book_id, avg(rating)
FROM books
INNER JOIN ratings USING(book_id)
INNER JOIN author USING (author_id)
GROUP BY 1, 2
HAVING COUNT(rating) >= 50)

SELECT author, avg(avg) over (partition by author)
FROM temp
ORDER BY 2 DESC
LIMIT 1
'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844


Автор с самой высокой средней оценкой (среди книг с более, чем пятьюдесятью оценками) - J.K. Rowling/Mary GrandPré, средняя оценка книг - 4.28

### Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [18]:
query = ''' 
SELECT AVG(count)
FROM
(SELECT username, count(review_id)
FROM reviews
WHERE username in (SELECT username
                    FROM ratings
                    GROUP BY username
                    HAVING count(rating_id) > 48)
GROUP BY username) as query
'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,avg
0,24.0


Среднее количество обзоров от пользователей, которые поставили больше 48 оценок - 24.

В данных представлена информация о 1000 книг, самое большое количество обзоров - 7 шт - на книгу Twilight. Самое популярное издательство - Penguin Book, самые высокие оценки у автора J.K. Rowling/Mary GrandPré (4.28 в среднем). В среднем, пользователи, которые оставляют более 48 отзывов, также пишут по 24 обзора на книги, т.е. примерно на 2 отзыва приходится 1 обзор.