# Проект по SQL

Коронавирус застал мир врасплох, изменив привычный порядок вещей. На какое-то время жители городов перестали выходить на улицу, посещать кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.


Компания купила крупный сервис для чтения книг по подписке. 

**Задача проекта** — проанализировать базу данных сервиса для чтения книг по подписке для выбора стратегии развития бизнеса.

**Описание данных:**


***Таблица books***

Содержит данные о книгах:

- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.


***Таблица authors***

Содержит данные об авторах:

- author_id — идентификатор автора;
- author — имя автора.


***Таблица publishers***

Содержит данные об издательствах:

- publisher_id — идентификатор издательства;
- publisher — название издательства;


***Таблица ratings***

Содержит данные о пользовательских оценках книг:

- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.


***Таблица reviews***

Содержит данные о пользовательских обзорах:

- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.

**План проекта:**
1. Исследовать таблицы, вывести первые строки.
2. Посчитать, сколько книг вышло после 1 января 2000 года;
3. Для каждой книги посчитать количество обзоров и среднюю оценку;
4. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц (исключить из анализа брошюры);
5. Определить автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
6. Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [1]:
# импортируем библиотеки
import pandas as pd
import sqlalchemy as sa
# устанавливаем параметры
db_config = {
'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db' # название базы данных
}
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})
# чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
   '''Открываем соединение, получаем данные из sql, закрываем соединение'''
   with engine.connect() as con:
    return pd.read_sql(sql=sa.text(query), con = con)# формируем запрос и выводим данные


## Исследуем таблицы, выведем первые строки.

### Таблица books

In [2]:
query = '''SELECT * 
           FROM books 
           LIMIT 5;'''
get_sql_data(query)


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [3]:
query = '''SELECT COUNT(*) 
               FROM books;'''
get_sql_data(query)

Unnamed: 0,count
0,1000


В таблице books представлена информация о 1000 книг (название, количество страниц, дата публикации, идентификаторы книга, автора и издателя)

### Таблица authors

In [4]:
query = '''SELECT * 
           FROM authors 
           LIMIT 5;'''
get_sql_data(query)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [5]:
query = '''SELECT COUNT(*) 
               FROM authors;''' 
get_sql_data(query)

Unnamed: 0,count
0,636


Представлено 636 авторов.

### Таблица publishers

In [6]:
query = '''SELECT * 
           FROM publishers 
           LIMIT 5;'''
get_sql_data(query)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [7]:
query= '''SELECT COUNT(*) 
               FROM publishers;'''
get_sql_data(query)

Unnamed: 0,count
0,340


В сервисе имеем книги 340 издательств.

### Таблица ratings

In [8]:
query = '''SELECT * 
           FROM ratings 
           LIMIT 5;'''
get_sql_data(query)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [9]:
query = '''SELECT COUNT(*) 
               FROM ratings;'''
get_sql_data(query)

Unnamed: 0,count
0,6456


### Таблица reviews

In [10]:
query = '''SELECT * 
           FROM reviews 
           LIMIT 5;'''
get_sql_data(query)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [11]:
query = '''SELECT COUNT(*) 
               FROM reviews;'''
get_sql_data(query)

Unnamed: 0,count
0,2793


## Посчитаем, сколько книг вышло после 1 января 2000 года

In [12]:
query = '''SELECT COUNT(book_id) 
               FROM books
               WHERE publication_date > '2000-01-01';
               '''
get_sql_data(query)

Unnamed: 0,count
0,819


После 1 января 2000 года выпущено 819 книг.

## Для каждой книги посчитаем количество обзоров и среднюю оценку

In [13]:
query = '''SELECT b.title,
                      COUNT(DISTINCT rev.review_id) AS cnt_reviews,
                      AVG(rat.rating) AS avg_rating
               FROM books AS b
               LEFT JOIN reviews AS rev 
               ON b.book_id = rev.book_id
               LEFT JOIN ratings AS rat
               ON b.book_id = rat.book_id
               GROUP BY b.title
               ORDER by avg_rating DESC, cnt_reviews DESC;
               '''
get_sql_data(query)

Unnamed: 0,title,cnt_reviews,avg_rating
0,A Dirty Job (Grim Reaper #1),4,5.00
1,Moneyball: The Art of Winning an Unfair Game,3,5.00
2,School's Out—Forever (Maximum Ride #2),3,5.00
3,Wherever You Go There You Are: Mindfulness Me...,2,5.00
4,Act of Treason (Mitch Rapp #9),2,5.00
...,...,...,...
994,The World Is Flat: A Brief History of the Twen...,3,2.25
995,Drowning Ruth,3,2.00
996,His Excellency: George Washington,2,2.00
997,Junky,2,2.00


Средняя оценка книги от 1,5 до 5,0. Самый высокий рейтинг (5,0) при максимальном количестве обзоров (4) у книги A Dirty Job (Grim Reaper #1). Минимальную среднюю оценку (1,5) имеет книга Harvesting the Heart.

## Определим издательство, которое выпустило наибольшее число книг толще 50 страниц (исключим из анализа брошюры)

In [14]:
query = '''SELECT p.publisher,
                      COUNT(b.book_id) AS cnt_books
               FROM books AS b
               LEFT JOIN publishers AS p 
               ON b.publisher_id = p.publisher_id
               WHERE b.num_pages>50
               GROUP BY p.publisher
               ORDER by cnt_books DESC
               LIMIT 1;
               '''
get_sql_data(query)

Unnamed: 0,publisher,cnt_books
0,Penguin Books,42


Наибольшее количество книг (толще 50 страниц) выпустило издательство Penguin Books. Таких книг 42.

## Определим автора с самой высокой средней оценкой книг (учтем только книги с 50 и более оценками)

In [15]:
query = '''SELECT  a.author, 
                      AVG(r.rating) AS avg_rating
               FROM authors AS a
               JOIN books AS b 
               ON a.author_id = b.author_id
               JOIN ratings AS r 
               ON b.book_id = r.book_id

               WHERE b.book_id IN (
                      SELECT r.book_id
                      FROM ratings AS r 
                      GROUP BY r.book_id
                      HAVING COUNT(r.rating_id) >= 50)

               GROUP BY a.author
               ORDER BY avg_rating DESC
               LIMIT 1
               '''
get_sql_data(query)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


 Самая высокая средняя оценка книги - 4,287. Авторами, написавшими эту книгу являются J.K.Rowling и Mary GrandPré.

### Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [16]:
query = '''SELECT ROUND(AVG(cnt_reviews)) 
               FROM (                           
                    SELECT rev.username,
                           COUNT(rev.text) AS cnt_reviews
                    FROM reviews AS rev
                    JOIN (
                              SELECT r.username,
                                     COUNT(r.rating_id) AS cnt_rating
                              FROM ratings AS r
                              GROUP BY r.username
                              HAVING COUNT(r.rating_id)>48
                              )AS cnt_rat
                              
                   ON rev.username = cnt_rat.username
                   
                   GROUP BY rev.username
                   ) AS cnt_rev;              
                                                    
                  '''
get_sql_data(query)

Unnamed: 0,round
0,24.0


Самые активные пользователи (поставившие более 48 оценок) в среднем выпускают 24 обзора.

***Выводы:***

- В базе данных сервиса представлена информация о 1000 книг, написанных 636 авторами, выпущенных в 340 издательствах.

- После 1 января 2000 года выпущено 819 книг.

- Средняя оценка книги от 1,5 до 5,0. Самый высокий рейтинг (5,0) при максимальном количестве обзоров (4) у книги A Dirty Job (Grim Reaper #1). Минимальную среднюю оценку (1,5) имеет книга Harvesting the Heart.

- Наибольшее количество книг (толще 50 страниц) выпустило издательство Penguin Books. Таких книг 42.

- Самая высокая средняя оценка книги - 4,287. Авторами, написавшими эту книгу являются J.K.Rowling и Mary GrandPré.

- Самые активные пользователи (поставившие более 48 оценок) в среднем выпускают 24 обзора.
