# Проект по SQL

**Цель исследования:**\
Исследовать базу данных о книгах, издательствах, авторах и пользовательских обзорах с целью формулирования ценностного предложения для нового продукта — приложения для чтения книг по подписке. 

**Задачи:**
- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

## Откроем файлы с данными и изучим общую информацию.

In [1]:
# импортируем библиотеки 
import pandas as pd 
from sqlalchemy import text, create_engine  

# устанавливаем параметры 
db_config = {'user': 'praktikum_student', # имя пользователя 
             'pwd': 'Sdf4$2;d-d30pp', # пароль 
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
             'port': 6432, # порт подключения 
             'db': 'data-analyst-final-project-db'} # название базы данных 
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)  

# сохраняем коннектор 
engine = create_engine(connection_string, connect_args={'sslmode':'require'})  

### Таблица books

In [2]:
query = '''SELECT *
FROM books
LIMIT 5;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [3]:
query = '''SELECT
    COUNT(book_id) AS total_books,
    COUNT(DISTINCT book_id) AS unique_books,
    COUNT(DISTINCT author_id) AS unique_author,
    COUNT(DISTINCT title) AS unique_titles,
    SUM(num_pages) AS page_sum,
    COUNT(DISTINCT publication_date) AS unique_publication_dates,
    COUNT(DISTINCT publisher_id) AS unique_publishers
FROM books;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,total_books,unique_books,unique_author,unique_titles,page_sum,unique_publication_dates,unique_publishers
0,1000,1000,636,999,389111,618,340


**Таблица books содержит данные о книгах:**
- book_id — идентификатор книги - всего в таблице 1000 значений, все уникальные
- author_id — идентификатор автора - 636 авторов
- title — название книги - 999 уникальнх названий
- num_pages — количество страниц - 389111 страниц книг
- publication_date — дата публикации книги - 618 дат публикаций
- publisher_id — идентификатор издателя - 340 уникальных издательств

### Таблица authors

In [4]:
query = '''SELECT *
FROM authors
LIMIT 5;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [5]:
query = '''SELECT
    COUNT(DISTINCT author_id) AS unique_author_id,
    COUNT(DISTINCT author) AS unique_author
FROM authors;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,unique_author_id,unique_author
0,636,636


**Таблица authors содержит данные об авторах:**
- author_id — идентификатор автора - 636 уникальных идентификаторов
- author — имя автора - 636 авторов

### Таблица publishers

In [6]:
query = '''SELECT *
FROM publishers
LIMIT 5;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [7]:
query = '''SELECT
    COUNT(DISTINCT publisher_id) AS unique_publisher_id,
    COUNT(DISTINCT publisher) AS unique_publisher
FROM publishers;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,unique_publisher_id,unique_publisher
0,340,340


**Таблица publishers содержит данные об издательствах:**
- publisher_id — идентификатор издательства - 340 уникальных идентификаторов издательств 
- publisher — название издательства - 340 уникальных издательств

### Таблица ratings

In [8]:
query = '''SELECT *
FROM ratings
LIMIT 5;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [9]:
query = '''SELECT
    COUNT(rating_id) AS rating_id,
    COUNT(DISTINCT book_id) AS unique_book_id,
    COUNT(DISTINCT username) AS unique_username,
    AVG(rating) AS avg_rating
    
FROM ratings;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,unique_book_id,unique_username,avg_rating
0,6456,1000,160,3.928284


**Таблица ratings содержит данные о пользовательских оценках книг:**
- rating_id — идентификатор оценки - 6456 шт
- book_id — идентификатор книги - 1000 уникальных значений
- username — имя пользователя, оставившего оценку - 160 униказьных пользователей
- rating — оценка книги - средняя оценка 3,93

### Таблица reviews

In [10]:
query = '''SELECT *
FROM reviews
LIMIT 5;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [11]:
query = '''SELECT
    COUNT(DISTINCT review_id) AS unique_review_id,
    COUNT(DISTINCT book_id) AS unique_book_id,
    COUNT(DISTINCT username) AS unique_username,
    COUNT(username) AS count_username,
    COUNT(text) AS count_text
    
FROM reviews;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,unique_review_id,unique_book_id,unique_username,count_username,count_text
0,2793,994,160,2793,2793


**Таблица reviews содержит данные о пользовательских обзорах на книги:**
- review_id — идентификатор обзора - 2793 уникальных обзора
- book_id — идентификатор книги - 994 книги
- username — имя пользователя, написавшего обзор - 2793 раза пользователи сделали обзор, из них 160 уникальных пользователей
- text — текст обзора - 2793 раза пользователи сделали обзор

## Посчитаем, сколько книг вышло после 1 января 2000 года;

In [12]:
query = '''SELECT COUNT(book_id)
FROM books
WHERE publication_date > '2000-01-01';
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,819


После 1 янаваря 2000 вышло 819 книг

## Для каждой книги посчитаем количество обзоров и среднюю оценку;

In [13]:
query = '''SELECT
    b.book_id,
    b.title,
    COUNT(DISTINCT r.review_id) AS review_count,
    AVG(rt.rating) AS average_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title;

'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,title,review_count,average_rating
0,1,'Salem's Lot,2,3.666667
1,2,1 000 Places to See Before You Die,1,2.500000
2,3,13 Little Blue Envelopes (Little Blue Envelope...,3,4.666667
3,4,1491: New Revelations of the Americas Before C...,2,4.500000
4,5,1776,4,4.000000
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3,3.666667
996,997,Xenocide (Ender's Saga #3),3,3.400000
997,998,Year of Wonders,4,3.200000
998,999,You Suck (A Love Story #2),2,4.500000


## Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [14]:
query = '''SELECT
    p.publisher
FROM publishers AS p
JOIN books AS b ON p.publisher_id = b.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id, p.publisher
ORDER BY COUNT(b.book_id) DESC
LIMIT 1;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher
0,Penguin Books


Издательство "Penguin Books" выпустило наибольшее число книг толще 50 страниц

## Определим автора с самой высокой средней оценкой книг — учитываем только книги с 50 и более оценками;

In [15]:
query = '''SELECT a.author
FROM authors AS a
JOIN books AS b ON a.author_id = b.author_id
JOIN ratings AS r ON b.book_id = r.book_id
WHERE b.book_id IN (
    SELECT b.book_id
    FROM books AS b
    JOIN ratings AS r ON b.book_id = r.book_id
    GROUP BY b.book_id
    HAVING COUNT(r.rating_id) >= 50
)
GROUP BY a.author
ORDER BY AVG(r.rating) DESC
LIMIT 1;

'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author
0,J.K. Rowling/Mary GrandPré


Автор с самой высокой средней оценкой книг J.K. Rowling/Mary GrandPré

## Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [16]:
query = '''SELECT
    AVG(review_count) AS avg_review_count
FROM (
    SELECT
        username,
        COUNT(DISTINCT review_id) AS review_count
    FROM reviews
    WHERE username IN (
        SELECT username
        FROM ratings
        GROUP BY username
        HAVING COUNT(rating_id) > 48
    )
    GROUP BY username
) AS user_reviews;
'''  
con=engine.connect()  
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,avg_review_count
0,24.0


Среднее количество обзоров от пользователей, которые поставили больше 48 оценок составляет 24 шт.

## Вывод

**Вывод:**
- После 1 янаваря 2000 вышло 819 книг
- Издательство "Penguin Books" выпустило наибольшее число книг толще 50 страниц
- Автор с самой высокой средней оценкой книг J.K. Rowling/Mary GrandPré
- Среднее количество обзоров от пользователей, которые поставили больше 48 оценок составляет 24 шт.

**Рекомендации на основе результатов и цели:**

- Учитывая, что после 1 января 2000 года вышло 819 книг, рекомендуется активно обновлять библиотеку, включая новые издания и популярные работы, чтобы привлекать читателей.

- Издательство "Penguin Books" является лидером по выпуску книг толще 50 страниц. Рекомендуется углубленное сотрудничество с этим издательством.

- Автор J.K. Rowling/Mary GrandPré обладает самой высокой средней оценкой книг. Рекомендуется акцентировать внимание на работах этого автора и поддерживать сотрудничество с ним, а также обращать внимание на других авторов с высоким рейтингом.

- Учитывая, что среднее количество обзоров от пользователей, которые поставили более 48 оценок, составляет 24 шт., рекомендуется создать персонализированные предложения, стимулирующие пользователей активно оценивать и обзоривать книги.

- Используйте данные об оценках и обзорах для создания эффективных систем рекомендаций, которые учитывают предпочтения читателей, основываясь на популярности книг, издательствах и авторах.