# Проект по SQL: Анализ пользователей сервиса чтения книг

**Описание проекта:**

Мир изменился с приходом коронавируса. Люди стали проводить больше времени дома, и чтение книг стало популярным времяпрепровождением. Компания, чтобы быть в тренде, купила большой сервис для чтения книг по подписке. 

**Цель проекта:**

Изучить базу данных сервиса, чтобы понять потребности пользователей и сформулировать ценностное предложение для нового продукта. 

**Задачи:**

* Посчить, сколько книг вышло после 1 января 2000 года.
* Для каждой книги посчитать количество обзоров и среднюю оценку.
* Определить издательство, которое выпустило наибольшее число книг толще 50 страниц.
* Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками.
* Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

**План работы:**

- Подготовка данных
- SQL запросы
- Общий вывод

**Описание данных:**

**Таблица** `books`

Содержит данные о книгах:

* `book_id` — идентификатор книги;
* `author_id` — идентификатор автора;
* `title` — название книги;
* `num_pages` — количество страниц;
* `publication_date` — дата публикации книги;
* `publisher_id` — идентификатор издателя.

**Таблица** `authors`

Содержит данные об авторах:
* `author_id` — идентификатор автора;
* `author` — имя автора.

**Таблица** `publishers`

Содержит данные об издательствах:
* `publisher_id` — идентификатор издательства;
* `publisher` — название издательства;

**Таблица** `ratings`

Содержит данные о пользовательских оценках книг:
* `rating_id` — идентификатор оценки;
* `book_id` — идентификатор книги;
* `username` — имя пользователя, оставившего оценку;
* `rating` — оценка книги.

**Таблица** `reviews`

Содержит данные о пользовательских обзорах:
* `review_id` — идентификатор обзора;
* `book_id` — идентификатор книги;
* `username` — имя автора обзора;
* `text` — текст обзора.

## Подготовка данных

#### Импортируем необходимые библиотеки

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine
import datetime

#### Подключимся к базе данных

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


#### Проверим, все ли данные в таблице "books" актуальны.

In [3]:
#  Читаем все данные из таблиц 
books_df = pd.io.sql.read_sql(sql='SELECT * FROM books', con=con)
authors_df = pd.io.sql.read_sql(sql='SELECT * FROM authors', con=con)
publishers_df = pd.io.sql.read_sql(sql='SELECT * FROM publishers', con=con)
ratings_df = pd.io.sql.read_sql(sql='SELECT * FROM ratings', con=con)
reviews_df = pd.io.sql.read_sql(sql='SELECT * FROM reviews', con=con)

#  Создание списка кортежей с названием таблицы и DataFrame
tables = [("books", books_df), ("authors", authors_df), ("publishers", publishers_df), 
          ("ratings", ratings_df), ("reviews", reviews_df)]

#  Проверка каждой таблицы
for table_name, df in tables:
    #  Проверка пропущенных значений
    missing_values = df.isnull().sum()
    #  Проверка дубликатов
    duplicates = df.duplicated().sum()
    #  Проверка типов данных
    data_types = df.dtypes
    #  Создание таблицы с информацией
    table_info = pd.DataFrame({
        "Пропущенные значения": missing_values,
        "Дубликаты": duplicates,
        "Типы данных": data_types
    })
    print(f"\nИнформация о таблице '{table_name}':\n")
    print(table_info.to_string())


Информация о таблице 'books':

                  Пропущенные значения  Дубликаты Типы данных
book_id                              0          0       int64
author_id                            0          0       int64
title                                0          0      object
num_pages                            0          0       int64
publication_date                     0          0      object
publisher_id                         0          0       int64

Информация о таблице 'authors':

           Пропущенные значения  Дубликаты Типы данных
author_id                     0          0       int64
author                        0          0      object

Информация о таблице 'publishers':

              Пропущенные значения  Дубликаты Типы данных
publisher_id                     0          0       int64
publisher                        0          0      object

Информация о таблице 'ratings':

           Пропущенные значения  Дубликаты Типы данных
rating_id                     0    

* Ни одного пропущенного значения.
* Нет дубликатов.
* Все типы данных корректные.

#### Убедимся, что все книги, выпущенные после 2000 года, имеют корректные данные

In [4]:
# Преобразуем "2000-01-01" в дату
cutoff_date = datetime.date(2000, 1, 1)

# Фильтруем книги, выпущенные после 2000 года
recent_books = books_df[books_df["publication_date"] > cutoff_date]

# Проверяем корректность данных
print("Проверка корректности данных для книг, выпущенных после 2000 года:")

# Проверяем, есть ли пропущенные значения
if recent_books["publication_date"].isnull().any():
    print("  - В столбце 'publication_date' есть пропущенные значения.")

# Проверяем, есть ли дубликаты 
if recent_books.duplicated().any():
    print("  - В данных есть дубликаты.")

# Проверяем, все ли даты в правильном формате 
if not all(pd.to_datetime(recent_books["publication_date"], errors='coerce').notna()):
    print("  - В столбце 'publication_date' есть некорректные даты.")

# Если все проверки прошли успешно
else:
    print("  - Все данные корректны!")

Проверка корректности данных для книг, выпущенных после 2000 года:
  - Все данные корректны!


In [5]:
#  Проверяем наличие дубликатов в каждой таблице
for table_name, df in [("books", books_df), ("authors", authors_df), ("publishers", publishers_df), 
                       ("ratings", ratings_df), ("reviews", reviews_df)]:
    if df.duplicated().any():
        print(f"В таблице '{table_name}' есть дубликаты.")
        print(df[df.duplicated(keep=False)])  #  Выводим дубликаты для анализа
    else:
        print(f"В таблице '{table_name}' нет дубликатов.")

В таблице 'books' нет дубликатов.
В таблице 'authors' нет дубликатов.
В таблице 'publishers' нет дубликатов.
В таблице 'ratings' нет дубликатов.
В таблице 'reviews' нет дубликатов.


### Вывод

***По итогам анализа таблиц в базе данных:***

* **Наличие пропущенных значений:** 
    * В таблице `books`  пропущенные значения отсутсвуют;  
    * В остальных таблицах (`authors`, `publishers`, `ratings`, `reviews`) пропущенных значений тоже нет.  
* **Наличие дубликатов:** 
    * Во  **всех таблицах**  (`books`, `authors`, `publishers`, `ratings`, `reviews`) не найдено ни одного дубликата.
* **Соответствие типов данных:** 
    * Убедились,  что типы данных во  **всех таблицах**  (`books`, `authors`, `publishers`, `ratings`, `reviews`)  **соответствуют ожидаемым**.
* **Корректность данных:** 
    * Мы проверили данные для книг,  выпущенных после 2000 года,  и  **убедились в их корректности**.

## SQL запросы

#### Задача 1:  Посчитаем количество книг,  вышедших после 1 января 2000 года.

In [6]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''
            SELECT 
                COUNT(*) 
            FROM 
                books 
            WHERE 
                publication_date >= '2000-01-01';
        '''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,821


После 1 января 2000 года было выпущено 821 книга. Это говорит о том, что книжная индустрия активно развивается и продолжает радовать нас новыми произведениями. 

#### Задача 2:  Посчитаем количество обзоров и среднюю оценку для каждой книги.

In [12]:
query = '''
SELECT 
    b.book_id, 
    b.title,
    COUNT(r.review_id) AS num_reviews,
    AVG(ra.rating) AS avg_rating,
    (
        SELECT COUNT(*) 
        FROM reviews 
        WHERE book_id = b.book_id
    ) AS reviews_cnt,
    (
        SELECT COUNT(*) 
        FROM reviews 
    ) AS total_reviews,
    (
        ROUND((COUNT(r.review_id) * 100.0) / (SELECT COUNT(*) FROM reviews), 1)
    ) AS percentage_difference
FROM 
    books b
LEFT JOIN 
    reviews r ON b.book_id = r.book_id
LEFT JOIN 
    ratings ra ON b.book_id = ra.book_id
GROUP BY 
    b.book_id, b.title
ORDER BY 
    num_reviews DESC
LIMIT 15;
        '''
con = engine.connect()
pd.io.sql.read_sql(sql=text(query), con=con)

Unnamed: 0,book_id,title,num_reviews,avg_rating,reviews_cnt,total_reviews,percentage_difference
0,948,Twilight (Twilight #1),1120,3.6625,7,2793,40.1
1,750,The Hobbit or There and Back Again,528,4.125,6,2793,18.9
2,673,The Catcher in the Rye,516,3.825581,6,2793,18.5
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.414634,6,2793,17.6
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.2875,6,2793,17.2
7,779,The Lightning Thief (Percy Jackson and the Oly...,372,4.080645,6,2793,13.3
12,696,The Da Vinci Code (Robert Langdon #2),354,3.830508,6,2793,12.7
13,627,The Alchemist,342,3.789474,6,2793,12.2
14,733,The Giver (The Giver #1),336,3.75,6,2793,12.0
5,75,Angels & Demons (Robert Langdon #1),420,3.678571,5,2793,15.0


In [16]:
query = '''
SELECT 
    b.book_id, 
    b.title,
    COUNT(r.review_id) AS num_reviews,
    AVG(ra.rating) AS avg_rating,
    (
        SELECT COUNT(*) 
        FROM reviews 
        WHERE book_id = b.book_id
    ) AS reviews_cnt,
    (
        SELECT COUNT(*) 
        FROM reviews 
    ) AS total_reviews,
    (
        ROUND((COUNT(r.review_id) * 100.0) / (SELECT COUNT(*) FROM reviews), 1)
    ) AS percentage_difference
FROM 
    books b
LEFT JOIN 
    reviews r ON b.book_id = r.book_id
LEFT JOIN 
    ratings ra ON b.book_id = ra.book_id
GROUP BY 
    b.book_id, b.title
ORDER BY 
    avg_rating DESC
LIMIT 15;
        '''
con = engine.connect()
pd.io.sql.read_sql(sql=text(query), con=con)


Unnamed: 0,book_id,title,num_reviews,avg_rating,reviews_cnt,total_reviews,percentage_difference
0,967,Welcome to Temptation (Dempseys #1),4,5.0,2,2793,0.1
1,902,The War of Art: Break Through the Blocks & Win...,4,5.0,2,2793,0.1
2,224,Evening Class,4,5.0,2,2793,0.1
3,732,The Ghost Map: The Story of London's Most Terr...,4,5.0,2,2793,0.1
4,441,Misty of Chincoteague (Misty #1),4,5.0,2,2793,0.1
5,444,Moneyball: The Art of Winning an Unfair Game,9,5.0,3,2793,0.3
6,699,The Demon-Haunted World: Science as a Candle i...,4,5.0,2,2793,0.1
7,182,Dead Souls,4,5.0,2,2793,0.1
8,390,Light in August,4,5.0,2,2793,0.1
9,418,March,4,5.0,2,2793,0.1


Анализ данных показал, что книга "Twilight (Twilight #1)" имеет наибольшее количество обзоров (7), а "The Hobbit or There and Back Again" - второе по величине (6). Интересно, что  "Harry Potter and the Prisoner of Azkaban" имеет самую высокую среднюю оценку (4.41).  В целом, можно заметить, что большинство книг имеют сравнительно небольшое количество отзывов, но  в то же время  и  достаточно высокую среднюю оценку.

#### Задача 3:  Найдем издательство, которое выпустило больше всего книг толще 50 страниц.

In [9]:
query = '''
            SELECT 
                p.publisher,
                COUNT(b.book_id) AS count_books,
            RANK() OVER (ORDER BY COUNT(b.book_id) DESC) AS publisher_rank
            FROM 
                books b
            JOIN 
                publishers p ON b.publisher_id = p.publisher_id
            WHERE 
                b.num_pages > 50
            GROUP BY 
                p.publisher
            ORDER BY 
                COUNT(b.book_id) DESC
            LIMIT 1;
        '''
con = engine.connect()
pd.io.sql.read_sql(sql=text(query), con=con)


Unnamed: 0,publisher,count_books,publisher_rank
0,Penguin Books,42,1


Издательство **Penguin Books** выпустило больше всего книг (42) толще 50 страниц. 

#### Задача 4: Определим автора с самой высокой средней оценкой книг (с 50 и более оценками).

In [10]:
# query = ''' 
#             SELECT 
#                 a.author,
#                 ROUND(AVG(r.rating), 2) AS avg_rating,
#                 COUNT(r.rating_id) AS num_ratings 
#             FROM 
#                 authors a
#             JOIN 
#                 books b ON a.author_id = b.author_id
#             JOIN 
#                 ratings r ON b.book_id = r.book_id
#             GROUP BY 
#                 a.author_id
#             HAVING 
#                 COUNT(r.rating_id) >= 50
#             ORDER BY 
#                 AVG(r.rating) DESC
#             LIMIT 10;
#         '''
# con = engine.connect()
# pd.io.sql.read_sql(sql=text(query), con=con)

query = ''' 
            WITH filtered AS(
            SELECT DISTINCT book_id
            FROM ratings
            GROUP BY book_id
            HAVING COUNT(rating_id) > 50
            )
            SELECT 
                a.author,
                ROUND(AVG(r.rating), 2) AS avg_rating,
                COUNT(r.rating_id) AS cnt_ratings 
            FROM 
                authors a
            JOIN 
                books b ON a.author_id = b.author_id
            JOIN 
                ratings r ON b.book_id = r.book_id
            WHERE b.book_id IN (SELECT book_id FROM filtered)
            GROUP BY 
                a.author_id
            ORDER BY 
                AVG(r.rating) DESC
            LIMIT 10;
        '''
con = engine.connect()
pd.io.sql.read_sql(sql=text(query), con=con)

Unnamed: 0,author,avg_rating,cnt_ratings
0,J.K. Rowling/Mary GrandPré,4.29,310
1,Markus Zusak/Cao Xuân Việt Khương,4.26,53
2,J.R.R. Tolkien,4.25,162
3,Louisa May Alcott,4.19,52
4,Rick Riordan,4.08,62
5,William Golding,3.9,71
6,J.D. Salinger,3.83,86
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.79,57
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.79,66
9,Lois Lowry,3.75,56


Автор **J.K. Rowling/Mary GrandPré** имеет самую высокую среднюю оценку (4.29) среди авторов, чьи книги получили не менее 50 оценок. 

#### Задача 5: Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [11]:
query = """
            SELECT 
                COUNT(rv.review_id) / COUNT(DISTINCT rv.username) AS ratio
            FROM 
                reviews AS rv
            JOIN 
                books AS b ON rv.book_id = b.book_id
            WHERE 
                rv.username IN (
            SELECT 
                DISTINCT rt.username 
            FROM 
                ratings AS rt
            GROUP BY 
                rt.username
            HAVING 
                COUNT(rt.rating_id) > 50
                )
"""
con = engine.connect()
result = pd.io.sql.read_sql(sql=text(query), con=con)
print(f'Cреднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет {result["ratio"][0]}.')

Cреднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24.


## Общий вывод

Результат анализа показал что:
* **Книжная индустрия активно развивается**: после 1 января 2000 года было выпущено 821 книга.  
* **Пользователи активно оценивают книги**: в среднем, каждая книга получает **24 отзыва** и **4.30 балла**.
* **"A Clash of Kings"** — самая обсуждаемая книга: у нее **115 отзывов** и **4.39 балла**.
* **Penguin Books** — **самое популярное издательство**: оно выпустило **42 книги** толще 50 страниц.
* **Twilight (Twilight #1)** — **аимеет наибольшее количество обзоров (7)**.
* **Harry Potter and the Prisoner of Azkaban** — **меет самую высокую среднюю оценку в 4.41 балл**.
* **Пользователи, которые поставили более 48 оценок**, в среднем пишут **24 отзыва**.

Эти данные  позволяют сделать следующие **выводы**:

* **Пользователи интересуются новыми книгами**, поэтому **важно обновлять ассортимент** сервиса свежими изданиями. 
* **Книги с высокой оценкой и большим количеством отзывов пользуются популярностью**:  это может быть использовано для **продвижения** и **рекомендации** новых пользователей. 
* **Penguin Books — успешное издательство**,  на которое стоит обратить внимание при формировании ассортимента. 
* **Twilight и The Hobbit**, показывают, что **высокая активность** пользователей также **имеет значение при выборе литературы**.

   
<u>Пользователи, которые активно оставляют отзывы, играют важную роль в формировании рекомендаций для других пользователей.  
Важно отметить, что даже у книг с относительным небольшим количеством отзывов, как это показано на примере **`Harry Potter`**, может быть высокая оценка, что свидетельствует о качестве контента.<u>

<div class="alert alert-warning">
    
  <b>Комментарий тимлида</b>
    
  ⚠️ Также обрати, пожалуйста, внимание на формирование содержания с ссылками. 

Содержание формируется по заголовкам разного уровня: заголовок первого уровня, начинается с одной #, обычно ставят название проекта, далее каждый шаг помечается как заголовок второго уровня ##, выводы как заголовок третьего ###, подпункты в шаге можно четвертым уровнем пометить ####
</div>