# Проектная работа: Анализ сервиса для чтения книг по подписке.

Цель исследования: 

Проанализировать базу данных сервиса для чтения книг по подписке и сформулировать ценностное предложение для нового продукта.

# Введение

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.

Наша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Наша задача проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**План иследования:**

Шаг 1. Загрузка данных.

Шаг 2. Исследование таблиц.

Шаг 3. Анализ таблиц.

Шаг 4. Вывод

## Шаг 1. Загрузка данных.

In [1]:
import pandas as pd
import sqlalchemy as sa
from sqlalchemy import create_engine 

In [2]:
db_config = {
'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db' # название базы данных
}

In [3]:
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

In [4]:
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

ModuleNotFoundError: No module named 'psycopg2'

In [None]:
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

## Исследование таблиц:

### Таблица `books`

In [None]:
books =( '''
SELECT 
    *
FROM books
    LIMIT 5
''')    
get_sql_data(books)

In [None]:
books =( '''
SELECT 
    COUNT(book_id),
    COUNT(DISTINCT(book_id)) distinct,
    COUNT(DISTINCT(title)) distinct_book
FROM books
    LIMIT 5
''')    
get_sql_data(books)

Данные в таблице `books` представлены следующими столбцами: `book_id` идентификатор книги, `author_id` идентификатор автора,  `title` название книги, `num_pages` количество страниц, `publication_date` дата публикации книги, `publisher_id` идентификатор издателя. В таблице 1000 строк. Уникальных названий книг 999

### Таблица `authors`

In [None]:
authors =( '''
SELECT 
    *
FROM authors
    LIMIT 5
''')    
get_sql_data(authors)

In [None]:
authors =( '''
SELECT 
    COUNT(author_id),
    COUNT(DISTINCT(author_id)) distinct,
    COUNT(DISTINCT(author)) distinct_author
FROM authors
    LIMIT 5
''')    
get_sql_data(authors)

Данные в таблице `authors` представлены следующими столбцами: `author_id` идентификатор автора,  `author` имя автора.  В таблице 636 строк. Уникальных авторов 636

### Таблица `publishers`

In [None]:
publishers =( '''
SELECT 
    *
FROM publishers
    LIMIT 5
''')    
get_sql_data(publishers)

In [None]:
publishers =( '''
SELECT 
    COUNT(publisher_id),
    COUNT(DISTINCT(publisher_id)) distinct,
    COUNT(DISTINCT(publisher)) distinct_publisher
FROM publishers
    LIMIT 5
''')    
get_sql_data(publishers)

Данные в таблице `publishers` представлены следующими столбцами: `publisher_id` идентификатор издателя, `publisher` название издательства. В таблице 340 строк. Уникальных издательств 340

### Таблица `ratings`

In [None]:
ratings =( '''
SELECT 
    *
FROM ratings
    LIMIT 5
''')    
get_sql_data(ratings)

In [None]:
ratings =( '''
SELECT 
    COUNT(rating_id),
    COUNT(DISTINCT(rating_id)) distinct,
    COUNT(DISTINCT(username)) distinct
FROM ratings
    LIMIT 5
''')    
get_sql_data(ratings)

Данные в таблице `ratings` представлены следующими столбцами: `rating_id` идентификатор оценки, `book_id` идентификатор книги,   `username` имя пользователя, оставившего оценку, `rating` оценка книги.  В таблице 6456 строк. Уникальных оценевающих пользователей 160.

### Таблица `reviews`

In [None]:
reviews =( '''
SELECT 
    *
FROM reviews
    LIMIT 5
''')    
get_sql_data(reviews)

In [None]:
reviews =( '''
SELECT 
    COUNT(review_id),
    COUNT(DISTINCT(review_id)) distinct,
    COUNT(DISTINCT(username)) distinct
FROM reviews
    LIMIT 5
''')    
get_sql_data(reviews)

Данные в таблице `reviews` представлены следующими столбцами: `review_id` идентификатор обзора, `book_id` идентификатор книги,   `username` имя пользователя написавшего обзор, `text` текст обзора.  В таблице 2793 строк. Уникальных критикующих пользователей 160.

## Детализированное иследование

### Анализ даты публикации книги.
Посчитайте, сколько книг вышло после 1 января 2000 года

In [None]:
zad_1 =( '''

SELECT 
    COUNT(book_id) 
FROM books
    WHERE CAST(publication_date AS date) > '2000-01-01'

''')    
get_sql_data(zad_1)

Начиная с первого января 2000 года, на сервиве по подписке книг, было опубликованно 819 книг 

### Анализ количества обзоров и средней оценки.

Для каждой книги посчитайте количество обзоров и среднюю оценку.

In [None]:
zad_2 =( '''

WITH 

rat AS (
SELECT 
    a.author book,
    AVG(rt.rating) avg_rating
FROM books AS b 
JOIN authors a ON b.author_id=a.author_id
LEFT JOIN ratings AS rt ON b.book_id=rt.book_id
    GROUP BY a.author
    ORDER BY a.author
),

rev AS(
SELECT 
    a.author book,
    COUNT(rv.review_id) count_review
FROM books AS b 
JOIN authors a ON b.author_id=a.author_id
LEFT JOIN reviews AS rv ON b.book_id=rv.book_id
    GROUP BY a.author
    ORDER BY a.author
)

SELECT 
    rat.book,
    rev.count_review,
    ROUND(rat.avg_rating, 2) avg_rating
FROM rat 
JOIN rev ON rat.book=rev.book
    LIMIT 5
''')    
get_sql_data(zad_2)

Пользовательские рейтенги книг как и количество проставленных оценок отличаются у разных книг.

In [None]:
zad_2 =( '''

WITH 

rat AS (
SELECT 
    b.book_id book,
    AVG(rt.rating) avg_rating
FROM books AS b 
LEFT JOIN ratings AS rt ON b.book_id=rt.book_id
    GROUP BY b.book_id
    ORDER BY b.book_id
),

rev AS(
SELECT 
    b.book_id book,
    COUNT(rv.review_id) count_review
FROM books AS b 
LEFT JOIN reviews AS rv ON b.book_id=rv.book_id
    GROUP BY b.book_id
    ORDER BY b.book_id
),

alls AS(
SELECT 
    rat.book,
    rev.count_review,
    ROUND(rat.avg_rating, 2) avg_rating
FROM rat 
JOIN rev ON rat.book=rev.book
)
 
SELECT 
    ROUND(AVG(count_review), 2) avg_review,    
    MAX(count_review) max_review,
    MIN(count_review) min_review,
    ROUND(AVG(avg_rating), 2) avg_rating,
    MAX(avg_rating) max_rating,
    MIN(avg_rating) min_rating
FROM
    alls

    
   
''')    
get_sql_data(zad_2)

Среднее количество просмотров рамно 2,79, максимальное количество просмотров 7,
минимальное 0. Средний рейтинг книги равен 3,9 максимальный 5, минимальный 1,5

### Анализ издательств

Определите издательство, которое выпустило наибольшее число книг толще
50 страниц — так вы исключите из анализа брошюры;

In [None]:
zad_3 =( '''

SELECT 
    COUNT(b.book_id),
    p.publisher_id,
    publisher
FROM books b
LEFT JOIN publishers p ON b.publisher_id=p.publisher_id
    WHERE num_pages > 50
    GROUP BY p.publisher_id
    ORDER BY COUNT(b.book_id) DESC
LIMIT 1

''')    
get_sql_data(zad_3)

`Penguin Books` Это издательство выпустило 42 книги объемом более 50 страниц, что является максимальным количеством таких книг 

### Анализ авторов

Определите автора с самой высокой средней оценкой книг — учитывайте
только книги с 50 и более оценками;

In [None]:
zad_4 =( '''
SELECT 
    a.author_id
FROM author a
LEFT JOIN books b ON a.author_id=b.author_id
WHERE b.book_id IN (
    SELECT 
        b.book_id
    FROM books b
    JOIN authors a ON b.author_id=a.author_id
    LEFT JOIN ratings r ON b.book_id=r.book_id
        GROUP BY b.book_id
        HAVING COUNT(r.username) >= 50
        ORDER BY AVG(r.rating) DESC, COUNT(r.username) DESC
   )
LIMIT 1
''')    
get_sql_data(zad_4)

In [None]:
zad_4 =( '''

SELECT 
    a.author,
    ROUND(AVG(rating), 6) avg_rating
FROM authors a
LEFT JOIN books b ON a.author_id=b.author_id
LEFT JOIN ratings r ON r.book_id=b.book_id
WHERE b.book_id IN (
    SELECT 
        b.book_id
    FROM books b
    JOIN authors a ON b.author_id=a.author_id
    LEFT JOIN ratings r ON b.book_id=r.book_id
        GROUP BY b.book_id
        HAVING COUNT(r.username) >= 50
        ORDER BY  COUNT(r.username) DESC)
GROUP BY a.author    
ORDER BY AVG(rating) desc
LIMIT 1


''')    
get_sql_data(zad_4)

Максимальный средний рейтинг, среди книг с пятидесятью и более оценками, равен 4,29 и он принаджежит слудующему автору `J.K. Rowling/Mary GrandPré`. 

### Анализ обзоров

Посчитайте среднее количество обзоров от пользователей, которые поставили
больше 48 оценок.

In [None]:
zad_5 =( '''

SELECT 
    AVG(count_reviews) avg_reviews
FROM (
    SELECT 
        COUNT(review_id) count_reviews,
        username
    FROM reviews
        WHERE username IN (
            SELECT 
                username
            FROM ratings
                GROUP BY username
                HAVING COUNT(rating_id) > 48
            )
        GROUP BY username    
) AS f


''')    
get_sql_data(zad_5)

In [None]:
zad_5 =( '''

SELECT 
    COUNT(count_reviews) count_reviews
FROM (
    SELECT 
        COUNT(review_id) count_reviews,
        username
    FROM reviews
        WHERE username IN (
            SELECT 
                username
            FROM ratings
                GROUP BY username
                HAVING COUNT(rating_id) > 48
            )
        GROUP BY username    
) AS f


''')    
get_sql_data(zad_5)

Средннее количество обзоров пользователей, которые поставили более 48 оценок, равно 24 обзора. Общее количество таких пользователей 13

## Вывод

Данные в таблице `books` представлены следующими столбцами: `book_id` идентификатор книги, `author_id` идентификатор автора,  `title` название книги, `num_pages` количество страниц, `publication_date` дата публикации книги, `publisher_id` идентификатор издателя. В таблице 1000 строк. Уникальных названий книг 999

Данные в таблице `authors` представлены следующими столбцами: `author_id` идентификатор автора,  `author` имя автора.  В таблице 636 строк. Уникальных авторов 636

Данные в таблице `publishers` представлены следующими столбцами: `publisher_id` идентификатор издателя, `publisher` название издательства. В таблице 340 строк. Уникальных издательств 340

Данные в таблице `ratings` представлены следующими столбцами: `rating_id` идентификатор оценки, `book_id` идентификатор книги,   `username` имя пользователя, оставившего оценку, `rating` оценка книги.  В таблице 6456 строк. Уникальных оценевающих пользователей 160.

Данные в таблице `reviews` представлены следующими столбцами: `review_id` идентификатор обзора, `book_id` идентификатор книги,   `username` имя пользователя написавшего обзор, `text` текст обзора.  В таблице 2793 строк. Уникальных критикующих пользователей 160.

Начиная с первого января 2000 года, на сервиве по подписке книг, было опубликованно 819 книг

Пользовательские рейтенги книг как и количество проставленных оценок отличаются у разных книг.

Среднее количество обзоров ровно 2,79, максимальное количество просмотров 7,
минимальное 0. Средний рейтинг книги равен 3,9 максимальный 5, минимальный 1,5

`Penguin Books` Это издательство выпустило 42 книги объемом более 50 страниц, что является максимальным количеством таких книг 

Максимальный средний рейтинг, среди книг с пятидесятью и более оценками, равен 4,29 и он принаджежит слудующему автору `J.K. Rowling/Mary GrandPré`. 


Средннее количество обзоров пользователей, которые поставили более 48 оценок, равно 24 обзора.

### Итоговый вывод

Куплен маленький сервис для чтения книг по подписке,  в сервисе представлено всего 1000 книг 81% из которых современные.  На сервисе публикуются 636 авторов из 340  издательств. Рейтинги и обзоры на сервисе отличаются, они "не накручены", но активная аудитория малеленькая, всего из 160 пользователей 13 активных.

### Рекомендации
- необходимо увеличивать количество книг на сервисе.
- необходимо привлекать как авторов так и издательства.
- Необходимо увеличивать как саму аудиторию читателей так и ее активность.
