# Анализ данных сервиса для чтения книг

**Цель исследования:**   проанализировать базу данных сервис для чтения книг по подписке, собрать данные, которые помогут сформулировать ценностное предложение для нового продукта.
    

**Имеющиеся данные:** база данных с информацией о книгах, издательствах, авторах, а также пользовательские обзоры книг.

**План работы:**

- загрузка данных и изучение общей информации;
- анализ данных;
- выводы.

## Загрузка данных и изучение общей информации.

Импортируем библиотеки, получим доступ к базе данных, изучим имеющеся данные, выведем на экран первые строки таблиц.

### Загрузка данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine


In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Изучение таблицы books

Выведем первые строки таблицы books.

In [3]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Таблица books cодержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

book_id - первичный ключ таблицы,а также внешний ключ к таблицам ratings и reviews.

publisher_id - внешний ключ к таблице publishers.

author_id - - внешний ключ к таблице authors.


### Изучение таблицы authors

Выведем первые строки таблицы authors.

In [4]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM authors LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Таблица authors cодержит данные об авторах:
- author_id — идентификатор автора;
- author — имя автора.

author_id - первичный ключ таблицы,а также внешний ключ к таблице books

### Изучение таблицы publishers

Выведем первые строки таблицы publishers.

In [5]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM publishers LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Таблица publishers содержит данные об издательствах:
- publisher_id — идентификатор издательства;
- publisher — название издательства;

publisher_id - первичный ключ таблицы,а также внешний ключ к таблице books

### Изучение таблицы ratings

Выведем первые строки таблицы ratings.

In [6]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM ratings LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Таблица ratings содержит данные о пользовательских оценках книг:
- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

rating_id - первичный ключ таблицы

book_id - внешний ключ к таблице books

### Изучение таблицы reviews

Выведем первые строки таблицы reviews.

In [7]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM reviews LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Таблица reviews cодержит данные о пользовательских обзорах:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.


review_id - первичный ключ таблицы

book_id - внешний ключ к таблице books

## Анализ данных

Посчитаем количество вышедших книг, количество обзоров и среднюю оценку. Определим  издательство, выпустивышее наибольшее число кинг. Определим автора с самой высокой средней оценкой книг. Посчитаем среднее число обзоров активных пользователей.

### Количество книг, выпущенных после 1 января 2000 года.

Посчитаем общее количество книг, вышедших после 1 января 2000 года.

In [8]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''
SELECT COUNT (book_id) AS число_книг
FROM books 
WHERE publication_date > '2000-01-01' '''

con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,число_книг
0,819


После 1 января 2000 года было выпущено 819 книг.

### Количество обзоров и средняя оценка.

Для каждой книги посчитаем количество обзоров и среднюю оценку.

In [9]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''
SELECT b.title,
        COUNT(DISTINCT rw.review_id) AS count_review,
        AVG(rt.rating) AS avg_rating
FROM books AS b
LEFT JOIN reviews AS rw ON b.book_id = rw.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id 
ORDER BY count_review DESC'''

con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,title,count_review,avg_rating
0,Twilight (Twilight #1),7,3.662500
1,Water for Elephants,6,3.977273
2,The Glass Castle,6,4.206897
3,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,The Curious Incident of the Dog in the Night-Time,6,4.081081
...,...,...,...
995,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667
996,The Natural Way to Draw,0,3.000000
997,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.000000
998,Essential Tales and Poems,0,4.000000


По каждой книге было посчитано количество обзоров - count_review и средний рейтинг - avg_rating 

### Издательство, с наибольшим числом книг 

Определим издательство, которое выпустило наибольшее число книг толще 50 страниц (исключить из анализа брошюры).

In [10]:
# чтобы выполнить SQL-запрос, используем Pandas

query = '''
WITH b AS (SELECT publisher_id,
                COUNT(book_id) AS book_count
            FROM books
            WHERE num_pages > 50
            GROUP BY publisher_id)       
SELECT publisher,
        book_count
FROM b 
LEFT JOIN publishers AS p ON b.publisher_id = p.publisher_id
WHERE book_count = (SELECT MAX(book_count)
                    FROM b)'''

con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher,book_count
0,Penguin Books,42


Издательство, которое выпустило наибольшее число книг толще 50 страниц - Penguin Books, число выпущенных книг - 42.

###  Автор с самой высокой средней оценкой книг

Определим автора с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками.

In [11]:
query = '''
WITH br AS (SELECT b.book_id,
                    b.author_id
            FROM books AS b
            LEFT JOIN ratings AS r ON b.book_id = r.book_id
            GROUP BY b.book_id
            HAVING COUNT(r.rating) >= 50)       
SELECT a.author,
        AVG(r.rating) AS avg_rating
FROM br
LEFT JOIN ratings AS r ON br.book_id = r.book_id
LEFT JOIN authors AS a ON br.author_id = a.author_id
GROUP BY author
ORDER BY avg_rating DESC
LIMIT 1'''

con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


Автор с самой высокой средней оценкой (учитывая только книги с 50 и более оценками) -  J.K. Rowling/Mary GrandPré, средняя оценка 4,28.

###  Cреднее количество обзоров от пользователей

Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [12]:
query = '''
WITH rt AS (SELECT username   
            FROM ratings
            GROUP BY username
            HAVING COUNT(rating) > 48)       

SELECT AVG(count_reviews) AS avg_reviews
FROM (SELECT rt.username,
        COUNT (review_id) AS count_reviews
        FROM rt
        LEFT JOIN reviews AS rw ON rt.username = rw.username
        GROUP BY rt.username) AS u
'''

con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,avg_reviews
0,24.0


Среднее количество обзоров от пользователей, которые поставили больше 48 оценок - 24 обзора.

## Вывод

Нами был проведен **анализ данных сервиса для чтения книг.**

**Цель исследования:**   проанализировать базу данных сервис для чтения книг по подписке, собрать данные, которые помогут сформулировать ценностное предложение для нового продукта.
    

**Имеющиеся данные:** база данных с информацией о книгах, издательствах, авторах, а также пользовательские обзоры книг.

В результате анализа выявлено:

- количество книг, выпущенных после 1 января 2000 года -  819 книг
- по каждой книге было посчитано количество обзоров - count_review и средний рейтинг - avg_rating 
- издательство, выпустившее наибольшее число книг толще 50 страниц - Penguin Books.
- автор с самой высокой средней оценкой (кучитывая только книги с 50 и более оценками) - J.K. Rowling/Mary GrandPré, средняя оценка 4,28.
- среднее количество обзоров от пользователей, которые поставили больше 48 оценок - 24 обзора