 
 ### Анализ базы данных книг

 Описание проекта: Компания купила крупный сервис для чтения книг по подписке. Наша первая задача как аналитика — проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.  
 
 Цель исследования: Проанализировать базу данных с помощью SQL-запросов и сформулировать ценностное предложение для нового продукта. 
 
Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

### Изучение таблиц

В ходе исследования нам требуется ответить на некоторые вопросы. Для начала импортируем библиотеки и подключимся к БД

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

#### books

In [3]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''

con=engine.connect()

books = pd.io.sql.read_sql(sql=text(query), con = con)

In [4]:
#соберем первичную информацию о файле
print('---------------Первые 5 строк-------------------------------------------------')
display(books.head())
print('---------------Инфо о файле---------------------------------------------------')
display(books.info())
print('---------------Описание файла-------------------------------------------------')
display(books.describe())
print('---------------Пустые значения------------------------------------------------')
display(books.isna().sum())
print('---------------Полные дубли в данных------------------------------------------')
display(books.duplicated().sum())

---------------Первые 5 строк-------------------------------------------------


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


---------------Инфо о файле---------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           5 non-null      int64 
 1   author_id         5 non-null      int64 
 2   title             5 non-null      object
 3   num_pages         5 non-null      int64 
 4   publication_date  5 non-null      object
 5   publisher_id      5 non-null      int64 
dtypes: int64(4), object(2)
memory usage: 368.0+ bytes


None

---------------Описание файла-------------------------------------------------


Unnamed: 0,book_id,author_id,num_pages,publisher_id
count,5.0,5.0,5.0,5.0
mean,3.0,325.0,567.0,228.2
std,1.581139,208.694753,262.114479,108.049526
min,1.0,82.0,322.0,93.0
25%,2.0,125.0,386.0,135.0
50%,3.0,407.0,541.0,268.0
75%,4.0,465.0,594.0,309.0
max,5.0,546.0,992.0,336.0


---------------Пустые значения------------------------------------------------


book_id             0
author_id           0
title               0
num_pages           0
publication_date    0
publisher_id        0
dtype: int64

---------------Полные дубли в данных------------------------------------------


0

#### authors

In [5]:
# получаем данные таблицы 
query = '''
            SELECT * FROM authors
        '''
# подключения к базе данных для Sqlite
authors = pd.io.sql.read_sql(query, con = engine)

In [6]:
#соберем первичную информацию о файле
print('---------------Первые 5 строк-------------------------------------------------')
display(authors.head())
print('---------------Инфо о файле---------------------------------------------------')
display(authors.info())
print('---------------Описание файла-------------------------------------------------')
display(authors.describe())
print('---------------Пустые значения------------------------------------------------')
display(authors.isna().sum())
print('---------------Полные дубли в данных------------------------------------------')
display(authors.duplicated().sum())

---------------Первые 5 строк-------------------------------------------------


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


---------------Инфо о файле---------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


None

---------------Описание файла-------------------------------------------------


Unnamed: 0,author_id
count,636.0
mean,318.5
std,183.741666
min,1.0
25%,159.75
50%,318.5
75%,477.25
max,636.0


---------------Пустые значения------------------------------------------------


author_id    0
author       0
dtype: int64

---------------Полные дубли в данных------------------------------------------


0

#### publishers

In [7]:
# получаем данные таблицы 
query = '''
            SELECT * FROM publishers
        '''
# подключения к базе данных для Sqlite
publishers = pd.io.sql.read_sql(query, con = engine)

In [8]:
#соберем первичную информацию о файле
print('---------------Первые 5 строк-------------------------------------------------')
display(publishers.head())
print('---------------Инфо о файле---------------------------------------------------')
display(publishers.info())
print('---------------Описание файла-------------------------------------------------')
display(publishers.describe())
print('---------------Пустые значения------------------------------------------------')
display(publishers.isna().sum())
print('---------------Полные дубли в данных------------------------------------------')
display(publishers.duplicated().sum())

---------------Первые 5 строк-------------------------------------------------


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


---------------Инфо о файле---------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


None

---------------Описание файла-------------------------------------------------


Unnamed: 0,publisher_id
count,340.0
mean,170.5
std,98.293777
min,1.0
25%,85.75
50%,170.5
75%,255.25
max,340.0


---------------Пустые значения------------------------------------------------


publisher_id    0
publisher       0
dtype: int64

---------------Полные дубли в данных------------------------------------------


0

#### ratings

In [9]:
# получаем данные таблицы 
query = '''
            SELECT * FROM ratings
        '''
# подключения к базе данных для Sqlite
rating = pd.io.sql.read_sql(query, con = engine)

In [10]:
#соберем первичную информацию о файле
print('---------------Первые 5 строк-------------------------------------------------')
display(rating.head())
print('---------------Инфо о файле---------------------------------------------------')
display(rating.info())
print('---------------Описание файла-------------------------------------------------')
display(rating.describe())
print('---------------Пустые значения------------------------------------------------')
display(rating.isna().sum())
print('---------------Полные дубли в данных------------------------------------------')
display(rating.duplicated().sum())

---------------Первые 5 строк-------------------------------------------------


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


---------------Инфо о файле---------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


None

---------------Описание файла-------------------------------------------------


Unnamed: 0,rating_id,book_id,rating
count,6456.0,6456.0,6456.0
mean,3228.5,510.574195,3.928284
std,1863.831001,284.141636,0.943303
min,1.0,1.0,1.0
25%,1614.75,291.0,3.0
50%,3228.5,506.0,4.0
75%,4842.25,750.0,5.0
max,6456.0,1000.0,5.0


---------------Пустые значения------------------------------------------------


rating_id    0
book_id      0
username     0
rating       0
dtype: int64

---------------Полные дубли в данных------------------------------------------


0

#### reviews

In [11]:
#  получаем данные таблицы 

query = '''
        SELECT * FROM reviews

        '''

# подключение к базе данных для sqlite
reviews= pd.io.sql.read_sql( query, con = engine)

In [12]:
#соберем первичную информацию о файле
print('---------------Первые 5 строк-------------------------------------------------')
display(reviews.head())
print('---------------Инфо о файле---------------------------------------------------')
display(reviews.info())
print('---------------Описание файла-------------------------------------------------')
display(reviews.describe())
print('---------------Пустые значения------------------------------------------------')
display(reviews.isna().sum())
print('---------------Полные дубли в данных------------------------------------------')
display(reviews.duplicated().sum())

---------------Первые 5 строк-------------------------------------------------


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


---------------Инфо о файле---------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


None

---------------Описание файла-------------------------------------------------


Unnamed: 0,review_id,book_id
count,2793.0,2793.0
mean,1397.0,504.693161
std,806.413976,288.472931
min,1.0,1.0
25%,699.0,259.0
50%,1397.0,505.0
75%,2095.0,753.0
max,2793.0,1000.0


---------------Пустые значения------------------------------------------------


review_id    0
book_id      0
username     0
text         0
dtype: int64

---------------Полные дубли в данных------------------------------------------


0

#### Вывод
Данные готовы для анализа - нет каких-то проблем с типами данных, дуьликатами или пустыми значениями

In [None]:
# КОД РЕВЬЮЕРА
# какие ещё таблицы доступны в базе
display(pd.io.sql.read_sql('''

SELECT *
FROM pg_catalog.pg_tables
WHERE schemaname != 'pg_catalog' AND
      schemaname != 'information_schema';

''', con = engine))


# смотрим на типы столбцов в интересующих таблицах
display(pd.io.sql.read_sql('''
SELECT 
    table_name, 
    column_name, 
    data_type, 
    is_nullable
FROM INFORMATION_SCHEMA.COLUMNS 
WHERE table_name IN ('books', 'authors', 'publishers', 'ratings', 'reviews');
''', con = engine))

### Анализ данных
#### Посчитайте, сколько книг вышло после 1 января 2000 года

In [13]:
query = ''' SELECT count(*) FROM books 
            WHERE publication_date >'2000-01-01' '''

pd.read_sql(query, con = engine)

Unnamed: 0,count
0,819


In [14]:
query = ''' SELECT max(publication_date) FROM books 
            '''

pd.read_sql(query, con = engine)

Unnamed: 0,max
0,2020-03-31


Получается, что более чем за 20 лет вышло только 819 новых книг - это примерно по 41 книге в год. Не густо...

#### Для каждой книги посчитайте количество обзоров и среднюю оценку

In [15]:
query = ''' SELECT b.book_id, b.title,
            COUNT(DISTINCT r.review_id) as c_rev,
            AVG(rt.rating) as avg_rating
            FROM BOOKS b 
            LEFT JOIN ratings rt ON rt.book_id=b.book_id 
            LEFT JOIN reviews r ON r.book_id=rt.book_id
            GROUP BY b.book_id
            ORDER BY c_rev DESC '''

pd.read_sql(query, con = engine)

Unnamed: 0,book_id,title,c_rev,avg_rating
0,948,Twilight (Twilight #1),7,3.662500
1,963,Water for Elephants,6,3.977273
2,734,The Glass Castle,6,4.206897
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667
996,808,The Natural Way to Draw,0,3.000000
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.000000
998,221,Essential Tales and Poems,0,4.000000


Мы видим, что Сумерки лидируют по количеству обзоров, но получает среднюю оценку.

#### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [16]:
query = ''' SELECT p.publisher, 
            COUNT(b.publisher_id) as cnt
            FROM publishers p 
            LEFT JOIN books b ON p.publisher_id=b.publisher_id 
            WHERE num_pages > 50
            GROUP BY p.publisher
            ORDER BY cnt DESC
            LIMIT 1 '''

pd.read_sql(query, con = engine)

Unnamed: 0,publisher,cnt
0,Penguin Books,42


Судя по продуктам компании Penguin Books, они распространяют книги на английском языке. Тут стоит проанализировать какие книги пользуются спросом. Это можно было бы сделать, будь у нас информация на каком языке написана книга. 

#### Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [17]:
query = ''' SELECT a.author,
            AVG(rt.rating) AS avg_rating
            FROM authors a
            LEFT JOIN books b ON b.author_id = a.author_id
            LEFT JOIN ratings rt ON rt.book_id = b.book_id
            WHERE b.book_id IN (    SELECT bo.book_id FROM books bo
                                    LEFT JOIN ratings r ON r.book_id=bo.book_id
                                    GROUP BY bo.book_id
                                    having COUNT(bo.book_id)  >= 50)
            GROUP BY a.author  
            ORDER BY avg_rating DESC
            LIMIT 1    
             '''

pd.read_sql(query, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


Один из самых читаемых авторов

#### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

Т.к у юзеров нет отдельных id, надеюсь, что система не дает зарегистрироваться разным людям на одинаковые имена(тут я бы уточнила), поэтому я делаю проверку на уникальность имен(считая, что они не дублируются), а потом сравниваю количество в таблицах. Они логично должны совпасть - скорее всего, когда ты пишешь ревью, то ты и оставляешь оценку книге.

In [18]:
query = '''SELECT count(distinct username) FROM ratings 
             '''

pd.read_sql(query, con = engine)

Unnamed: 0,count
0,160


In [19]:
query = '''SELECT count(distinct username) FROM reviews 
             '''

pd.read_sql(query, con = engine)

Unnamed: 0,count
0,160


Все совпало

In [20]:
query = ''' WITH a as 
             (SELECT username, count(username) as cnt_r FROM ratings 
             GROUP BY username
             HAVING   count(username) > 48),
             
            o as ( select COUNT(text) as c_text FROM a LEFT JOIN reviews r ON r.username=a.username
             GROUP BY r.username)
             
            SELECT ROUND(AVG(o.c_text)) FROM o
             '''

pd.read_sql(query, con = engine)

Unnamed: 0,round
0,24.0


Среднее количество обзоров - 24

###  Вывод

Для каких-то хороших рекомендаций мне нехватает информации. Например не очень понятна регистрация пользователей, могут ли они задублировать имена(от этого и в 5п может поменяться значение), а так же вопрос по языкам книг. Тут скорее рекомендации/вопросы к DWH-отделу

**Рекомендации**

Нужно пересмотреть кол-во книг выпускаемое а площадке - ~41 книга в год не сможет привлечь много пользователей. 

Следует провести дополнительное исследование на тему какие книги читают пользователи - на зарубежных языках или на русском? Это может задать определенный вектор развития приложению.

У нас очень активные пользователи, с этим можно работать. Из вариантов: предложить дополнительные баллы за ревью, которые можно на что-то потратить. Как вариант, можно предлагать скидку на подписку, если ты приглашаешь друга в приложение.