# 1. Знакомство с данными

**Наименование исследования: "Анализ базы данных сервиса для чтения электронных книг"**

- **Цель исследования:** с помощью языка SQL проанализировать базу данных и предоставить ответы на требуемые вопросы, которые позволят сделать прогноз в отношении разработки нового продукта

- **Задачи исследования:** познакомиться с данными, разработать примерный план реализации проекта, предоставить требуемые выводы

**Примерный план выполнения исследования:**
- импорт библиотек
- поключение к базе данных
- знакомство с данными
- написание запросов
- "стандартизирование" запросов по общепринятым правилам (оформление) с помощью сервиса sqlformat.org
- запуск запросов в Jupiter Notebook с помощью библиотеки sqlalchemy
- формирование итогов исследования

**Аннотация к данным (легенда):**

**Таблица books**
Содержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

**Таблица authors**
Содержит данные об авторах:
- author_id — идентификатор автора;
- author — имя автора

**Таблица publishers**
Содержит данные об издательствах:
- publisher_id — идентификатор издательства;
- publisher — название издательства;

**Таблица ratings**
- Содержит данные о пользовательских оценках книг:
- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

**Таблица reviews**
- Содержит данные о пользовательских обзорах на книги:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя пользователя, написавшего обзор;
- text — текст обзора.

<code>[Схема базы данных](http://joxi.ru/eAOa063svQdPlm "Ссылка на схему")
</code>

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

Познакомимся с содержимым каждой таблицы, "участвующей" в исследовании:

Для удобства ознакомления с количеством записей и столбцов в каждой таблице зададим функцию len_table:

In [3]:
def len_table (table_name):
    print('Количество записей в таблице:', len(table_name)) , print('Количество столбцов в таблице:', len(table_name.columns))

In [4]:
request_1 = '''
SELECT *
FROM books
'''
table_books = pd.io.sql.read_sql(request_1, con = engine)
display(table_books.sample(10))

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
726,727,421,The Five People You Meet in Heaven,196,2003-09-23,159
430,431,32,Merrick (The Vampire Chronicles #7),370,2001-10-02,33
653,654,279,The Bone Collector (Lincoln Rhyme #1),528,1998-04-01,266
367,368,258,Judge & Jury,419,2006-07-31,176
29,30,447,A Long Way Down,368,2006-05-02,247
768,769,359,The Killing Dance (Anita Blake Vampire Hunter...,368,2006-04-04,47
826,827,226,The Player of Games (Culture #2),293,1997-02-01,141
241,242,165,Fast Food Nation: The Dark Side of the All-Ame...,399,2005-07-05,129
101,102,281,Bitter Is the New Black: Confessions of a Cond...,400,2006-03-07,186
797,798,579,The Millionaire Next Door: The Surprising Secr...,258,1998-10-01,111


In [5]:
len_table(table_books)

Количество записей в таблице: 1000
Количество столбцов в таблице: 6


Проверим типы данных:

In [6]:
table_books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


**Аналогичным образом познакомимся с остальными таблицами:**

In [7]:
request_2 = '''
SELECT *
FROM authors
'''
table_authors = pd.io.sql.read_sql(request_2, con = engine)
display(table_authors.sample(10))

Unnamed: 0,author_id,author
135,136,Donald Miller
151,152,Edgar Rice Burroughs
169,170,Ernest Hemingway/John Hemingway/Patrick Heming...
543,544,Stephen King/Bernie Wrightson/Michele Wrightson
551,552,Stephen R. Covey/A. Roger Merrill/Rebecca R. M...
54,55,Betty MacDonald/Alexandra Boiger
172,173,Evelyn Waugh
346,347,Kerry Patterson/Joseph Grenny/Ron McMillan/Al ...
155,156,Edmond Rostand/Eteel Lawson/Lowell Bair
355,356,Lance Armstrong/Sally Jenkins


In [8]:
len_table(table_authors)

Количество записей в таблице: 636
Количество столбцов в таблице: 2


In [9]:
table_authors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


In [10]:
request_3 = '''
SELECT *
FROM publishers
'''
table_publishers = pd.io.sql.read_sql(request_3, con = engine)
display(table_publishers.sample(10))

Unnamed: 0,publisher_id,publisher
139,140,HarperPerennial / Perennial Classics
291,292,Thorndike Press
246,247,Riverhead Books
319,320,W. W. Norton Company
243,244,Random House Vintage
13,14,Amistad
306,307,Viking
256,257,Scholastic Press
92,93,Doubleday
224,225,Plaza y Janés


In [11]:
len_table(table_publishers)

Количество записей в таблице: 340
Количество столбцов в таблице: 2


In [12]:
table_publishers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


In [13]:
request_4 = '''
SELECT *
FROM ratings
'''
table_ratings = pd.io.sql.read_sql(request_4, con = engine)
display(table_ratings.sample(10))

Unnamed: 0,rating_id,book_id,username,rating
132,133,28,cassandragomez,3
5795,5796,888,eallen,3
2953,2954,461,fharris,5
1479,1480,267,serranoangela,4
5376,5377,831,vanessagardner,4
4042,4043,656,joe06,5
5903,5904,909,danielchung,4
1148,1149,195,lewisdesiree,5
3801,3802,624,vanessagardner,3
2533,2534,405,kristykirby,3


In [14]:
len_table(table_ratings)

Количество записей в таблице: 6456
Количество столбцов в таблице: 4


In [15]:
table_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


In [16]:
request_5 = '''
SELECT *
FROM reviews
'''
table_reviews = pd.io.sql.read_sql(request_5, con = engine)
display(table_reviews.sample(10))

Unnamed: 0,review_id,book_id,username,text
1308,1308,475,amy97,East condition quite when understand rule. Env...
1275,1275,464,lewisdesiree,You reach while sister store. Speak performanc...
1210,1210,440,dmiller,Nothing wall great policy piece his. Interest ...
1428,1428,517,sfitzgerald,Pay there trip culture smile.
2484,2484,887,brandtandrea,Most large your song international reality lea...
2319,2319,833,daniel19,Evidence industry weight size drug. Daughter o...
22,23,9,williamsangela,Plan doctor man admit news. Market thousand tr...
20,21,8,cassandra90,Blue at simple ok project. Film old firm away.
953,954,353,shermannatalie,Say him main Republican series. Account nation...
1742,1741,631,carla64,Single determine national authority. Product t...


In [17]:
len_table(table_reviews)

Количество записей в таблице: 2793
Количество столбцов в таблице: 4


In [18]:
table_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


**Вывод:**
- в исследовании будут задействованы 5 таблиц
- осуществлены SQL-запросы, которые были обработаны с помощью библиотеки sqlalchemy
- было изучено количество записей и количество столбцов для каждой из страниц
- произведено "поверхностное знакомство" с содержимым таблиц

# 2. Выполнение исследования

Объявим функцию, чтобы избежать "рутинной" работы по повторению вызова pd.io.sql.read_sql в конце каждого запроса и необходимости записывать его в отдельную переменную.

In [19]:
def show_result(request_sql):
    return pd.io.sql.read_sql(request_sql, con = engine)

## 2.1. Определение количества книг, вышедших после 1 января 2000 года

In [20]:
count_books = '''
SELECT COUNT (*)
FROM books
WHERE publication_date >= '2000-01-02';
'''
show_result(count_books)

Unnamed: 0,count
0,819


Среди имеющейся "библиотеки" книг компании после 1 января 2000 года было выпущено 819 произведений

## 2.2. Определение количества обзоров и средней оценки для каждой книги

In [21]:
count_review_avg_rating = '''
SELECT
    b.title,
    (
        SELECT
            COUNT(review_id) AS review_count
        FROM reviews
        WHERE book_id = b.book_id
    ),
    (
        SELECT
            ROUND(AVG(rating),2)
        FROM ratings
        WHERE book_id = b.book_id
    ) AS avg_rating
FROM books AS b, reviews AS r
GROUP BY b.book_id
order by review_count desc;
'''
show_result(count_review_avg_rating)

Unnamed: 0,title,review_count,avg_rating
0,Twilight (Twilight #1),7,3.66
1,Water for Elephants,6,3.98
2,The Glass Castle,6,4.21
3,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
4,The Curious Incident of the Dog in the Night-Time,6,4.08
...,...,...,...
995,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67
996,The Natural Way to Draw,0,3.00
997,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.00
998,Essential Tales and Poems,0,4.00


Такой запрос позволит нам посмотреть как рейтинг по каждому произведению и увидеть количество рецензий.

## 2.3. Определите издательства, которое выпустило наибольшее число книг толще 50 страниц

In [22]:
publisher_50 = '''
SELECT publishers.publisher,
       COUNT(book_id)
FROM books
LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE num_pages > 50
GROUP BY publishers.publisher
ORDER BY COUNT(book_id) DESC
LIMIT 5
'''
show_result(publisher_50)

Unnamed: 0,publisher,count
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Bantam,19


Больше всего книг, толщиной более 50 страниц было выпущено издательством Penguin Books - 42 книги. Для решения запроса была применена группировка и сортировка по количеству книг от большего к меньшему. Поскольку, мы ищем одно издательство, достаточно посмотреть первую строку, но для сравнения выведем 5. В итоге, под требуемые критерии попадает вышеупомянутое издательство, которое "лидирует" с большим отрывом

## 2.4.Определение автора с самой высокой средней оценкой книг (50 и более оценок)

In [23]:
top_author = '''
SELECT author,
       ROUND(AVG(rate.rating),3) AS avg_rating
FROM
  (SELECT author,
          AVG(rating) AS rating
   FROM
     (SELECT *
      FROM books
      WHERE book_id IN
          (SELECT book_id
           FROM ratings
           GROUP BY book_id
           HAVING COUNT(rating) >= 50
           )
           ) AS books_int
   INNER JOIN authors ON books_int.author_id = authors.author_id
   INNER JOIN ratings ON books_int.book_id = ratings.book_id
   GROUP BY author
   ) AS rate
GROUP BY author
ORDER BY avg_rating DESC
LIMIT 5
'''
show_result(top_author)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287
1,Markus Zusak/Cao Xuân Việt Khương,4.264
2,J.R.R. Tolkien,4.247
3,Louisa May Alcott,4.192
4,Rick Riordan,4.081


Для нахождения требуемых показателей понадобилось воспользоваться подзапросом. Сначала, были получены данные, соответствующие условию (чтобы оценок было 50+), затем, выведена "сводная" таблица, в которой указаны только данные автора и средний рейтинг. Для удобства восприятия, рейтинг ограничен двумя знаками после запятой.

Наиболее высокий рейтинг, среди авторов, в разрезе не менее 50-ти суммарных оценок у Дж.К.Роулинг, что неудивительно, с учетом того, что ее основной бренд "Гарри Поттер" даже спустя много лет после выхода последней книги серии успешно продается, переиздается, и.т.п. Судя по всему, через слеш указаны ФИО иллюстратора. На втором месте Маркус Зузак, иллюстратор Cao Xuân Việt Khương. Третье место у Толкиена.
Стоит также отметить, что есть не ограничить запрос первыми пятью строками, будет наблюдаться "падение" рейтинга. С шестой строки от будет уже менее 3,9.

## 2.5.  Определение среднего количества обзоров от пользователей, которые поставили больше 50 оценок

In [24]:
count_reviews_user = '''
SELECT ROUND(AVG(subquery.count_review), 0)
FROM
  (SELECT COUNT(review_id) AS count_review
   FROM reviews
   WHERE username IN
       (SELECT username
        FROM ratings
        GROUP BY username
        HAVING COUNT(rating) > 50)
   GROUP BY username) AS subquery;
'''
show_result(count_reviews_user)

Unnamed: 0,round
0,24.0


С помощью ряда подзапросов было найдено требуемое значение: 24 пользователя поставили более 50 оценок. С учетом того, что книги сейчас (в любом формате) не самый популярный вид досуга - такие клиенты настоящие поклонники литературы.

# 3. Выводы

В ходе реализации проекта были использованы 5 таблиц из базы данных. На момент исследования в базе были сведения о:
- 1000 произведений
- 636 авторах
- 340 издательствах
- 6456 оценках
- 2793 рецензиях

Также:
- с начала 2000 года было выпущено 819 произведений
- для каждой книги были определены средний балл (оценка) и количество обзоров
- определено издательство, которое наиболее часто издает книги толщиной более 50 страниц (Penguin Books)
- наиболее высокие оценки по мнению читателей ресурса у Дж.К.Роулинг и Маркуса Зузака
- пользователи, которые поставили более 50 оценок, в среднем оставляют 24 обзора