# Анализ баз данных для компании, приобретшей сервис для чтения книг по подписке

Получение данных, которые помогут сформулировать ценностное предложение для нового продукта.

**Для этого необходимо:**
1. *Подключиться к базе SQL.*

2. *Изучить таблицы*

3.  *Выполнить поставленные заказчиком задания.*

4.  *Сопроводить выполненные задания краткими выводами и возможными комментариями.*

**Описание данных:**

**Таблица books**

Содержит данные о книгах:

- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

**Таблица authors**

Содержит данные об авторах:

- author_id — идентификатор автора;
- author — имя автора.

**Таблица publishers**

Содержит данные об издательствах:

- publisher_id — идентификатор издательства;
- publisher — название издательства.

**Таблица ratings**

Содержит данные о пользовательских оценках книг:

- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

**Таблица reviews**

Содержит данные о пользовательских обзорах на книги:

- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя пользователя, написавшего обзор;
- text — текст обзора.

### Задания

- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

<a id='contents'></a>
**Содержание:**

- Шаг 1 - [Изучение общей информации о данных](#data_import)
- Шаг 2 - [Анализ данных](#data_analysis)
- [Общий вывод](#general_conclusion)

*Импортируем библиотеки:*

In [1]:
import pandas as pd 
from sqlalchemy import create_engine 

*Устанавливаем параметры:*

In [2]:
db_config = {'user': '***', # имяпользователя
             'pwd': '***', # пароль
             'host': '***', 
             'port': ***,# портподключения
             'db': '***'} # названиебазыданных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],  db_config['pwd'],  db_config['host'],  db_config['port'],  db_config['db'])  

engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

<a id='data_import'></a>
### Откроем таблицы с данными и изучим общую информацию:

In [3]:
query = """
  SELECT *
  FROM books;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [4]:
query = """
  SELECT *
  FROM authors;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [5]:
query = """
  SELECT *
  FROM publishers;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [6]:
query = """
  SELECT *
  FROM ratings;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [7]:
query = """
  SELECT *
  FROM reviews;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


[В начало](#contents)

<a id='data_analysis'></a>
## Анализ данных:

*Посчитаем, сколько книг вышло после 1 января 2000 года:*

In [8]:
query = """
 SELECT
      COUNT(books.book_id) AS books_count
 FROM
    books
 WHERE 
    books.publication_date :: date >= '2000-01-01' :: date;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,books_count
0,821


In [9]:
query = """
  SELECT MAX(publication_date :: date)
  FROM books;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,max
0,2020-03-31


In [10]:
print('Количество книг, которые выходят в месяц:', 821 / ((20 * 12) + 3))

Количество книг, которые выходят в месяц: 3.3786008230452675


**Вывод:**

- Если не брать разбивку по издательствам, то в целом книги выпускаются достаточно бодро.

*Для каждой книги посчитаем количество обзоров и среднюю оценку:*

In [11]:
query = """
 SELECT
   ratings.book_id,
   AVG(rating) AS avg_rating,
   subq.reviews_count AS reviews_count
 FROM 
   ratings
 LEFT JOIN
  (
   SELECT
    reviews.book_id,
    COUNT(reviews.review_id) AS reviews_count
   FROM
    reviews
   GROUP BY
    reviews.book_id
  ) AS subq 
 ON 
   ratings.book_id = subq.book_id
 WHERE
   subq.book_id IS NOT NULL
 GROUP BY
    ratings.book_id,
    subq.reviews_count
 ORDER BY
    avg_rating DESC;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,avg_rating,reviews_count
0,321,5.00,2
1,224,5.00,2
2,213,5.00,2
3,518,5.00,2
4,469,5.00,2
...,...,...,...
989,915,2.25,3
990,316,2.00,2
991,202,2.00,3
992,371,2.00,2


**Вывод:**

- Средний рейтинг не влияет на количество обзоров, и наоборот.

*Определим издательство, которое выпустило наибольшее число книг толще 50 страниц (исключим количеством страниц из анализа брошюры):*

In [12]:
query = """
 SELECT
   publishers.publisher_id,
   publisher,
   MAX(subq.books_count) AS max_publishes
 FROM 
   publishers
 LEFT JOIN
  (
  SELECT 
    books.publisher_id,
    COUNT(books.book_id) AS books_count
  FROM books
  WHERE books.num_pages > 50
  GROUP BY
    books.publisher_id
  ) AS subq 
 ON 
   publishers.publisher_id = subq.publisher_id
 WHERE
   subq.publisher_id IS NOT NULL
 GROUP BY
    publishers.publisher_id
 ORDER BY
     max_publishes DESC
 LIMIT 
     1;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher,max_publishes
0,212,Penguin Books,42


**Вывод:**

- Мы рассматриваем издательства с не самым большим количеством авторских/издательских прав.

*Определим автора с самой высокой средней оценкой книг (учитывайте только книги с 50 и более оценками):*

In [13]:
query = """
 SELECT
    authors.author AS author,
    AVG(subq.avg_rating) AS avg_author_rating
 FROM
    authors
 INNER JOIN
    books ON books.author_id = authors.author_id
 INNER JOIN
   ( 
    SELECT
      book_id,
      AVG(rating) AS avg_rating,
      COUNT(rating_id) AS ratings_count
    FROM
      ratings
    GROUP BY
      book_id
    ) AS subq 
    ON subq.book_id = books.book_id
    WHERE
      subq.ratings_count > 50
  GROUP BY
    author
  ORDER BY
    avg_author_rating DESC
   LIMIT 
     1;  
   """

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg_author_rating
0,J.K. Rowling/Mary GrandPré,4.283844


**Вывод:**

- Оценка книг производилась среди англоязычных пользователей.

*Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок:*

In [14]:
query = """
 SELECT
   COUNT(reviews.username) AS reviewers_count,
   AVG(subq_2.reviews_count) AS avg_reviews_count
 FROM 
   reviews
 LEFT JOIN 
  (
  SELECT
   reviews.username,
   subq_1.rates_count,
   COUNT(review_id) AS reviews_count
  FROM 
   reviews
  LEFT JOIN
   (
   SELECT 
     ratings.username,
     COUNT(rating_id) AS rates_count
   FROM 
     ratings 
   GROUP BY
     ratings.username
   ) AS subq_1
   ON 
    reviews.username = subq_1.username
   WHERE
    subq_1.username IS NOT NULL AND subq_1.rates_count > 50
  GROUP BY
     reviews.username,
     subq_1.rates_count
   ) AS subq_2
   ON 
    reviews.username = subq_2.username
   WHERE
    subq_2.username IS NOT NULL  
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,reviewers_count,avg_reviews_count
0,146,24.808219


**Вывод:**

- Особо активных читателей не так много, но они очень продуктивны в плане обзоров. Возможно, сказывается начитанность, выливающаяся в умение писать тексты.

[В начало раздела](#data_analysis)

[В начало](#contents)

<a id='general_conclusion'></a>
## Общий вывод

- Количество книг, которые выходят в месяц за рубежом в стране, где проводилось исследование: 3.3786008230452675
- Если не брать разбивку по издательствам, то в целом книги выпускаются достаточно бодро.
- Средний рейтинг не влияет на количество обзоров, и наоборот.
- Мы рассматриваем издательства с не самым большим количеством авторских/издательских прав.
- Оценка книг производилась среди англоязычных пользователей.
- Особо активных читателей не так много, но они очень продуктивны в плане обзоров. Возможно, сказывается начитанность, выливающаяся в умение писать тексты.

[В начало](#contents)