## Тема: "Анализ рынка книг"

### Цель: 
Проанализировать данные и выявить особенности рынка книг.

### Описание:
Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.

Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных.
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

### 1. Загрузим данные

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], db_config['pwd'], db_config['host'], db_config['port'],
db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
# Сделаем функцию, которая даст доступ к базе 
def code(x):
    query = x
    y = pd.io.sql.read_sql(query, con = engine)
    print(y)

In [4]:
# Выгрузим данные таблицы books
code('''
SELECT * 
  FROM books
 LIMIT 5''')

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  


In [5]:
# Выгрузим данные таблицы authors
code('''
SELECT * 
  FROM authors
 LIMIT 5''')

   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd


In [6]:
# Выгрузим данные таблицы publishers
code('''
SELECT * 
  FROM publishers
 LIMIT 5''')

   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company


In [7]:
# Выгрузим данные таблицы ratings
code('''
SELECT * 
  FROM ratings
 LIMIT 5''')

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2


In [8]:
# Выгрузим данные таблицы reviews
code('''
SELECT * 
  FROM reviews
 LIMIT 5''')

   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  


### Проведём анализ данных

In [9]:
code('''
SELECT COUNT(DISTINCT book_id)
  FROM books
 WHERE CAST(publication_date AS date) > '2000-01-01';''')

   count
0    819


<font color='green'> 819 книг вышло после 1 января 2000 года.</font>

In [10]:
code('''
SELECT title,
       AVG(ratings.rating) AS avg_rating, COUNT(DISTINCT reviews.review_id) AS count_review
  FROM books
       LEFT JOIN ratings 
       ON books.book_id=ratings.book_id
       LEFT JOIN reviews 
       ON books.book_id=reviews.book_id
 GROUP BY books.book_id
 ORDER BY count_review  DESC;''')

                                                 title  avg_rating  \
0                              Twilight (Twilight  #1)    3.662500   
1                                  Water for Elephants    3.977273   
2                                     The Glass Castle    4.206897   
3    Harry Potter and the Prisoner of Azkaban (Harr...    4.414634   
4    The Curious Incident of the Dog in the Night-Time    4.081081   
..                                                 ...         ...   
995    Anne Rice's The Vampire Lestat: A Graphic Novel    3.666667   
996                            The Natural Way to Draw    3.000000   
997   The Cat in the Hat and Other Dr. Seuss Favorites    5.000000   
998                          Essential Tales and Poems    4.000000   
999  Disney's Beauty and the Beast (A Little Golden...    4.000000   

     count_review  
0               7  
1               6  
2               6  
3               6  
4               6  
..            ...  
995             0  

Лидеры по средней оценке Arrows of the Queen (Heralds of Valdemar  #1), 'The Walking Dead  Book One' и т.д.\
'Twilight' занимает первое место по количеству обзоров.

In [11]:
code('''
SELECT publishers.publisher AS publisher, COUNT(book_id) AS num_books
  FROM books
  LEFT JOIN publishers 
    ON books.publisher_id=publishers.publisher_id
 WHERE num_pages > 50
 GROUP BY publisher
 ORDER BY num_books DESC
 LIMIT 1;''')

       publisher  num_books
0  Penguin Books         42


Penguin Books - издательство, которое выпустило наибольшее число книг толще 50 страниц

In [15]:
code('''
SELECT author
  FROM authors
  WHERE author_id IN
    (SELECT books.author_id AS author_id
       FROM books
            RIGHT JOIN ratings 
               ON books.book_id=ratings.book_id
      GROUP BY author_id
     HAVING COUNT(ratings.rating) > 50
      ORDER BY AVG(ratings.rating) DESC
      LIMIT 1)''')

                       author
0  J.K. Rowling/Mary GrandPré


Автором, с самой высокой средней оценкой книг, оказалась J.K. Rowling/Mary GrandPré.

In [13]:
code('''
SELECT ROUND(AVG(num_review),1) AS avg_review
  FROM
  (SELECT COUNT(review_id) AS num_review
     FROM reviews
    WHERE username IN
      (SELECT username
         FROM ratings
        GROUP BY username
       HAVING COUNT(rating) > 49
        ORDER BY COUNT(rating) DESC)
 GROUP BY username
 ORDER BY num_review DESC) AS t''')

   avg_review
0        24.2


24.3 - среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Общий вывод

- 818 книг вышло после 1 января 2000 года;
- 'Twilight' занимает первое место по количеству обзоров. А вот по средней оценке лидеров намного больше. Одни из них -'Arrows of the Queen (Heralds of Valdemar  #1)', 'The Walking Dead  Book One';
- Penguin Books - издательство, которое выпустило наибольшее число книг толще 50 страниц;
- Автором, с самой высокой средней оценкой книг, оказалась J.K. Rowling/Mary GrandPré. Весьма заслуженно. Вряд ли найдется человек, незнающий Гарри Поттера;
- 24.3 - среднее количество обзоров от пользователей, которые поставили больше 50 оценок.