## Введение 



Проект - анализ базы данных с использованием запросов **SQL**.
### Описание проекта

**Постановка задачи**

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.

Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных.
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.


### Декомпозиция проекта

**Цель проекта:** проанализировать базу данных и сформулировать ценностное предложение для нового продукта .



**Задания**

- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

**Описание выполнения шагов**

**Шаг 1. Цели исследования**

**Шаг 2. Исследование таблицы — первые строки**

**Шаг 3. SQL-запрос для решения каждого задания**

**Шаг 4. Выведите результат каждого запроса в тетрадке**

**Шаг 5. Выводы по каждой из решённых задач**


### Описание данных

**Данные**


**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.


## Сформулировать ели исследования

**Цель проекта:** проанализировать базу данных и сформулировать ценностное предложение для нового продукта.
### Загрузка библиотек и подключение

In [1]:
# импортируем библиотеки
import pandas as pd 
from sqlalchemy import create_engine 

In [2]:
password = ''

In [3]:

# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': password, # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
 db_config['pwd'], 
 db_config['host'], 
 db_config['port'], 
 db_config['db']) 
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

##  Исследование таблицы — выведите первые строки


### Посмотрим схему таблицы



![Image of dataftrames](https://concrete-web-bad.notion.site/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F069818d1-0e5c-4d87-a461-0de584ab9c33%2FUntitled_(33).png?id=bd53c8db-b4fd-49eb-8cc9-572ebb3c9163&table=block&spaceId=9e4bd47b-c6e6-4ca3-bcee-279794b47315&width=2000&userId=&cache=v2)

##  Исследование таблицы — выведите первые строки
### Таблица `books`
Выведем первые несколько строчек датафреймов `books`на экран.

In [4]:
pd.set_option('display.max_colwidth', 0)


In [5]:
def show_sql(query):
    df = pd.read_sql_query(query, con = engine)
    return df

In [6]:
query_books = '''
SELECT *
FROM books b
'''

In [7]:
show_sql(query_books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope #1),322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before Columbus,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [8]:
show_sql(query_books).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


Содержит данные о книгах:

- `book_id` — идентификатор книги - в числовом формате - `int64`
- `author_id` — идентификатор автора - в числовом формате - `int64`
- `title` — название книги - текст в формате - `object`
- `num_pages` — количество страниц - в числовом формате - `int64`
- `publication_date` — дата публикации книги - текст в формате - `object`
- `publisher_id` — идентификатор издателя - в числовом формате - `int64`

### Таблица `authors`  
Выведем первые несколько строчек датафреймов `authors`на экран.

In [9]:
query_authors = '''
SELECT *
FROM authors a
'''

In [10]:
show_sql(query_authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [11]:
show_sql(query_authors).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


Содержит данные об авторах:

- `author_id` — идентификатор автора - в числовом формате - `int64`
- `author` — имя автора - текст в формате - `object`

### Таблица `publishers`  

Выведем первые несколько строчек датафреймов `publishers`на экран.

In [12]:
query_publishers = '''
SELECT *
FROM publishers p
'''

In [13]:
show_sql(query_publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [14]:
show_sql(query_publishers).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства - в числовом формате - `int64`
- `publisher` — название издательства - текст в формате - `object`

### Таблица `ratings`  
Выведем первые несколько строчек датафреймов `ratings`на экран.

In [15]:
query_ratings = '''
SELECT *
FROM ratings r
'''

In [16]:
show_sql(query_ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [17]:
show_sql(query_ratings).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки  - в числовом формате - `int64`
- `book_id` — идентификатор книги  - в числовом формате - `int64`
- `username` — имя пользователя, оставившего оценку - текст в формате - `object`
- `rating` — оценка книги  - в числовом формате - `int64`

### Таблица `reviews`  
Выведем первые несколько строчек датафреймов `reviews`на экран.

In [18]:
query_reviews = '''
SELECT *
FROM reviews re
'''

In [19]:
show_sql(query_reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. Over provide race technology continue these.
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Among admit investment argue security.
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but person sport treatment industry. Kitchen decision deep the. Social party body the.
3,4,3,johnsonamanda,Finally month interesting blue could nature cultural bit. Prepare beat finish grow that smile teach. Dream me play near.
4,5,3,scotttamara,Nation purpose heavy give wait song will. List dinner another whole positive radio fast. Music staff many green.
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same enter true practice student system.
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy population. Pm vote take. Long born close thought person old. Visit ever school manage about.
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone foreign amount within cell. Ball poor hot that kid.


In [20]:
show_sql(query_reviews).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора - в числовом формате - `int64`
- `book_id` — идентификатор книги - в числовом формате - `int64`
- `username` — имя пользователя, написавшего обзор - текст в формате - `object`
- `text` — текст обзора - текст в формате - `object`



##  Решение заданий

###  Посчитайте, сколько книг вышло после 1 января 2000 года

#### SQL-запрос


In [21]:
query_books_amount = '''
SELECT COUNT (DISTINCT book_id) as num_books
FROM books b
WHERE publication_date :: date >'2005-11-01';
'''


#### Вывод результата  запроса 



In [22]:
show_sql(query_books_amount)

Unnamed: 0,num_books
0,277



#### Выводы пo задаче


После 1 января 2000 года  вышло 277 уникальных книг.

###  Посчитайте для каждой книги  количество обзоров и среднюю оценку

#### SQL-запрос


In [23]:
query_books_rat = '''
WITH book_ratings AS
  (SELECT AVG(rating) as avg_rating,
          book_id
   FROM ratings r
   GROUP BY book_id),
     book_reviews AS
  (SELECT book_id,
          count(DISTINCT review_id) as num_reviews
   FROM reviews re
   GROUP BY book_id)
SELECT b.*,
       br.avg_rating,
       be.num_reviews
FROM books b
JOIN book_ratings AS br ON b.book_id = br.book_id
JOIN book_reviews AS be ON br.book_id = be.book_id
ORDER BY  num_reviews DESC, avg_rating DESC;
'''



#### Вывод результата  запроса 



In [24]:
show_sql(query_books_rat)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id,avg_rating,num_reviews
0,948,554,Twilight (Twilight #1),501,2006-09-06,176,3.662500,7
1,302,236,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),435,2004-05-01,255,4.414634,6
2,299,236,Harry Potter and the Chamber of Secrets (Harry Potter #2),341,1999-06-02,24,4.287500,6
3,656,402,The Book Thief,552,2006-03-14,9,4.264151,6
4,734,278,The Glass Castle,288,2006-01-17,258,4.206897,6
...,...,...,...,...,...,...,...,...
989,446,526,Moo Baa La La La!,14,2004-09-06,270,3.000000,1
990,187,585,Debt of Honor (Jack Ryan #7),990,1995-08-01,46,3.000000,1
991,318,594,History of Beauty,432,2004-11-13,249,2.500000,1
992,943,70,Tsubasa: RESERVoir CHRoNiCLE Vol. 1,197,2004-04-27,76,2.500000,1




#### Выводы пo задаче


Видим, что есть рейтинги и обзоры только для 994 книг из 1000.

###  Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры


#### SQL-запрос


In [25]:
query_top_publisher = '''
WITH thick_books AS
  (SELECT book_id,
          publisher_id
   FROM books b
   WHERE num_pages>50)
SELECT p.publisher_id,
       FIRST_VALUE(publisher) OVER (PARTITION BY p.publisher_id) AS publisher,
                                   COUNT (book_id) AS num_books
FROM publishers p
JOIN thick_books AS tb ON p.publisher_id = tb.publisher_id
GROUP BY p.publisher_id
ORDER BY num_books DESC
LIMIT 1;
'''


#### Вывод результата  запроса 


In [26]:
show_sql(query_top_publisher)

Unnamed: 0,publisher_id,publisher,num_books
0,212,Penguin Books,42



#### Выводы п задаче


 Издательство **Penguin Books**  выпустило наибольшее число книг толще 50 страниц - 42 книги.

###  Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;


#### SQL-запрос


In [27]:
query_top_author = '''
WITH book_ratings AS
  (SELECT AVG(rating) AS avg_rating,
          count(rating) AS num_ratings,
          book_id
   FROM ratings r
   GROUP BY book_id)
SELECT a.author_id,
       a.author,
       author_avg
FROM author a
JOIN
  (SELECT author_id,
          AVG(avg_rating) AS author_avg
   FROM
     (SELECT b.*,
             br.avg_rating,
             br.num_ratings
      FROM books AS b
      JOIN book_ratings AS br ON b.book_id = br.book_id
      WHERE br.num_ratings>50
      ORDER BY br.avg_rating DESC) AS authors_books
   GROUP BY author_id) AS auth_id ON auth_id.author_id = a.author_id
ORDER BY author_avg DESC
LIMIT 1;
'''



#### Вывод результата  запроса 


In [28]:
show_sql(query_top_author)

Unnamed: 0,author_id,author,author_avg
0,236,J.K. Rowling/Mary GrandPré,4.283844





#### Выводы по задаче


Авторы с наибольшей оценкой  - соавторства Mary GrandPré и Hatsune Miku, создательница серий книг о Гарри Поттере и игры  Майнкрафт. 

###  Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.


#### SQL-запрос


In [29]:
query_top_reviewers = '''
WITH ra_users AS
(SELECT username,
       count(rating_id) as num_rating
FROM ratings ra
GROUP BY username
HAVING  count(rating_id) > 50
ORDER BY num_rating DESC), 
re_users as 
(SELECT username,
       count(review_id) as num_reviews
FROM reviews re
GROUP BY username)
SELECT AVG(num_reviews) as avg_num_reviews
FROM ra_users a
JOIN re_users e on a.username = e.username;
'''


#### Вывод результата  запроса 


In [30]:
show_sql(query_top_reviewers)

Unnamed: 0,avg_num_reviews
0,24.333333




#### Выводы по задаче


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24.

###  Почитаем отзывы  для трёх книг с наибольшим количеством рецензий и наиболее высокими оценками.  


#### SQL-запрос


In [31]:
query_books_reviews = '''
WITH book_ratings AS
  (SELECT AVG(rating) as avg_rating,
          book_id
   FROM ratings r
   GROUP BY book_id),
     book_reviews AS
  (SELECT book_id,
          count(DISTINCT review_id) as num_reviews
   FROM reviews re
   GROUP BY book_id )
SELECT title, avg_rating, num_reviews,text
FROM 
(SELECT b.book_id, 
       b.author_id,
       b.title,
       br.avg_rating,
       be.num_reviews
FROM books b
JOIN book_ratings AS br ON b.book_id = br.book_id
JOIN book_reviews AS be ON br.book_id = be.book_id
ORDER BY  num_reviews DESC, avg_rating DESC
LIMIT 3) top_b
JOIN reviews re on re.book_id = top_b.book_id
ORDER BY num_reviews DESC;
'''


#### Вывод результата  запроса 


In [32]:
show_sql(query_books_reviews)

Unnamed: 0,title,avg_rating,num_reviews,text
0,Twilight (Twilight #1),3.6625,7,Add drive anyone federal range person. Own then by risk. Role magazine season all into safe.
1,Twilight (Twilight #1),3.6625,7,Realize girl mother offer she method ask. Expert reach generation know. Design bank crime.
2,Twilight (Twilight #1),3.6625,7,Still your evening focus various leader really. Nothing laugh interesting professor. There answer light get.
3,Twilight (Twilight #1),3.6625,7,And receive yet record else. Course Congress entire glass feel interest. Build minute decide.
4,Twilight (Twilight #1),3.6625,7,Be risk wear oil. Toward teach within already. Detail situation finally high cost.
5,Twilight (Twilight #1),3.6625,7,Take dark difference create. Skill page draw example green these they. Training home how building. Treat type beautiful can.
6,Twilight (Twilight #1),3.6625,7,Sit marriage soon exist control floor.
7,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),4.414634,6,Score three health chair. Board between hard attack everyone.
8,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),4.414634,6,Truth dinner class also nation attorney question. Majority how million particularly civil. Sound one just much do no watch.
9,Harry Potter and the Chamber of Secrets (Harry Potter #2),4.2875,6,Agent not arm history shake vote. Forward send life.


Один из отзывов на книгу Twilight (Twilight #1) свидетельствует: 

- *Realize girl mother offer she method ask. Expert reach generation know. Design bank crime.*

- Понять девушку мать предложить она метод спросить. Эксперт достичь поколение знать. Дизайн банк преступление.

Поскольку мне не приходилось читать книгу, не могу судить о достоверном изложении содержания, но звучит не совсем подходяще.


###  Узнаем дату самой свежей книги


#### SQL-запрос


In [33]:
query_books_date = '''
SELECT  MAX (publication_date::date) as maximum_date
FROM books b;
'''


#### Вывод результата  запроса 


In [34]:
show_sql(query_books_date)

Unnamed: 0,maximum_date
0,2020-03-31


##  Общий вывод


Рекомендации:

- Самые высокие оценки и количество отзывов - у книг тематики фентези, жанра Young Adult, возможно предложение с новыми нигами в этом жанре
- Издательство **Penguin Books**  выпустило наибольшее число книг, возможно предложить подборку только этого издательства
- 2020-03-31 - дата самой свежей книги, можно загрузить новинки для более актуального маркетингового предложения
- Тексты отзывов несогласованы с содержанием книг, возможно, необходима ревизия механизма хранения данных.