# Описание проекта

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.
Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.


# Описание данных

Таблица books. Содержит данные о книгах:
    
* book_id — идентификатор книги;
* author_id — идентификатор автора;
* title — название книги;
* num_pages — количество страниц;
* publication_date — дата публикации книги;
* publisher_id — идентификатор издателя. 

Таблица authors. Содержит данные об авторах:
    
* author_id — идентификатор автора;
* author — имя автора. 

Таблица publishers. Содержит данные об издательствах:

* publisher_id — идентификатор издательства;
* publisher — название издательства. 

Таблица ratings. Содержит данные о пользовательских оценках книг:

* rating_id — идентификатор оценки;
* book_id — идентификатор книги;
* username — имя пользователя, оставившего оценку;
* rating — оценка книги. 

Таблица reviews. Содержит данные о пользовательских обзорах на книги:

* review_id — идентификатор обзора;
* book_id — идентификатор книги;
* username — имя пользователя, написавшего обзор;
* text — текст обзора

# Задание

* Посчитайте, сколько книг вышло после 1 января 2000 года;

* Для каждой книги посчитайте количество обзоров и среднюю оценку;

* Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

* Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

* Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [1]:
# импортируем библиотеки
import pandas as pd 
from sqlalchemy import create_engine 


In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных


In [3]:
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
 db_config['pwd'], 
 db_config['host'], 
 db_config['port'], 
 db_config['db']) 


In [4]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

**Создадим функцию для вывода результата**

In [5]:
def select(sql):
  return pd.read_sql(sql,con = engine)

**Выведем данные из таблиц "books", "authors", "publishers", "ratings" и "reviews". Посмотрим данные из таблицы books.**

In [6]:
books = '''
SELECT * FROM books
'''

In [7]:
select(books).head(3)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135


In [8]:
select(books).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


In [9]:
select(books).isnull().sum()

book_id             0
author_id           0
title               0
num_pages           0
publication_date    0
publisher_id        0
dtype: int64

In [10]:
select(books).duplicated().sum()

0

**В таблице books 1000 строк и 6 столбцов, отсутствуют пропуски и дубликаты. Посмотрим данные из таблицы authors.**

In [11]:
authors = '''
SELECT * FROM authors
'''

In [12]:
select(authors).head(3)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie


In [13]:
select(authors).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


In [14]:
select(authors).isnull().sum()

author_id    0
author       0
dtype: int64

In [15]:
select(authors).duplicated().sum()

0

**В таблице authors 636 строк и 2 столбца, отсутствуют пропуски и дубликаты. Посмотрим данные из таблицы publishers.**

In [16]:
publishers = '''
SELECT * FROM publishers
'''

In [17]:
select(publishers).head(3)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books


In [18]:
select(publishers).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


In [19]:
select(publishers).isnull().sum()

publisher_id    0
publisher       0
dtype: int64

In [20]:
select(publishers).duplicated().sum()

0

**В таблице publishers 340 строк и 2 столбца, отсутствуют пропуски и дубликаты. Посмотрим данные из таблицы ratings.**

In [21]:
ratings = '''
SELECT * FROM ratings
'''


In [22]:
select(ratings).head(3)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5


In [23]:
select(ratings).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


In [24]:
select(ratings).isnull().sum()

rating_id    0
book_id      0
username     0
rating       0
dtype: int64

In [25]:
select(ratings).duplicated().sum()

0

**В таблице ratings 6456 строк и 4 столбца, отсутствуют пропуски и дубликаты. Посмотрим данные из таблицы reviews.**

In [26]:
reviews = '''
SELECT * FROM reviews
'''

In [27]:
select(reviews).head(3)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...


In [28]:
select(reviews).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


In [29]:
select(reviews).isnull().sum()

review_id    0
book_id      0
username     0
text         0
dtype: int64

In [30]:
select(reviews).duplicated().sum()

0

**В таблице reviews 2793 строк и 4 столбца, отсутствуют пропуски и дубликаты.**

# Задание 1

**Посчитаем сколько книг, выпущено после 1 января 2000 года**

In [31]:
books_cnt = '''
SELECT COUNT(book_id) FROM books WHERE publication_date > '2000-01-01'
'''


In [32]:
select(books_cnt)

Unnamed: 0,count
0,819


**После 1 января 2000 года было выпущено 819 книг**

# Задание 2

**Посчитаем для каждой книги количество обзоров и среднюю оценку**

In [33]:
book_reviews = '''
SELECT books.title,
    books.book_id,
    AVG(ratings.rating) AS avg,
    COUNT(DISTINCT reviews.text) AS cnt
FROM
    books
LEFT JOIN ratings ON ratings.book_id = books.book_id
LEFT JOIN reviews ON reviews.book_id = books.book_id
GROUP BY
    books.title,
    books.book_id
ORDER BY
    cnt DESC

'''

In [34]:
select(book_reviews)

Unnamed: 0,title,book_id,avg,cnt
0,Twilight (Twilight #1),948,3.662500,7
1,Water for Elephants,963,3.977273,6
2,The Glass Castle,734,4.206897,6
3,Harry Potter and the Prisoner of Azkaban (Harr...,302,4.414634,6
4,The Curious Incident of the Dog in the Night-Time,695,4.081081,6
...,...,...,...,...
995,Anne Rice's The Vampire Lestat: A Graphic Novel,83,3.666667,0
996,The Natural Way to Draw,808,3.000000,0
997,The Cat in the Hat and Other Dr. Seuss Favorites,672,5.000000,0
998,Essential Tales and Poems,221,4.000000,0


**Максимальное кол-во обзоров у книги Twilight (Twilight #1) - 7, затем следует множество книг с количеством обзоров - 6, средняя оценка в диапазоне 3.8 - 4.2.**

# Задание 3

**Определим издательство, которое издало наибольшее число книг толще 50 страниц**

In [35]:
book_publisher = '''
SELECT
    publishers.publisher AS name,
    COUNT(books.book_id) AS cnt
FROM
    publishers
INNER JOIN books ON books.publisher_id = publishers.publisher_id
WHERE
    books.num_pages > 50
GROUP BY
    name
ORDER BY 
    cnt DESC
LIMIT 10
'''

In [36]:
select(book_publisher).head()

Unnamed: 0,name,cnt
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19


**Издательство Penguin Books - выпустило наибольше число книг в кол-ве 42 книг, толще 50 страниц, затем следуют издательства Vintage (31) и Grand Central Publishing (25)**

# Задание 4

**Определим автора с самой высокой средней оценкой книг (учитываем только книги с 50 и более оценками)**

In [37]:
best_author = '''
SELECT
    ABAC.author AS author,
    AVG(ABAC.avg_rating) AS avg_rating
FROM
(SELECT
    authors.author AS author,
    books.book_id AS id,
    AVG(ratings.rating) AS avg_rating,
    COUNT(ratings.rating) AS cnt_rating
FROM
    authors
INNER JOIN books ON books.author_id = authors.author_id
INNER JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    author,
    id
    HAVING
    COUNT(ratings.rating) >= 50) AS ABAC
GROUP BY
    author
ORDER BY
    avg_rating DESC
'''

In [38]:
select(best_author).head()

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645


**Cамая высокая средняя оценка у автора J.K. Rowling/Mary GrandPré (4.2838), далее Markus Zusak/Cao Xuân Việt Khương (4.2641) и J.R.R. Tolkien (4.2584).**

# Задание 5

**Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.**

In [39]:
avg_text = '''
SELECT ROUND(avg(count)) 
FROM
(SELECT
    COUNT(text)
FROM 
    reviews
FULL OUTER JOIN (SELECT username,
    COUNT(rating_id) as cnt
FROM 
    ratings
GROUP BY
    username) AS cnt_rating
ON cnt_rating.username = reviews.username
WHERE cnt > 50
GROUP BY reviews.username) as count
'''

In [40]:
select(avg_text)

Unnamed: 0,round
0,24.0


**Среднее кол-во обзоров пользователей, которые поставили более чем по 50 оценок равно 24.**

# ОБЩИЙ ВЫВОД:

* В таблице book_publisher лежит список всех издательств, которые выпускают книги от 50 страниц.
* В таблице best_author лежит список авторов с самой выской средней оценкой, так как у этих авторов учтены книги которые имеют больше 50 пользовательских оценок.
* В таблице book_reviews есть книги со средней оценкой и пользовательскими обзорами.
* Так же среднее количество текстовых обзоров на книги более чем 50 оценками имеют в среднем 24 текстовых обзора, что будет достаточно информативно для будущих пользователей.