## План работы над проектом

1. [Описание проекта](#описание-проекта)
2. [Обзор данных](#обзор-данных)
3. [Анализ данных](#анализ-данных-выполним-необходимые-запросы)
4. [Общий вывод](#общий-вывод)

## Описание проекта
Компания купила крупный сервис для чтения книг по подписке. 
- Необходимо проанализировать базу данных, которая содержит информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг.

### Цель исследования:

Цель проекта состоит в анализе базы данных, содержащей информацию о книгах, издательствах, авторах и пользовательских обзорах книг.

## Обзор данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp',  # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

Запишем функцию выполнения SQL-запроса.

In [4]:
def read_sql(query):
    result = pd.io.sql.read_sql(query, con = engine)
    return result

Посмотрим на таблицы базы данных и на их содержание

In [5]:
books = """
SELECT *
FROM books
LIMIT 5;
"""
read_sql(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [6]:
query = """
SELECT COUNT(book_id) AS book_count
FROM books;
"""
result = read_sql(query)
book_count = result.iloc[0, 0]  # получаем значение из первой строки и первого столбца
print(f"Количество книг: {book_count}")

Количество книг: 1000


In [7]:
query = """
SELECT COUNT(DISTINCT author_id) AS author_count
FROM books;
"""
result = read_sql(query)
author_count = result.iloc[0, 0]  # получаем значение из первой строки и первого столбца
print(f"Количество авторов: {author_count}")

Количество авторов: 636


In [8]:
query = """
SELECT COUNT(DISTINCT publisher_id) AS publisher_count
FROM books;
"""
result = read_sql(query)
publishers_count = result.iloc[0, 0]  # получаем значение из первой строки и первого столбца
print(f"Количество издательств: {publishers_count}")


Количество издательств: 340


In [9]:
query = """
SELECT MIN(publication_date) AS min_date, MAX(publication_date) AS max_date
FROM books;
"""
result = read_sql(query)
min_date = result.iloc[0, 0]  # получаем значение минимальной даты из первой строки и первого столбца
max_date = result.iloc[0, 1]  # получаем значение максимальной даты из первой строки и второго столбца
print(f"Минимальная дата публикации: {min_date}")
print(f"Максимальная дата публикации: {max_date}")


Минимальная дата публикации: 1952-12-01
Максимальная дата публикации: 2020-03-31


Таблица `books`

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

В таблице представлено
- 1000 книг 
- 636 авторов
- 340 издательств
- Даты издания - с 1 декабря 1952 года по 31 марта 2020 года.

In [10]:
authors = """
SELECT *
FROM authors
LIMIT 5;
"""
read_sql(authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [11]:
query = """
SELECT COUNT (*) AS length
FROM authors;
"""
read_sql(query) # Проверка количества авторов

Unnamed: 0,length
0,636


Таблица `authors`

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.


In [12]:
publishers = """
SELECT *
FROM publishers
LIMIT 5;
"""
read_sql(publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Таблица `publishers`

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

In [13]:
ratings = """
SELECT *
FROM ratings
LIMIT 5;
"""
read_sql(ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [14]:
query = """
SELECT MIN(rating) AS min_rating, MAX(rating) AS max_rating
FROM ratings;
"""
result = read_sql(query)
min_rating = result.iloc[0, 0]  # получаем значение минимальной даты из первой строки и первого столбца
max_rating = result.iloc[0, 1]  # получаем значение максимальной даты из первой строки и второго столбца
print(f"Минимальный рейтинг: {min_rating}")
print(f"Максимальная рейтинг: {max_rating}")

Минимальный рейтинг: 1
Максимальная рейтинг: 5


In [15]:
query = """
SELECT COUNT(rating) AS rating_count
FROM ratings;
"""
result = read_sql(query)
rating_count = result.iloc[0, 0]  # получаем значение из первой строки и первого столбца
print(f"Количество поставленных оценок: {rating_count}")

Количество поставленных оценок: 6456


Таблица `ratings`

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id `— идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.
- Минимальная оценка 1
- Максимальная 5
- Количество пользоватей ставящих оценки: 160
- Количество поставленных ими оценок: 6456


In [16]:
reviews = """
SELECT *
FROM reviews
LIMIT 5;
"""
read_sql(reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [17]:
query = """
SELECT COUNT(DISTINCT username) AS users_count
FROM reviews;
"""
result = read_sql(query)
user_count = result.iloc[0, 0]  # получаем значение из первой строки и первого столбца
print(f"Количество пользоватей пишущих обзоры: {user_count}")

Количество пользоватей пишущих обзоры: 160


In [18]:
query = """
SELECT COUNT(text) AS text_count
FROM reviews;
"""
result = read_sql(query)
text_count = result.iloc[0, 0]  # получаем значение из первой строки и первого столбца
print(f"Количество написанных обзоров: {text_count}")

Количество написанных обзоров: 2793


Таблица `reviews`

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.
- Количество написанных обзоров: 2793

## Вывод:
- В базе данных содержатся 5 таблиц: "книги", "авторы", "рейтинги", "издательства" и "отзывы".
- В таблице "книги" находится информация о 1000 книгах.
- В таблице "авторы" представлены данные о 636 авторах.
- В таблице "издательства" содержится информация о 340 издательствах.
- Диапазон дат публикации книг составляет с 1 декабря 1952 года по 31 марта 2020 года.
- Количество уникальных пользователей, оценивавших и писавших обзоры на книги, составляет 160.
- Количество поставленных оценок: 6456
- Оценки книг варьируются от 1 до 5 баллов.
- Написано обзоров 2793

## Анализ данных (выполним необходимые запросы)

### Считаем, сколько книг вышло после 1 января 2000 года

In [19]:
query = """
SELECT COUNT(book_id)
FROM books
WHERE publication_date > '2000-01-01'::date
"""
read_sql(query)

Unnamed: 0,count
0,819


### Вывод:
- Количество книг вышедших после 1 января 2000 года 819.

### Для каждой книги посчитаем количество обзоров и среднюю оценку

In [20]:
query = """
SELECT b.title,
       COUNT(DISTINCT rv.review_id) AS review_cnt,
       ROUND(AVG(r.rating), 2) AS rating_avg
FROM books AS b
LEFT JOIN reviews AS rv ON b.book_id = rv.book_id
LEFT JOIN ratings AS r ON b.book_id = r.book_id
GROUP BY b.book_id
ORDER BY rating_avg DESC, review_cnt DESC
"""
read_sql(query)


Unnamed: 0,title,review_cnt,rating_avg
0,A Dirty Job (Grim Reaper #1),4,5.00
1,School's Out—Forever (Maximum Ride #2),3,5.00
2,Moneyball: The Art of Winning an Unfair Game,3,5.00
3,The Big Bad Wolf (Alex Cross #9),2,5.00
4,Welcome to Temptation (Dempseys #1),2,5.00
...,...,...,...
995,The World Is Flat: A Brief History of the Twen...,3,2.25
996,Drowning Ruth,3,2.00
997,His Excellency: George Washington,2,2.00
998,Junky,2,2.00


### Вывод:
У нас есть доступ к 1000 книгам, которые отсортированы по средней оценке и количеству обзоров. Книга "A Dirty Job (Grim Reaper #1)" имеет наивысший рейтинг и наибольшее количество обзоров среди книг с средней оценкой 5.

### Определим издательство, которое выпустило наибольшее количество книг. 
- При этом мы исключим из анализа брошюры и рассмотрим только книги, имеющие более 50 страниц.

In [21]:
query = """
SELECT publisher, COUNT(book_id) AS books_cnt
FROM publishers AS p
INNER JOIN books AS b ON p.publisher_id = b.publisher_id
WHERE num_pages > 50
GROUP BY publisher
ORDER BY books_cnt DESC
LIMIT 1
"""
read_sql(query)

Unnamed: 0,publisher,books_cnt
0,Penguin Books,42


### Вывод:
Издательство, которое выпустило наибольшее количество книг-Penguin Books (42 книги)

### Определим автора, у которого самая высокая средняя оценка для книг, имеющих 50 и более оценок.

In [22]:
query = """
SELECT a.author, AVG(r.rating) AS mean_rating
FROM authors AS a
JOIN books AS b ON a.author_id = b.author_id
JOIN ratings AS r ON b.book_id = r.book_id
WHERE b.book_id IN (
    SELECT book_id
    FROM ratings 
    GROUP BY book_id
    HAVING COUNT(rating_id) >= 50
)
GROUP BY a.author
ORDER BY mean_rating DESC
LIMIT 1
"""
read_sql(query)

Unnamed: 0,author,mean_rating
0,J.K. Rowling/Mary GrandPré,4.287097


### Вывод:
Автор, у которого самая высокая средняя оценка для книг, имеющих 50 и более оценок, J.K. Rowling/Mary GrandPré средняя оценка(4.287097)

### Рассчитаем среднее количество обзоров от активных пользователей. 
- Активными пользователями мы считаем тех, кто оставил более 48 оценок.

In [23]:
query = """
SELECT ROUND(AVG(review_cnt))
FROM (
    SELECT COUNT(review_id) AS review_cnt
    FROM reviews
    WHERE username IN (
        SELECT username
        FROM ratings
        GROUP BY username
        HAVING COUNT(rating_id) > 48
    )
    GROUP BY username
) AS review_count
"""
read_sql(query)



Unnamed: 0,round
0,24.0


### Вывод:
Среди активных пользователей, которые оставили более 48 оценок, в среднем каждый пишет 24 обзора.

## Общий вывод:
Исследуя базу данных, содержащую информацию о книгах, авторах, издательствах, рейтингах и отзывах, мы получили следующие результаты:

- В базе данных представлены 5 таблиц: "книги", "авторы", "рейтинги", "издательства" и "отзывы".
- В таблице "книги" содержится информация о 1000 книгах.
- Таблица "авторы" содержит данные о 636 авторах.
- В таблице "издательства" представлена информация о 340 издательствах.
- Диапазон дат публикации книг охватывает период с 1 декабря 1952 года по 31 марта 2020 года.
- Количество уникальных пользователей, которые оценили книги и написали обзоры, составляет 160.
- Общее количество оценок, поставленных пользователями, равно 6456.
- Оценки книг варьируются от 1 до 5 баллов.
- В базе данных имеется 2793 написанных обзора на книги.

Исходя из проведенного анализа, мы можем сделать следующие выводы:

1. Количество книг, выпущенных после 1 января 2000 года, составляет 819.
2. Среди доступных книг, книга "A Dirty Job (Grim Reaper #1)" имеет самый высокий рейтинг и наибольшее количество обзоров среди книг с оценкой 5.
3. Издательство "Penguin Books" выпустило наибольшее количество книг (42 книги).
4. Автор J.K. Rowling/Mary GrandPré имеет самую высокую среднюю оценку для книг с 50 и более оценками (средняя оценка 4.29).
5. Среди активных пользователей, которые оставили более 48 оценок, в среднем каждый пользователь пишет 24 обзора.