# Проект по SQL
Коронавирус застал мир врасплох, изменив привычный порядок вещей. На какое-то время жители городов перестали выходить на улицу, посещать кафе и торговые центры. Зато стало больше времени для книг. Наша компания решила быть на волне и купила крупный сервис для чтения книг по подписке.

Наша задача — проанализировать базу данных. Необходимо изучить данные и сформить первичное представление о том, какими книгами и данными располагает наш сервис.

В БД содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**План проекта:**

**1. Загрузить данные;**

**2. Ознакомиться с содержимым таблиц;**

**3. Задания:**

- Посчитаем, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитаем количество обзоров и среднюю оценку;
- Определим издательство, которое выпустило наибольшее число книг толще 50 страниц, исключив из анализа брошюры;
- Определим автора с самой высокой средней оценкой книг — с учетом только книг с 50 и более оценками;
- Посчитайем среднее количество обзоров от пользователей, которые поставили больше 48 оценок;
    
**4. Вывод.**

## Загрузим данные

In [None]:
# импортируем библиотеки
import pandas as pd
import sqlalchemy as sa

In [None]:
# устанавливаем параметры
db_config = {
    'user': 'praktikum_student', # имя пользователя
    'pwd': 'Sdf4$2;d-d30pp', # пароль
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432, # порт подключения
    'db': 'data-analyst-final-project-db' # название базы данных
}
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})
# чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

## Ознакомление с таблицами

### Таблица books

In [None]:
# Запрос и вывод данных для таблицы books
query_books = '''
SELECT *
FROM books
LIMIT 5
'''
result_books = get_sql_data(query_books)
print("Первые 5 строк таблицы books:")
display(result_books)

query_count_books = '''
SELECT COUNT(*) AS total_rows
FROM books
'''
result_count_books = get_sql_data(query_count_books)
print("Общее количество строк в таблице books:")
print(result_count_books)

Первые 5 строк таблицы books:


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Общее количество строк в таблице books:
   total_rows
0        1000


Таблица **books (1000 строк)** содержит данные о книгах:
- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

### Таблица authors

In [None]:
# Запрос и вывод данных для таблицы authors
query_authors = '''
SELECT *
FROM authors
LIMIT 5
'''
result_authors = get_sql_data(query_authors)
print("Первые 5 строк таблицы authors:")
display(result_authors)

query_count_authors = '''
SELECT COUNT(*) AS total_rows
FROM authors
'''
result_count_authors = get_sql_data(query_count_authors)
print("Общее количество строк в таблице authors:")
print(result_count_authors)

Первые 5 строк таблицы authors:


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Общее количество строк в таблице authors:
   total_rows
0         636


Таблица **authors (636 строк)** содержит данные об авторах:
- `author_id` — идентификатор автора;
- `author` — имя автора.

### Таблица publishers

In [None]:
# Запрос и вывод данных для таблицы publishers
query_publishers = '''
SELECT *
FROM publishers
LIMIT 5
'''
result_publishers = get_sql_data(query_publishers)
print("Первые 5 строк таблицы publishers:")
display(result_publishers)

query_count_publishers = '''
SELECT COUNT(*) AS total_rows
FROM publishers
'''
result_count_publishers = get_sql_data(query_count_publishers)
print("Общее количество строк в таблице publishers:")
print(result_count_publishers)

Первые 5 строк таблицы publishers:


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Общее количество строк в таблице publishers:
   total_rows
0         340


Таблица **publishers (340 строк)** содержит данные об издательствах:
- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

### Таблица ratings

In [None]:
# Запрос и вывод данных для таблицы ratings
query_ratings = '''
SELECT *
FROM ratings
LIMIT 5
'''
result_ratings = get_sql_data(query_ratings)
print("Первые 5 строк таблицы ratings:")
display(result_ratings)

query_count_ratings = '''
SELECT COUNT(*) AS total_rows
FROM ratings
'''
result_count_ratings = get_sql_data(query_count_ratings)
print("Общее количество строк в таблице ratings:")
print(result_count_ratings)

Первые 5 строк таблицы ratings:


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Общее количество строк в таблице ratings:
   total_rows
0        6456


Таблица **ratings (6456 строк)** содержит данные о пользовательских оценках книг:
- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

### Таблица reviews

In [None]:
# Запрос и вывод данных для таблицы reviews
query_reviews = '''
SELECT *
FROM reviews
LIMIT 5
'''
result_reviews = get_sql_data(query_reviews)
print("Первые 5 строк таблицы reviews:")
display(result_reviews)

query_count_reviews = '''
SELECT COUNT(*) AS total_rows
FROM reviews
'''
result_count_reviews = get_sql_data(query_count_reviews)
print("Общее количество строк в таблице reviews:")
print(result_count_reviews)

Первые 5 строк таблицы reviews:


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Общее количество строк в таблице reviews:
   total_rows
0        2793


Таблица **reviews (2793 строки)** содержит данные о пользовательских обзорах на книги:
- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Задания

### Посчитаем, сколько книг вышло после 1 января 2000 года

In [None]:
book_amount = '''
SELECT COUNT(book_id)
FROM books
WHERE publication_date > '2000-01-01'
'''

result_book_amount = get_sql_data(book_amount)
print(f'Количество книг, вышедших после 1 января 2000 года:', result_book_amount)

Количество книг, вышедших после 1 января 2000 года:    count
0    819


### Посчитаем для каждой книги количество обзоров и среднюю оценку

In [None]:
review_rating = '''
SELECT
    b.book_id,
    b.title,
    COUNT(DISTINCT re.review_id) AS review_count,
    AVG(ra.rating) AS average_rating
FROM books AS b
LEFT JOIN ratings AS ra ON b.book_id = ra.book_id
LEFT JOIN reviews AS re ON b.book_id = re.book_id
GROUP BY b.book_id, b.title
ORDER BY average_rating DESC
'''

# Получение данных
result_review_rating = get_sql_data(review_rating)

# Вывод результатов
display(result_review_rating)

Unnamed: 0,book_id,title,review_count,average_rating
0,86,Arrows of the Queen (Heralds of Valdemar #1),2,5.00
1,901,The Walking Dead Book One (The Walking Dead #...,2,5.00
2,390,Light in August,2,5.00
3,972,Wherever You Go There You Are: Mindfulness Me...,2,5.00
4,136,Captivating: Unveiling the Mystery of a Woman'...,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,316,His Excellency: George Washington,2,2.00
997,202,Drowning Ruth,3,2.00
998,371,Junky,2,2.00


### Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так из анализа будут исключены брошюры

In [None]:
top_publisher = '''
SELECT
    p.publisher_id,
    p.publisher,
    COUNT(b.book_id) AS book_count
FROM publishers AS p
JOIN books AS b ON p.publisher_id = b.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id, p.publisher
ORDER BY book_count DESC
LIMIT 1
'''

result_top_publisher = get_sql_data(top_publisher)
result_top_publisher

Unnamed: 0,publisher_id,publisher,book_count
0,212,Penguin Books,42


### Определим автора с самой высокой средней оценкой книг — учтем только книги с 50 и более оценками

In [None]:
top_author = '''
SELECT
    a.author_id,
    a.author,
    AVG(r.rating) AS average_rating
FROM authors AS a
JOIN books AS b ON a.author_id = b.author_id
JOIN ratings AS r ON b.book_id = r.book_id
WHERE b.book_id IN (
                SELECT book_id
                FROM ratings
                GROUP BY book_id
                HAVING COUNT(rating_id) >= 50
                )
GROUP BY     a.author_id, a.author
ORDER BY average_rating DESC
LIMIT 1
'''

result_top_author = get_sql_data(top_author)
result_top_author

Unnamed: 0,author_id,author,average_rating
0,236,J.K. Rowling/Mary GrandPré,4.287097


### Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок

In [None]:
review_count = '''
SELECT AVG(review_count) AS avg_review_count
FROM (
    SELECT
        re.username,
        COUNT(DISTINCT re.review_id) AS review_count
    FROM reviews AS re
    JOIN ratings AS ra ON re.book_id = ra.book_id
    WHERE re.username IN (
            SELECT username
            FROM ratings
            GROUP BY username
            HAVING COUNT(rating_id) > 48
        )
    GROUP BY re.username
) AS subquery
'''

result_review_count = get_sql_data(review_count)
result_review_count

Unnamed: 0,avg_review_count
0,24.0


## Вывод

В БД содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.

1. Посчитали, что после 1 января 2000 года вышло 819 книг из 1000, что может свидетельствовать о активном развитии рынка литературы в новом тысячелетии.

2. Для каждой книги мы проанализировали количество обзоров и среднюю оценку. Выяснилось, что максимальная оценка составляет 5 из 5, а минимальная — 1.50, что говорит о разнообразии оценок от пользователей.

3. Было выявлено, что издательство "Penguin Books" является лидером по выпуску книг, толще 50 страниц (все, что не является брошюрами), с общим количеством 42 книг. Это может свидетельствовать о стабильности и успешной деятельности данного издательства.

4. Автор J.K. Rowling с иллюстратором Mary GrandPré заслуживает отдельного внимания, так как их книги имеют самую высокую среднюю оценку (4.29) среди книг с 50 и более оценками. Это может подчеркнуть их популярность и качество творчества.

5. Среднее количество обзоров от пользователей, которые поставили более 48 оценок, составляет 24. Это может говорить о том, что активные пользователи, оставляющие много оценок, также проявляют интерес к написанию обзоров, что может быть положительным сигналом для сервиса.

Рекомендации:

1. Повышение разнообразия контента:

Расширьте библиотеку книг в жанрах, которые получили высокие оценки и популярность среди пользователей. Это может включать в себя сотрудничество с авторами, чьи произведения уже пользуются успехом.

2. Фокус на популярных издательствах:

Продолжайте активно сотрудничать с издательствами, которые предоставляют качественный контент и пользуются спросом у вашей аудитории.

3. Маркетинговые кампании вокруг успешных авторов:

Запускайте маркетинговые кампании, акцентируя внимание на книгах популярных авторов, особенно тех, кто давал высокие оценки.

4. Повышение вовлеченности пользователей:

Внедрите функции социальной взаимосвязи, такие как обсуждения книг и обмен рекомендациями между пользователями, так как есть тенденция, которая показывает, что пользователям нравится ставить оценки и оставлять обзоры.

Эти рекомендации помогут компании улучшить удовлетворенность пользователей, привлечь новых подписчиков и укрепить свою позицию на рынке сервисов для чтения книг.