# Проект по SQL

# Описание
В условиях глобальной пандемии коронавируса, которая кардинально изменила привычный порядок жизни, наблюдается рост интереса к чтению книг. Это стало заметно как среди читателей, так и среди предпринимателей, стремящихся адаптироваться к новым условиям. В результате, наша компания приобрела крупный сервис для чтения книг по подписке, который предоставляет доступ к обширной базе данных, содержащей информацию о книгах, издательствах, авторах и пользовательских обзорах. Данные этой базы представляют собой уникальный ресурс для анализа текущих трендов в литературе и предпочтений пользователей.


# Цель исследования
Цель данного проекта заключается в анализе базы данных книг с целью выявления ключевых инсайтов, которые помогут сформулировать ценностное предложение для нового продукта. Мы стремимся понять, какие книги наиболее популярны среди пользователей, какие издательства и авторы выделяются на фоне других, а также какие факторы влияют на качество пользовательских обзоров.


# Задачи исследования

1. Подсчитать количество книг, выпущенных после 1 января 2000 года.
2. Для каждой книги определить количество обзоров и среднюю оценку.
3. Выявить издательство, которое выпустило наибольшее количество книг, толще 50 страниц.
4. Определить автора с самой высокой средней оценкой книг, учитывая только те книги, которые получили более 50 оценок.
5. Рассчитать среднее количество обзоров от пользователей, которые поставили более 48 оценок.

# Этапы исследования

1. Загрузить библиотеки и вывести общую информацию о данных.
2. Анализ данных: Проведение расчетов и статистических анализов для решения поставленных задач.
3. Подготовка отчета: Составление итогового отчета с рекомендациями для команды разработки и маркетинга на основе проведенного анализа.


## Загрузка данных.

In [1]:
# Импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

# Устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# Сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
# Функция для выполнения SQL-запроса и вывода результата

def fetch_table_data(query):
    with engine.connect() as con:
        return pd.io.sql.read_sql(sql=text(query), con=con)



In [3]:
# Получение данных из каждой таблицы
queries = {
    "books": '''SELECT * FROM books LIMIT 5''',
    "authors": '''SELECT * FROM authors LIMIT 5''',
    "publishers": '''SELECT * FROM publishers LIMIT 5''',
    "ratings": '''SELECT * FROM ratings LIMIT 5''',
    "reviews": '''SELECT * FROM reviews LIMIT 5'''
}


# Получаем данные и выводим их
for table_name, query in queries.items():
    print(f"Данные из таблицы {table_name}:")
    data = fetch_table_data(query)
    display(data)
    


Данные из таблицы books:


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Данные из таблицы authors:


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Данные из таблицы publishers:


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Данные из таблицы ratings:


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Данные из таблицы reviews:


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


- В таблице **books** содержится информация о книгах, включая идентификаторы, авторов, количество страниц, дату публикации и издателя.
- Таблица **authors** содержит информацию об авторах, включая их идентификаторы и имена.
- Таблица **publishers** содержит информацию о издателях, включая их идентификаторы и названия.
- Таблица **ratings** отображает оценки книг пользователями, связывая их с идентификаторами книг и именами пользователей.
- Таблица **reviews** содержит отзывы на книги, также связывая их с идентификаторами книг и именами пользователей.


## Анализ данных.

### Количество книг, вышедших после 1 января 2000 года.

In [4]:
# Посчитаем количество книг, вышедших после 1 января 2000 года

query = '''
SELECT COUNT(*) AS count_books
FROM books
WHERE publication_date > '2000-01-01';
'''

count_books = fetch_table_data(query)

# Выводим результат
print("Количество книг, вышедших после 1 января 2000 года:", count_books['count_books'][0])



Количество книг, вышедших после 1 января 2000 года: 819


### Количество обзоров и средняя оценка для каждой книги.

In [6]:
# Посмотрим общее количество уникальных отзывов
query_total_reviews = '''
SELECT COUNT(DISTINCT review_id) AS total_reviews
FROM reviews;
'''

# Выводим данные

total_reviews_data = fetch_table_data(query_total_reviews)
total_reviews_count = total_reviews_data['total_reviews'].iloc[0]

total_reviews_count

2793

In [16]:
# Посчитаем уникальные обзоры на книги
# Подсчет количества обзоров и средней оценки для каждой книги
query_reviews_ratings = '''
SELECT 
    b.book_id,
    b.title,
    COUNT(DISTINCT r.review_id) AS review_count,  -- Используем DISTINCT для уникальных отзывов
    AVG(rt.rating) AS average_rating
FROM 
    books b
LEFT JOIN 
    reviews r ON b.book_id = r.book_id
LEFT JOIN 
    ratings rt ON b.book_id = rt.book_id
GROUP BY 
    b.book_id, b.title;
'''

# Получаем данные и выводим их
reviews_ratings_data = fetch_table_data(query_reviews_ratings)

print(reviews_ratings_data['review_count'].sum())
display(reviews_ratings_data.sort_values(by = ['review_count', 'average_rating'], ascending = False).head(10))


2793


Unnamed: 0,book_id,title,review_count,average_rating
947,948,Twilight (Twilight #1),7,3.6625
301,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
298,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.2875
655,656,The Book Thief,6,4.264151
733,734,The Glass Castle,6,4.206897
496,497,Outlander (Outlander #1),6,4.125
749,750,The Hobbit or There and Back Again,6,4.125
694,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
778,779,The Lightning Thief (Percy Jackson and the Oly...,6,4.080645
962,963,Water for Elephants,6,3.977273


- Больше всего отзывов у книги Twilight - 7. Ср.оценка - 3.66
- Harry Potter and the Prisoner of Azkaban - 6. Ср.оценка - 4.41
- Harry Potter and the Chamber of Secrets - 6. Ср.оценка - 4.28

###  Издательство, которое выпустило наибольшее число книг толще 50 страниц.

In [9]:
# Запрос для определения издательства с наибольшим количеством книг толще 50 страниц
query_top_publisher = '''
SELECT 
    p.publisher_id,
    p.publisher AS publisher_name,
    COUNT(b.book_id) AS book_count
FROM 
    books b
JOIN 
    publishers p ON b.publisher_id = p.publisher_id
WHERE 
    b.num_pages > 50
GROUP BY 
    p.publisher_id, p.publisher
ORDER BY 
    book_count DESC
LIMIT 1;
'''

# Получаем данные и выводим их

top_publisher_data = fetch_table_data(query_top_publisher)
display(top_publisher_data)


Unnamed: 0,publisher_id,publisher_name,book_count
0,212,Penguin Books,42


- Издательство с наибольшим количеством книг (толще 50 страниц) - Penguin Books 
- Выпущено 42 книги.

### Автор с самой высокой средней оценкой книг.

In [10]:
# Определим автора с самой высокой средней оценкой книг

query = '''
SELECT a.author, AVG(r.rating) AS average_rating
FROM authors a
JOIN books b ON a.author_id = b.author_id
JOIN ratings r ON b.book_id = r.book_id
GROUP BY a.author
HAVING COUNT(DISTINCT r.rating_id) >= 50
ORDER BY average_rating DESC
LIMIT 1;
'''

# Выведем результат

result = fetch_table_data(query)
display(result)


Unnamed: 0,author,average_rating
0,Diana Gabaldon,4.3


In [11]:
# Проверим количество оценок у книг Дианы Габалдон

author_name = 'Diana Gabaldon'

query_check_ratings = f'''
SELECT 
    b.title,
    COUNT(r.rating_id) AS rating_count
FROM 
    authors a
JOIN 
    books b ON a.author_id = b.author_id
JOIN 
    ratings r ON b.book_id = r.book_id
WHERE 
    a.author = '{author_name}'
GROUP BY 
    b.title;
'''

# Получим данные, выведем на экран

ratings_count_data = fetch_table_data(query_check_ratings)


# Выводим количество оценок для каждой книги Дианы Габалдон

print(f"Количество оценок для книг {author_name}:")
display(ratings_count_data)



Количество оценок для книг Diana Gabaldon:


Unnamed: 0,title,rating_count
0,A Breath of Snow and Ashes (Outlander #6),4
1,Dragonfly in Amber (Outlander #2),8
2,Drums of Autumn (Outlander #4),5
3,Lord John and the Private Matter (Lord John Gr...,2
4,Outlander (Outlander #1),24
5,Voyager (Outlander #3),7


- У книг Diana Gabaldon нет 50 оценок

In [12]:
# Исправим код, используем вложенный запрос, чтобы сначала отфильтровать книги с достаточным количеством оценок
# Определим автора с самой высокой средней оценкой книг, учитывая условие о 50 оценках
query = '''
SELECT a.author, AVG(r.rating) AS average_rating
FROM authors a
JOIN books b ON a.author_id = b.author_id
JOIN ratings r ON b.book_id = r.book_id
WHERE b.book_id IN (
    SELECT b_inner.book_id
    FROM books b_inner
    JOIN ratings r_inner ON b_inner.book_id = r_inner.book_id
    GROUP BY b_inner.book_id
    HAVING COUNT(r_inner.rating_id) >= 50
)
GROUP BY a.author
ORDER BY average_rating DESC
LIMIT 1;
'''

# Выводим результат
result = fetch_table_data(query)
display(result)



Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.287097


- Автор с самой высокой средней оценкой книг (только книги с 50 и более оценками) - J.K. Rowling (4.28)

### Среднее количество обзоров от пользователей.

In [14]:
# Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок

query_reviews = '''
SELECT AVG(review_count) AS average_reviews
FROM (
    SELECT filtered_users.username, COUNT(DISTINCT rev.review_id) AS review_count
    FROM (
        SELECT username
        FROM ratings
        GROUP BY username
        HAVING COUNT(rating_id) > 48
    ) AS filtered_users
    LEFT JOIN reviews rev ON filtered_users.username = rev.username
    GROUP BY filtered_users.username
) AS user_reviews;
'''


# Получаем данные и выводим результат

result_reviews = fetch_table_data(query_reviews)
result_reviews



Unnamed: 0,average_reviews
0,24.0


- Среднее количество обзоров от пользователей, которые поставили больше 48 оценок - 24 обзора.

## Выводы и рекомендации.

1) Количество книг, вышедших после 1 января 2000 года: 819. Это свидетельствует о значительном росте публикаций в последние два десятилетия.

   - **Рекомендации** : обратить внимание на современные тренды и предпочтения читателей, чтобы эффективно продвигать новые издания.


2) Больше всего отзывов у следующих книг:

    - Twilight - 7. Ср.оценка - 3.66
    - Harry Potter and the Prisoner of Azkaban - 6. Ср.оценка - 4.41
    - Harry Potter and the Chamber of Secrets - 6. Ср.оценка - 4.28

   - **Рекомендации** : учитывая высокую активность пользователей в отзывах на указанные книги, следует рассмотреть возможность маркетинговых кампаний, связанных с этими произведениями.
    
3) Издательство с наибольшим количеством книг (толще 50 страниц) - Penguin Books (Выпущено 42 книги). Это издательство демонстрирует высокую продуктивность и разнообразие изданий.

   - **Рекомендации** : рассмотреть возможность сотрудничества с Penguin Books для продвижения их новых изданий
    
4) Автор с самой высокой средней оценкой книг (только книги с 50 и более оценками) - J.K. Rowling (4.28). Это указывает на высокий уровень удовлетворенности читателей ее произведениями.

   - **Рекомендации** : организовать мероприятия с участием J.K. Rowling или создать контент, связанный с ее работами, чтобы привлечь внимание к ее книгам и повысить интерес к жанру.


5) Среднее количество обзоров от пользователей, которые поставили больше 48 оценок - 24. Это показатель активности пользователей, который может быть использован для оценки вовлеченности читателей.

   - **Рекомендации** : Разработать программы лояльности или поощрения для активных рецензентов, чтобы увеличить количество отзывов и повысить интерес к новым изданиям.
