# Анализ базы данных

**Описание и цель проекта:**

Наша компания купила крупный сервис для чтения книг по подписке. Задача — проанализировать базу данных, в которой содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Анализ данных поможет сформулировать ценностное предложение для нового продукта.

В ходе исследования мы ответим на следующие вопросы:

- сколько книг вышло после 1 января 2000 года;
- рассчитаем количество обзоров и среднюю оценку для каждой книги;
- определим издательство, которое выпустило наибольшее число книг толще 50 страниц;
- определим автора с самой высокой средней оценкой книг;
- рассчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Подключение к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
             'pwd': 'Sdf4$2;d-d30pp', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # порт подключения
             'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

## Обзор данных

In [3]:
# Загрузим таблицы

query = '''SELECT * FROM books'''
books = pd.io.sql.read_sql(query, con = engine)

query = ''' SELECT * FROM authors'''
authors = pd.io.sql.read_sql(query, con = engine)

query = '''SELECT * FROM publishers'''
publishers = pd.io.sql.read_sql(query, con = engine)

query = '''SELECT * FROM ratings'''
ratings = pd.io.sql.read_sql(query, con = engine)

query = ''' SELECT * FROM reviews'''
reviews = pd.io.sql.read_sql(query, con = engine)

In [4]:
# Выведем информацию по таблицам
for df in [books, authors, publishers, ratings, reviews]:
    display('-----------------------------------------------------------------------------------------------------------')
    display(df.head())
    display(df.info())

'-----------------------------------------------------------------------------------------------------------'

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


None

'-----------------------------------------------------------------------------------------------------------'

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


None

'-----------------------------------------------------------------------------------------------------------'

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


None

'-----------------------------------------------------------------------------------------------------------'

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


None

'-----------------------------------------------------------------------------------------------------------'

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


None

В целом данные представлены в достаточно хорошем виде: пропусков нет, наименования столбцов корректны.

## Ответы на вопросы

### Cколько книг вышло после 1 января 2000 года

In [5]:
count_books = '''SELECT COUNT(book_id) 
                 FROM books 
                 WHERE publication_date >= '2000-01-01'
'''

pd.io.sql.read_sql(count_books, con = engine)

Unnamed: 0,count
0,821


После 01.01.2000 г. вышла 821 книга.

### Рассчитаем количество обзоров и среднюю оценку для каждой книги

In [6]:
review_and_rating = '''SELECT 
                            books.book_id,
                            title,
                            count_review,
                            avg_rating
                            
                       FROM books 
                       
                       LEFT JOIN (SELECT book_id, 
                                         COUNT(review_id) AS count_review
                                  FROM reviews
                                  GROUP BY book_id) reviews ON books.book_id = reviews.book_id
                        
                       LEFT JOIN (SELECT book_id, 
                                         AVG(rating) AS avg_rating
                                  FROM ratings
                                  GROUP BY book_id) ratings ON books.book_id = ratings.book_id
                                  
                       ORDER BY avg_rating DESC
'''

pd.io.sql.read_sql(review_and_rating, con = engine)

Unnamed: 0,book_id,title,count_review,avg_rating
0,518,Pop Goes the Weasel (Alex Cross #5),2.0,5.00
1,732,The Ghost Map: The Story of London's Most Terr...,2.0,5.00
2,347,In the Hand of the Goddess (Song of the Liones...,2.0,5.00
3,610,Tai-Pan (Asian Saga #2),2.0,5.00
4,330,How to Be a Domestic Goddess: Baking and the A...,1.0,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3.0,2.25
996,371,Junky,2.0,2.00
997,316,His Excellency: George Washington,2.0,2.00
998,202,Drowning Ruth,3.0,2.00


Количество обзоров и средняя оценка книг представлены в таблице выше.

### Определим издательство, которое выпустило наибольшее число книг толще 50 страниц

In [7]:
publisher = '''SELECT 
                    publisher,
                    count_book

               FROM publishers 

               INNER JOIN (SELECT publisher_id, 
                                 COUNT(book_id) AS count_book
                          FROM books
                          WHERE num_pages > 50
                          GROUP BY publisher_id) books ON books.publisher_id = publishers.publisher_id


               ORDER BY count_book DESC
               LIMIT 1
'''

pd.io.sql.read_sql(publisher, con = engine)

Unnamed: 0,publisher,count_book
0,Penguin Books,42


Издательство `Penguin Books` выпустило наибольшее число книг больше 50 страниц - 42 книги

### Определим автора с самой высокой средней оценкой книг

In [8]:
author = '''SELECT
                authors.author,
                AVG(ratings.avg_rating) AS avg_rating
                
            FROM books
            
            LEFT JOIN (SELECT 
                            book_id,
                            AVG(rating) AS avg_rating,
                            COUNT(rating_id) AS count_rating
                       FROM ratings
                       GROUP BY book_id) ratings ON ratings.book_id = books.book_id
                       
            LEFT JOIN authors ON authors.author_id = books.author_id
            
            WHERE count_rating >= 50
            GROUP BY author
            ORDER BY avg_rating DESC
            LIMIT 1
'''
pd.io.sql.read_sql(author, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


Самая высокая средняя оценка книг у автора - J.K.Rowling/Mary GrandPré.

### Рассчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [9]:
avg_review = '''
    WITH 
    
    ratings AS (SELECT 
                    username, 
                    COUNT(rating) AS count_rating
                FROM ratings
                GROUP BY username),
    reviews AS (SELECT 
                    username,
                    COUNT(review_id) AS count_review
                FROM reviews
                GROUP BY username)
                
    SELECT ROUND(AVG(count_review),0) AS avg_count_review
    FROM ratings
    LEFT JOIN reviews ON ratings.username = reviews.username
    WHERE count_rating > 50
    
'''
pd.io.sql.read_sql(avg_review, con = engine)

Unnamed: 0,avg_count_review
0,24.0


Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок, - 24.

**Вывод:**
    
Целью нашего исследования был анализ базы данных. В первую очередь мы подключились к базе и загрузили необходимые таблицы для анализа, проверили корректность данных.
    
Далее ответили на поставленные вопросы:
1. Сколько книг вышло после 1 января 2000 года? - после 01.01.2000 г. вышла 821 книга.
2. Рассчитали количество обзоров и среднюю оценку для каждой книги.
3. Определили издательство, которое выпустило наибольшее число книг толще 50 страниц - издательство `Penguin Books` (42 книги)
4. Определили автора с самой высокой средней оценкой книг  - J.K.Rowling/Mary GrandPré (средний рейтинг - 4,3)
5. Рассчитали среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24 обзора