# Проект по SQL

Цель проекта: наша компания купила крупный сервис для чтения книг по подписке. Необходимо проанализировать базу данных. Для этого нужно выполнить задачи:

- просмотреть данные в таблицах;
- посчитайте, сколько книг вышло после 1 января 2000 года;
- для каждой книги рассчитать количество обзоров и среднюю оценку;
- определите издательство, которое выпустило наибольшее число книг толще 50 страниц;
- найти автора с самой высокой средней оценкой книг;
- посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

Ход исследования

В базе данных находится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта. Необходимо просмотреть перные строчки каждой таблицы, написать необходимые запросы для выполнения задач.

Таким образом, исследование пройдёт в 3 этапов:

- подключение к базе данных и просмотр данных; 
- изучение данных;
- вывод;

In [3]:
pip install psycopg2-binary

Note: you may need to restart the kernel to use updated packages.


### Подключение к базе данных

In [5]:
import pandas as pd
from sqlalchemy import text, create_engine
from datetime import datetime

In [6]:
db_config = {'user': 'praktikum_student', 
'pwd': 'Sdf4$2;d-d30pp',
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, 
'db': 'data-analyst-final-project-db'} 
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [7]:
query = '''
        SELECT *
        FROM books
        '''
books = pd.io.sql.read_sql(query, con = engine)

In [8]:
query = '''
        SELECT *
        FROM authors
        '''
authors = pd.io.sql.read_sql(query, con = engine)

In [9]:
query = '''
        SELECT *
        FROM publishers
        '''
publishers = pd.io.sql.read_sql(query, con = engine)

In [10]:
query = '''
        SELECT *
        FROM ratings
        '''
ratings = pd.io.sql.read_sql(query, con = engine)

In [11]:
query = '''
        SELECT *
        FROM reviews
        '''
reviews = pd.io.sql.read_sql(query, con = engine)

### Изучение данных

In [13]:
# Создадим функцию для просмотра информации о датафреймах
def info_dt(row):
    """
    Данная функция выводит первичную информацию о датафреме
    """
    print('\033[1m' + 'Вывод первых 10-ти строчек:' + '\033[0m')
    display(row.head(10))
    print("\n") 
    print('\033[1m' + 'Вывод информации о датафрейме:' + '\033[0m')
    print("\n") 
    row.info()
    print("\n") 
    print('\033[1m' + 'Представление о данных в числах:' + '\033[0m')
    display(row.describe())
    print("\n") 
    print('\033[1m' + 'Число пропущенных значений:' + '\033[0m')
    display(row.isna().sum().reset_index())
    print("\n") 
    print('\033[1m' + 'Количество дубликатов:' + '\033[0m')
    display(row.duplicated().sum())

In [14]:
info_dt(books)

[1mВывод первых 10-ти строчек:[0m


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116




[1mВывод информации о датафрейме:[0m


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


[1mПредставление о данных в числах:[0m


Unnamed: 0,book_id,author_id,num_pages,publisher_id
count,1000.0,1000.0,1000.0,1000.0
mean,500.5,320.417,389.111,171.27
std,288.819436,181.620172,229.39014,99.082685
min,1.0,1.0,14.0,1.0
25%,250.75,162.75,249.0,83.0
50%,500.5,316.5,352.0,177.5
75%,750.25,481.0,453.0,258.0
max,1000.0,636.0,2690.0,340.0




[1mЧисло пропущенных значений:[0m


Unnamed: 0,index,0
0,book_id,0
1,author_id,0
2,title,0
3,num_pages,0
4,publication_date,0
5,publisher_id,0




[1mКоличество дубликатов:[0m


0

In [15]:
info_dt(authors)

[1mВывод первых 10-ти строчек:[0m


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts




[1mВывод информации о датафрейме:[0m


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


[1mПредставление о данных в числах:[0m


Unnamed: 0,author_id
count,636.0
mean,318.5
std,183.741666
min,1.0
25%,159.75
50%,318.5
75%,477.25
max,636.0




[1mЧисло пропущенных значений:[0m


Unnamed: 0,index,0
0,author_id,0
1,author,0




[1mКоличество дубликатов:[0m


0

In [16]:
info_dt(publishers)

[1mВывод первых 10-ти строчек:[0m


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers




[1mВывод информации о датафрейме:[0m


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


[1mПредставление о данных в числах:[0m


Unnamed: 0,publisher_id
count,340.0
mean,170.5
std,98.293777
min,1.0
25%,85.75
50%,170.5
75%,255.25
max,340.0




[1mЧисло пропущенных значений:[0m


Unnamed: 0,index,0
0,publisher_id,0
1,publisher,0




[1mКоличество дубликатов:[0m


0

In [17]:
info_dt(ratings)

[1mВывод первых 10-ти строчек:[0m


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4




[1mВывод информации о датафрейме:[0m


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


[1mПредставление о данных в числах:[0m


Unnamed: 0,rating_id,book_id,rating
count,6456.0,6456.0,6456.0
mean,3228.5,510.574195,3.928284
std,1863.831001,284.141636,0.943303
min,1.0,1.0,1.0
25%,1614.75,291.0,3.0
50%,3228.5,506.0,4.0
75%,4842.25,750.0,5.0
max,6456.0,1000.0,5.0




[1mЧисло пропущенных значений:[0m


Unnamed: 0,index,0
0,rating_id,0
1,book_id,0
2,username,0
3,rating,0




[1mКоличество дубликатов:[0m


0

In [18]:
info_dt(reviews)

[1mВывод первых 10-ти строчек:[0m


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...




[1mВывод информации о датафрейме:[0m


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


[1mПредставление о данных в числах:[0m


Unnamed: 0,review_id,book_id
count,2793.0,2793.0
mean,1397.0,504.693161
std,806.413976,288.472931
min,1.0,1.0
25%,699.0,259.0
50%,1397.0,505.0
75%,2095.0,753.0
max,2793.0,1000.0




[1mЧисло пропущенных значений:[0m


Unnamed: 0,index,0
0,review_id,0
1,book_id,0
2,username,0
3,text,0




[1mКоличество дубликатов:[0m


0

**Вывод:**

- пропуски отсутствуют;
- явные дубликаты отсутствуют.

### Изучение данных

In [21]:
# Создадим фукцию для просмотра запровсов
def sql(query):
    """
    Данная функция вывод результат sql запроса
    """
    return pd.read_sql(query, con=engine)

#### Посчитаем число книг, которые  вышли после 1 января 2000 года

In [23]:
books_count = """
              SELECT COUNT(book_id) 
              FROM books
              WHERE publication_date >= '2000-01-01'
              """
sql(books_count)

Unnamed: 0,count
0,821


**Вывод:** с 1 января 2000 года вышла 821 книга.

#### Для каждой книги посчитаем количество обзоров и среднюю оценку

In [26]:
books_rating = """
SELECT 
    b.book_id AS id,
    b.title AS book_title,
    COUNT(DISTINCT re.review_id) AS count_review,
    ROUND(AVG(r.rating), 2) AS avg_rating
FROM 
    books b
LEFT JOIN 
    ratings r ON b.book_id = r.book_id
LEFT JOIN 
    reviews re ON b.book_id = re.book_id
GROUP BY 
    b.book_id, b.title
ORDER BY 
    count_review DESC;
"""
sql(books_rating)

Unnamed: 0,id,book_title,count_review,avg_rating
0,948,Twilight (Twilight #1),7,3.66
1,963,Water for Elephants,6,3.98
2,734,The Glass Castle,6,4.21
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
4,695,The Curious Incident of the Dog in the Night-Time,6,4.08
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67
996,808,The Natural Way to Draw,0,3.00
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.00
998,221,Essential Tales and Poems,0,4.00


**Вывод:** определили число обзоров и среднюю оценку для каждой книги.

#### Определим издательства, которое выпустили наибольшее число книг

In [29]:
top_publishers = """
SELECT p.publisher_id,
publisher,
COUNT(book_id) book_count
FROM publishers AS p
JOIN books AS b ON p.publisher_id=b.publisher_id
WHERE num_pages > 50
GROUP BY p.publisher_id
ORDER BY book_count DESC
LIMIT 10

"""
sql(top_publishers)

Unnamed: 0,publisher_id,publisher,book_count
0,212,Penguin Books,42
1,309,Vintage,31
2,116,Grand Central Publishing,25
3,217,Penguin Classics,24
4,33,Ballantine Books,19
5,35,Bantam,19
6,45,Berkley,17
7,284,St. Martin's Press,14
8,46,Berkley Books,14
9,83,Delta,13


**Вывод:** самым крупным издателем является 'Penguin Books'.

#### Определим автора с самой высокой средней оценкой книги

In [32]:
top_authors ="""
WITH 
g AS (SELECT a.author_id,
author,
ROUND(AVG(rating), 2) AS avg_rating
FROM authors AS a
JOIN books AS b ON a.author_id=b.author_id
JOIN ratings AS r ON r.book_id=b.book_id
GROUP BY b.book_id, a.author_id
HAVING COUNT(rating_id) >= 50
ORDER BY avg_rating DESC)
SELECT author_id,
author,
ROUND(AVG(avg_rating), 2) 
FROM g
GROUP BY author, author_id
ORDER BY AVG(avg_rating) DESC


"""

sql(top_authors)

Unnamed: 0,author_id,author,round
0,236,J.K. Rowling/Mary GrandPré,4.29
1,402,Markus Zusak/Cao Xuân Việt Khương,4.26
2,240,J.R.R. Tolkien,4.26
3,376,Louisa May Alcott,4.19
4,498,Rick Riordan,4.08
5,621,William Golding,3.9
6,235,J.D. Salinger,3.83
7,469,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.79
8,630,William Shakespeare/Paul Werstine/Barbara A. M...,3.79
9,106,Dan Brown,3.76


**Вывод:** автором с самой высокой средней оценкой является J.K. Rowling/Mary GrandPré - 4.29.

#### Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [35]:
avg_rating = """
WITH users AS (
SELECT username
FROM ratings
GROUP BY username
HAVING COUNT(rating_id) > 48),
users1 AS (SELECT COUNT(review_id) as review_count
FROM reviews
WHERE username IN (SELECT username
FROM users)
GROUP BY username)
SELECT AVG(review_count)
FROM users1
"""
sql(avg_rating)

Unnamed: 0,avg
0,24.0


**Вывод:** в среднем пользователи, которые поставили 48 оценок, оставляют 24 отзыва.

### Общий вывод

**Подключились к базе данных и просмотрели информацию о датафреймах:**

Представленные датафреймы:
- books - содержит данные о книгах;
- authors - содержит данные об авторах;
- publishers - содержит данные об издательствах;
- ratings - содержит данные о пользовательских оценках книг;
- reviews - содержит данные о пользовательских обзорах.

В ходе просмотра информации о датейреймах обнаружили, что:
- пропуски отсутствуют;
- явные дубликаты отсутствуют.

**В процессе исследования определили что:**

- после 1 января 2000 года вышла 821 книга;
- для каждой книги определили количество обзоров и среднюю оценку;
- больше всего книг выпустило издательство 'Penguin Books';
- автором с самой высокой средней оценкой является J.K. Rowling/Mary GrandPré - 4.29;
- в среднем пользователи, которые поставили 48 оценок, оставлиют 24 отзыва.