# Анализ базы данных 

### Описание проекта
Цель - проанализировать базу данных.
В нашем распоряжении база данных сервиса для чтения книг, включающая в себя информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

<a id='top'></a>
### План работы
1. [Знакомство с данными](#section1)
2. [Исследование данных](#section2)
3. [Выводы](#section3)

<a id='section1'></a>
### Знакомство с данными.

In [1]:
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
def run_sql(query):
    '''
    Функция для вывода sql-запроса. Принимает на вход строку с параметрами запроса.
    '''
    db_config = {'user': 'login', # имя пользователя
    'pwd': 'password', # пароль
    'host': 'host-url',
    'port': 6432, # порт подключения
    'db': 'data-analyst-final-project-db'} # название базы данных
    connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

    engine = create_engine(connection_string, connect_args={'sslmode':'require'})

    con=engine.connect()
    
    return pd.io.sql.read_sql(sql=text(query), con = con)
    

Выведем первые строки таблиц.

In [3]:
run_sql('''SELECT * FROM books LIMIT 5''')

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


В таблице `books` содержится информация о книгах.

In [4]:
run_sql('''SELECT * FROM authors LIMIT 5''')

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


В таблице `authors` содержится информация об авторах.

In [5]:
run_sql('''SELECT * FROM publishers LIMIT 5''')

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


В таблице `publishers` содержится информация об издательствах.

In [6]:
run_sql('''SELECT * FROM ratings LIMIT 5''')

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


В таблице `ratings` содержатся данные о пользовательских оценках книг.

In [7]:
run_sql('''SELECT * FROM reviews LIMIT 5''')

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


В таблице `reviews` содержатся данные о пользовательских обзорах на книги.

Таким образом, мы имеем 5 таблиц.

<a id='section2'></a>
### Исследование  данных.
[Оглавление](#top)

Посчитаем, сколько книг вышло после 1 января 2000 года.

In [8]:
run_sql('''SELECT COUNT(book_id) AS count_books FROM books WHERE publication_date > '2000-01-01' LIMIT 5''')

Unnamed: 0,count_books
0,819


После 1 января 2000 вышло 819 книг.

Для каждой книги посчитаем количество обзоров и среднюю оценку.

In [9]:
run_sql('''
SELECT 
    b.book_id,
    b.title,
    COUNT(DISTINCT re.review_id) AS count_reviews,
    ROUND(AVG(r.rating)) AS avg_rating
FROM books AS b 
LEFT OUTER JOIN reviews AS re ON b.book_id = re.book_id 
LEFT OUTER JOIN ratings AS r ON b.book_id = r.book_id 
GROUP BY b.book_id, b.title
ORDER BY avg_rating DESC, count_reviews DESC''')

Unnamed: 0,book_id,title,count_reviews,avg_rating
0,581,Snow Flower and the Secret Fan,5,5.0
1,17,A Dirty Job (Grim Reaper #1),4,5.0
2,334,Howl's Moving Castle (Howl's Moving Castle #1),4,5.0
3,423,Maus I: A Survivor's Tale: My Father Bleeds Hi...,4,5.0
4,203,Drums of Autumn (Outlander #4),4,5.0
...,...,...,...,...
995,794,The Mermaid Chair,3,2.0
996,772,The Kitchen God's Wife,3,2.0
997,371,Junky,2,2.0
998,316,His Excellency: George Washington,2,2.0


Мы имеем данные о 1000 книг с рейтингом от 2 до 5.

Определим издательство, которое выпустило наибольшее число книг толще 50 страниц.

In [10]:
run_sql('''
SELECT 
    p.publisher,
    COUNT(b.book_id) AS count_books
FROM publishers AS p 
LEFT OUTER JOIN books AS b ON p.publisher_id = b.publisher_id 
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY count_books DESC
LIMIT 1''')

Unnamed: 0,publisher,count_books
0,Penguin Books,42


Издательство `Penguin Books	` выпустило наибольшее число книг - 42.

Определим автора с самой высокой средней оценкой книг, будем учитывать только книги с 50 и более оценками.

In [11]:
run_sql('''
WITH book_rating AS(
    SELECT
        b.book_id,
        b.author_id,
        COUNT(r.rating_id) AS count_rating
    FROM books AS b
    LEFT OUTER JOIN ratings AS r ON b.book_id = r.book_id
    GROUP BY b.book_id, b.author_id
    HAVING COUNT(r.rating_id) >= 50
)
SELECT
    a.author,
    ROUND(AVG(r.rating),2) AS avg_rating
FROM book_rating br
INNER JOIN authors AS a ON a.author_id = br.author_id
INNER JOIN ratings AS r ON br.book_id = r.book_id
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 1''')

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.29


Автор `J.K. Rowling/Mary GrandPré` имеет самую высокую среднюю оценку книг, она составляет 4.29.

Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [12]:
run_sql('''
WITH user_ratings AS (
    SELECT
        username,
        COUNT(rating_id) AS rating_count
    FROM ratings
    GROUP BY username
    HAVING COUNT(rating_id) > 48
),
user_reviews AS (
    SELECT
        r.username,
        COUNT(r.review_id) AS count_reviews
    FROM user_ratings AS ur
    INNER JOIN reviews AS r ON ur.username = r.username
    GROUP BY r.username
)
SELECT AVG(count_reviews) AS count_reviews
FROM user_reviews
''')

Unnamed: 0,count_reviews
0,24.0


Среднее количество обзоров от пользователей, поставивших более 48 оценок - 24.

<a id='section3'></a>
### Выводы
[Оглавление](#top)

1. В базе данных содержится информация о 1000 книг с рейтингом от 2 до 5. 
2. После 1 января 2000 вышло 819 книг.
3. Наибольшее количество книг (42) выпустило издательство `Penguin Books`.
4. Самая высока средняя оценка книг (4.29) у автора `J.K. Rowling/Mary GrandPré`.
5. Пользователи, поставившие более 48 оценок, в среднем пишут 24 обзора.