# Проект: Анализ оттока клиентов банка «Метанпром»

Цель: Проанализировать базу данных для нового продукта : крупный сервис для чтения книг по подписке  

Задачи:
- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Выгрузка данных и ознакомление с ними

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': #########, # пароль
'host': #########,
'port': #########, # порт подключения
'db': '##########'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})


In [2]:
# получаем сырые данные
query = '''
            SELECT * FROM books
        '''

# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [3]:
# получаем сырые данные
query = '''
            SELECT * FROM authors
        '''

# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [4]:
# получаем сырые данные
query = '''
            SELECT * FROM publishers
        '''

# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [5]:
# получаем сырые данные
query = '''
            SELECT * FROM ratings
        '''

# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [6]:
# получаем сырые данные
query = '''
            SELECT * FROM reviews
        '''

# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


## Задания

Посчитайте, сколько книг вышло после 1 января 2000 года

In [7]:
query = '''
            SELECT COUNT(book_id)
            FROM books
            WHERE publication_date > '2000-01-01'
        '''

# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,819


Вышло 819 книг после 1 января 2000 года

Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [112]:
query = '''
            SELECT b.title,
                   b.book_id,
                   COUNT(DISTINCT rev.review_id) AS reviews_amt,
                   AVG(rat.rating) AS avg_rating
            FROM books AS b
            LEFT JOIN reviews AS rev ON b.book_id = rev.book_id
            LEFT JOIN  ratings AS rat
            ON b.book_id = rat.book_id
           
            
            GROUP BY b.book_id, b.title
            ORDER BY avg_rating DESC
            LIMIT 5
        '''

# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,title,book_id,reviews_amt,avg_rating
0,A Woman of Substance (Emma Harte Saga #1),55,2,5.0
1,Act of Treason (Mitch Rapp #9),57,2,5.0
2,A Dirty Job (Grim Reaper #1),17,4,5.0
3,A Fistful of Charms (The Hollows #4),20,2,5.0
4,Alas Babylon,62,2,5.0


Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [9]:
query = '''
            SELECT DISTINCT p.publisher AS publisher,
                   COUNT(DISTINCT b.book_id) AS amt_books
            FROM books AS b
            LEFT JOIN publishers AS p ON b.publisher_id = p.publisher_id
            WHERE b.num_pages > 50

            GROUP BY publisher
            ORDER BY amt_books DESC
'''
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,amt_books
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Wordsworth Editions,1
330,Workman Publishing Company,1
331,Wyatt Book,1
332,Yale University Press,1


Больше всего книг с 50+ страницами выпустило издательство Penguin Books (42 книги)

Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [97]:
query = '''
            WITH filtered AS(
            SELECT DISTINCT book_id
            FROM ratings
            GROUP BY book_id
            HAVING COUNT(rating_id)>50
            )
            SELECT DISTINCT a.author AS author,
                   ROUND(AVG(rat.rating),2) AS avg_rating
            FROM books AS b
            INNER JOIN filtered AS f ON b.book_id = f.book_id
            INNER JOIN authors AS a ON b.author_id = a.author_id
            INNER JOIN ratings AS rat ON f.book_id = rat.book_id
           
            GROUP BY author
            ORDER BY avg_rating DESC
'''
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.29
1,Markus Zusak/Cao Xuân Việt Khương,4.26
2,J.R.R. Tolkien,4.25
3,Louisa May Alcott,4.19
4,Rick Riordan,4.08
5,William Golding,3.9
6,J.D. Salinger,3.83
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.79
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.79
9,Lois Lowry,3.75


Автор с наибольшей средней оценкой - J.K. Rowling/Mary GrandPré. Средння оценка (4.29 баллов)

Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [11]:
query = '''
            WITH people AS(
            SELECT DISTINCT rat.username as name
            FROM ratings as rat
            GROUP BY name
            HAVING COUNT(rat.rating_id)>50
            )
        
            
            SELECT DISTINCT COUNT(rev.review_id)/ COUNT(DISTINCT rev.username) AS ratio
            FROM reviews AS rev
            INNER JOIN people AS pep ON rev.username = pep.name
            INNER JOIN books AS b ON rev.book_id = b.book_id
            
            
    
        
'''
# чтобы выполнить SQL-запрос, используем Pandas
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,ratio
0,24


В среднем, пользователи, которые поставили больше 50 оценок пишут по 24 обзора

## Вывод

* Вышло 819 книг после 1 января 2000 года
* Максимальное число ревью 7, минимальное 0. Средний рейтинг у книг в диапазоне от 1.5 до 5 баллов
* Больше всего книг с 50+ страницами выпустило издательство Penguin Books (42 книги)
* Автор с наибольшей средней оценкой (при числе оценок 50+) - J.K. Rowling/Mary GrandPré. Средння оценка (4.29 баллов)
* Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равняется 24