# SQL

## Оглавление 

1. [Описание проекта](#step1)  
2. [Описание данных](#step2)
3. [Задание](#step3)  
4. [Краткий план выполнения работы](#step4) 
5. [Импорт библиотек](#step5) 
6. [Загрузка данных и подготовка к анализу](#step6)
7. [Посчитать количество книг, выпущенных после 1 января 2000 года](#step7)
8. [Посчитать количество пользовательских обзоров и среднюю оценку для каждой книги](#step8)
9. [Определить издательство, которое издало наибольшее число книг толще 50 страниц](#step9)
10. [Определить автора с самой высокой средней оценкой книг - учитывая только книги с 50 и более пользовательскими оценками](#step10)
11. [Посчитать среднее количество текстовых обзоров пользователей, которые поставили более чем по 50 оценок](#step11)
12. [Общий вывод](#step12)

## Описание проекта <a id="step1"></a>   
</div>

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато теперь они могут уделять больше времени книгам. На это обратили внимание стартаперы, которые бросились создавать новые приложения для тех, кто любит читать.

Вам передали базу данных одного из конкурирующих сервисов. В ней есть информация о книгах, издательствах, авторах, а также пользовательские обзоры на книги. Эти данные помогут сформулировать ценностное предложение для нового продукта.

## Описание данных <a id="step2"></a>   
</div>

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Задание:<a id="step3"></a>   
</div>

- Посчитать количество книг, выпущенных после 1 января 2000 года;
- Посчитать количество пользовательских обзоров и среднюю оценку для каждой книги;
- Определить издательство, которое издало наибольшее число книг толще 50 страниц;
- Определить автора с самой высокой средней оценкой книг - учитывая только книги с 50 и более пользовательскими оценками;
- Посчитать среднее количество текстовых обзоров пользователей, которые поставили более чем по 50 оценок.

### Краткий план выполнения работы<a id="step4"></a>   
</div>

- Опишем цели исследования;
- Исследуем таблицы (выведите первые строки);
- Сделаем по одному SQL-запросу для решения каждой из пяти представленных задач;
- Выведем результаты каждого запроса в тетрадке;
- Опишием выводы по каждой из решённых задач.


**Цели исследования:** найти точки для формирования ценностного предложение для нового продукта.

## Импорт библиотек <a id="step5"></a>   
</div>

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

## Загрузка данных и подготовка к анализу <a id="step6"></a>   
</div>

In [2]:
#создаем подключение к базе данных
db_config = {'user': 'praktikum_student', # имя пользователя
             'pwd': 'Sdf4$2;d-d30pp', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # порт подключения
             'db': 'data-analyst-final-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
                                                         db_config['pwd'], 
                                                         db_config['host'], 
                                                         db_config['port'], 
                                                         db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
#загрузка данных в переменные
query_books = '''SELECT * FROM books'''
books = pd.io.sql.read_sql(query_books, con = engine)

query_authors = '''SELECT * FROM authors'''
authors = pd.io.sql.read_sql(query_authors, con = engine)

query_publishers = '''SELECT * FROM publishers'''
publishers = pd.io.sql.read_sql(query_publishers, con = engine)

query_ratings = '''SELECT * FROM ratings'''
ratings = pd.io.sql.read_sql(query_ratings, con = engine)

query_reviews = '''SELECT * FROM reviews'''
reviews = pd.io.sql.read_sql(query_reviews, con = engine)

In [4]:
#напишем функцию для первого взгляда на данные
def df_firstView(df):
    df.columns = df.columns.str.lower()
    display('Размер набора данных (строк, столбцов):', df.shape)
    display('Количество грубых дубликатов в наборе данных:', df.duplicated().sum())
    display('Наименование столбцов:', df.columns)
    display('Просмотр типов данных в столбцах')
    df.info()
    display('')
    display('Вывод набора случайных строк')
    try:
        display(df.sample(20))
    except:
        display(df.sample(5))

### посмотрим на таблицу - books

In [5]:
df_firstView(books)

'Размер набора данных (строк, столбцов):'

(1000, 6)

'Количество грубых дубликатов в наборе данных:'

0

'Наименование столбцов:'

Index(['book_id', 'author_id', 'title', 'num_pages', 'publication_date',
       'publisher_id'],
      dtype='object')

'Просмотр типов данных в столбцах'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
book_id             1000 non-null int64
author_id           1000 non-null int64
title               1000 non-null object
num_pages           1000 non-null int64
publication_date    1000 non-null object
publisher_id        1000 non-null int64
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


''

'Вывод набора случайных строк'

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
82,83,174,Anne Rice's The Vampire Lestat: A Graphic Novel,404,1991-11-30,33
954,955,291,Vanishing Acts,426,2005-11-15,329
622,623,398,The Adventures of Huckleberry Finn (Adventures...,327,2002-12-31,217
322,323,73,Hoot,292,2006-03-14,340
306,307,206,He's Just Not That Into You: The No-Excuses Tr...,208,2006-12-26,111
602,603,513,Sunshine,405,2004-11-30,164
775,776,359,The Laughing Corpse (Anita Blake Vampire Hunt...,301,2005-08-02,45
518,519,139,Pope Joan,422,2009-06-09,34
417,418,201,March,280,2006-01-31,210
216,217,453,Ender's Shadow (The Shadow Series #1),469,2002-05-19,286


### посмотрим на таблицу - authors

In [6]:
df_firstView(authors)

'Размер набора данных (строк, столбцов):'

(636, 2)

'Количество грубых дубликатов в наборе данных:'

0

'Наименование столбцов:'

Index(['author_id', 'author'], dtype='object')

'Просмотр типов данных в столбцах'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
author_id    636 non-null int64
author       636 non-null object
dtypes: int64(1), object(1)
memory usage: 10.0+ KB


''

'Вывод набора случайных строк'

Unnamed: 0,author_id,author
590,591,Trudi Canavan
21,22,Anita Shreve
30,31,Anne McCaffrey
165,166,Erich Fromm/Peter D. Kramer/Rainer Funk
522,523,Ruth Stiles Gannett
460,461,Pat Frank
101,102,Curtis Sittenfeld
480,481,Philippa Gregory
472,473,Pearl S. Buck
564,565,T.S. Eliot/Michael North


### посмотрим на таблицу - publishers

In [7]:
df_firstView(publishers)

'Размер набора данных (строк, столбцов):'

(340, 2)

'Количество грубых дубликатов в наборе данных:'

0

'Наименование столбцов:'

Index(['publisher_id', 'publisher'], dtype='object')

'Просмотр типов данных в столбцах'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
publisher_id    340 non-null int64
publisher       340 non-null object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


''

'Вывод набора случайных строк'

Unnamed: 0,publisher_id,publisher
192,193,No Exit Press
52,53,Bloomsbury Childrens Books
244,245,Random House: Modern Library
182,183,Modern Library
143,144,HarperTrophy
256,257,Scholastic Press
326,327,Warner Books (NY)
193,194,Noonday Press
173,174,Listening Library (Audio)
17,18,Andrews McMeel Publishing


### посмотрим на таблицу - ratings

In [8]:
df_firstView(ratings)

'Размер набора данных (строк, столбцов):'

(6456, 4)

'Количество грубых дубликатов в наборе данных:'

0

'Наименование столбцов:'

Index(['rating_id', 'book_id', 'username', 'rating'], dtype='object')

'Просмотр типов данных в столбцах'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
rating_id    6456 non-null int64
book_id      6456 non-null int64
username     6456 non-null object
rating       6456 non-null int64
dtypes: int64(3), object(1)
memory usage: 201.8+ KB


''

'Вывод набора случайных строк'

Unnamed: 0,rating_id,book_id,username,rating
5663,5664,867,ashleyjoshua,2
1213,1214,207,serranoangela,2
779,780,125,yvonnevillarreal,3
3524,3525,571,daniel19,2
116,117,26,anthonyanderson,4
5616,5617,864,brentpowers,4
4416,4417,696,adamsabigail,4
1687,1688,299,shafferrobert,4
894,895,145,rmiller,2
1094,1095,186,tanya01,4


### посмотрим на таблицу - reviews

In [9]:
df_firstView(reviews)

'Размер набора данных (строк, столбцов):'

(2793, 4)

'Количество грубых дубликатов в наборе данных:'

0

'Наименование столбцов:'

Index(['review_id', 'book_id', 'username', 'text'], dtype='object')

'Просмотр типов данных в столбцах'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
review_id    2793 non-null int64
book_id      2793 non-null int64
username     2793 non-null object
text         2793 non-null object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


''

'Вывод набора случайных строк'

Unnamed: 0,review_id,book_id,username,text
479,479,175,danielchung,Region yourself help compare Mr community.
1996,1995,722,eallen,Us animal including read little cost. Grow its...
1089,1090,402,emcdaniel,Now turn might war green site there. Law thems...
1863,1862,676,jeromebowen,Of Democrat century bring. Outside treatment e...
1031,1032,379,valenciaanne,Mr during drug gun receive likely economy cent...
1763,1762,637,bobbyhood,Force article adult film attention man entire ...
371,371,132,webbmichelle,Bit effect mother become head character thousa...
1220,1220,444,nicoleburns,Pretty under while but method. In total color ...
1748,1747,633,gmccann,Beat lot take care.
351,351,124,lesliegibbs,Describe economy accept just program. Church y...


**Выводы шагу:**
- пропуски не обнаружены;
- грубых дубликатов не обнаружено;
- наименования столбцов корректны;
- типы данных не требуют вмешательства.

### Посчитаем количество книг, выпущенных после 1 января 2000 года<a id="step7"></a>   
</div>

Для удобства работы напишем функцию которая примет на вход запрос к БД и вернет результат.

In [10]:
def go_SQL(sql):
    return pd.io.sql.read_sql(sql, con = engine)

In [11]:
#формируем запрос
books_count = '''SELECT COUNT(book_id) AS books_cnt FROM books WHERE publication_date >= '2000-01-02' '''

go_SQL(books_count)

Unnamed: 0,books_cnt
0,819


Количество книг выпущенных, после 01.01.2000 г. - **819 шт.**

### Посчитаем количество пользовательских обзоров и среднюю оценку для каждой книги<a id="step8"></a>   
</div>

In [12]:
#формируем запрос
reviews_agrgt = '''
SELECT 
    books.title AS title, books.book_id AS id,
    AVG(ratings.rating) AS avg_rating,
    COUNT(DISTINCT reviews.text) AS cnt_reviews
FROM
    books
INNER JOIN ratings ON ratings.book_id = books.book_id
INNER JOIN reviews ON reviews.book_id = books.book_id
GROUP BY
     books.title, books.book_id
order by
     cnt_reviews DESC
limit 10
'''
#работаем по запросу
go_SQL(reviews_agrgt)

Unnamed: 0,title,id,avg_rating,cnt_reviews
0,Twilight (Twilight #1),948,3.6625,7
1,The Da Vinci Code (Robert Langdon #2),696,3.830508,6
2,Eat Pray Love,207,3.395833,6
3,The Alchemist,627,3.789474,6
4,The Catcher in the Rye,673,3.825581,6
5,The Curious Incident of the Dog in the Night-Time,695,4.081081,6
6,Harry Potter and the Prisoner of Azkaban (Harr...,302,4.414634,6
7,Harry Potter and the Chamber of Secrets (Harry...,299,4.2875,6
8,Outlander (Outlander #1),497,4.125,6
9,The Book Thief,656,4.264151,6


Посчитали количество пользовательских обзоров и среднюю оценку для каждой книги, максимальное количество обзоров - 7, у книги "Сумерки", при этом средний рейтинг не высок. Книги а приключениях Гарри Потера выглядят по этому соотношению солидней.

### Определим издательство, которое издало наибольшее число книг толще 50 страниц <a id="step9"></a>   
</div>

In [13]:
#формируем запрос
book_top_publisher = '''
SELECT
     publishers.publisher AS name_publisher,
     COUNT(books.book_id) AS cnt_of_published_books
FROM
    publishers
INNER JOIN books ON books.publisher_id = publishers.publisher_id
WHERE
    books.num_pages > 50
GROUP BY
    name_publisher
ORDER BY 
    cnt_of_published_books DESC
LIMIT 1
'''
#работаем по запросу
go_SQL(book_top_publisher)

Unnamed: 0,name_publisher,cnt_of_published_books
0,Penguin Books,42


Издательство, которое издало наибольшее число книг толще 50 страниц - **Penguin Books.**

### Определим автора с самой высокой средней оценкой книг — учитывая книги с 50 и более пользовательскими оценками<a id="step10"></a>   
</div>

In [14]:
#формируем запрос
top_author_avg_rating = '''
SELECT
      SUBQ.author AS author,
      AVG(SUBQ.avg_rating) AS avg_rating
FROM
(SELECT
     authors.author AS author, books.book_id AS id,
     AVG(ratings.rating) AS avg_rating,
     COUNT(ratings.rating) AS cnt_rating
FROM
    authors
INNER JOIN books ON books.author_id = authors.author_id
INNER JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    author, id
    HAVING
    COUNT(ratings.rating) >= 50) AS SUBQ
GROUP BY
    author
ORDER BY
    avg_rating DESC
LIMIT 5
'''
#работаем по запросу
go_SQL(top_author_avg_rating)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645


Ожидаемо самый высокий рейтинг у книг Джоан Роулинг о маленьком волшебнике, это можно было спрогнозировать по итогам подсчета количество пользовательских обзоров и среднюю оценку для каждой книги, взглянув на топ 10.

### Посчитаем среднее количество текстовых обзоров пользователей, которые поставили более чем по 50 оценок.<a id="step11"></a>   
</div>

In [15]:
#формируем запрос
text_reviews_avg = '''
SELECT ROUND(avg(count)) 
FROM
(SELECT
    COUNT(text)
FROM 
    reviews
FULL OUTER JOIN (SELECT username,
                COUNT(rating_id) as cnt
FROM 
    ratings
GROUP BY
        username) AS cnt_rating
ON cnt_rating.username = reviews.username
where cnt > 50
GROUP BY reviews.username) as count;                                  
'''
#работаем по запросу
go_SQL(text_reviews_avg)

Unnamed: 0,round
0,24.0


Среднее количество текстовых обзоров пользователей, которые поставили более чем по 50 оценок - **24 шт.**

## Общий вывод    <a id="step12"></a>   
</div>

Количество книг выпущенных, после 01.01.2000 г. - **819 шт.**

Посчитали количество пользовательских обзоров и среднюю оценку для каждой книги, максимальное количество обзоров - 7, у книги "Сумерки", при этом средний рейтинг не высок. Книги а приключениях Гарри Потера выглядят по этому соотношению солидней.

Ожидаемо самый высокий рейтинг у книг Джоан Роулинг о маленьком волшебнике.

Издательство, которое издало наибольшее число книг толще 50 страниц - **Penguin Books.**

Среднее количество текстовых обзоров пользователей, которые поставили более чем по 50 оценок - **24 шт.**

**Вывод:** для формирования ценностного предложения информации на данном этапе не достаточно, нужен более глубокий анализ, сейчас заданы лишь основные направления по крупным издательствам и популярным авторам.