###  <font color='Blue'>**SQL проект по книжной области**<br><b>
Проект является частью выпускного курса "Аналитик данных +" от Яндекс-Практикума.

**Описание проекта:**

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.

Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных.

В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**Цели исследования:**
1. Исследовать все таблицы БД, вывести первые строки, посчитать количество строк
2. Выполнить 5 заданий и написать по ним выводы

**Ход исследования:**

Моё исследование пройдет в несколько этапов:
* Загружу библиотеки для SQL и их табличной обработки
* Задам конфигурацию для подключения к базе данных, подключусь
* Обзор данных, исследую все таблицы БД, выведу первые строки, посчитаю количество строк
* Выполню 5 заданий и напишу по ним выводы

### **Описание таблиц базы данных `data-analyst-final-project-db`**

1. Таблица books (Содержит данные о книгах):
    * book_id — идентификатор книги;
    * author_id — идентификатор автора;
    * title — название книги;
    * num_pages — количество страниц;
    * publication_date — дата публикации книги;
    * publisher_id — идентификатор издателя.


2. Таблица authors (Содержит данные об авторах):
    * author_id — идентификатор автора;
    * author — имя автора.


3. Таблица publishers (Содержит данные об издательствах):
    * publisher_id — идентификатор издательства;
    * publisher — название издательства;
    
    
4. Таблица ratings (Содержит данные о пользовательских оценках книг):
    * rating_id — идентификатор оценки;
    * book_id — идентификатор книги;
    * username — имя пользователя, оставившего оценку;
    * rating — оценка книги.


5. Таблица reviews (Содержит данные о пользовательских обзорах на книги):
    * review_id — идентификатор обзора;
    * book_id — идентификатор книги;
    * username — имя пользователя, написавшего обзор;
    * text — текст обзора.

## 1. Загрузка данных

### 1.1 Импортируем библиотеки

In [1]:
import pandas as pd

import sqlalchemy as sa
#from sqlalchemy import create_engine

### 1.2 Конфигурация для подключения к базе данных `data-analyst-final-project-db`


In [2]:
# устанавливаем параметры
db_config = {
    'user': 'praktikum_student', # имя пользователя
    'pwd': 'Sdf4$2;d-d30pp', # пароль
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432, # порт подключения
    'db': 'data-analyst-final-project-db' # название базы данных
    }

# формируем строку соединения с БД
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраняем коннектор/ создание подключения к БД
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

# чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

### 1.3 Первые строки таблиц, количество строк

In [4]:
# вар1
# функция для вывода первых строк + вывода количества строк таблиц
def look(table):
    # сохраняем коннектор/ создание подключения к БД
    engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

    # выведем первые строки + размер таблицы
    query = '''
    SELECT *,
    COUNT(*) OVER() AS table_size
    FROM {}
    LIMIT 2
    '''.format(table)
    return get_sql_data(query)

In [5]:
# вар2
# функция для вывода первых строк + вывода количества строк таблиц + типов данных
def look2(table):
    # сохраняем коннектор/ создание подключения к БД
    engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

    # выведем первые строки + размер таблицы
    query = '''
    SELECT *,
    COUNT(*) OVER() AS table_size
    FROM {}
    LIMIT 2
    '''.format(table)
    display(get_sql_data(query))

    # выведем информацию о типах данных столбцов
    query = '''
    SELECT *
    FROM information_schema.columns
    WHERE table_schema = 'public' AND
          table_name = '{}'
    '''.format(table)
    return (get_sql_data(query)
           [['column_name', 'data_type']]
           .T
           )

In [6]:
# 1. Таблица books (Содержит данные о книгах):
look2('books')

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id,table_size
0,1,546,'Salem's Lot,594,2005-11-01,93,1000
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336,1000


Unnamed: 0,0,1,2,3,4,5
column_name,book_id,author_id,title,num_pages,publication_date,publisher_id
data_type,integer,integer,text,integer,date,integer


In [7]:
# 2. Таблица authors (Содержит данные об авторах):
look2('authors')

Unnamed: 0,author_id,author,table_size
0,1,A.S. Byatt,636
1,2,Aesop/Laura Harris/Laura Gibbs,636


Unnamed: 0,0,1
column_name,author_id,author
data_type,integer,text


In [8]:
# 3. Таблица publishers (Содержит данные об издательствах):
look2('publishers')

Unnamed: 0,publisher_id,publisher,table_size
0,1,Ace,340
1,2,Ace Book,340


Unnamed: 0,0,1
column_name,publisher_id,publisher
data_type,integer,text


In [9]:
# 4. Таблица ratings (Содержит данные о пользовательских оценках книг):
look2('ratings')

Unnamed: 0,rating_id,book_id,username,rating,table_size
0,1,1,ryanfranco,4,6456
1,2,1,grantpatricia,2,6456


Unnamed: 0,0,1,2,3
column_name,rating_id,book_id,username,rating
data_type,integer,integer,text,integer


In [10]:
# 5. Таблица reviews (Содержит данные о пользовательских обзорах на книги):
look2('reviews')

Unnamed: 0,review_id,book_id,username,text,table_size
0,1,1,brandtandrea,Mention society tell send professor analysis. ...,2793
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...,2793


Unnamed: 0,0,1,2,3
column_name,review_id,book_id,username,text
data_type,integer,integer,text,text


Вывод: данные содержат соответствующую информацию как в ER диаграмме с теми же типами.
1. Таблица books (Содержит данные о книгах): 1000 книг
2. Таблица authors (Содержит данные об авторах): 636 авторов
3. Таблица publishers (Содержит данные об издательствах): 340 издательств
4. Таблица ratings (Содержит данные о пользовательских оценках книг): 6456 оценок книг
5. Таблица reviews (Содержит данные о пользовательских обзорах на книги): 2793 обзоров на книги

## 2. Задачи

### 2.1 Задание 1
Посчитайте, сколько книг вышло после 1 января 2000 года;

In [12]:
query = '''
SELECT COUNT(DISTINCT book_id)
FROM books
WHERE publication_date > '2000-01-01'
'''
get_sql_data(query)

Unnamed: 0,count
0,819


Вывод: 819 книг вышло после 1 января 2000 года

### 2.2 Задание 2
Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [13]:
query = '''
WITH 
s1 AS
    (SELECT b.book_id,
         AVG(rt.rating) avg_rating
    FROM books b
        LEFT JOIN ratings rt ON b.book_id = rt.book_id
    GROUP BY b.book_id
    ORDER BY b.book_id),
s2 AS
(SELECT b.book_id,
    COUNT(rv.review_id) count_reviews
FROM books b
    LEFT JOIN reviews rv ON b.book_id = rv.book_id
GROUP BY b.book_id
ORDER BY b.book_id)

SELECT s1.book_id,
    count_reviews,
    avg_rating
FROM s2
    JOIN s1 ON s1.book_id = s2.book_id

'''
get_sql_data(query)

Unnamed: 0,book_id,count_reviews,avg_rating
0,1,2,3.666667
1,2,1,2.500000
2,3,3,4.666667
3,4,2,4.500000
4,5,4,4.000000
...,...,...,...
995,996,3,3.666667
996,997,3,3.400000
997,998,4,3.200000
998,999,2,4.500000


Вывод: Для каждой книги посчитали количество обзоров и среднюю оценку.

### 2.3 Задание 3
Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [16]:
query = '''
SELECT publisher_id,
    publisher
FROM publishers
WHERE publisher_id IN 
    (SELECT p.publisher_id
    FROM books b
        JOIN  publishers p ON b.publisher_id = p.publisher_id
    WHERE num_pages > 50
    GROUP BY p.publisher_id
    ORDER BY COUNT(book_id) DESC
    LIMIT 1)
'''
get_sql_data(query)

Unnamed: 0,publisher_id,publisher
0,212,Penguin Books


Вывод: Издательство, которое выпустило наибольшее число книг толще 50 страниц: Penguin Books, publisher_id	212

### 2.4 Задание 4
Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [17]:
query = '''
SELECT o.author,
    o.author_id
FROM books b
    JOIN ratings rt ON b.book_id = rt.book_id
    JOIN authors o ON b.author_id = o.author_id
WHERE b.book_id IN 
    (SELECT b.book_id
    FROM books b
        JOIN ratings rt ON b.book_id = rt.book_id
    GROUP BY b.book_id
    HAVING COUNT(rating) >= 50)
GROUP BY o.author,
    o.author_id
ORDER BY AVG(rating)DESC
LIMIT 1
'''
get_sql_data(query)

Unnamed: 0,author,author_id
0,J.K. Rowling/Mary GrandPré,236


Вывод: Автор с самой высокой средней оценкой книг(учитывая только книги с 50 и более оценками): J.K. Rowling/Mary GrandPré, author_id:236

### 2.5 Задание 5
Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [18]:
query = '''
WITH s1 AS
    (SELECT username,
        COUNT(review_id) count_review
    FROM reviews
    WHERE username IN 
        (SELECT username
        FROM ratings
        GROUP BY username
        HAVING COUNT(rating) > 48)
    GROUP BY username)
SELECT AVG(count_review) avg_count_review
FROM s1

'''
get_sql_data(query)

Unnamed: 0,avg_count_review
0,24.0


Вывод: Cреднее количество обзоров от пользователей, которые поставили больше 48 оценок: 24 штук.

## 3. Вывод
Исследовали все таблицы, все задачи решены, цели исследования достигнуты.