# Проект по SQL

# Содержание:
1. [Вводная часть](#step1)
2. [Цели исследования](#step2)
3. [Описание данных](#step3)
4. [Исследование таблицы](#step4)
5. [Задание 1.](#step5)
6. [Задание 2.](#step6)
7. [Задание 3.](#step7)
8. [Задание 4.](#step8)
9. [Задание 5.](#step9)

# Вводная часть: <a id="step1"></a>   
</div>
Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.
Наша компания решила быть на волне и купила крупный сервис для чтения книг по подписке.

# Цели исследования:<a id="step2"></a>   
</div>

* проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг; 

* сформулировать ценностное предложение для нового продукта.

# Описание данных: <a id="step3"></a>   
</div>

* Таблица `books` - cодержит данные о книгах:
`book_id` — идентификатор книги;
`author_id` — идентификатор автора;
`title` — название книги;
`num_pages` — количество страниц;
`publication_date` — дата публикации книги;
`publisher_id` — идентификатор издателя.


* Таблица `authors` - cодержит данные об авторах:
`author_id` — идентификатор автора;
`author` — имя автора.


* Таблица `publishers` - cодержит данные об издательствах:
`publisher_id` — идентификатор издательства;
`publisher` — название издательства;


* Таблица `ratings` - cодержит данные о пользовательских оценках книг:
`rating_id` — идентификатор оценки;
`book_id` — идентификатор книги;
`username` — имя пользователя, оставившего оценку;
`rating` — оценка книги.


* Таблица `reviews`- cодержит данные о пользовательских обзорах:
`review_id` — идентификатор обзора;
`book_id` — идентификатор книги;
`username` — имя автора обзора;
`text` — текст обзора.

# Исследование таблицы: <a id="step4"></a>   
</div>

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

Выведем первые строки каждой таблицы:

In [2]:
# Таблица `books`
query_1 = '''
SELECT *
FROM books
LIMIT 1;
'''
pd.io.sql.read_sql(query_1, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93


In [3]:
# Таблица `authors`
query_2 = '''
SELECT *
FROM authors
LIMIT 1;
'''
pd.io.sql.read_sql(query_2, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt


In [4]:
# Таблица `ratings`
query_3 = '''
SELECT *
FROM ratings
LIMIT 1;
'''
pd.io.sql.read_sql(query_3, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4


In [5]:
# Таблица `reviews`
query_4 = '''
SELECT *
FROM reviews
LIMIT 1;
'''
pd.io.sql.read_sql(query_4, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...


In [6]:
# Таблица `publishers`
query_5 = '''
SELECT *
FROM publishers
LIMIT 1;
'''
pd.io.sql.read_sql(query_5, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace


#### Промежуточные выводы:
* Библиотеки импортированы, параметры установлены, данные таблиц получены.

# Задание 1. Посчитайте, сколько книг вышло после 1 января 2000 года: <a id="step5"></a>   
</div>

In [7]:
mission_1 = '''
SELECT COUNT (book_id) AS count_book
FROM books
WHERE publication_date >= '2000-01-01';
'''
pd.io.sql.read_sql(mission_1, con = engine)

Unnamed: 0,count_book
0,821


С 1 января 2000 года до пандемии вышла 821 книга. Довольно небольшой результат.

# Задание 2. Для каждой книги посчитайте количество обзоров и среднюю оценку: <a id="step6"></a>   
</div>

In [8]:
# Выделяем идентификатор книги и количество обзоров
m_2 = '''
SELECT book_id,
       COUNT(review_id)
FROM reviews
GROUP BY book_id;
'''
pd.io.sql.read_sql(m_2, con = engine)

Unnamed: 0,book_id,count
0,652,2
1,273,2
2,51,5
3,951,2
4,839,4
...,...,...
989,64,4
990,55,2
991,148,3
992,790,2


In [9]:
# Выделяем идентификатор книги и среднюю оценку
m_3 = '''
SELECT book_id,
       AVG(rating)
FROM ratings
GROUP BY book_id;
'''
pd.io.sql.read_sql(m_3, con = engine)

Unnamed: 0,book_id,avg
0,652,4.500000
1,273,4.500000
2,51,4.250000
3,951,4.000000
4,839,4.285714
...,...,...
995,64,4.230769
996,55,5.000000
997,148,3.428571
998,790,3.500000


In [10]:
# Соединяем: к таблице с книгами левым джойном присоединяем таблицу с оценками (чтобы не пропали книги, у кого нет оценок),
# а затем присоединяем книги с обзорами, т.к. там точно есть книги без обзоров, чтобы наши книги не пропали
mission_2 = '''
SELECT bo.book_id AS book_id,
       bo.title AS title_book,
       re.count AS count_review_id,
       ra.avg AS avg_rating
FROM books AS bo
LEFT JOIN (SELECT book_id,
           AVG(rating)
           FROM ratings
           GROUP BY book_id) AS ra ON ra.book_id = bo.book_id
LEFT JOIN (SELECT book_id,
           COUNT(review_id)
           FROM reviews
           GROUP BY book_id) AS re ON re.book_id = bo.book_id
'''
pd.io.sql.read_sql(mission_2, con = engine)

Unnamed: 0,book_id,title_book,count_review_id,avg_rating
0,652,The Body in the Library (Miss Marple #3),2.0,4.500000
1,273,Galápagos,2.0,4.500000
2,51,A Tree Grows in Brooklyn,5.0,4.250000
3,951,Undaunted Courage: The Pioneering First Missio...,2.0,4.000000
4,839,The Prophet,4.0,4.285714
...,...,...,...,...
995,64,Alice in Wonderland,4.0,4.230769
996,55,A Woman of Substance (Emma Harte Saga #1),2.0,5.000000
997,148,Christine,3.0,3.428571
998,790,The Magicians' Guild (Black Magician Trilogy #1),2.0,3.500000


In [11]:
# Посмотрим количество распределений обзоров
pd.io.sql.read_sql(mission_2, con = engine)['count_review_id'].value_counts()

2.0    444
3.0    277
4.0    160
5.0     60
1.0     37
6.0     15
7.0      1
Name: count_review_id, dtype: int64

В основном у всех книг от 2 до 4 пользовательских обзоров. Посмотрим, у кого 7 обзоров:

In [12]:
pd.io.sql.read_sql(mission_2, con = engine).query('count_review_id == 7.0')

Unnamed: 0,book_id,title_book,count_review_id,avg_rating
161,948,Twilight (Twilight #1),7.0,3.6625


У книги "Сумерки" больше всего пользовательских обзоров.

In [13]:
# Посмотрим значение оценок
pd.io.sql.read_sql(mission_2, con = engine)['avg_rating'].describe()

count    1000.000000
mean        3.898973
std         0.562376
min         1.500000
25%         3.500000
50%         4.000000
75%         4.333333
max         5.000000
Name: avg_rating, dtype: float64

In [14]:
# Посмотрим общую информацию
pd.io.sql.read_sql(mission_2, con = engine).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   book_id          1000 non-null   int64  
 1   title_book       1000 non-null   object 
 2   count_review_id  994 non-null    float64
 3   avg_rating       1000 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 31.4+ KB


#### Вывод:
* В нашей библиотеке 1000 книг: пользовательские оценки есть на всех, а пользовательские обзоры нет;
* Количество обзоров на книги от 1 до 7;
* Оценки от 1.5 до 5. Средняя оценка - 4.00 балла. Это хороший результат

# Задание 3. Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры: <a id="step7"></a>   
</div>

In [15]:
# Выбираем поля идентификатор издателя, количество книг таблицы `books` и название издательства таблицы `publisher`
# К таблице `publisher` присоединяем `books` по идентификатору издателя
# Указываем условие, что количество страниц больше 50
# Группируем по идентификатору издателя и названию издательства
# Делаем сортировку по убыванию
# Отсеиваем только 1 (самое верхнее) издательство
mission_3 = '''
SELECT bo.publisher_id,
       bo.count AS book_count,
       publisher
FROM books AS bo
LEFT JOIN publishers ON publishers.publisher_id = bo.publisher_id
WHERE num_pages > 50
GROUP BY bo.publisher_id, publisher
ORDER BY book_count DESC
LIMIT 1;
'''
pd.io.sql.read_sql(mission_3, con = engine)

Unnamed: 0,publisher_id,book_count,publisher
0,212,42,Penguin Books


#### Вывод:
* Издательство "Penguin Books" ("Книги о пингвинах") выпустило наибольшее количество книг толще 50 страниц - 42 книги. Видимо, читателям было интересно узнать про жизнь пингвинов

# Задание 4. Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками: <a id="step7"></a>   
</div>

In [16]:
# Выделяем идентификатор автора, имя автора, его оценку и количество книг > 50
# Посчитаем среднюю оценку книг автора
m_7 = '''
SELECT authors.author_id,
       author,
       AVG(rating),
       COUNT(rating)
FROM books AS bo
LEFT JOIN authors ON bo.author_id = authors.author_id
LEFT JOIN ratings ON bo.book_id = ratings.book_id 
GROUP BY bo.book_id, authors.author_id 
HAVING COUNT(rating) >= 50
ORDER BY avg DESC;
'''
pd.io.sql.read_sql(m_7, con = engine)

Unnamed: 0,author_id,author,avg,count
0,236,J.K. Rowling/Mary GrandPré,4.414634,82
1,240,J.R.R. Tolkien,4.391892,74
2,236,J.K. Rowling/Mary GrandPré,4.2875,80
3,402,Markus Zusak/Cao Xuân Việt Khương,4.264151,53
4,236,J.K. Rowling/Mary GrandPré,4.246575,73
5,376,Louisa May Alcott,4.192308,52
6,236,J.K. Rowling/Mary GrandPré,4.186667,75
7,240,J.R.R. Tolkien,4.125,88
8,498,Rick Riordan,4.080645,62
9,621,William Golding,3.901408,71


In [17]:
# По средней оценке книг автора посчитаем его среднюю оценку
# Результат отсортируем по убыванию
mission_4 = '''
SELECT a.author,
       AVG(a.avg)
FROM (SELECT authors.author_id,
             author,
             AVG(rating),
             COUNT(rating)
      FROM books AS bo
      LEFT JOIN authors ON bo.author_id = authors.author_id
      LEFT JOIN ratings ON bo.book_id = ratings.book_id 
      GROUP BY bo.book_id, authors.author_id
      HAVING COUNT(rating) >= 50) AS a    
GROUP BY a.author 
ORDER BY avg DESC;
'''
pd.io.sql.read_sql(mission_4 , con = engine)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Dan Brown,3.75454


#### Вывод:
* Самый высокий средний рейтинг у авторов за все книги - `J.K. Rowling/Mary GrandPré` 

# Задание 5. Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок: <a id="step8"></a>   
</div>

In [18]:
# Выделим пользователей, которые поставили больше 50 оценок
m_9 = '''
SELECT username,
       COUNT(rating)
FROM ratings
GROUP BY username
HAVING COUNT(rating) > 50
'''
pd.io.sql.read_sql(m_9, con = engine)

Unnamed: 0,username,count
0,sfitzgerald,55
1,jennifermiller,53
2,xdavis,51
3,paul88,56
4,martinadam,56
5,richard89,55


In [19]:
# Посмотрим, сколько каждый из них написал обзоров
m_10 = '''
SELECT username,
       COUNT(review_id)
FROM reviews
WHERE username IN(SELECT username
                  FROM ratings
                  GROUP BY username
                  HAVING COUNT(rating) > 50)
GROUP BY username;
'''
pd.io.sql.read_sql(m_10, con = engine)

Unnamed: 0,username,count
0,sfitzgerald,28
1,jennifermiller,25
2,xdavis,18
3,paul88,22
4,martinadam,27
5,richard89,26


In [20]:
# Объедимим получившиеся таблицы и узнаем, среднее количество обзоров этих пользователей 
# (т.е. сумму/количество)
mission_5 = '''
SELECT AVG(a.count) AS avg_reviews
FROM (SELECT username,
             COUNT(review_id)
      FROM reviews
      WHERE username IN(SELECT username
                        FROM ratings
                        GROUP BY username
                        HAVING COUNT(rating) > 50)
      GROUP BY username) AS a;
'''
pd.io.sql.read_sql(mission_5, con = engine)

Unnamed: 0,avg_reviews
0,24.333333


#### Вывод:
* Среднее количество обзоров от всех пользователей, которые поставили более 50 оценков - 24.