## Analisando o mercado de livros

Durante os anos de 2020 e 2021, coronavírus pegou o mundo todo de surpresa mudando a rotina das pessoas. Os moradores das cidades já não passavam mais seu tempo livre fora de casa, indo a cafés, e shoppings; boa parte das pessoas ficou em casa lendo livros. Isso chamou a atenção de startups que se apressaram para desenvolver novos aplicativos para os amantes de livros.

A partir de um banco de dados de um dos serviços nesse mercado, que contém dados sobre livros, editoras, autores, e classificação de clientes e avaliação de livros, o presente projeto visa gerar uma proposição válida para o novo produto.

#### Configurando a conexão com o banco de dados

In [2]:
# importar bibliotecas
import pandas as pd
from sqlalchemy import create_engine

# Configuração do banco de dados
db_config = {'user': 'practicum_student',         # nome de usuário
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # senha
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # porta de conexão
             'db': 'data-analyst-final-project-db'}          # o nome do banco de dados

# Criando a string de conexão
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

# Criando a engine de conexão
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
# Executanto uma consulta teste
query = 'select * from books where author_id = 1 limit 10'
teste = pd.io.sql.read_sql(query, con = engine)

print(teste)
display(teste)

   book_id  author_id       title  num_pages publication_date  publisher_id
0      520          1  Possession        555       1991-10-01           309


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,520,1,Possession,555,1991-10-01,309


In [4]:
# Criando uma função para gerar as tabelas
def display_sql(query):
    display(pd.io.sql.read_sql(query, con = engine))

In [5]:
# Criando os dataframes com base nas tabelas do banco de dados
books_df = display_sql("SELECT * FROM books")
authors_df = display_sql("SELECT * FROM authors")
publishers_df = display_sql("SELECT * FROM publishers")
ratings_df = display_sql("SELECT * FROM ratings")
reviews_df = display_sql("SELECT * FROM reviews")

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


##### Visualizando o número de livros lançados depois de 1 de janeiro de 2000.

In [6]:
n_books = display_sql("""
SELECT
    COUNT(book_id) AS num_books
FROM
    books
WHERE
    publication_date > '2000-01-01';                             
                      """)

Unnamed: 0,num_books
0,819


Houveram 819 livros a partir dessa data.

##### Visualizando o número de avaliações e a classificação média para cada livro.

In [8]:
n_reviews_mean_average_rating = display_sql("""
SELECT 
    books.title, 
    subquery.avg_rating, 
    subquery.review_count 
FROM (
    SELECT 
        reviews.book_id as book_id, 
        COUNT (DISTINCT reviews.review_id) AS review_count, 
        AVG (ratings.rating) AS avg_rating 
    FROM 
        reviews 
    INNER JOIN ratings ON ratings.book_id = reviews.book_id 
    GROUP BY 
        reviews.book_id 
    ORDER BY 
        review_count DESC, 
        avg_rating DESC) AS subquery 
INNER JOIN books ON subquery.book_id = books.book_id 
ORDER BY 
    review_count DESC, 
    avg_rating DESC 
LIMIT 10
                                            """)

Unnamed: 0,title,avg_rating,review_count
0,Twilight (Twilight #1),3.6625,7
1,Harry Potter and the Prisoner of Azkaban (Harr...,4.414634,6
2,Harry Potter and the Chamber of Secrets (Harry...,4.2875,6
3,The Book Thief,4.264151,6
4,The Glass Castle,4.206897,6
5,The Hobbit or There and Back Again,4.125,6
6,Outlander (Outlander #1),4.125,6
7,The Curious Incident of the Dog in the Night-Time,4.081081,6
8,The Lightning Thief (Percy Jackson and the Oly...,4.080645,6
9,Water for Elephants,3.977273,6


Visualizamos os dados do número de avaliações e média de cada livro.

##### Identificando a editora que lançou o maior número de livros com mais de 50 páginas

In [9]:
most_books_publisher = display_sql("""
SELECT
    p.publisher_id,
    p.publisher,
    COUNT(b.book_id) AS num_books                                
FROM                                        
    books b RIGHT JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE
    b.num_pages > 50
GROUP BY
    p.publisher_id, p.publisher
ORDER BY
    num_books DESC
LIMIT 1          
                                              """)

Unnamed: 0,publisher_id,publisher,num_books
0,212,Penguin Books,42


Através da consulta acima, identificamos que a editora com o maior número de livros - com mais de 50 páginas - publicados foi a editora Penguin Books, com um total de 42 livros.

##### Identificando o autor com a média mais alta de classificação de livros com pelo menos 50 classificações

A média é da classificação do autor, e não dos livros

In [10]:
best_rating_author = display_sql("""
SELECT
    a.author_id,
    a.author,
    AVG(r.rating) AS avg_rating                         
FROM                                        
    books b
JOIN
    authors a ON b.author_id = a.author_id
JOIN
    ratings r ON b.book_id = r.book_id
WHERE
    b.book_id IN (
    SELECT 
        book_id
    FROM 
        ratings 
    GROUP BY 
        book_id 
    HAVING 
        COUNT(rating_id) > 50
)
GROUP BY
    a.author_id,
    a.author
ORDER BY 
    AVG(r.rating) DESC
LIMIT 1;
                                 """)

Unnamed: 0,author_id,author,avg_rating
0,236,J.K. Rowling/Mary GrandPré,4.287097


##### Visualizando o número médio de avaliações entre usuários que classificaram mais do que 50 livros

In [14]:
mean_rating_users = display_sql("""
SELECT 
    AVG (sub2.num_review) AS avg_review_cnt 
FROM (
    SELECT 
        COUNT (reviews.review_id) as num_review, 
        sub.username 
    FROM (
        SELECT 
            username, 
            COUNT (rating_id) AS num_rating 
        FROM 
            ratings 
        GROUP BY 
            username 
        HAVING 
            COUNT (rating_id) > 50) AS sub 
    INNER JOIN 
        reviews 
    ON reviews.username = sub.username 
    GROUP BY 
        sub.username) AS sub2
                                """)

Unnamed: 0,avg_review_cnt
0,24.333333


Após selecionar os usuários com mais de 50 avaliações, vimos que a média de avaliações deles é de pouco mais de 24 avaliações.

### Conclusão Geral

Com base nas consultas ao banco de dados, podemos concluir o seguinte:

- Foram encontrados 819 livros lançados após 1 de janeiro de 2000.

- Calculamos o número de avaliações e a classificação média para cada livro, com base nas tabelas **books**, **ratings** e **reviews**.

- A editora "Penguin Books" lançou o maior número de livros com mais de 50 páginas, totalizando 42 livros.

- O autor "J.K. Rowling/Mary GrandPré" possui a média mais alta de classificação em livros com pelo menos 50 classificações (4.287097).

- O número médio de avaliações entre os usuários que classificaram mais do que 50 livros foi de 24.33, calculado a partir da tabela **ratings** e **reviews**.