# Sumário

* [1. Introdução](#intro)
* [2. Conectando ao banco de dados](#data)
* [3. Estudando dados](#estudando)
    * [3.1 Encontrando o número de livros lançados depois de 1 de janeiro de 2000](#data_preprocessing)
    * [3.2 Encontrando o número de avaliações e a classificação média para cada livro](#data_preprocessing)
    * [3.3 Identificando a editora que lançou o maior número de livros com mais de 50 páginas](#data_preprocessing)
    * [3.4 Identificando o autor com a média mais alta classificação de livros](#data_preprocessing)
    * [3.5 Encontrando o número médio de avaliações entre usuários que classificaram mais do que 50 livros](#data_preprocessing)
* [4. Conclusão](#conclusao)

## Introdução

O coronavírus pegou o mundo todo de surpresa mudando a rotina das pessoas. Os moradores das cidades já não passavam mais seu tempo livre fora de casa, indo a cafés, e shoppings; a maioria ficou em casa lendo livros. Isso chamou a atenção de startups que se apressaram para desenvolver novos aplicativos para os amantes de livros.

Recebi um banco de dados de um dos serviços concorrentes nesse mercado. Ele contém dados sobre livros, editoras, autores, e classificação de clientes e avaliação de livros. 

**Objetivos:**
- Estudar tabelas
- Encontrar o número de livros lançados depois de 1 de janeiro de 2000
- Encontrar o número de avaliações e a classificação média para cada livro
- Identificar a editora que lançou o maior número de livros com mais de 50 páginas
- Identificar o autor com a média mais alta classificação de livros (livros com pelo menos 50 classificações)
- Encontrar o número médio de avaliações entre usuários que classificaram mais do que 50 livros

## Conectando ao banco de dados

In [1]:
import pandas as pd
from sqlalchemy import create_engine
db_config = {'user': 'practicum_student', # nome de usuário
'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # senha
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # porta de conexão
'db': 'data-analyst-final-project-db'} # o nome do banco de dados
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
def sql_results(query):
    display(pd.io.sql.read_sql(query, con = engine))
    return pd.io.sql.read_sql(query, con = engine)

## Estudando dados

**books — livros:** 
Contém dados sobre livros

- `book_id` — identificador do livro
- `author_id` — identificador do autor
- `title` — título
- `num_pages` — número de páginas
- `publication_date` — data de publicação
- `publisher_id` — identificador da editora

In [3]:
books = sql_results("SELECT * FROM books")

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


**authors — autores:**

Contém dados sobre os autores:

- `author_id` — identificador do autor
- `author` — autor

In [4]:
authors = sql_results("SELECT * FROM authors")

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


**publishers — editoras:** 

Contém dados sobre editoras:

- `publisher_id` — identificador da editora
- `publisher` — editora

In [5]:
publishers = sql_results("SELECT * FROM publishers")

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


**ratings — classificações:** 

Contém dados sobre classificação dos usuários:

- `rating_id` — identificador da classificação
- `book_id` — identificador do livro
- `username` — o nome do usuário que avaliou o livro
- `rating` — classificação

In [6]:
ratings = sql_results("SELECT * FROM ratings")

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


**reviews — avaliação:**

Contém dados sobre revisão dos clientes:

- `review_id` — identificador da revisão
- `book_id` — identificador do livro
- `username` — o nome do usuário que revisou o livro
- `text` — o texto da revisão

In [7]:
reviews = sql_results("SELECT * FROM reviews")

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


### Encontrando o número de livros lançados depois de 1 de janeiro de 2000

In [8]:
num_books_2000 = sql_results("""
SELECT COUNT(*) AS num_books FROM books
WHERE publication_date > '2000-01-01';
""")


Unnamed: 0,num_books
0,819


Foram lançados 819 livros depois de 1 de janeiro de 2000.

### Encontrando o número de avaliações e a classificação média para cada livro

In [9]:
n_aval_mean = sql_results("""
SELECT b.book_id, b.title, COUNT(DISTINCT re.review_id) AS num_reviw, AVG(r.rating) FROM books b 
LEFT JOIN ratings r ON b.book_id = r.book_id
LEFT JOIN reviews re ON b.book_id = re.book_id
GROUP BY b.book_id, b.title;
""")

Unnamed: 0,book_id,title,num_reviw,avg
0,725,The Firm,3,4.052632
1,163,Corelli's Mandolin,3,3.000000
2,847,The Red Tent,5,3.411765
3,801,The Monster at the End of this Book,3,4.750000
4,947,Twenty Thousand Leagues Under the Sea (Extraor...,3,4.600000
...,...,...,...,...
995,973,While I Was Gone,2,4.000000
996,917,The Yiddish Policemen's Union,2,4.500000
997,802,The Moon is a Harsh Mistress,3,3.750000
998,241,Farmer Boy (Little House #2),2,4.500000


### Identificando a editora que lançou o maior número de livros com mais de 50 páginas

In [10]:
publisher_more_books = sql_results("""
SELECT p.publisher_id, p.publisher, COUNT(b.book_id) AS n_books FROM books b
JOIN publishers p ON p.publisher_id = b.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id, p.publisher
ORDER BY COUNT(b.book_id) DESC
LIMIT 1
""")

Unnamed: 0,publisher_id,publisher,n_books
0,212,Penguin Books,42


A editora que lançou o maior número de livros com mais de 50 páginas é a Penguin Books.

### Identificando o autor com a média mais alta classificação de livros (livros com pelo menos 50 classificações)

In [11]:
author_bigger_rating = sql_results("""
SELECT a.author_id, a.author, AVG(r.rating) AS avg_rating FROM books b
JOIN authors a ON a.author_id = b.author_id
JOIN ratings r ON r.book_id = b.book_id
WHERE b.book_id IN (
    SELECT book_id FROM ratings
    GROUP BY book_id
    HAVING COUNT(rating_id) >= 50
)
GROUP BY a.author_id, a.author
ORDER BY AVG(r.rating) DESC
LIMIT 1;
""")


Unnamed: 0,author_id,author,avg_rating
0,236,J.K. Rowling/Mary GrandPré,4.287097


O autor com a média mais alta de classificação de livros é J.K. Rowling/Mary GrandPré.

### Encontrando o número médio de avaliações entre usuários que classificaram mais do que 50 livros

In [12]:
mean_reviews = sql_results("""
SELECT AVG(n_reviews) AS mean_reviews
FROM (SELECT re.username, COUNT(DISTINCT re.review_id) AS n_reviews
    FROM reviews re
    GROUP BY re.username) as re
WHERE re.username IN(SELECT r.username
    FROM ratings r
    GROUP BY r.username
    HAVING COUNT(r.username) > 50);
""")


Unnamed: 0,mean_reviews
0,24.333333


O número médio de avaliações entre usuários que classificaram mais do que 50 livros é de 24.33

## Conclusão

De acordo com o estudo dos dados, a partir de consultas SQL, vemos que:
1. Número de livros lançados depois de 1 de janeiro de 2000
    - Foram encontrados 819 livros.
2. Número de avaliações e a classificação média para cada livro
    - Retornou uma tabela de 1000 linhas, a partir das tabelas `books` e `ratings`.
3. Editora que lançou o maior número de livros com mais de 50 páginas
    - A editora que lançou o maior número de livros com mais de 50 páginas é a Penguin Books, sendo 42 livros.
4. Autor com a média mais alta classificação de livros 
    - O autor com a média mais alta de classificação de livros é J.K. Rowling/Mary GrandPré, com média de 4.28
5. Número médio de avaliações entre usuários que classificaram mais do que 50 livros
    - O número médio de avaliações entre usuários que classificaram mais do que 50 livros é de 24.33
    