# Trabalhando com SQL

### Contexto:
O coronavírus pegou o mundo todo de surpresa mudando a rotina das pessoas. Os moradores das cidades já não passavam mais seu tempo livre fora de casa, indo a cafés e shoppings; a maioria ficou em casa lendo livros. Isso chamou a atenção de startups que se apressaram para desenvolver novos aplicativos para os amantes de livros.

Você recebeu um banco de dados de um dos serviços concorrentes nesse mercado. Ele contém dados sobre livros, editoras, autores, e classificação de clientes e avaliação de livros. Essa informação será usada para gerar uma proposição válida para o novo produto.


#### Tarefa
- Encontre o número de livros lançados depois de 1 de janeiro de 2000. -OK
- Encontre o número de avaliações e a classificação média para cada livro.- OK
- Identifique a editora que lançou o maior número de livros com mais de 50 páginas (isso vai ajudar você a excluir brochuras e -  publicações parecidas da sua análise). - OK
- Identifique o autor com a média mais alta de classificação de livros: olhe apenas para livros com pelo menos 50 -  classificações. -OK
- Encontre o número médio de avaliações entre usuários que classificaram mais do que 50 livros. - OK
#### Instruções para completar a tarefa
- Descreva os objetivos do estudo. -OK
- Estude as tabelas (imprima as primeiras linhas). - OK
- Faça uma consulta SQL para cada uma das tarefas. - OK
- Enuncie os resultados de cada consulta no notebook. - OK
- Descreva suas conclusões para cada uma das tarefas. - OK

In [1]:
#import libraries
import pandas as pd
from sqlalchemy import create_engine

db_config = {
 'user': 'practicum_student', # username
 'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
 'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
 'port': 5432, # connection port
 'db': 'data-analyst-final-project-db' # the name of the database
 }
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})


In [2]:
# extraindo dados da tabela books

query = "SELECT * FROM books"
pd.io.sql.read_sql(query, con = engine)

books = pd.read_sql(query, con=engine)

# Visualizando os dados
print(books.head())
print(books.info())

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1

In [3]:
# extraindo dados da tabela authors

query = "SELECT * FROM authors"
pd.io.sql.read_sql(query, con = engine)

authors = pd.read_sql(query, con=engine)

# Visualizando os dados
print(authors.head())
print(authors.info())

   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
None


In [4]:
# extraindo dados da tabela publishers

query = "SELECT * FROM publishers"
pd.io.sql.read_sql(query, con = engine)

publishers = pd.read_sql(query, con=engine)

# Visualizando os dados
print(publishers.head())
print(publishers.info())

   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
None


In [5]:
# extraindo dados da tabela ratings

query = "SELECT * FROM ratings"
pd.io.sql.read_sql(query, con = engine)

ratings = pd.read_sql(query, con=engine)

# Visualizando os dados
print(ratings.head())
print(ratings.info())

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
None


In [6]:
# extraindo dados da tabela reviews

query = "SELECT * FROM reviews"
pd.io.sql.read_sql(query, con = engine)

reviews = pd.read_sql(query, con=engine)

# Visualizando os dados
print(reviews.head())
print(reviews.info())

   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB
None


#### Resposta do aluno: dados extraídos e visualizados. A príncipio nenhum dado nulo.

### Análise Exploratória dos Dados

In [7]:
# Instalando a biblioteca

!pip install sqldf

Collecting sqldf
  Downloading sqldf-0.4.2-py3-none-any.whl (4.3 kB)
Installing collected packages: sqldf
Successfully installed sqldf-0.4.2


In [9]:
# realizando a consulta
# Encontre o número de livros lançados depois de 1 de janeiro de 2000.

query = """
SELECT COUNT(*) AS books_2000
FROM books
WHERE publication_date > '2000-01-01'
"""

# Executando a consulta
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,books_2000
0,819


#### Resposta do aluno: Podemos ver que no conjunto de dados temos 1000 livros, 821 foram lançados a partir de 01/01/2000

In [11]:
# Encontre o número de avaliações e a classificação média para cada livro

query2 = """SELECT
               books.title,
               subquery.avg_rating,
               subquery.review_count
               FROM
                   (SELECT
                        reviews.book_id as book_id,
                        COUNT (DISTINCT reviews.review_id) AS review_count,
                        AVG (ratings.rating) AS avg_rating
                    FROM
                        reviews
                        INNER JOIN ratings ON ratings.book_id = reviews.book_id
                    GROUP BY
                        reviews.book_id
                    ORDER BY
                        review_count DESC,
                        avg_rating DESC) AS subquery
                    INNER JOIN books ON subquery.book_id = books.book_id
                   ORDER BY
                   review_count DESC,
                   avg_rating DESC
               LIMIT 10"""

# Executando a consulta
pd.io.sql.read_sql(query2, con = engine)

Unnamed: 0,title,avg_rating,review_count
0,Twilight (Twilight #1),3.6625,7
1,Harry Potter and the Prisoner of Azkaban (Harr...,4.414634,6
2,Harry Potter and the Chamber of Secrets (Harry...,4.2875,6
3,The Book Thief,4.264151,6
4,The Glass Castle,4.206897,6
5,The Hobbit or There and Back Again,4.125,6
6,Outlander (Outlander #1),4.125,6
7,The Curious Incident of the Dog in the Night-Time,4.081081,6
8,The Lightning Thief (Percy Jackson and the Oly...,4.080645,6
9,Water for Elephants,3.977273,6


#### Resposta do aluno: Existe uma avaliação de 1 à 7, conforme os dados acima podemos ver quantos livros estão rankeados em cada posição e suas respectivas médias.

In [15]:
# Identifique a editora que lançou o maior número de livros com mais de 50 páginas 
# (isso vai ajudar você a excluir brochuras e publicações parecidas da sua análise).

query = """
SELECT p.publisher, COUNT(*) AS total_livros
FROM books b
INNER JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages >= 50
GROUP BY p.publisher
ORDER BY total_livros DESC
"""

# Executando a consulta
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,total_livros
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Turtleback,1
330,Atheneum Books for Young Readers: Richard Jack...,1
331,Penguin Signet,1
332,Victor Gollancz,1


#### Resposta do aluno: Após filtrar os livros com mais de 50 páginas, podemos observar que a editora que mais publicou livros foi a Penguin Books com 42 livros publicados, liderando a lista das editoras com mais livros lançados.

In [13]:
#Identifique o autor com a média mais alta de classificação de livros: olhe apenas para livros com pelo menos 50 classificações.

query4 ="""SELECT
                   authors.author,
                   AVG (subquery2.avg_rating) as final_avg            
               FROM
                   (SELECT
                       books.title,
                       books.author_id,
                       subquery1.avg_rating
                   FROM
                       (SELECT
                           book_id,
                           COUNT (rating_id) AS rating_cnt,
                           AVG (rating) AS avg_rating
                       FROM
                           ratings
                       GROUP BY
                           book_id
                       HAVING
                           COUNT (rating_id) > 50) AS subquery1
                       INNER JOIN books ON books.book_id = subquery1.book_id) AS subquery2
                   INNER JOIN authors ON authors.author_id = subquery2.author_id
               GROUP BY
                   author
               ORDER BY
                   final_avg DESC
               LIMIT 5"""

# Executando a consulta
pd.io.sql.read_sql(query4, con = engine)

Unnamed: 0,author,final_avg
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645


#### Resposta do aluno: Consulta realizada classificando o autor com a maior classificação (livros) foram considerados apenas os autores com mais de 50 classificações. 

In [14]:
# Encontre o número médio de avaliações entre usuários que classificaram mais do que 50 livros.

query5 = """SELECT
                   AVG (subquery2.review_cnt) AS avg_review_cnt
               FROM
                   (SELECT
                       COUNT (reviews.review_id) as review_cnt,
                       subquery1.username
                   FROM
                       (SELECT
                           username,
                           COUNT (rating_id) AS rating_cnt
                       FROM
                           ratings
                       GROUP BY
                           username
                       HAVING
                           COUNT (rating_id) > 50) AS subquery1
                       INNER JOIN reviews ON reviews.username = subquery1.username
                   GROUP BY
                       subquery1.username) AS subquery2"""

# Executando a consulta
pd.io.sql.read_sql(query5, con = engine)

Unnamed: 0,avg_review_cnt
0,24.333333


#### Resposta do aluno: Consulta realizada filtrando os usuários que classificaram mais de 50 livros, ambos estão classificados pela média de avaliação. Podemos ver que a média é muito próxima dos primeiros colocados.

### Conclusão: Todas as solicitações de consulta realizadas atravéz de consultas SQL.