### Importando as bibliotecas

In [4]:
# Importando as bibliotecas
import pandas as pd
import psycopg2
from sqlalchemy import create_engine

### Descrição dos dados

**Descrição dos dados
books — livros:**

Contém dados sobre livros:

- book_id — identificador do livro
- author_id — identificador do autor
- title — título
- num_pages — número de páginas
- publication_date — data de publicação
- publisher_id — identificador da editora

**authors — autores:**

Contém dados sobre os autores:

- author_id — identificador do autor
- author — autor
- publishers — editoras:

**Contém dados sobre editoras:**

- publisher_id — identificador da editora
- publisher — editora
- ratings — classificações:

**Contém dados sobre classificação dos usuários:**

- rating_id — identificador da classificação
- book_id — identificador do livro
- username — o nome do usuário que avaliou o livro
- rating — classificação
- reviews — avaliação:

**Contém dados sobre revisão dos clientes:**

- review_id — identificador da revisão
- book_id — identificador do livro
- username — o nome do usuário que revisou o livro
- text — o texto da revisão

### Conectando-se ao banco de dados

In [5]:
# Configurações de conexão
db_config = {
    'user': 'practicum_student',  # nome do user
    'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7',  # senha
    'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',  # host
    'port': 5432,  # porta
    'db': 'data-analyst-final-project-db'  # nome do bd
}

# String de conexão
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db']
)

# A conexão é armazenada na variável engine
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [6]:
# pd.io.sql.read_sql(query, con = engine)

### Exibindo as tabelas

In [7]:
query = """
SELECT *
FROM books
LIMIT 10;
"""

df_books_ex = pd.io.sql.read_sql(query, con = engine)

print(df_books_ex)

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   
5        6        257               1st to Die (Women's Murder Club  #1)   
6        7        258               2nd Chance (Women's Murder Club  #2)   
7        8        260              4th of July (Women's Murder Club  #4)   
8        9        563                                   A Beautiful Mind   
9       10        445                                 A Bend in the Road   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-1

In [8]:
query = """
SELECT *
FROM reviews
LIMIT 10;
"""
df_reviews_ex = pd.io.sql.read_sql(query, con = engine)

print(df_reviews_ex)

   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   
5          6        3    lesliegibbs   
6          7        4   valenciaanne   
7          8        4    abbottjames   
8          9        5        npowers   
9         10        5        staylor   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  
5           Analysis no several cause international.  
6  One there cost another. Say type save. With pe...  
7  Within enough mother. There at system full rec...  
8  Thank now focus realize economy focus fly. Ite...  
9  Game p

In [9]:
query = """
SELECT *
FROM publishers
LIMIT 10;
"""

df_publishers_ex = pd.io.sql.read_sql(query, con = engine)

print(df_publishers_ex)

   publisher_id                                publisher
0             1                                      Ace
1             2                                 Ace Book
2             3                                Ace Books
3             4                            Ace Hardcover
4             5        Addison Wesley Publishing Company
5             6                                  Aladdin
6             7                       Aladdin Paperbacks
7             8                             Albin Michel
8             9                          Alfred A. Knopf
9            10  Alfred A. Knopf Books for Young Readers


In [10]:
query = """
SELECT *
FROM ratings
LIMIT 10;
"""
df_ratings_ex = pd.io.sql.read_sql(query, con = engine)

print(df_ratings_ex)

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2
5          6        3  johnsonamanda       4
6          7        3    scotttamara       5
7          8        3    lesliegibbs       5
8          9        4    abbottjames       5
9         10        4   valenciaanne       4


In [11]:
query = """
SELECT *
FROM ratings
LIMIT 10;
"""
df_ratings_ex = pd.io.sql.read_sql(query, con = engine)

print(df_ratings_ex)

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2
5          6        3  johnsonamanda       4
6          7        3    scotttamara       5
7          8        3    lesliegibbs       5
8          9        4    abbottjames       5
9         10        4   valenciaanne       4


# Tarefas

- Encontre o número de livros lançados depois de 1 de janeiro de 2000.
- Encontre o número de avaliações e a classificação média para cada livro.
- Identifique a editora que lançou o maior número de livros com mais de 50 páginas (isso vai ajudar você a excluir brochuras e - publicações parecidas da sua análise).
- Identifique o autor com a média mais alta de classificação de livros: olhe apenas para livros com pelo menos 50 classificações.
- Encontre o número médio de avaliações entre usuários que classificaram mais do que 50 livros.

In [12]:
# Encontre o número de livros lançados depois de 1 de janeiro de 2000.
query = """
SELECT COUNT(*) AS num_books
FROM books
WHERE publication_date > '2000-01-01';
"""
df_num_books = pd.io.sql.read_sql(query, con = engine)

print(df_num_books)

   num_books
0        819


Obs: Foi encontrado um total de 819 livros lançados após a data de 01 de janeiro de 2000.

In [13]:
# Encontre o número de avaliações e a classificação média para cada livro.
query = """
SELECT book_id, COUNT(*) AS num_rating, AVG(rating) AS avg_rating
FROM ratings
GROUP BY book_id;
"""

df_ratings = pd.io.sql.read_sql(query, con = engine)

print(df_ratings)

     book_id  num_rating  avg_rating
0        652           2    4.500000
1        273           2    4.500000
2         51          12    4.250000
3        951           2    4.000000
4        839           7    4.285714
..       ...         ...         ...
995       64          13    4.230769
996       55           2    5.000000
997      148           7    3.428571
998      790           2    3.500000
999      828           2    3.000000

[1000 rows x 3 columns]


Obs: Livros com menos avaliações como 2 avalições tendem a ter classificações extremas (como 5.0 ou 3.0). Ou seja o volume de avaliações pode influenciar a estabilidade da média de classificação.


Obs: Livros com um número moderado de avaliações entre 7 e 13 avaliações nós mostram uma maior variedade de classificações. O que pode nós indicar uma opinião mais diversificada dos leitores.


Obs: Alguns livros com poucas avaliações atingem classificações perfeitas que é o caso livro de ID 55, com 5.0 em apenas 2 avaliações.


Conclusão pós observações: Podemos concluir que os livros que contém um maior número de avaliações passam uma visão mais confiável para os leitores, enquanto livros com poucas avaliações devem ser analisados com cuidado pois não representam a opnião da maioria.

In [14]:
# identifique a editora que lançou o maior número de livros com mais de 50 páginas.
query = """
SELECT publishers.publisher, COUNT(*) AS num_books
FROM books
JOIN publishers ON books.publisher_id = publishers.publisher_id
WHERE num_pages > 50
GROUP BY publishers.publisher
ORDER BY num_books DESC
LIMIT 1;
"""

df_publishers = pd.io.sql.read_sql(query, con = engine)

print(df_publishers)

       publisher  num_books
0  Penguin Books         42


Obs: Penguin books foi a editora que lançou o maior número de livros com +50 páginas.

In [15]:
query = """
WITH filtered_books AS (
    SELECT books.book_id, books.author_id, AVG(ratings.rating) AS avg_book_rating, COUNT(ratings.rating) AS num_ratings
    FROM books
    JOIN ratings ON books.book_id = ratings.book_id
    GROUP BY books.book_id, books.author_id
    HAVING COUNT(ratings.rating) >= 50
)

SELECT authors.author, AVG(filtered_books.avg_book_rating) AS avg_author_rating
FROM filtered_books
JOIN authors ON filtered_books.author_id = authors.author_id
GROUP BY authors.author
ORDER BY avg_author_rating DESC
LIMIT 1;
"""

df_top_author = pd.io.sql.read_sql(query, con=engine)

print(df_top_author)

                       author  avg_author_rating
0  J.K. Rowling/Mary GrandPré           4.283844


Obs: J.K. Rowling/Mary GrandPré tem a média mais alta nas classificações de livros com pelo menos 50 classificações ou seja J.K. Rowling/Mary GrandPré é um autor muito bem avaliada já que seus livros mantém uma media de 4.28.

In [16]:
# Encontre o número médio de avaliações entre usuários que classificaram mais do que 50 livros
query = """
WITH users_with_more_than_50_ratings AS (
    SELECT username
    FROM ratings
    GROUP BY username
    HAVING COUNT(book_id) > 50
)
SELECT AVG(review_count) AS avg_review_per_user
FROM (
    SELECT reviews.username, COUNT(reviews.review_id) AS review_count
    FROM reviews
    JOIN users_with_more_than_50_ratings ON reviews.username = users_with_more_than_50_ratings.username
    GROUP BY reviews.username
) AS user_review_counts;
"""

df_users_50_ratings = pd.io.sql.read_sql(query, con=engine)

print(df_users_50_ratings)

   avg_review_per_user
0            24.333333


Obs: Com uma média de 24.33 de avaliação entre os usuários podemos notar que após atingir o patamar de 24 avaliações os usuários tendem a não continuar a avaliar um número maior de livros.

### Conclusão:

- Após a análise pode concluir-se que os livros que tem mais avaliações nós fornecer uma visão mais equilibrada, maior confiabilidade e representativa da opinião dos leitores.

- Editoras que lançam mais livros, como a Penguin Books, demonstram uma forte presença no mercado, o que pode estar relacionado à sua popularidade e influência.

- J.K. Rowling/Mary GrandPré se destaca como um autor com alta média de classificações, sendo bem avaliada e com livros que possuem alta credibilidade entre os leitores.

- Além disso podemos observar que após atingirem um certo número de avaliações, os usuários tendem a diminuir ou parar de avaliar outros livros, sugerindo um comportamento de saturação em termos de participação.