## Introdu√ß√£o

O projeto em quest√£o est√° focado na an√°lise de dados relacionados ao mercado de livros, particularmente durante a pandemia de coronav√≠rus, que transformou os h√°bitos de consumo de conte√∫do, levando muitas pessoas a se dedicarem √† leitura. Para entender esse fen√¥meno, um banco de dados de uma startup concorrente no mercado de livros foi fornecido, contendo informa√ß√µes sobre livros, autores, editoras, avalia√ß√µes dos leitores e resenhas dos usu√°rios.

A an√°lise desses dados nos permitir√° gerar insights valiosos para ajudar no desenvolvimento de um novo produto para os amantes de livros. As consultas SQL a serem realizadas s√£o divididas em v√°rias tarefas, que nos ajudar√£o a responder perguntas espec√≠ficas sobre o comportamento dos leitores, as editoras, e a recep√ß√£o dos livros no mercado.

### Tarefa 1: Encontrar o n√∫mero de livros lan√ßados depois de 1 de janeiro de 2000

Nesta tarefa, o objetivo √© entender o volume de lan√ßamentos de livros ap√≥s o ano de 2000. Sabemos que a ind√∫stria editorial passou por transforma√ß√µes significativas ap√≥s esse per√≠odo, com novas editoras, tecnologias e mudan√ßas nos padr√µes de consumo. A partir da an√°lise dessa data de lan√ßamento, podemos obter uma vis√£o sobre o comportamento do mercado editorial ao longo do tempo.

In [1]:
import pandas as pd
from sqlalchemy import create_engine

db_config = { 
                'user': 'practicum_student', # username
                'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
                'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
                'port': 5432, # connection port
                'db': 'data-analyst-final-project-db' # the name of the database
            }

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config ['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
# Consulta SQL para contar o n√∫mero de livros lan√ßados ap√≥s 1 de janeiro de 2000
query = """
    SELECT COUNT(*) 
    FROM books
    WHERE publication_date > '2000-01-01';
"""

# Executando a consulta e carregando o resultado no DataFrame
result = pd.read_sql(query, con = engine)

# Exibindo o n√∫mero de livros lan√ßados ap√≥s 1¬∫ de janeiro de 2000
num_livros_lancados = result.iloc[0, 0]  # O resultado vem em uma c√©lula no DataFrame
print(f'N√∫mero de livros lan√ßados ap√≥s 1¬∫ de janeiro de 2000: {num_livros_lancados}')


N√∫mero de livros lan√ßados ap√≥s 1¬∫ de janeiro de 2000: 819


<div class="alert alert-block alert-success">
<b> Coment√°rio: </b> <a class="tocSkip"></a>

    
- A quantidade de livros lan√ßadas ap√≥s Jan-2000 foi calculada
</div>

### Tarefa 2: Encontrar o n√∫mero de avalia√ß√µes e a classifica√ß√£o m√©dia para cada livro

Aqui, o foco √© analisar a recep√ß√£o dos livros pelos leitores. Com isso, podemos identificar os livros que receberam mais avalia√ß√µes, al√©m de calcular a m√©dia das classifica√ß√µes para cada livro. Isso nos ajudar√° a entender a popularidade e a qualidade dos livros, al√©m de fornecer uma vis√£o mais precisa sobre o que os leitores pensam sobre os t√≠tulos dispon√≠veis.

In [3]:
# Consulta SQL para encontrar o n√∫mero de avalia√ß√µes e a m√©dia das classifica√ß√µes por livro
query = """
    SELECT 
        book_id, 
        COUNT(rating_id) AS num_avaliacoes,
        AVG(rating) AS media_classificacao
    FROM ratings
    GROUP BY book_id;
"""

# Executando a consulta e carregando o resultado no DataFrame
avaliacoes = pd.read_sql(query, engine)

# Exibindo as primeiras linhas do DataFrame resultante
print(avaliacoes.head())



   book_id  num_avaliacoes  media_classificacao
0      652               2             4.500000
1      273               2             4.500000
2       51              12             4.250000
3      951               2             4.000000
4      839               7             4.285714


### Tarefa 3: Identificar a editora que lan√ßou o maior n√∫mero de livros com mais de 50 p√°ginas

Nesta an√°lise, queremos focar nas editoras que publicaram livros com mais de 50 p√°ginas, excluindo assim brochuras e livros de menor porte. Saber quais editoras dominam o mercado de livros mais longos pode ser √∫til para entender quais editoras est√£o investindo em t√≠tulos mais robustos. Isso tamb√©m pode ajudar a destacar editoras que se dedicam mais ao p√∫blico √°vido por leitura.

In [4]:
import pandas as pd

# Consulta SQL para identificar a editora com o maior n√∫mero de livros com mais de 50 p√°ginas
query = """
    SELECT 
        p.publisher, 
        COUNT(b.book_id) AS num_livros
    FROM books b
    JOIN publishers p ON b.publisher_id = p.publisher_id
    WHERE b.num_pages > 50
    GROUP BY p.publisher
    ORDER BY num_livros DESC
    LIMIT 1;
"""

# Executando a consulta e carregando o resultado no DataFrame
resultado = pd.read_sql(query, engine)

# Exibindo o resultado
print("Editora com o maior n√∫mero de livros com mais de 50 p√°ginas:")
print(resultado)

Editora com o maior n√∫mero de livros com mais de 50 p√°ginas:
       publisher  num_livros
0  Penguin Books          42


### Tarefa 4: Identificar o autor com a m√©dia mais alta de classifica√ß√£o de livros (considerando apenas livros com pelo menos 50 classifica√ß√µes)

Neste caso, o objetivo √© determinar o autor mais bem classificado, levando em considera√ß√£o apenas os livros que receberam uma quantidade significativa de avalia√ß√µes, ou seja, pelo menos 50 classifica√ß√µes. Isso nos ajudar√° a identificar os autores que s√£o consistentemente bem avaliados pelos leitores.

In [5]:
# Consulta SQL para identificar o autor com a maior m√©dia de classifica√ß√£o, considerando livros com pelo menos 50 classifica√ß√µes
query = """
    SELECT 
        a.author, 
        AVG(r.rating) AS media_classificacao
    FROM ratings r
    JOIN books b ON r.book_id = b.book_id
    JOIN authors a ON b.author_id = a.author_id
    GROUP BY a.author, b.book_id
    HAVING COUNT(r.rating_id) >= 50
    ORDER BY media_classificacao DESC
    LIMIT 1;
"""

# Executando a consulta e carregando o resultado no DataFrame
resultado = pd.read_sql(query, con = engine)

# Exibindo o resultado
print("Autor com a maior m√©dia de classifica√ß√£o (considerando livros com pelo menos 50 classifica√ß√µes):")
print(resultado)


Autor com a maior m√©dia de classifica√ß√£o (considerando livros com pelo menos 50 classifica√ß√µes):
                       author  media_classificacao
0  J.K. Rowling/Mary GrandPr√©             4.414634


<div class="alert alert-block alert-success">
<b> Coment√°rio: </b> <a class="tocSkip"></a>

    
Parab√©ns, todas as tarefas at√© aqui foram realizadas corretamente :D

</div>

### Tarefa 5: Encontrar o n√∫mero m√©dio de avalia√ß√µes entre usu√°rios que classificaram mais do que 50 livros

Esta an√°lise se concentra no comportamento de usu√°rios que s√£o mais ativos em termos de avalia√ß√µes. Queremos calcular a m√©dia de avalia√ß√µes feitas por aqueles que avaliaram mais de 50 livros, oferecendo insights sobre o perfil dos leitores mais engajados. Esses usu√°rios podem ser considerados como formadores de opini√£o ou simplesmente leitores mais dedicados.

In [7]:
# Consulta SQL para calcular a m√©dia da contagem de avalia√ß√µes de texto (reviews) feitas por usu√°rios que avaliaram mais de 50 livros
query = """
    SELECT 
        AVG(review_count) AS avg_reviews
    FROM (
        SELECT 
            COUNT(*) AS review_count
        FROM reviews
        WHERE username IN (
            SELECT
                username
            FROM ratings
            GROUP BY username
            HAVING COUNT(rating_id) > 50
        )
        GROUP BY username
    ) AS review_counts;
"""

# Executando a consulta e carregando o resultado no DataFrame
resultado = pd.read_sql(query, con=engine)

# Exibindo o resultado
print("N√∫mero m√©dio de avalia√ß√µes de texto feitas por usu√°rios que avaliaram mais de 50 livros:")
print(resultado)


N√∫mero m√©dio de avalia√ß√µes de texto feitas por usu√°rios que avaliaram mais de 50 livros:
   avg_reviews
0    24.333333


## Conclus√£o:

Esse projeto ajudou a entender melhor o comportamento dos leitores e as tend√™ncias do mercado editorial. Analisando os dados, conseguimos identificar alguns padr√µes interessantes:

- Lan√ßamentos de livros: Depois de 2000, houve um bom n√∫mero de lan√ßamentos de livros (819 livros), mostrando que a ind√∫stria continuou crescendo.

- Avalia√ß√µes dos livros: Livros que receberam mais avalia√ß√µes e t√™m boas notas tendem a ser mais populares entre os leitores. Isso pode ser √∫til para saber quais livros t√™m mais chances de sucesso.

- Editoras de livros longos: Editoras como a Penguin Books, que publicam livros com mais de 50 p√°ginas, est√£o dominando o mercado de livros mais robustos. Isso pode ser um sinal de que h√° um p√∫blico fiel para esse tipo de livro.

- Autores bem avaliados: Autores como J.K. Rowling/Mary GrandPr√© t√™m uma m√©dia de classifica√ß√£o alta, o que mostra que s√£o muito bem recebidos pelo p√∫blico.

- Leitores mais ativos: Os usu√°rios que avaliam muitos livros (mais de 50) fazem em m√©dia 54 avalia√ß√µes cada. Esses leitores s√£o valiosos, porque ajudam a influenciar outros e engajam mais com os livros.


## Recomenda√ß√µes:

Com base nesses insights, editoras podem focar em promover livros com boas classifica√ß√µes e mais avalia√ß√µes, investir em t√≠tulos mais longos e apostar em autores consagrados. Al√©m disso, engajar leitores mais ativos pode ser uma boa estrat√©gia para aumentar o sucesso no mercado.

Esses dados s√£o √∫teis para entender como os leitores est√£o interagindo com os livros e como as editoras podem melhorar suas ofertas para se destacar ainda mais no mercado.

<div class="alert alert-block alert-success">

<b>Coment√°rio: </b> <a class="tocSkip"></a>



Conclus√£o detalhada e baseada em dados.

</div>

<div class="alert alert-block alert-success">

<b>Coment√°rio geral v2: </b> <a class="tocSkip"></a>
    
Bruuu o trabalho ficou impec√°vel! Muuuito bom! Fico triste que ser√° a nossa √∫ltima revis√£o, mas feliz pelo seu avan√ßo e desenvovimento! Pode contar comigo pra qualquer ajuda (Dentro ou fora da Tripleten :D)

Te desejo sucesso na sua jornada!üçÄ