# Proyecto final: SQL y los libros durante la pandemia

# Índice
1. [Introducción](#in)
2. [Objetivos](#ob)
2. [Conexión a la base de datos](#cx)
3. [Visualización datos](#vi)
4. [Análisis 1: Número de libros del último año del segundo milenio](#ln)
5. [Análisis 2: Reseñas y calificaciones](#rc)
6. [Análisis 3: Editorial más famosa](#ef)
7. [Análisis 4: Autor más famosa](#af)
8. [Análisis 5: Proporción reseñas con texto](#pt)
9. [Análisis 5: Análisis 6: Reseñas con texto](#rtx)
10. [Conclusiones](#cl)

##  Introducción  <a class="anchor" id="in"></a>

El brote del coronavirus sorprendió al mundo entero, alterando de manera radical las rutinas diarias de millones de personas. Las ciudades, que previamente eran centros de actividad social, se vieron vacías, ya que la mayoría de los ciudadanos optó por quedarse en casa para evitar el contagio. Este cambio de hábitos llevó a muchas personas a buscar nuevas formas de entretenimiento y conocimiento, y los libros se convirtieron en una opción popular para ocupar el tiempo libre. Las librerías físicas fueron reemplazadas por plataformas digitales, donde los usuarios podían acceder a una amplia variedad de títulos desde la comodidad de su hogar.

Este cambio en los hábitos de consumo llamó la atención de las startups y empresas emergentes, que rápidamente desarrollaron nuevas aplicaciones orientadas a satisfacer las necesidades de los amantes de la lectura. Con el objetivo de captar la atención de un público cada vez más interesado en la literatura, estas plataformas comenzaron a ofrecer servicios de recomendación de libros, reseñas de usuarios y otras funcionalidades que facilitaran la experiencia de lectura digital.

En este contexto, se nos ha proporcionado una base de datos de uno de los servicios que compiten en este mercado, que contiene información relevante sobre libros, editoriales, autores, calificaciones de clientes y reseñas de libros. Esta valiosa información será utilizada para generar una propuesta de valor para un nuevo producto en el sector de las plataformas literarias. La intención es aprovechar los datos disponibles para analizar las preferencias de los usuarios y crear una propuesta innovadora que responda a las necesidades actuales del mercado de la lectura digital.

##  Objetivos <a class="anchor" id="ob"></a>

- Encontrar el número de libros publicados después del 1 de enero de 2000.
- Encontrar el número de reseñas de usuarios y la calificación promedio para cada libro.
- Identificar la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
- Identificar al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
- Encontrar el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

##  Conexión a la base de datos  <a class="anchor" id="cx"></a>

Se establece conexión a la base de datos dentro del archivo .ipynb, mediante el siguiente código, el mismo utiliza la configuración proporcionada y la librería sqlalchemy para crear la conexión. Se importa la libreria pandas para poder visualozar las consultas en forma de tablas.

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

##  Visualización datos <a class="anchor" id="vi"></a>

Se imprime las primeras 5 filas de cada una de las tablas

Tabla books

In [2]:
query_books = "SELECT * FROM books LIMIT 5;"  # Seleccionamos las primeras 5 filas
df_books = pd.io.sql.read_sql(query_books, con=engine)
print(df_books)

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  


Tabla authors

In [3]:
query_authors = "SELECT * FROM authors LIMIT 5;"
df_authors = pd.io.sql.read_sql(query_authors, con=engine)
print(df_authors)

   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd


Tabla publishers

In [4]:
query_publishers = "SELECT * FROM publishers LIMIT 5;"
df_publishers = pd.io.sql.read_sql(query_publishers, con=engine)
print(df_publishers)

   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company


Tabla ratings

In [5]:
query_ratings = "SELECT * FROM ratings LIMIT 5;"
df_ratings = pd.io.sql.read_sql(query_ratings, con=engine)
print(df_ratings)

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2


Tabla reviews

In [6]:
query_reviews = "SELECT * FROM reviews LIMIT 5;"
df_reviews = pd.io.sql.read_sql(query_reviews, con=engine)
print(df_reviews)

   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  


##  Análisis 1: Número de libros del último año del segundo milenio <a class="anchor" id="ln"></a>

Se buscará el número de libros publicados después del 1 de enero de 2000.

In [7]:
query_2000 = "SELECT COUNT(*) AS Libros_despues_del_01_01_2000 FROM books WHERE publication_date > '2000-01-01';"
df_2000 = pd.io.sql.read_sql(query_2000, con=engine)
print(df_2000)

   libros_despues_del_01_01_2000
0                            819


Se observa que se tienen 819 libros registrados despues de del 1 de enero de 2000

##  Análisis 2: Reseñas y calificaciones <a class="anchor" id="rc"></a>

Se buscará el número de reseñas de usuarios y la calificación promedio para cada libro.

In [8]:
query_1 = "SELECT b.title AS title, count(r1.review_id) AS reviews, avg(r2.rating) as avg_rating FROM books b LEFT JOIN ratings r2 ON b.book_id = r2.book_id LEFT JOIN reviews r1 ON b.book_id = r1.book_id GROUP BY b.title ORDER BY reviews DESC;;"
df_u_avg = pd.io.sql.read_sql(query_1, con=engine)
print(df_u_avg)


                                                 title  reviews  avg_rating
0                              Twilight (Twilight  #1)     1120    3.662500
1                  The Hobbit  or There and Back Again      528    4.125000
2                               The Catcher in the Rye      516    3.825581
3    Harry Potter and the Prisoner of Azkaban (Harr...      492    4.414634
4    Harry Potter and the Chamber of Secrets (Harry...      480    4.287500
..                                                 ...      ...         ...
994                            The Natural Way to Draw        0    3.000000
995                          Essential Tales and Poems        0    4.000000
996   The Cat in the Hat and Other Dr. Seuss Favorites        0    5.000000
997                               Leonardo's Notebooks        0    4.000000
998  Disney's Beauty and the Beast (A Little Golden...        0    4.000000

[999 rows x 3 columns]


A partir del análisis de los datos, se observa que existen alrededor de 1000 libros, cada uno con un número determinado de reseñas y una calificación promedio asociada. Los resultados están organizados en orden descendente, lo que sugiere que los libros en las primeras posiciones son los más populares o visibilizados, mientras que aquellos al final de la lista podrían tener menos alcance o reconocimiento. Es importante destacar que algunos de los libros en las primeras posiciones de la lista han sido adaptados al cine, lo que podría explicar su mayor popularidad y visibilidad. Las adaptaciones cinematográficas suelen atraer más atención al libro original, lo que resulta en un aumento en las calificaciones y reseñas. Esto podría ser un factor clave para su éxito y alta presencia en la lista.

##  Análisis 3: Editorial más famosa <a class="anchor" id="ef"></a>

se identificará la editorial que ha publicado el mayor número de libros con más de 50 páginas con el fin de excluir folletos y publicaciones similares de tu análisis.

In [9]:
query_2 = """
SELECT p.publisher AS publisher, COUNT(b.book_id) AS num_books
FROM books b
LEFT JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_books DESC;
"""
df_edit50 = pd.io.sql.read_sql(query_2, con=engine)
print(df_edit50)

                                             publisher  num_books
0                                        Penguin Books         42
1                                              Vintage         31
2                             Grand Central Publishing         25
3                                     Penguin Classics         24
4                                     Ballantine Books         19
..                                                 ...        ...
329                                         Turtleback          1
330  Atheneum Books for Young Readers: Richard Jack...          1
331                                     Penguin Signet          1
332                                    Victor Gollancz          1
333                      Harvard Business Review Press          1

[334 rows x 2 columns]


Podemos observar que la editorial Penguin Books obstenta el mayor número de libros (con más de 50 páginas) publicados, excactamente 42 libros en total.  

##  Análisis 4: Autor más famosa <a class="anchor" id="af"></a>

Se identificará al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [10]:
query_3 = """
SELECT a.author AS author, AVG(br.avg_rating) AS avg_author_rating 
FROM authors a 
JOIN (
    SELECT b.author_id, b.book_id, COUNT(r.rating_id) AS num_ratings, AVG(r.rating) AS avg_rating 
    FROM books b 
    LEFT JOIN ratings r ON b.book_id = r.book_id 
    GROUP BY b.author_id, b.book_id 
    HAVING COUNT(r.rating_id) >= 50  -- Filtrando lod libros con al menos 50 calificaciones
) br ON a.author_id = br.author_id  -- Uniendo resultado con la tabla de autores 
GROUP BY a.author_id 
ORDER BY avg_author_rating DESC 
LIMIT 5;
"""

df_author50 = pd.io.sql.read_sql(query_3, con=engine)
print(df_author50)

                              author  avg_author_rating
0         J.K. Rowling/Mary GrandPré           4.283844
1  Markus Zusak/Cao Xuân Việt Khương           4.264151
2                     J.R.R. Tolkien           4.258446
3                  Louisa May Alcott           4.192308
4                       Rick Riordan           4.080645


Los cinco principales autores, en cuanto a calificación promedio se refiere, están bastante cerca entre sí, con J.K. Rowling/Mary GrandPré ocupando la primera posición. Este resultado es consistente, ya que J.K. Rowling es la autora de los libros de Harry Potter, los cuales tuvieron un impacto masivo tanto en el ámbito literario como en el cinematográfico. Su éxito comercial y cultural contribuye a las altas calificaciones promedio de sus obras. La popularidad de los libros de Harry Potter, junto con sus adaptaciones cinematográficas, explica su dominio en esta clasificación.

##  Análisis 5: Proporción reseñas con texto <a class="anchor" id="pt"></a>

El objetivo de este análisis es verificar que los usuarios que han calificado más de 50 libros siempre incluyen un texto en sus reseñas.

In [11]:
query_4 = ''' 
 WITH users_with_ratings AS (
    SELECT username, COUNT(DISTINCT book_id) AS num_ratings
    FROM ratings
    GROUP BY username
    HAVING COUNT(DISTINCT book_id) > 50
)
SELECT AVG(CASE WHEN r.text IS NOT NULL THEN 1 ELSE 0 END) AS avg_reviews_text
FROM reviews r
INNER JOIN users_with_ratings uwr ON r.username = uwr.username;
'''
df_user_review = pd.io.sql.read_sql(query_4, con=engine)
print(df_user_review)




   avg_reviews_text
0               1.0


El resultado obtenido, 1.0, significa que el 100% de las reseñas de los usuarios que han calificado más de 50 libros contienen texto. Esto indica que estos usuarios, al ser tan activos en la plataforma, siempre proporcionan un texto explicativo con sus calificaciones, lo que refleja un nivel de compromiso alto y detallado en sus reseñas.

Debido a que sabemos que el 100% de las reseñas en estso usuarios son con texto procedemos a hacer la consulta del promedio.

##  Análisis 6: Reseñas con texto <a class="anchor" id="rtx"></a>

Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [12]:
query_5 = ''' 
WITH users_with_ratings AS (
    SELECT username, COUNT(DISTINCT book_id) AS num_ratings
    FROM ratings
    GROUP BY username
    HAVING COUNT(DISTINCT book_id) > 50
)
SELECT AVG(review_count) AS avg_reviews_text
FROM (
    SELECT r.username, COUNT(CASE WHEN r.text IS NOT NULL THEN 1 ELSE NULL END) AS review_count
    FROM reviews r
    INNER JOIN users_with_ratings uwr ON r.username = uwr.username
    GROUP BY r.username
) AS user_reviews_with_text;
'''
df_user_review_1 = pd.io.sql.read_sql(query_5, con=engine)
print(df_user_review_1)

   avg_reviews_text
0         24.333333


En promedio, cada usuario que ha calificado más de 50 libros ha escrito 24.33 reseñas con texto. Esto quiere decir que en promedio, estos usuarios dejan una buena cantidad de reseñas detalladas, lo que refleja un comportamiento activo en la comunidad.

##  Conclusiones <a class="anchor" id="cl"></a>

A partir del análisis realizado, se han obtenido varios hallazgos clave que ofrecen una visión más clara sobre el comportamiento de los libros, autores y usuarios en la plataforma:

Número de libros publicados después del 1 de enero de 2000: Se ha identificado un total de 819 libros publicados después de esa fecha, lo que sugiere una actividad constante en la industria editorial en este período, con una oferta significativa de contenido nuevo para los lectores.

Reseñas y calificaciones promedio de los libros: Se ha observado que los libros están organizados en orden descendente, con los más populares o visibilizados ocupando las primeras posiciones. Este patrón podría estar relacionado con el impacto mediático de ciertos libros, especialmente aquellos que han sido adaptados al cine. La relación entre la popularidad y la alta calificación promedio resalta que los libros más conocidos también son bien recibidos por los lectores.

Editorial más prolífica: La editorial Penguin Books ha publicado el mayor número de libros con más de 50 páginas, con un total de 42 libros. Esto indica que Penguin sigue siendo una editorial líder en términos de producción literaria de mayor contenido, excluyendo folletos y publicaciones más ligeras.

Autor con mayor calificación promedio: En cuanto a los autores, J.K. Rowling/Mary GrandPré ocupa la primera posición en cuanto a calificación promedio, lo que refleja la enorme popularidad de los libros de la serie Harry Potter. Este éxito está vinculado tanto al impacto literario de la saga como a sus exitosas adaptaciones cinematográficas, que continúan alimentando el interés y la admiración de los lectores.

Comportamiento de los usuarios más activos: Para los usuarios que han calificado más de 50 libros, se observa que el 100% de sus reseñas contienen texto, lo que demuestra un alto nivel de compromiso y dedicación. Además, en promedio, estos usuarios escriben 24.33 reseñas con texto, lo que refleja una participación activa y detallada en la plataforma, contribuyendo con retroalimentación valiosa para otros lectores.

En general, este análisis ha permitido identificar patrones claros de popularidad entre libros y autores, así como el comportamiento de los usuarios más activos. La influencia de factores como las adaptaciones cinematográficas y el nivel de compromiso de los usuarios son elementos clave que afectan la visibilidad y el impacto de los libros. Estos hallazgos pueden ser utilizados para guiar estrategias de marketing y para mejorar la experiencia de la comunidad de lectores.