# Lectura 360: Data-driven insights para la experiencia del lector

En respuesta al cambio global causado por la pandemia, surge nuestro proyecto, una iniciativa centrada en la lectura y respaldada por una base de datos rica en detalles sobre libros, autores y opiniones de lectores. En este nuevo panorama, donde más personas optan por quedarse en casa, nuestra propuesta busca transformar la experiencia de la lectura. Exploraremos cómo los datos pueden no solo contar historias, sino también crear conexiones significativas entre lectores, libros y escritores. ¡Bienvenido a una nueva era en la que la lectura va más allá de las páginas impresas!

__Exploración de Libros Post-2000:__

Analizaremos la cantidad de libros publicados después del 1 de enero de 2000 para comprender la relevancia y la frescura de la colección. Esto permitirá ofrecer a los usuarios una selección actualizada y acorde con las preferencias contemporáneas.

__Análisis Integral de Reseñas:__

Investigaremos el número de reseñas de usuarios para cada libro, junto con la calificación promedio asociada. Este análisis revelará patrones de preferencias y nos ayudará a entender la respuesta de la comunidad de lectores a cada obra.

__Identificación de la Editorial Destacada:__

Enfocaremos nuestro análisis en identificar la editorial que ha publicado el mayor número de libros con más de 50 páginas. Esto nos permitirá destacar la diversidad y profundidad editorial, excluyendo posibles publicaciones de menor envergadura.

__Reconocimiento del Autor Destacado:__

Identificaremos al autor con la calificación promedio más alta, limitándonos a libros que hayan recibido al menos 50 calificaciones. Este hallazgo destacará la excelencia literaria y proporcionará a los usuarios una referencia de calidad en la elección de sus lecturas.

__Promedio de Reseñas de Texto para Lectores Comprometidos:__

Exploraremos el número promedio de reseñas de texto proporcionadas por usuarios que han calificado más de 50 libros. Este análisis revelará el nivel de compromiso y la profundidad de análisis de los lectores más dedicados, ofreciendo información valiosa sobre la calidad de las opiniones.
Estas investigaciones se orientan a proporcionar una visión completa y detallada del contenido de la base de datos, permitiéndonos desarrollar un producto que responda de manera efectiva a las necesidades y expectativas de los amantes de la lectura. La combinación de datos sobre publicaciones, opiniones y preferencias literarias será clave para ofrecer una experiencia única y enriquecedora.

# Importar las librerías

In [1]:
import pandas as pd
from IPython.display import display
from sqlalchemy import create_engine

# Configurar base de datos y cadena de conexión

In [2]:
# configuración de la base de datos

db_config = {
    'user': 'practicum_student',         # nombre de usuario
    'pwd': 's65BlTKV3faNIGhmvJVzOqhs',  # contraseña
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432,                        # puerto de conexión
    'db': 'data-analyst-final-project-db'  # nombre de la base de datos
}

In [3]:
# cadena de conexión

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db']
)

In [4]:
# crear el motor de conexión a la base de datos

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# Visualizar los datos

In [5]:
# ejecutar la consulta y almacenar los resultados en un DataFrame

query = "SELECT * FROM books;"

result_df = pd.io.sql.read_sql(query, con=engine)

display(result_df)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [6]:
# mostrar las primeras filas de cada tabla

query_show_books = "SELECT * FROM books LIMIT 5;"
query_show_authors = "SELECT * FROM authors LIMIT 5;"
query_show_publishers = "SELECT * FROM publishers LIMIT 5;"
query_show_ratings = "SELECT * FROM ratings LIMIT 5;"
query_show_reviews = "SELECT * FROM reviews LIMIT 5;"

result_show_books = pd.io.sql.read_sql(query_show_books, con=engine)
result_show_authors = pd.io.sql.read_sql(query_show_authors, con=engine)
result_show_publishers = pd.io.sql.read_sql(query_show_publishers, con=engine)
result_show_ratings = pd.io.sql.read_sql(query_show_ratings, con=engine)
result_show_reviews = pd.io.sql.read_sql(query_show_reviews, con=engine)

display(result_show_books, result_show_authors, result_show_publishers, result_show_ratings, result_show_reviews)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


# Consultas y Evaluaciones

In [7]:
# número de libros publicados después del 1 de enero de 2000

query_1 = "SELECT COUNT(*) AS num_books_after_2000 FROM books WHERE publication_date > '2000-01-01';"

result_1 = pd.io.sql.read_sql(query_1, con=engine)

result_1

Unnamed: 0,num_books_after_2000
0,819


## Evaluación

- La mayoría de los libros en el conjunto de datos fueron publicados __después del año 2000__, lo que sugiere que la colección se centra en obras más recientes
- Esto puede ser relevante para los usuarios interesados en descubrir y revisar __libros contemporáneos__

In [15]:
# número de reseñas de usuarios y calificación promedio para cada libro

query_2 = """
SELECT
  b.book_id,
  b.title,
  COALESCE(num_reviews, 0) AS num_reviews,
  COALESCE(num_ratings, 0) AS num_ratings,
  COALESCE(avg_rating, 0) AS avg_rating
FROM books b
LEFT JOIN (
    SELECT
      book_id,
      COUNT(review_id) AS num_reviews
    FROM reviews
    GROUP BY book_id
) rev ON b.book_id = rev.book_id
LEFT JOIN (
    SELECT
      book_id,
      COUNT(rating_id) AS num_ratings,
      AVG(rating) AS avg_rating
    FROM ratings
    GROUP BY book_id
) rat ON b.book_id = rat.book_id;
"""

result_2 = pd.io.sql.read_sql(query_2, con=engine).sort_values(by='num_reviews', ascending=False)

result_2

Unnamed: 0,book_id,title,num_reviews,num_ratings,avg_rating
161,948,Twilight (Twilight #1),7,160,3.662500
510,733,The Giver (The Giver #1),6,56,3.750000
651,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,82,4.414634
245,696,The Da Vinci Code (Robert Langdon #2),6,59,3.830508
379,854,The Road,6,22,3.772727
...,...,...,...,...,...
196,387,Leonardo's Notebooks,0,2,4.000000
835,808,The Natural Way to Draw,0,2,3.000000
712,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,2,5.000000
472,191,Disney's Beauty and the Beast (A Little Golden...,0,1,4.000000


## Evaluación

- La consulta ha generado información sobre el __número de reseñas__ y el __número de calificaciones__ para cada libro en el conjunto de datos
- Algunos libros han recibido un número significativo de reseñas, indicando un __interés__ y __participación activa__ de los lectores
- La variabilidad en las calificaciones promedio sugiere una __diversidad en la percepción de los libros__ por parte de los usuarios
- Esta diversidad puede reflejar __diferentes gustos__ y __preferencias__
- Los datos tienen el potencial de ser utilizados para __recomendar libros populares y bien calificados__
- Se puede brindar a los usuarios __opciones atractivas__ y __respaldadas por la comunidad__ de lectores

In [9]:
# editorial que ha publicado el mayor número de libros con más de 50 páginas

query_3 = """
SELECT
  p.publisher_id,
  p.publisher,
  COUNT(b.book_id) AS num_books
FROM publishers p
JOIN books b ON p.publisher_id = b.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id, p.publisher
ORDER BY num_books DESC
LIMIT 1;
"""

result_3 = pd.io.sql.read_sql(query_3, con=engine)

result_3

Unnamed: 0,publisher_id,publisher,num_books
0,212,Penguin Books,42


## Evaluación

- __Penguin Books__ ha publicado la mayor cantidad de libros en el conjunto de datos, excluyendo aquellos con menos de 50 páginas
- Esto sugiere una __presencia significativa__ en la colección de libros más extensos, lo que puede ser un indicador de la diversidad y profundidad de su catálogo
- Esta información puede ser valiosa para los lectores que buscan explorar __libros más extensos__ de una editorial reconocida

In [10]:
# autor con la calificación promedio más alta en libros con al menos 50 calificaciones

query_4 = """
SELECT
  a.author_id,
  a.author,
  AVG(r.rating) AS avg_rating
FROM authors a
JOIN books b ON a.author_id = b.author_id
JOIN ratings r ON b.book_id = r.book_id
GROUP BY a.author_id, a.author
HAVING COUNT(r.rating_id) >= 50
ORDER BY avg_rating DESC
LIMIT 1;
"""

result_4 = pd.io.sql.read_sql(query_4, con=engine)

result_4

Unnamed: 0,author_id,author,avg_rating
0,130,Diana Gabaldon,4.3


## Evaluación

- __Diana Gabaldon__ ha logrado la calificación promedio más alta en libros con un número sustancial de calificaciones
- Esta información puede ser relevante para los lectores interesados en descubrir __obras de alta calidad__ de un autor específico
- La __calificación promedio__ es un indicador valioso de la __percepción general de los lectores__ sobre las obras de un autor

In [26]:
# número promedio de reseñas de texto entre usuarios que calificaron más de 50 libros

query_5 = """
SELECT
  AVG(l.num_reviews) AS avg_num_reviews
FROM 
(SELECT
  r.username,
  COUNT(r.review_id) AS num_reviews
FROM reviews r
WHERE r.username IN (
  SELECT username
  FROM ratings
  GROUP BY username
  HAVING COUNT(rating_id) > 50
)
GROUP BY r.username
) AS l
"""

result_5 = pd.io.sql.read_sql(query_5, con=engine)

result_5

Unnamed: 0,avg_num_reviews
0,24.333333


## Evaluación

- El promedio de alrededor de __24 reseñas por usuario__ proporciona una medida consolidada de la __participación promedio__
- Estos resultados son útiles para comprender la __actividad__ y __contribución__ de los usuarios comprometidos en la plataforma
- La información puede informar estrategias para __fomentar una comunidad activa de reseñadores__

# Conclusiones y recomendaciones

__Variedad de Libros Recientes:__

- Destacar la __amplia colección__ de libros en la base de datos, con un énfasis en la relevancia de __obras recientes__
- Resaltar que la mayoría de los libros en la plataforma fueron publicados después del año 2000, asegurando una __selección actualizada__ para los lectores

__Participación Activa de Usuarios:__

- Mencionar la __participación activa__ de los usuarios, demostrada por el número significativo de __reseñas__ y __altas calificaciones__ para varios libros
- Esto destaca la __comunidad activa__ de lectores en la plataforma, lo que puede ser atractivo para aquellos que valoran las opiniones de otros lectores

__Profundidad y Diversidad Editorial:__

- Resaltar la editorial __Penguin Books__ como la que ha publicado la mayor cantidad de libros 
- Esto sugiere la __profundidad y diversidad del catálogo__, ofreciendo opciones extensas para los amantes de la lectura.

__Calidad Reconocida de Autores:__

- Destacar la __calificación promedio__ más alta obtenida por el autor __Diana Gabaldon__
- Esto agrega un elemento de __calidad reconocida__ por parte de los lectores, ofreciendo una garantía de excelencia en las obras del autor

__Compromiso Profundo de Usuarios Avanzados:__

- Resaltar el compromiso de los usuarios que calificaron más de 50 libros, indicando que estos lectores proporcionan __reseñas detalladas y extensas__
- Esto sugiere un nivel más profundo de análisis y aprecio por la lectura, lo que puede atraer a __usuarios comprometidos__

__Recomendaciones Personalizadas:__

- Utilizar la información sobre reseñas y calificaciones para ofrecer un sistema de __recomendaciones personalizadas__ a los usuarios
- Esto mejorará la __experiencia del usuario__ al proporcionar sugerencias de libros adaptadas a sus preferencias

__Comunidad Activa de Lectores:__

- Enfatizar la existencia de una __comunidad activa__ de lectores en la plataforma
- Puedes resaltar __funciones sociales__ como la posibilidad de seguir a otros lectores, intercambiar recomendaciones y participar en discusiones sobre libros