# ANÁLISIS DE CATÁLOGO DE LIBROS DE UN SERVICIO PARA AMANTES DE LIBROS

## Descripción:

Analizar la base de datos de uno de los servicios para amantes de los libros con la finalidad de identificar patrones de publicación, contenido y comportamiento de los usuarios. Esta información será utilizada para generar una propuesta de valor para el desarrollo de un nuevro producto, aprovechando el aumento en el consumo de lectura debido al confinamiento ocasionado por el coronavirus.

El análisis incluye: 
1. Determinar contenido moderno publicado después del 01 de enero de 2000.
2. Medir las métricas de calificación promedio y número de reseñas para el catálogo de libros.
3. Identificar a la editorial con mayor número de publicaciones de libros.
4. Identificar al autor más popular del catálogo de libros.
5. Determinar el promedio de reseñas que dejan los usuarios.  

## 1. Inicialización

In [2]:
# Cargar las librerias necesarias. 
import pandas as pd
from sqlalchemy import create_engine

## 2. Conexión a BD

In [3]:
# Definir los parámetros para conectarse a la base de dato:
# a. Nombre de usuario (user). 
# b. Contraseña (pwd).
# c. Dirección del servidor (host).
# d. Puerto de conexión (port).
# e. Nombre de la base de datos (db).
db_config = {'user': 'practicum_student',
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs',
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,
             'db': 'data-analyst-final-project-db'}

# Crear cadena de conexión a la base de datos.
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])

# Conectar a la base de datos. 
engine = create_engine(connection_string, connect_args={'sslmode':'require'})


## 3. Ejecución de consultas SQL

In [4]:
# Definir una función para ejecutar consultas SQL. 
# Esta función toma como parámetros:
# a. La consulta SQL a ejecutar. 
# b. El objeto de conexión (engine).
# Esta función devuelve:
# a. En caso de éxito, un DataFrame con los resultados de la consulta.
# b. En caso de fallo, una leyenda de que existió un error al ejecutar la consulta SQL y los detalles del error.
def execute_query(query, engine):
    try:
        df_result = pd.io.sql.read_sql(query, con = engine)
        return df_result
    except Exception as error:
        print(f"Error al ejecutar la consulta. Detalles: {error}")

In [5]:
# Consultar todos los campos de la tabla de libros.
query_books = ''' SELECT *
                  FROM books
              '''
df_books = execute_query(query_books, engine)
print(df_books.head(10)) 

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   
5        6        257               1st to Die (Women's Murder Club  #1)   
6        7        258               2nd Chance (Women's Murder Club  #2)   
7        8        260              4th of July (Women's Murder Club  #4)   
8        9        563                                   A Beautiful Mind   
9       10        445                                 A Bend in the Road   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-1

In [6]:
# Consultar todos los campos de la tabla de autores.
query_authors = ''' SELECT *
                    FROM authors
                '''
df_authors = execute_query(query_authors, engine)
print(df_authors.head(10))

   author_id                                author
0          1                            A.S. Byatt
1          2        Aesop/Laura Harris/Laura Gibbs
2          3                       Agatha Christie
3          4                         Alan Brennert
4          5              Alan Moore/David   Lloyd
5          6                            Alan Paton
6          7           Albert Camus/Justin O'Brien
7          8                         Aldous Huxley
8          9    Aldous Huxley/Christopher Hitchens
9         10  Aleksandr Solzhenitsyn/H.T. Willetts


In [7]:
# Consultar todos los campos de la tabla de editoriales.
query_publishers = ''' SELECT *
                       FROM publishers
                    '''
df_publishers = execute_query(query_publishers, engine)
print(df_publishers.head(10))

   publisher_id                                publisher
0             1                                      Ace
1             2                                 Ace Book
2             3                                Ace Books
3             4                            Ace Hardcover
4             5        Addison Wesley Publishing Company
5             6                                  Aladdin
6             7                       Aladdin Paperbacks
7             8                             Albin Michel
8             9                          Alfred A. Knopf
9            10  Alfred A. Knopf Books for Young Readers


In [8]:
# Consultar todos los campos de la tabla de calificaciones de usuarios.
query_ratings = ''' SELECT * 
                    FROM ratings
                ''' 

df_ratings = execute_query(query_ratings, engine)
print(df_ratings.head(10))

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2
5          6        3  johnsonamanda       4
6          7        3    scotttamara       5
7          8        3    lesliegibbs       5
8          9        4    abbottjames       5
9         10        4   valenciaanne       4


In [9]:
# Consultar todos los campos de la tabla de reseñas de usuarios. 
query_reviews = ''' SELECT * 
                    FROM reviews
                ''' 

df_reviews = execute_query(query_reviews, engine)
print(df_reviews.head(10))


   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   
5          6        3    lesliegibbs   
6          7        4   valenciaanne   
7          8        4    abbottjames   
8          9        5        npowers   
9         10        5        staylor   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  
5           Analysis no several cause international.  
6  One there cost another. Say type save. With pe...  
7  Within enough mother. There at system full rec...  
8  Thank now focus realize economy focus fly. Ite...  
9  Game p

In [11]:
# Encontrar la cantidad de libros publicados después del 1 de enero de 2000. 
# Tabla a utilizar: books. 
# Columna a utilizar: publication_date.
# Sentencia SQL:
# Contar todas las filas de la tabla de libros cuya fecha es estrictamente posterior al 1 de enero de 2000. 
query_books_2000 = ''' SELECT COUNT(*)  
                       FROM books
                       WHERE publication_date > '2000-01-01'
                   ''' 
df_books_2000 = execute_query(query_books_2000, engine)
print(df_books_2000)


   count
0    819


In [12]:
# Encontrar por libro:
# a. El número de reseñas de usuarios.
# b. La calificación promedio de usuarios.

# Tablas a utilizar: books, reviews, ratings
# Columnas a utilizar: book_id, title, review_id, rating.
# Sentencia SQL: 
# Seleccionar el identificador y título del libro,
# Calcular el promedio de las calificaciones de usuarios, 
# Contar el número de reseñas de usuarios, 
# Unir la tabla de libros con las tablas de reseñas y calificaciones con LEFT JOIN para incluir libros sin calificaciones y/o reseñas en caso de haberlos.
# Agrupar por libro para que el promedio de calificaciones y el conteo de reseñas se apliquen por libro. 
# Ordenar por promedio de calificaciones y conteo de reseñas para tener una visión de los libros más populares.
query_reviews_ratings = ''' SELECT books.book_id, 
                            books.title, 
                            COUNT (reviews.review_id) AS reviews_number,
                            AVG (ratings.rating) AS rating_mean
                            FROM books
                            LEFT JOIN reviews ON books.book_id = reviews.book_id
                            LEFT JOIN ratings ON books.book_id = ratings.book_id
                            GROUP BY books.book_id, books.title
                            ORDER BY reviews_number DESC, rating_mean DESC
                        ''' 
df_reviews_ratings = execute_query(query_reviews_ratings, engine)
print(df_reviews_ratings.head(20))

    book_id                                              title  \
0       948                            Twilight (Twilight  #1)   
1       750                The Hobbit  or There and Back Again   
2       673                             The Catcher in the Rye   
3       302  Harry Potter and the Prisoner of Azkaban (Harr...   
4       299  Harry Potter and the Chamber of Secrets (Harry...   
5        75               Angels & Demons (Robert Langdon  #1)   
6       301  Harry Potter and the Order of the Phoenix (Har...   
7       779  The Lightning Thief (Percy Jackson and the Oly...   
8       722  The Fellowship of the Ring (The Lord of the Ri...   
9        79                                        Animal Farm   
10      300  Harry Potter and the Half-Blood Prince (Harry ...   
11      405                                  Lord of the Flies   
12      696             The Da Vinci Code (Robert Langdon  #2)   
13      627                                      The Alchemist   
14      73

In [14]:
# Obtener la editorial que ha publicado más cantidad de libros con más de 50 páginas. 
# Tablas a utilizar: books, publishers
# Columnas a utilizar: book_id, num_pages, publisher_id, publisher
# Sentencia SQL:
# Seleccionar nombres de editorial,
# Contar los libros publicados por editorial, 
# Unir la tabla de editoriales con la de libros, 
# Filtrar los libros con más de 50 páginas, 
# Agrupar por editorial para que el conteo de libros se haga por editorial, 
# Ordenar las editorial de mayor a menor con base en el número de libros publicados, 
# Limitar la consulta a un registro para obtener la editorial con mayor número de libros publicados. 
query_top_publisher = 
''' SELECT publishers.publisher, 
                          COUNT(books.book_id) AS books_published
                          FROM publishers
                          JOIN books ON publishers.publisher_id = books.publisher_id
                          WHERE books.num_pages > 50
                          GROUP BY publishers.publisher 
                          ORDER BY books_published DESC
                          LIMIT 1
                   ''' 
df_top_publisher = execute_query(query_top_publisher, engine)
print(df_top_publisher)



       publisher  books_published
0  Penguin Books               42


In [18]:
# Encontrar al autor que tiene la calificación promedio más alta de los libros con un mínimo de 50 calificaciones. 
# Tablas a utilizar: authors, books, ratings
# Columnas a utilizar: author_id, author, book_id, rating. 
# Sentencia SQL: 
# Filtrar libros que tienen al menos 50 calificaciones y obtener sus calificaciones promedio,
# Unir el resultado de la subconsulta con las tablas de libros y autores,
# Calcular para cada autor el promedio de las calificaciones de los libros filtrados,
# Ordenar a los autores de mayor a menor con base en el promedio de calificaciones, 
# Limitar la consulta a un registro para obtener al autor con la calificación promedio más alta. 
query_top_author = ''' WITH books_50_reviews AS (
                            SELECT book_id, 
                            AVG(rating) AS average_rating
                            FROM ratings
                            GROUP BY book_id
                            HAVING COUNT(rating_id) >= 50
                            )
                            SELECT authors.author,
                            AVG(books_50_reviews.average_rating) AS average_rating_author
                            FROM books_50_reviews
                            JOIN books ON books_50_reviews.book_id = books.book_id
                            JOIN authors ON books.author_id = authors.author_id
                            GROUP BY authors.author
                            ORDER BY average_rating_author
                            LIMIT 1
                   ''' 
df_top_author = execute_query(query_top_author, engine)
print(df_top_author)

           author  average_rating_author
0  John Steinbeck               3.622951


In [20]:
# Encontrar el número promedio de reseñas entre los usuarios que calificaron más de 50 libros.
# Tablas a utilizar: ratings, reviews.
# Columnas a utilizar: username, book_id, review_id.
# Sentencia SQL:
# Filtrar a los usuarios que calificaron más de 50 libros,
# Contar cuántas reseñas hizo cada usuario que califiçó más de 50 libros,
# Calcular el promedio del número de reseñas para el grupo de usuarios que calificaron más de 50 libros.
query_average_reviews = ''' WITH users_more_50_books AS (
                                    SELECT username
                                    FROM ratings
                                    GROUP BY username 
                                    HAVING COUNT(DISTINCT book_id) > 50
                            ), 
                            user_review_count AS (
                                    SELECT users_more_50_books.username,
                                    COUNT(reviews.review_id) as total_reviews
                                    FROM users_more_50_books
                                    LEFT JOIN reviews ON users_more_50_books.username = reviews.username
                                    GROUP BY users_more_50_books.username
                            )
                            SELECT AVG(total_reviews) AS average_total_reviews
                            FROM user_review_count
                   ''' 
df_average_reviews = execute_query(query_average_reviews, engine)
print(df_average_reviews)

   average_total_reviews
0              24.333333


## 4. Conclusiones

Los resultados del análisis permiten observar que:
1. El contenido moderno (aquel publicado después del 01 de enero de 2000) del catálogo de libros consta de 819 títulos.
2. Los libros que generan gran número de reseñas y que pueden traducirse en mayor engagement de usuarios son bestsellers de sagas como Twilight, Harry Potter y The Hobbit. Además se observa que un gran número de reseñas no siempre se correlaciona con la calificación más alta. Por ejemplo Twilight tiene el mayor número de reseñas (1120), pero una calificación media inferior a la de libros de Harry Potter.
3. Penguin Books es claramente la editorial más dominante en el catálogo de libros de contenido mayor a 50 páginas.
4. John Steinbeck es el autor con la calificación promedio más alta entre los libros que han recibido un volumen considerable de críticas (al menos 50 calificaciones).
5. Los usuarios que han calificado más de 50 libros únicos presentan importante actividad. En promedio, cada uno de estos usuarios ha escrito más de 24 reseñas de texto en la plataforma.

Para agregar valor a un nuevo producto recomendaría: 
1. Que si la estrategia de valor desea centrarse en expandir el catálogo de libros con contenido de calidad, Penguin Books es la editorial más lógica para formar alianzas. Además, debido a la popularidad que tienen los libros de sagas, podrían agregarse títulos de sagas que no forman parte del catálogo actual.
2. Que si se desean implementar mecanismos de recomendaciones o campañas de marketing, que se tomen como referente a autores similares a John Steinbeck debido a que este autor es un ejemplo de calidad de contenido valorada por los usuarios.
3. Generar beneficios que incentiven a los usuarios activos a continuar calificando y escribiendo reseñas ya que eso sirve como medio para atraer a más usuarios a leer aquellos libros que han tenido buena aceptación por parte de la audiencia. 