# Proyecto SQL: Análisis de datos de servicio de lectura

## Objetivo del estudio

El objetivo principal de este análisis es **comprender el comportamiento de los usuarios y las tendencias de publicación** dentro del mercado de los libros, aprovechando una base de datos de un servicio de lectura. Las ideas obtenidas de este estudio se utilizarán para generar una propuesta de valor convincente para un nuevo producto.

Las preguntas clave que buscamos responder incluyen:

* El crecimiento del catálogo de libros en el siglo XXI.

* La popularidad y valoración de los libros por parte de la comunidad.

* La productividad y especialización de las editoriales.

* La reputación de los autores según la calificación de sus obras.

* El nivel de interacción y el compromiso de los usuarios más activos.



## Acceso a la base de datos

In [1]:
import pandas as pd
from sqlalchemy import create_engine

# Configuración de la base de datos proporcionada
db_config = {
    'user': 'practicum_student',
    'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7',
    'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
    'port': 5432,
    'db': 'data-analyst-final-project-db'
}

# Creación de la cadena de conexión
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db']
)

## Creación del motor de busqueda

In [2]:
# Creación del motor de la base de datos
engine = create_engine(connection_string)

def run_query_and_print_results(query, title):
    """
    Función auxiliar para ejecutar una consulta y mostrar los resultados en la consola.
    """
    print(f"\n--- {title} ---")
    try:
        df = pd.read_sql(query, engine)
        print(df)
    except Exception as e:
        print(f"Ocurrió un error al ejecutar la consulta: {e}")

## Estudio de las tablas

Para comprender la estructura de la base de datos, es fundamental inspeccionar las primeras filas de cada tabla. Esto nos permite ver los tipos de datos, las relaciones entre las tablas y la información disponible.

A continuación se presentan las consultas para explorar cada una de las tablas:

In [3]:
# Vistazo a la tabla 'books'
run_query_and_print_results("SELECT * FROM books LIMIT 5;", "Vistazo a la tabla 'books'")


--- Vistazo a la tabla 'books' ---
   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  


In [4]:
# Vistazo a la tabla 'authors'
run_query_and_print_results("SELECT * FROM authors LIMIT 5;", "Vistazo a la tabla 'authors'")


--- Vistazo a la tabla 'authors' ---
   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd


In [5]:
# Vistazo a la tabla 'publishers'
run_query_and_print_results("SELECT * FROM publishers LIMIT 5;", "Vistazo a la tabla 'publishers'")


--- Vistazo a la tabla 'publishers' ---
   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company


In [6]:
# Vistazo a la tabla 'ratings'
run_query_and_print_results("SELECT * FROM ratings LIMIT 5;", "Vistazo a la tabla 'ratings'")


--- Vistazo a la tabla 'ratings' ---
   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2


In [7]:
# Vistazo a la tabla 'reviews'
run_query_and_print_results("SELECT * FROM reviews LIMIT 5;", "Vistazo a la tabla 'reviews'")


--- Vistazo a la tabla 'reviews' ---
   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  


## 3. Consultas SQL y análisis

A continuación, se presentan las consultas para cada uno de los ejercicios, junto con una explicación de la lógica detrás de cada una.

### Ejercicio 1: Número de libros publicados después del 1 de enero de 2000

In [8]:
query_1 = """
SELECT
  COUNT(book_id) AS total_libros_despues_del_2000
FROM books
WHERE
  publication_date > '2000-01-01';
"""
run_query_and_print_results(query_1, "1. Número de libros publicados después del 1 de enero de 2000")



--- 1. Número de libros publicados después del 1 de enero de 2000 ---
   total_libros_despues_del_2000
0                            819


**Análisis y Conclusión:**

Esta consulta utiliza la función `COUNT()` para contar los libros en la tabla `books`cuya fecha de publicación es posterior al año 2000. El resultado nos proporcionará el número de libros que han sido publicados en el siglo XXI, lo que indica el **crecimiento reciente y la vitalidad del catálogo**. Un número elevado sugeriría que la plataforma tiene una colección de libros moderna y relevante.

### Ejercicio 2: Número de reseñas y calificación promedio para cada libro

In [9]:
query_2 = """
SELECT
  book_id,
  COUNT(username) AS total_reseñas,
  AVG(rating) AS calificacion_promedio
FROM ratings
GROUP BY
  book_id;
"""
run_query_and_print_results(query_2, "2.Número de reseñas y calificación promedio para cada libro")



--- 2.Número de reseñas y calificación promedio para cada libro ---
     book_id  total_reseñas  calificacion_promedio
0        652              2               4.500000
1        273              2               4.500000
2         51             12               4.250000
3        951              2               4.000000
4        839              7               4.285714
..       ...            ...                    ...
995       64             13               4.230769
996       55              2               5.000000
997      148              7               3.428571
998      790              2               3.500000
999      828              2               3.000000

[1000 rows x 3 columns]


**Análisis y Conclusión:**

La consulta agrupa los datos de la tabla `ratings` por `book_id` y utiliza las funciones de agregación `COUNT()` y `AVG()`. Esto nos permite obtener una visión clara de la popularidad y calidad percibida de cada libro. Los libros con un alto número de reseñas y una calificación promedio alta son **títulos populares y bien valorados**, lo que los convierte en candidatos ideales para campañas de promoción o recomendaciones a nuevos usuarios.

### Ejercicio 3: Editorial con el mayor número de libros con más de 50 páginas

In [10]:
query_3 = """
SELECT
  t2.publisher,
  COUNT(t1.book_id) AS total_libros
FROM books AS t1
JOIN publishers AS t2
  ON t1.publisher_id = t2.publisher_id
WHERE
  t1.num_pages > 50
GROUP BY
  t2.publisher
ORDER BY
  total_libros DESC
LIMIT 1;
"""
run_query_and_print_results(query_3, "3. Editorial con el mayor número de libros con más de 50 páginas")



--- 3. Editorial con el mayor número de libros con más de 50 páginas ---
       publisher  total_libros
0  Penguin Books            42


**Análisis y Conclusión:**

Esta consulta une las tablas `books` y `publishers` para relacionar los libros con sus editoriales. Filtramos los libros con más de 50 páginas para excluir publicaciones cortas y luego contamos y agrupamos por editorial. El resultado nos mostrará a la **editorial más prolífica y productiva**, lo que podría sugerir una colaboración estratégica para la adquisición de nuevos contenidos.

### Ejercicio 4: Autor con la más alta calificación promedio del libro (libros con al menos 50 calificaciones)

In [11]:
query_4 = """
WITH libros_bien_calificados AS (
  SELECT
    book_id,
    AVG(rating) AS calificacion_promedio_libro
  FROM ratings
  GROUP BY
    book_id
  HAVING
    COUNT(rating) >= 50
)
SELECT
  t2.author,
  AVG(t1.calificacion_promedio_libro) AS calificacion_promedio_autor
FROM libros_bien_calificados AS t1
JOIN books AS t3
  ON t1.book_id = t3.book_id
JOIN authors AS t2
  ON t3.author_id = t2.author_id
GROUP BY
  t2.author
ORDER BY
  calificacion_promedio_autor DESC
LIMIT 1;
"""
run_query_and_print_results(query_4, "4. Autor con la más alta calificación promedio del libro (libros con al menos 50 calificaciones)")



--- 4. Autor con la más alta calificación promedio del libro (libros con al menos 50 calificaciones) ---
                       author  calificacion_promedio_autor
0  J.K. Rowling/Mary GrandPré                     4.283844


**Análisis y Conclusión:**

Esta consulta utiliza una subconsulta (`WITH`) para primero filtrar los libros que tienen al menos 50 calificaciones. Luego, une estos resultados con las tablas `books` y `authors` para calcular el promedio de calificaciones de los libros para cada autor. El resultado nos dirá cuál es el ***autor mejor valorado por la comunidad***, un dato clave para destacar a ciertos autores o generar contenido temático sobre sus obras.

### Ejercicio 5: Número promedio de reseñas de texto de usuarios que calificaron más de 50 libros

In [12]:
query_5 = """
WITH usuarios_activos AS (
  SELECT
    username
  FROM ratings
  GROUP BY
    username
  HAVING
    COUNT(book_id) > 50
)
SELECT
  AVG(t2.total_reseñas_texto) AS promedio_reseñas_texto
FROM usuarios_activos AS t1
JOIN (
  SELECT
    username,
    COUNT(review_id) AS total_reseñas_texto
  FROM reviews
  GROUP BY
    username
) AS t2
  ON t1.username = t2.username;
"""
run_query_and_print_results(query_5, "5. Número promedio de reseñas de texto de usuarios que calificaron más de 50 libros")



--- 5. Número promedio de reseñas de texto de usuarios que calificaron más de 50 libros ---
   promedio_reseñas_texto
0               24.333333


**Análisis y Conclusión:**

Esta consulta también utiliza una subconsulta para identificar a los usuarios más activos, aquellos que han calificado más de 50 libros. Luego, une este grupo con un conteo de las reseñas de texto que han escrito. El promedio final nos revela el **nivel de compromiso y la participación de los usuarios más fieles en la plataforma**, lo que es vital para entender las dinámicas de la comunidad y para desarrollar funcionalidades que fomenten la interacción