# SQL_Libreria 

**Carlos Esteban Ortiz Espitia** Analista de datos 

# Introducción

El surgimiento del COVID-19 provocó cambios significativos en los hábitos cotidianos de millones de personas alrededor del mundo. Con las restricciones de movilidad y el cierre de espacios públicos, actividades como la lectura cobraron una nueva relevancia en la vida de los usuarios. Este contexto impulsó el crecimiento de servicios digitales dedicados a los libros, generando una oportunidad clave para que las startups innovaran en el mercado editorial.

Con base en esta tendencia, se ha facilitado una base de datos proveniente de una plataforma digital de lectura que contiene información detallada sobre libros, autores, editoriales, calificaciones de usuarios y reseñas escritas. A partir del análisis de estos datos, se busca obtener hallazgos que permitan mejorar la propuesta de valor del producto y comprender mejor el comportamiento de los lectores dentro del servicio.

# Objetivo General

Analizar los datos relacionados con libros, autores, editoriales, calificaciones y reseñas de usuarios en una plataforma digital con el fin de identificar tendencias, detectar oportunidades de mejora y generar información valiosa para la propuesta de un nuevo producto literario.

# Objetivos Específicos

Determinar cuántos libros han sido publicados después del 1 de enero del año 2000, con el fin de analizar la producción editorial moderna en la plataforma.

Calcular la cantidad de reseñas y la calificación promedio de cada libro para evaluar la recepción del contenido por parte de los usuarios.

Identificar cuál editorial ha publicado la mayor cantidad de libros con más de 50 páginas, excluyendo así publicaciones menores como folletos o cuadernillos.

Establecer qué autor posee la calificación promedio más alta, considerando solo aquellos libros que hayan recibido al menos 50 calificaciones, para garantizar una muestra representativa.

Calcular el número promedio de reseñas escritas por los usuarios que han calificado más de 50 libros, con el objetivo de estudiar el comportamiento de los lectores más activos y comprometidos.

# Desarrollo del proyecto 

## Conexión a la base de datos 

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine

In [2]:
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
# pd.read_sql(query, con = engine)

## Visualización de datos

In [4]:
query_books = """
SELECT * 
FROM books
LIMIT 5;
"""
pd.read_sql(query_books, engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
query_authors = """
SELECT * 
FROM authors
LIMIT 5;
"""
pd.read_sql(query_authors, engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [6]:
query_publishers = """
SELECT * 
FROM publishers
LIMIT 5;
"""
pd.read_sql(query_publishers, engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [7]:
query_ratings = """
SELECT * 
FROM ratings
LIMIT 5;
"""
pd.read_sql(query_ratings, engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [8]:
query_reviews = """
SELECT * 
FROM reviews
LIMIT 5;
"""
pd.read_sql(query_reviews, engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [9]:
books = pd.read_sql('SELECT * FROM books LIMIT 5;', engine)
authors = pd.read_sql('SELECT * FROM authors LIMIT 5;', engine)
publishers = pd.read_sql('SELECT * FROM publishers LIMIT 5;', engine)
ratings = pd.read_sql('SELECT * FROM ratings LIMIT 5;', engine)
reviews = pd.read_sql('SELECT * FROM reviews LIMIT 5;', engine)

## Número de libros publicados después del 1 de enero de 2000


In [10]:
query_n_books = """
SELECT COUNT(*) AS books_after_2000
FROM books
WHERE publication_date > '2000-01-01';
"""
pd.read_sql(query_n_books, engine)

Unnamed: 0,books_after_2000
0,819


Son 819 libros  publicados después del año 2000.

## Número de reseñas de usuarios y la calificación promedio para cada libro

In [11]:
query_rev_rat = """
SELECT
    b.title,
    COUNT(DISTINCT re.review_id) AS num_reviews,
    ROUND(AVG(r.rating), 2) AS avg_rating
FROM books b
LEFT JOIN reviews re ON b.book_id = re.book_id
LEFT JOIN ratings r ON b.book_id = r.book_id
GROUP BY b.title;
"""
pd.read_sql(query_rev_rat, engine)

Unnamed: 0,title,num_reviews,avg_rating
0,'Salem's Lot,2,3.67
1,1 000 Places to See Before You Die,1,2.50
2,13 Little Blue Envelopes (Little Blue Envelope...,3,4.67
3,1491: New Revelations of the Americas Before C...,2,4.50
4,1776,4,4.00
...,...,...,...
994,Wyrd Sisters (Discworld #6; Witches #2),3,3.67
995,Xenocide (Ender's Saga #3),3,3.40
996,Year of Wonders,4,3.20
997,You Suck (A Love Story #2),2,4.50


Esta tabla te permite:

- Identificar libros que tienen buenas calificaciones pero pocas reseñas.
- Detectar títulos con muchas reseñas pero baja calificación.
- Medir las preferencias del usuario por título.

## Editorial que ha publicado el mayor número de libros con más de 50 páginas

In [12]:
query_ed_pag= """
SELECT
    p.publisher,
    COUNT(b.book_id) AS num_books
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_books DESC
LIMIT 1;
"""
pd.read_sql(query_ed_pag, engine)

Unnamed: 0,publisher,num_books
0,Penguin Books,42



`Penguin Books` es la editorial con mayor número de publicaciones largas (más de 50 páginas). Esto sugiere que esta editorial tiene un catálogo amplio y probablemente está enfocada en contenido más extenso, lo que la hace relevante para lectores frecuentes o exigentes.


## Autor que tiene la más alta calificación promedio del libro

In [13]:
query_aut_rat= """
SELECT
    a.author,
    ROUND(AVG(r.rating), 2) AS avg_rating
FROM books b
JOIN authors a ON b.author_id = a.author_id
JOIN ratings r ON b.book_id = r.book_id
GROUP BY a.author
HAVING COUNT(r.rating_id) >= 50
ORDER BY avg_rating DESC
LIMIT 1;
"""
pd.read_sql(query_aut_rat, engine)

Unnamed: 0,author,avg_rating
0,Diana Gabaldon,4.3



**Diana Gabaldon** es la autora mejor valorada entre aquellos cuyas obras tienen al menos 50 calificaciones.Esto quiere decir que no solo es una autora popular, sino que también mantiene una alta calidad y consistencia en la percepción del público.

Sus libros pueden ser ideales para recomendaciones destacadas, clubes de lectura o nuevas funcionalidades del producto basadas en autores más confiables.

## Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [15]:
query_prom= """
WITH users_50 AS (
    SELECT username
    FROM ratings
    GROUP BY username
    HAVING COUNT(rating_id) > 50
)

SELECT ROUND(AVG(user_rev.review_count), 2) AS avg_rev_user
FROM (
    SELECT username, COUNT(review_id) AS review_count
    FROM reviews
    WHERE username IN (SELECT username FROM users_50)
    GROUP BY username
) AS user_rev;
"""
pd.read_sql(query_prom, engine)

Unnamed: 0,avg_rev_user
0,24.33


Los usuarios que calificaron más de 50 libros escribieron en promedio 24.33 reseñas de texto. Los usuarios más activos en calificaciones también tienen un nivel alto de participación.

Podriamos implementar 
- Programas de fidelización.
- Recopilación de reseñas de texto para nuevos lanzamientos

# Conclusiones
El análisis exploratorio de la base de datos del servicio digital de libros permitió identificar patrones clave en el comportamiento de los usuarios, las editoriales y los autores, así como evaluar la calidad y alcance del contenido publicado. 

En conjunto, estos resultados ofrecen insumos importantes para fortalecer la propuesta de valor de la plataforma, orientar decisiones, y diseñar estrategias centradas en los lectores más activos, los autores mejor valorados y las editoriales más influyentes.
