# ¡Hola Valerio! 😊

Mi nombre es **Alejandro Castellanos** y hoy tengo el placer de ser el revisor de tu proyecto.

Voy a revisar todo tu código con detalle, buscando tanto los puntos fuertes como aquellos en los que podrías mejorar. Te dejaré comentarios a lo largo del notebook, destacando lo que has hecho bien y sugiriendo ajustes donde sea necesario. Si encuentro algún error, no te preocupes, te lo haré saber de forma clara y te daré información útil para que puedas corregirlo en la próxima. Si en algún punto tienes comentarios, siéntete libre de dejarlos también.


Encontrarás mis comentarios específicos dentro de cajas verdes, amarillas o rojas, es muy importante que no muevas, modifiques o borres mis comentarios, con el fin de tener un seguimiento adecuado de tu proceso.:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

A continuación te dejaré un comentario general con mi valoración del proyecto. **¡Mi objetivo es que sigas aprendiendo y mejorando con cada paso!**

----

<div class="alert alert-block alert-success">
<b>Comentario General del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Valerio has cumplido de manera sobresaliente con todos los objetivos propuestos, demostrando una capacidad técnica y analítica realmente destacable. Tu dominio de SQL es extraordinario, evidenciando un manejo experto que va más allá de las cláusulas básicas, integrando subtablas y técnicas avanzadas de agrupamiento de datos con una gran precisión. Éxitos en tu próximo Sprint 🚀
    
*Estado del Proyecto:* **Aprobado**

</div>

----

In [1]:
# import libraries 
import pandas as pd 
from sqlalchemy import create_engine
from sqlalchemy import text

# proyecto SQL:
La pandemia de coronavirus cambió drásticamente los hábitos de las personas, llevándolas a pasar más tiempo en casa, lo que incrementó el interés por la lectura. Esto ha impulsado a startups a crear aplicaciones para los amantes de los libros.


Objetivo:
Analizar una base de datos que contiene información sobre libros, editoriales, autores, calificaciones y reseñas de clientes, con el fin de generar una propuesta de valor para un nuevo producto en este mercado emergente.

In [2]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
# Conectar y ejecutar una consulta
with engine.connect() as connection:
    result = connection.execute(text("SELECT version();"))
    db_version = result.fetchone()
    print("Versión de la base de datos:", db_version[0])

Versión de la base de datos: PostgreSQL 14.12 (Ubuntu 14.12-201-yandex.53249.ae65d30249) on x86_64-pc-linux-gnu, compiled by gcc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0, 64-bit


<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Siempre es recomendable realizar una previsualización de las tablas con las que vas a trabjar, para indetificar su estructura y contenido general.

</div>

# Ejercicios: 

Encuentra el número de libros publicados después del 1 de enero de 2000.

In [4]:
# Consulta para contar libros publicados después del 1 de enero de 2000
query = """
SELECT COUNT(*) AS num_books
FROM books
WHERE publication_date > '2000-01-01';
"""

# Ejecutar la consulta y guardar el resultado en un DataFrame
with engine.connect() as connection:
    result = pd.read_sql(query, connection)

# Mostrar el resultado
print("Número de libros publicados después del 1 de enero de 2000:", result['num_books'][0])

Número de libros publicados después del 1 de enero de 2000: 819


Este análisis permite evaluar la producción editorial reciente, lo que puede ser útil para entender tendencias y cambios en la industria del libro.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Valerio has contabilizado correctamente el registro de los libros.
</div>

Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [5]:
# Consulta para contar reseñas y calcular calificación promedio por libro
query = """
SELECT 
    b.book_id,
    COUNT(r.review_id) AS num_reviews,
    AVG(rt.rating) AS average_rating
FROM 
    books b
LEFT JOIN 
    reviews r ON b.book_id = r.book_id
LEFT JOIN 
    ratings rt ON b.book_id = rt.book_id
GROUP BY 
    b.book_id
ORDER BY 
    b.book_id;
"""

# Ejecutar la consulta y guardar el resultado en un DataFrame
with engine.connect() as connection:
    result = pd.read_sql(query, connection)

# Mostrar el resultado
result.head()

Unnamed: 0,book_id,num_reviews,average_rating
0,1,6,3.666667
1,2,2,2.5
2,3,9,4.666667
3,4,4,4.5
4,5,24,4.0


Este análisis proporciona una visión clara de la interacción de los lectores con cada libro, destacando tanto la cantidad de reseñas como la calidad de las calificaciones.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Buen trabajo obteniendo los datos en función de las reseñas y la calificación promedio.

</div>

Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [6]:
# Consulta para identificar la editorial con el mayor número de libros de más de 50 páginas
query = """
SELECT 
    p.publisher_id,
    p.publisher,
    COUNT(b.book_id) AS num_books
FROM 
    publishers p
JOIN 
    books b ON p.publisher_id = b.publisher_id
WHERE 
    b.num_pages > 50
GROUP BY 
    p.publisher_id, p.publisher
ORDER BY 
    num_books DESC
LIMIT 1;
"""

# Ejecutar la consulta y guardar el resultado en un DataFrame
with engine.connect() as connection:
    result = pd.read_sql(query, connection)

# Mostrar el resultado
print("La editorial que ha publicado el mayor número de libros con más de 50 páginas es:")
result.head()


La editorial que ha publicado el mayor número de libros con más de 50 páginas es:


Unnamed: 0,publisher_id,publisher,num_books
0,212,Penguin Books,42


Este análisis permite evaluar la productividad de las editoriales en el segmento de libros más extensos, lo que puede ser relevante para entender tendencias en el mercado editorial.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Excelente, has encontrado la editorial con mayor cantidad de publicaciones.

</div>

Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [7]:
# Consulta para identificar al autor con la más alta calificación promedio
query = """
SELECT 
    a.author_id,
    a.author,
    AVG(rt.rating) AS average_rating,
    COUNT(rt.rating_id) AS num_ratings
FROM 
    authors a
JOIN 
    books b ON a.author_id = b.author_id
JOIN 
    ratings rt ON b.book_id = rt.book_id
GROUP BY 
    a.author_id, a.author
HAVING 
    COUNT(rt.rating_id) >= 50
ORDER BY 
    average_rating DESC
LIMIT 1;
"""

# Ejecutar la consulta y guardar el resultado en un DataFrame
with engine.connect() as connection:
    result = pd.read_sql(query, connection)

# Mostrar el resultado
print("El autor con la más alta calificación promedio (con al menos 50 calificaciones) es:")
result.head()

El autor con la más alta calificación promedio (con al menos 50 calificaciones) es:


Unnamed: 0,author_id,author,average_rating,num_ratings
0,130,Diana Gabaldon,4.3,50


Este enfoque permite obtener una visión clara del desempeño de los autores en términos de calidad percibida por los lectores, excluyendo aquellos con menos interacciones, lo que podría sesgar los resultados.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Excelente trabajo usando `JOIN` par crear subtables, integrandolas con las cláusulas `HAVING` y `GROUP BY`

</div>

Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [8]:
# Consulta para encontrar el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros
query = """
WITH users_with_high_ratings AS (
    SELECT 
        rt.username
    FROM 
        ratings rt
    GROUP BY 
        rt.username
    HAVING 
        COUNT(rt.book_id) > 50
)
SELECT 
    AVG(review_count) AS average_reviews
FROM (
    SELECT 
        r.username,
        COUNT(r.review_id) AS review_count
    FROM 
        reviews r
    JOIN 
        users_with_high_ratings u ON r.username = u.username
    GROUP BY 
        r.username
) AS review_counts;
"""

# Ejecutar la consulta y guardar el resultado en un DataFrame
with engine.connect() as connection:
    result = pd.read_sql(query, connection)

# Mostrar el resultado
print("El número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros es:")
result.head()

El número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros es:


Unnamed: 0,average_reviews
0,24.333333


muestra que los usuarios que califican más de 50 libros suelen ser más activos y comprometidos con la comunidad literaria. Esto se traduce en una mayor probabilidad de dejar reseñas, lo que indica una interacción más profunda con el contenido. Al analizar el promedio de reseñas de estos usuarios, se puede concluir que su participación no solo enriquece su propia experiencia, sino que también contribuye al intercambio literario, mejorando la calidad de la retroalimentación en las plataformas de lectura.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Perfecta forma de usar el `LEFT JOIN` muy buen trabjo Pamela

</div>