Hola **Fray**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
--
</div>

# Objetivo de estudio

* Entender la dinámica de publicación desde el año 2000.
* Evaluar la interacción de los usuarios mediante reseñas y calificaciones.
* Identificar editoriales y autores destacados.
* Conocer los hábitos de los usuarios activos.

# Conexión a la base de datos

In [2]:
import pandas as pd
from sqlalchemy import create_engine
db_config = {
 'user': 'practicum_student', # username
 'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
 'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
 'port': 5432, # connection port
 'db': 'data-analyst-final-project-db' # the name of the database
 }
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# Estudiar las tablas

In [3]:
# Mostrar las primeras filas de cada tabla
tables = ['books', 'authors', 'publishers', 'ratings', 'reviews']
for table in tables:
    print(f"\nTabla: {table}")
    display(pd.io.sql.read_sql(f"SELECT * FROM {table} LIMIT 5", con=engine))


Tabla: books


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268



Tabla: authors


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd



Tabla: publishers


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company



Tabla: ratings


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2



Tabla: reviews


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


# Consultas

## Número de libros publicados después del 1 de enero de 2000.

In [4]:
query_1 ="Select COUNT(*) AS libros_publicados_luego_del_2000 from books WHERE publication_date > '2000-01-01'"

pd.io.sql.read_sql(query_1, con=engine)


Unnamed: 0,libros_publicados_luego_del_2000
0,819


Conclusión: Se publicó 819 libros después del año 2000.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con el cálculo! Aplicaste el filtro correcto para obtener los datos
</div>

## Número de reseñas y calificación promedio por libro

In [5]:
query_2 = """
SELECT
    b.book_id,
    b.title,
    COUNT(DISTINCT rv.review_id) AS num_reviews,
    ROUND(AVG(rt.rating), 2) AS avg_rating
FROM books b
LEFT JOIN reviews rv ON b.book_id = rv.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY avg_rating DESC, num_reviews DESC
"""
pd.io.sql.read_sql(query_2, con=engine)

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,17,A Dirty Job (Grim Reaper #1),4,5.00
1,553,School's Out—Forever (Maximum Ride #2),3,5.00
2,444,Moneyball: The Art of Winning an Unfair Game,3,5.00
3,642,The Big Bad Wolf (Alex Cross #9),2,5.00
4,967,Welcome to Temptation (Dempseys #1),2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,202,Drowning Ruth,3,2.00
997,316,His Excellency: George Washington,2,2.00
998,371,Junky,2,2.00


Podemos observar los libros más comentados y mejor calificados.

## Editorial con más libros de más de 50 páginas

In [6]:
query_3 = """
SELECT
    p.publisher,
    COUNT(b.book_id) AS total_libros
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY total_libros DESC
LIMIT 1;
"""
pd.io.sql.read_sql(query_3, con=engine)


Unnamed: 0,publisher,total_libros
0,Penguin Books,42


Conclusión: La editorial más activa en publicaciones sustanciales es penguin books con 42 libros.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Correcto, bien utilizado las funciones de agregación para obtener los resultados
</div>

## Autor con mayor calificación promedio (solo libros con ≥50 calificaciones)

In [7]:
query_4 = """
SELECT
    a.author,
    ROUND(AVG(book_avg.avg_rating), 2) AS avg_rating
FROM (
    SELECT
        b.book_id,
        b.author_id,
        AVG(rt.rating) AS avg_rating,
        COUNT(rt.rating_id) AS rating_count
    FROM books b
    JOIN ratings rt ON b.book_id = rt.book_id
    GROUP BY b.book_id, b.author_id
    HAVING COUNT(rt.rating_id) >= 50
) AS book_avg
JOIN authors a ON book_avg.author_id = a.author_id
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 1;
"""
pd.io.sql.read_sql(query_4, con=engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.28


Conclusión: El autor con mayor promedio de calificación es J.K. Rowling/Mary GrandPré.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Perfecto! Parece que los libros de Harry Potter son los que mejor puntaje tienen. Muy bien utilizadas las sub-consultas para obtener datos
</div>

## Promedio de reseñas de texto  usuarios que calificaron más de 50 libros

In [8]:
query_5 = """
WITH usuarios_50_calificaciones AS (
    SELECT username
    FROM ratings
    GROUP BY username
    HAVING COUNT(*) > 50
)

SELECT
    ROUND(AVG(num_reviews), 2) AS avg_text_reviews
FROM (
    SELECT username, COUNT(*) AS num_reviews
    FROM reviews
    WHERE username IN (SELECT username FROM usuarios_50_calificaciones)
    GROUP BY username
) subs;
"""
pd.io.sql.read_sql(query_5, con=engine)

Unnamed: 0,avg_text_reviews
0,24.33


Conclusión: Los usuarios muy activos tienen en promedio 24.33 reseñas escritas.

<div class="alert alert-block alert-success">
<b>Comentario general (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con las diferentes consultas realizadas, se obtuvo los resultados adecuados aplicando las operaciones correctas en cada una.

Cómo consejo adicional, debido a que SQL es un lenguaje que verás en tu día a día cómo Data Analyst te animo a seguir practicando con el mismo para que en las entrevistas técnicas destaques cómo profesional! Será muy común que cuando postules a un puesto laboral te pidan hacer una prueba de SQL, te recomiendo revisar plataformas cómo Leetcode ya que tienen ejercicios de SQL para prepararte para las entrevistas, particularmente SQL lo encuentras en este link: https://leetcode.com/problemset/database/
    
Saludos!
</div>