Hola **Ulises**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Muchísimas gracias por las observaciones 🤗
</div>

# SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Descripción de los datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

### Diagrama de datos

!https://s3-us-west-2.amazonaws.com/secure.notion-static.com/5a5cff26-7d06-45cb-8333-37837bbd1a81/Untitled.png

### Ejercicio

- Encuentra el número de libros publicados después del 1 de enero de 2000.
- Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
- Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
- Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
- Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

### Instrucciones para completar la tarea

- Describe los objetivos del estudio.
- Estudia las tablas (imprime las primeras filas).
- Realiza una consulta SQL para cada una de las tareas.
- Genera los resultados de cada consulta en el Notebook.
- Describe tus conclusiones para cada una de las tareas.

### Acceso a la base de datos

Conéctate a la base de datos siguiendo estas [instrucciones](https://www.notion.so/SQL-7684eef430ab4b10bfd8e3b2e042965e?pvs=21).

### Notas

- ¡No te olvides de las funciones! Pueden facilitar considerablemente tu vida y la ejecución de consultas.
- Tus resultados deben ser obtenidos con SQL. Usa pandas solamente para imprimir y almacenar los resultados de la consulta.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen detalle el incluir la introducción al proyecto e incluyendo una descripción de los datos con los que trabajarás!
</div>

##  1. Objetivo del estudio
   El objetivo es analizar los datos sobre libros, autores, editoriales y calificaciones de un servicio de libros, para identificar tendencias y datos destacados que contribuyan a la propuesta de valor de un nuevo producto.

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine

In [2]:
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## 2. Inspección de las tablas
Antes de comenzar con las consultas, puedes se obtiene una vista general de cada tabla:

In [3]:
# Ejemplo para ver las primeras filas de cada tabla
pd.io.sql.read_sql("SELECT * FROM books LIMIT 5", con=engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


## 3. Consultas SQL para cada tarea

Número de libros publicados después del 1 de enero de 2000: 

In [4]:
query = """
SELECT COUNT(*) AS num_books
FROM books
WHERE publication_date > '2000-01-01';
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,num_books
0,819


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con el cálculo y estableciendo la condición!
</div>

Número de reseñas de usuarios y la calificación promedio para cada libro:

In [5]:
query = """
SELECT b.book_id, b.title, COUNT(r.review_id) AS num_reviews, AVG(rt.rating) AS avg_rating
FROM books AS b
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,652,The Body in the Library (Miss Marple #3),4,4.500000
1,273,Galápagos,4,4.500000
2,51,A Tree Grows in Brooklyn,60,4.250000
3,951,Undaunted Courage: The Pioneering First Missio...,4,4.000000
4,839,The Prophet,28,4.285714
...,...,...,...,...
995,64,Alice in Wonderland,52,4.230769
996,55,A Woman of Substance (Emma Harte Saga #1),4,5.000000
997,148,Christine,21,3.428571
998,790,The Magicians' Guild (Black Magician Trilogy #1),4,3.500000


In [6]:
###################################################
###                 CORRECCIÓN                  ###
###################################################

query = """ 
SELECT b.book_id, b.title, COUNT(r.review_id) AS num_reviews, AVG(rt.rating) AS avg_rating
FROM books AS b
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY avg_rating DESC;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,518,Pop Goes the Weasel (Alex Cross #5),4,5.00
1,732,The Ghost Map: The Story of London's Most Terr...,4,5.00
2,347,In the Hand of the Goddess (Song of the Liones...,6,5.00
3,610,Tai-Pan (Asian Saga #2),4,5.00
4,330,How to Be a Domestic Goddess: Baking and the A...,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,12,2.25
996,371,Junky,4,2.00
997,316,His Excellency: George Washington,4,2.00
998,202,Drowning Ruth,9,2.00


In [7]:
###################################################
###                 CORRECCIÓN                  ###
###################################################

query = """ 
SELECT b.book_id, b.title, COUNT(r.review_id) AS num_reviews, AVG(rt.rating) AS avg_rating
FROM books AS b
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY b.title ASC;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,1,'Salem's Lot,6,3.666667
1,2,1 000 Places to See Before You Die,2,2.500000
2,3,13 Little Blue Envelopes (Little Blue Envelope...,9,4.666667
3,4,1491: New Revelations of the Americas Before C...,4,4.500000
4,5,1776,24,4.000000
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),9,3.666667
996,997,Xenocide (Ender's Saga #3),15,3.400000
997,998,Year of Wonders,20,3.200000
998,999,You Suck (A Love Story #2),4,4.500000


<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Correcto, bien aplicado el JOIN para realizar el conteo! Podrías incluir un order by para ver por cada título en orden alfabético o también ordenar por los que tienen más rating
</div>

Editorial con el mayor número de libros con más de 50 páginas:

In [8]:
query = """
SELECT p.publisher, COUNT(b.book_id) AS num_books
FROM books AS b
JOIN publishers AS p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_books DESC
LIMIT 1;
"""

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,num_books
0,Penguin Books,42


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Perfecto! Encontraste el editorial correcto
</div>

Autor con la más alta calificación promedio de libros con al menos 50 calificaciones:

In [9]:
query = """
SELECT a.author, AVG(rt.rating) AS avg_rating
FROM books AS b
JOIN authors AS a ON b.author_id = a.author_id
JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY a.author
HAVING COUNT(rt.rating) >= 50
ORDER BY avg_rating DESC
LIMIT 1;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg_rating
0,Diana Gabaldon,4.3


In [10]:
###################################################
###                 CORRECCIÓN                  ###
###################################################


query = """
WITH books_with_50_ratings AS (
    SELECT book_id
    FROM ratings
    GROUP BY book_id
    HAVING COUNT(rating_id) >= 50
)

SELECT a.author, AVG(r.rating) AS avg_rating
FROM books_with_50_ratings AS bw
JOIN books AS b ON bw.book_id = b.book_id
JOIN authors AS a ON b.author_id = a.author_id
JOIN ratings AS r ON b.book_id = r.book_id
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 1;
"""
pd.io.sql.read_sql(query, con = engine)


Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Aquí deberías utilizar algunas subconsultas para poder obtener el resultado correcto:
- Usa una subconsulta para obtener los libros que tienen más de 50 calificaciones
- Con los datos de tu subconsulta anterior, puedes hacer un join con la tabla de autores y obtener el raiting promedio
</div>

Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros:

In [11]:
query = """
WITH user_ratings AS (
    SELECT username, COUNT(rating_id) AS num_ratings
    FROM ratings
    GROUP BY username
    HAVING COUNT(rating_id) > 50
)
SELECT AVG(user_reviews.num_reviews) AS avg_text_reviews
FROM (
    SELECT r.username, COUNT(r.review_id) AS num_reviews
    FROM reviews AS r
    JOIN user_ratings AS ur ON r.username = ur.username
    GROUP BY r.username
) AS user_reviews;
"""
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg_text_reviews
0,24.333333


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Correcto! Muy buen trabajo utilizando las subconsultas
</div>

## Conclusión

1. **Número de libros publicados después del 1 de enero de 2000**:  
   - **Conclusión**: Desde el comienzo del siglo XXI, se han publicado 819 libros en la plataforma, indicando una colección considerable de títulos recientes. Esto refleja la creciente oferta literaria en las últimas dos décadas y la relevancia de la plataforma para los lectores que buscan obras modernas y actuales.

2. **Editorial con el mayor número de libros con más de 50 páginas**:  
   - **Conclusión**: La editorial *Penguin Books* lidera en cantidad de publicaciones significativas (de más de 50 páginas) con 42 títulos en la plataforma. Esto sugiere que Penguin Books tiene una presencia fuerte y constante en el mercado de libros más extensos, lo que puede servir como punto de interés para los usuarios que prefieren obras de esta editorial en particular.

3. **Autor con la más alta calificación promedio de libros con al menos 50 calificaciones**:  
   - **Conclusión**: *Diana Gabaldon* destaca con la calificación promedio más alta de 4.3 entre los autores cuyos libros recibieron al menos 50 calificaciones. Este resultado indica una alta apreciación por parte de los lectores hacia sus obras, sugiriendo que los libros de Gabaldon tienen un impacto positivo en la audiencia y podrían servir como contenido de alta demanda para promocionar.

4. **Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros**:  
   - **Conclusión**: Los usuarios más activos, que han calificado más de 50 libros, escriben un promedio de 24.33 reseñas textuales. Este comportamiento resalta el nivel de compromiso de ciertos usuarios, quienes no solo califican sino que también brindan reseñas detalladas. Aprovechar esta tendencia puede ser clave para fomentar una comunidad de lectores comprometidos y atraer a nuevos usuarios interesados en opiniones más detalladas y confiables.

<div class="alert alert-block alert-info">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Hiciste un buen trabajo Ulises! Lograste hacer los JOIN y ejecutar las operaciones necesarias para mostrar los datos requeridos.

SQL es un lenguaje que usarás en tu día a día como analista de datos, por lo que te recomiendo explorar y prácticar más sobre el mismo ya que realizar queries correctas será vital en un entorno laboral para garantizar la calidad de tus análisis.
    
Sólo hay que cambiar un ejercicio para que tu proyecto quede completo.
    
Saludos!
</div>