Hola **Carmen**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
--
</div>

# Proyecto Final SQL

Contexto: Tenemos una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores, calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

## Acceso a la base de datos

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Explorar archivos

In [2]:

def explorar_tabla(tabla):
    query_x = f"SELECT * FROM {tabla} LIMIT 10" 
    return pd.io.sql.read_sql(query_x, con=engine)


In [3]:
explorar_tabla('books')

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


In [4]:
explorar_tabla('authors')

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


In [5]:
explorar_tabla('publishers')

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


In [6]:
explorar_tabla('ratings')

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


In [7]:
explorar_tabla('reviews')

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien! Siempre es importante primero revisar un poco los datos con los que se trabajará
</div>

## Consultas

### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [8]:
query_1 = ''' 
SELECT
    COUNT(title)
FROM 
    books
WHERE
    publication_date > '2000-01-01'
'''

In [9]:
pd.io.sql.read_sql(query_1, con = engine)

Unnamed: 0,count
0,819


_Se tienen 819 libros publicados despues del 01-01-2000_

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con el cálculo! Aplicaste el filtro correcto para obtener los datos
</div>

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [10]:


query_2 = ''' 
SELECT 
    reviews.book_id as id_libro,

    COUNT(text) as n_reseñas,
    AVG(rating) as calif_mean
FROM reviews
INNER JOIN ratings ON reviews.book_id = ratings.book_id
GROUP BY reviews.book_id;
'''


In [11]:
pd.io.sql.read_sql(query_2, con = engine)

Unnamed: 0,id_libro,n_reseñas,calif_mean
0,652,4,4.500000
1,273,4,4.500000
2,51,60,4.250000
3,951,4,4.000000
4,839,28,4.285714
...,...,...,...
989,64,52,4.230769
990,55,4,5.000000
991,148,21,3.428571
992,790,4,3.500000


_Se obtuvo el número de reseñas y el promedio de la calificación de las reseñas para 994 libros_

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [12]:
query_3 = ''' 
SELECT
    publisher 
FROM
    books
JOIN
    publishers ON books.publisher_id = publishers.publisher_id
WHERE
    books.num_pages > 50 
GROUP BY
    publishers.publisher
ORDER BY
    COUNT(publisher) DESC 
'''

In [13]:
pd.io.sql.read_sql(query_3, con = engine)

Unnamed: 0,publisher
0,Penguin Books
1,Vintage
2,Grand Central Publishing
3,Penguin Classics
4,Ballantine Books
...,...
329,Turtleback
330,Atheneum Books for Young Readers: Richard Jack...
331,Penguin Signet
332,Victor Gollancz


_Se obtuvieron 334 editoriales con la publicación de libros mayores a 50 páginas_

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Correcto, bien utilizado las funciones de agregación para obtener los resultados
</div>

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [14]:
query_4 = ''' 
SELECT
    authors.author,
    AVG(ratings.rating) AS avg_rating
FROM
    authors
JOIN books ON authors.author_id = books.author_id
JOIN ratings ON books.book_id = ratings.book_id
GROUP BY
    author
HAVING
    COUNT(ratings.rating) >49 AND
    AVG(ratings.rating) = (
        SELECT MAX(avg_rating)
        FROM (
            SELECT AVG(ratings.rating) AS avg_rating
            FROM authors
            JOIN books ON authors.author_id = books.author_id
            JOIN ratings ON books.book_id = ratings.book_id
            GROUP BY authors.author
            HAVING COUNT(ratings.rating) >49
            ) AS subquery);
   '''

In [15]:
pd.io.sql.read_sql(query_4, con = engine)

Unnamed: 0,author,avg_rating
0,Diana Gabaldon,4.3


_Diana Gabaldon fue la autora con la mejor calificacion promedio por libro, obtuvo 4.3 de 5.0._

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Aquí deberías hacer uso de subconsultas, una para obtener primero los book_id que tengan mínimo 50 ratings y con ese resultado debes hacer el JOIN con la tabla de authors para sacar el promedio del rating. Sólo deberias mostrar un sólo autor en el resultado.
</div>

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [16]:
query_5 = ''' 
SELECT
    AVG(cnt_text)
FROM
    (SELECT 
        ratings.username, 
        COUNT(reviews.text) as cnt_text
    FROM ratings
    JOIN reviews ON ratings.username = reviews.username
    GROUP BY ratings.username
    HAVING COUNT(ratings.rating) > 50) AS subquery;
 '''

In [17]:
pd.io.sql.read_sql(query_5, con = engine)

Unnamed: 0,avg
0,719.75625


_En promedio, los usuarios que calificaron más de 50 libros escribieron aproximadamente 720 reseñas de texto cada uno._

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Podrías abordar de otra forma este ejercicio, primero para obtener los usuarios que hayan dejando al menos 50 ratings, luego con esa subconsulta haces JOIN con la tabla username para tomar solo esos usuarios de la tabla reviews y  finalmente sacas el promedio de las reviews.
</div>

<div class="alert alert-block alert-success">
<b>Comentario general (2da Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con las diferentes consultas realizadas, se obtuvo los resultados adecuados aplicando las operaciones correctas en cada una.

Cómo consejo adicional, debido a que SQL es un lenguaje que verás en tu día a día cómo Data Analyst te animo a seguir practicando con el mismo para que en las entrevistas técnicas destaques cómo profesional! Será muy común que cuando postules a un puesto laboral te pidan hacer una prueba de SQL, te recomiendo revisar plataformas cómo Leetcode ya que tienen ejercicios de SQL para prepararte para las entrevistas, particularmente SQL lo encuentras en este link: https://leetcode.com/problemset/database/
    
Saludos!
</div>