Hola **Macarena**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Muchísimas gracias por las observaciones 🤗
</div>

# SQL

## Introducción

Durante la pandemia del coronavirus, la rutina de las personas cambió en muchos aspectos; uno de ellos fue el incremento en la lectura de libros. Esto, atrajo la atención de algunas startups que se apresuraron a desarrollar nuevas apps para los amantes de los libros. La base de datos con la que se cuenta es de uno de los servicios que compite en este mercado; contine información sobre libros, editoriales, autores, reseñas y calificaciones de clientes.

## Objetivo del estudio

Utilizar la información de las tablas que se encuentran en la base de datos (*books, authors, publishers, ratings y reviews*) con el fin de hallar información que sirva para generar una propuesta de valor para un nuevo producto.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen detalle el incluir la introducción al proyecto, esto hace que tu notebook sea mucho más fácil de entender. Te animo a continuar con esta práctica!
</div>

## Importar librerias

In [1]:
import pandas as pd
from sqlalchemy import create_engine

## Acceso a la base de datos

In [2]:
db_config = {
     'user': 'practicum_student', # username
     'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
     'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com', 
     'port': 5432, # connection port
     'db': 'data-analyst-final-project-db' # the name of the database
}

In [3]:
connection_string = f'postgresql://{db_config["user"]}:{db_config["pwd"]}@{db_config["host"]}:{db_config["port"]}/{db_config["db"]}'

In [4]:
connection_string

'postgresql://practicum_student:QnmDH8Sc2TQLvy2G3Vvh7@yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com:5432/data-analyst-final-project-db'

In [5]:
engine = create_engine(connection_string, connect_args={'sslmode': 'require'})

## Estudiar las tablas

In [6]:
# Acceder a la tabla con los datos de los libros
query_book = 'SELECT * FROM books'

In [7]:
books = pd.io.sql.read_sql(query_book, con= engine)

In [8]:
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [9]:
# Acceder a los datos de los autores
query_authors = 'SELECT * FROM authors'

In [10]:
authors = pd.io.sql.read_sql(query_authors, con= engine)

In [11]:
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [12]:
# Acceder a los datos de rating
query_rating = 'SELECT * FROM ratings'

In [13]:
ratings = pd.io.sql.read_sql(query_rating, con= engine)

In [14]:
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [15]:
# Acceder a los datos de reseñas
query_review = 'SELECT * FROM reviews'

In [16]:
reviews = pd.io.sql.read_sql(query_review, con= engine)

In [17]:
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [18]:
# Acceder a los datos de las editoriales
query_publisher = 'SELECT * FROM publishers'

In [19]:
publishers = pd.io.sql.read_sql(query_publisher, con= engine)

In [20]:
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Bien realizada la exploración de tus datos, siempre es importante revisar que columnas hay y que tipos de datos se tiene
</div>

### Encontrar el número de libros publicados después del 1 de enero de 2000

In [21]:
with engine.connect() as connection:
    
    query = """
        
        SELECT 
            COUNT (DISTINCT book_id)
        FROM
            books
        WHERE
            publication_date > '2000-01-01'
            
    """
    result = connection.execute(query)
    
    for row in result:
        print(f' Se han publicado {row} libros después del 01/Ene/2000')

 Se han publicado (819,) libros después del 01/Ene/2000


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con el cálculo! Aplicaste el filtro correcto para obtener los datos
</div>

### Encontrar el número de reseñas de usuarios y la calificación promedio para cada libro.

In [22]:
query_rating = """
        
        SELECT 
            books.title AS book,
            COUNT(reviews.review_id) AS reviews,
            AVG(ratings.rating) AS rating
        FROM
            books
            LEFT JOIN reviews 
            ON books.book_id = reviews.book_id
            LEFT JOIN ratings 
            ON books.book_id = ratings.book_id 
        GROUP BY
            books.title
            
    """

In [23]:
rating_review = pd.io.sql.read_sql(query_rating, con= engine)

In [24]:
rating_review

Unnamed: 0,book,reviews,rating
0,The Count of Monte Cristo,115,4.217391
1,Count Zero (Sprawl #2),4,2.500000
2,The Botany of Desire: A Plant's-Eye View of th...,4,3.500000
3,The Poisonwood Bible,110,4.363636
4,The Canterbury Tales,18,3.333333
...,...,...,...
994,Of Love and Other Demons,4,4.500000
995,In the Heart of the Sea: The Tragedy of the Wh...,9,3.333333
996,Welcome to Temptation (Dempseys #1),4,5.000000
997,World's End (The Sandman #8),4,4.500000


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Correcto, bien aplicado el JOIN para realizar el conteo!
</div>

### Identificar la editorial que ha publicado el mayor número de libros con más de 50 páginas.

In [25]:
with engine.connect() as connection:
    
    query = """
        
        SELECT 
            publishers.publisher,
            COUNT(book_id) AS books_publisher
        FROM
            books
            LEFT JOIN publishers 
            ON books.publisher_id = publishers.publisher_id
        WHERE
            num_pages > 50
        GROUP BY
            publishers.publisher
        ORDER BY
            COUNT(book_id) DESC
        LIMIT
            1
            
            
    """
    result = connection.execute(query)
    
    for row in result:
        print('La editorial que más libros ha publicado con más de 50 páginas es: {} con {} libros publicados'.format(row['publisher'], row['books_publisher']))

La editorial que más libros ha publicado con más de 50 páginas es: Penguin Books con 42 libros publicados


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Perfecto!
</div>

### Identificar al autor que tiene la más alta calificación promedio de libro: mirar solo los libros con al menos 50 calificaciones.

In [26]:
with engine.connect() as connection:
    
    query = """
        
        SELECT 
            authors.author AS name_author,
            MAX(rating_avg) AS max
        FROM 
            authors
            LEFT JOIN  (
                        SELECT
                            books.author_id,
                            COUNT(ratings.rating_id) AS rating_cnt,
                            AVG(ratings.rating) AS rating_avg
                        FROM
                            books
                            LEFT JOIN ratings
                            ON books.book_id = ratings.book_id
                        GROUP BY
                            books.author_id 
                        HAVING
                            COUNT(ratings.rating_id) > 50
                         ) AS subquery ON authors.author_id = subquery.author_id
        WHERE
            subquery.rating_avg IS NOT NULL
        GROUP BY 
            authors.author
        ORDER BY
            MAX(rating_avg) DESC
        LIMIT 
            1

    """
    result = connection.execute(query)
    
    for row in result:
        print('{} es la autora con la más alta calificación promedio de libro; con un promedio de {}'.format(row['name_author'], row['max']))

J.K. Rowling/Mary GrandPré es la autora con la más alta calificación promedio de libro; con un promedio de 4.2884615384615385


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Perfecto! Parece que los libros de Harry Potter son los que mejor puntaje tienen
</div>

### Encontrar el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [27]:
with engine.connect() as connection:
    
    query = """
        
        SELECT
            AVG(SUBQ2.review_cnt) AS avg_review_cnt
        FROM
            (SELECT 
                COUNT(reviews.review_id) as review_cnt,
                SUBQ1.username
             FROM 
                (SELECT
                    username,
                    COUNT(rating_id) AS rating_cnt
                 FROM
                    ratings
                 GROUP BY
                    username
                 HAVING
                    COUNT(rating_id) > 50
                ) 
                AS SUBQ1  

             INNER JOIN 
                 reviews ON reviews.username = SUBQ1.username
             GROUP BY
                 SUBQ1.username          
             ) 
             AS SUBQ2

    """
    result = connection.execute(query)
    
    for row in result:
        print('Entre los usuarios que calificaron más de 50 libros, el promedio de reseñas fue de: {}'.format(row['avg_review_cnt']))

Entre los usuarios que calificaron más de 50 libros, el promedio de reseñas fue de: 24.3333333333333333


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien utilizada la subconsulta para primero tomar los usuarios y el total para luego sacar el promedio!
</div>

## Conclusiones

Se encontró que la editorial más popular en cuanto a la mayor cantidad de libros fue Penguin Books, y la autora con mejor calificación promedio por parte de los usuarios es J.K. Rowling.
Estos datos sirven para considerar qué tipo de libros escribe esta autora y averiguar que categoría puede ser más atractiva para los usuarios.
Faltaría averiguar las categorías de libros más leídas por los usuarios para entregar una propuesta de mayor valor a la startup, así como considerar a los autores con libros mejores calificados. 

<div class="alert alert-block alert-success">
<b>Comentario general (1ra Iteracion)</b> <a class=“tocSkip”></a>

Excelente trabajo con las consultas realizadas utilizando SQL, este lenguaje es algo que verás en tu día a día cómo Data Analyst para poder obtener los datos que analizarás, te invito a continuar practicando este lenguaje ya que es un skill muy utilizado y que probablemente lo veas en pruebas técnicas. Saludos!
    </div>