# Hola William!

Mi nombre es David Bautista, soy code reviewer de TripleTen y voy a revisar el proyecto que acabas de desarrollar.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión.

Encontrarás mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres.**

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>

¡Empecemos!

# Proyecto SQL

Tenemos una base de datos de un servicio de ebooks, esta a su vez, está compuesta por 5 tablas que tienen información sobre "libros", "autores", "editoriales", "calificaciones" y "reseñas". El cliente nos ha solicitado realizar varias consultas entre para mostrar por ejemplo la cantida de libros publicada después de determinada fecha, o el autor con mejor calificación en sus libros.

Las tablas están compuestas de la siguiente manera:

- `books`
    - `book_id`: identificación del libro
    - `author_id`: identificación del autor o autora
    - `title`: título
    - `num_pages`: número de páginas
    - `publication_date`: fecha de la publicación
    - `publisher_id`: identificación de la editorial


- `authors`
    - `author_id`: identificación del autor o autora
    - `author`: el autor o la autora
    
    
- `publishers`
    - `publisher_id`: identificación de la editorial
    - `publisher`: la editorial
    
    
- `ratings`
    - `rating_id`: identificación de la calificación
    - `book_id`: identificación del libro
    - `username`: el nombre del usuario que revisó el libro
    - `rating`: calificación
    
    
- `reviews`
    - `review_id`: identificación de la reseña
    - `book_id`: identificación del libro
    - `username`: el nombre del usuario que revisó el libro
    - `text`: el texto de la reseña
    
    

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

~~Buen trabajo; sin embargo, siento que la introducción podría ser un poco más extensa y contener algunos aspectos como el esquema de la base de datos que se va a manejar.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>

Buen trabajo.
</div>

<a name='indice'></a>
## Tabla de contenido

- [2  Importando librerías y estableciendo conexión a la base de datos](#id2)
- [3  Explorando tablas](#id3)
- [4  Ejercicio 1](#id3)
- [5  Ejercicio 2](#id4)
- [6  Ejercicio 3](#id5)
- [7  Ejercicio 4](#id6)
- [8  Ejercicio 5](#id7)
- [9  Conclusión General](#id9)

<a name='id2'></a>
## Importando librerías y estableciendo conexión a la base de datos

[Regresar](#indice)

In [6]:
# Importando librerías
import pandas as pd
from pandas.io.sql import read_sql
from sqlalchemy import create_engine

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo. </div>


In [7]:
# Estableciendo conexión a base de datos

db_config = {'user': 'practicum_student', # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # puerto de conexión
             'db': 'data-analyst-final-project-db'} # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db']
                                                        )

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo.
</div>


<a name='id3'></a>
## Explorando tablas

Mostraremos los datos iniciales de las tablas para ver como están estructurados.

[Regresar](#indice)

In [22]:
# Explorando tabla de libros

query = ("""SELECT *
         FROM books
         """)

books = read_sql(query, con=engine)

books

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


**Calculando valores nulos**

In [32]:
# Calculando cantidad de valores nulos

query = ("""SELECT COUNT(*) AS null_cells
         FROM books
         WHERE book_id IS NULL OR
         author_id IS NULL OR
         title IS NULL OR
         num_pages IS NULL OR
         publication_date IS NULL OR
         publisher_id IS NULL
         """)

read_sql(query, con=engine)


Unnamed: 0,null_cells
0,0


In [9]:
# Explorando tabla de autores

query = ("""SELECT * 
         FROM authors""")

authors = read_sql(query, con=engine)

authors

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


**Calculando valores nulos**

In [30]:
# Calculando cantidad de valores nulos

query = ("""SELECT COUNT(*) AS null_cells
         FROM authors
         WHERE author_id IS NULL OR
         author IS NULL;""")

read_sql(query, con=engine)


Unnamed: 0,null_cells
0,0


In [10]:
# Explorando tabla de calificaciones

query = ("""SELECT * 
         FROM ratings""")

ratings = read_sql(query, con=engine)

ratings

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


**Calculando valores nulos**

In [31]:
# Calculando cantidad de valores nulos

query = ("""SELECT COUNT(*) AS null_cells
         FROM ratings
         WHERE rating_id IS NULL OR
         book_id IS NULL OR
         username IS NULL OR
         rating IS NULL;
         """)

read_sql(query, con=engine)


Unnamed: 0,null_cells
0,0


In [11]:
# Explorando tabla de reseñas

query = ("""SELECT * 
         FROM reviews""")

reviews = read_sql(query, con=engine)

reviews

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


**Calculando valores nulos**

In [33]:
# Calculando cantidad de valores nulos

query = ("""SELECT COUNT(*) AS null_cells
         FROM reviews
         WHERE review_id IS NULL OR
         book_id IS NULL OR
         username IS NULL OR
         text IS NULL;
         """)

read_sql(query, con=engine)


Unnamed: 0,null_cells
0,0


In [12]:
# Explorando tabla de editoriales

query = ("""SELECT * 
         FROM publishers""")

publishers = read_sql(query, con=engine)

publishers

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


**Calculando valores nulos**

In [34]:
# Calculando cantidad de valores nulos

query = ("""SELECT COUNT(*) AS null_cells
         FROM publishers
         WHERE publisher_id IS NULL OR
         publisher IS NULL;
         """)

read_sql(query, con=engine)


Unnamed: 0,null_cells
0,0


**Conclusión**

Habiendo observado como se distribuyen los datos en las tablas de la base datos y también pudimos comprobar si existían valores ausentes en las tablas. Una vez realizada esta exploración inicial, podemos proceder a realizar las consultas pertinentes a la solicitud del cliente.

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

~~Buen trabajo con esta primera exploración de las tablas. Sería interesante que utilices sentencias `SQL` para estudiar aspectos como la presencia de valores nulos.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>

Buen trabajo.
</div>

<a name='id4'></a>
## Ejercicio 1

Nos solicitan que encontremos el número de libros publicados despues del 01 de enero del 2000.

[Regresar](#indice)

In [13]:
# Escribiendo consulta 
query = ("""
SELECT
    COUNT(books.book_id) AS book_count
FROM
    books
WHERE
    books.publication_date > '2000-01-01';
    """)

# Guardando resultado de la consulta y mostrando

ex_1 = read_sql(query, con=engine)
ex_1

Unnamed: 0,book_count
0,819


**Conclusión**

Tenemos 819 libros publicados posterior al 01 de enero del año 2000.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo.
</div>

<a name='id5'></a>
## Ejercicio 2

Necesitamos encontrar la cantidad de reseñas que tiene cada libro y la califación promedio para cada uno.

[Regresar](#indice)

In [14]:
# Escribiendo consulta 
query = ("""
SELECT
    books.title,
    COUNT(reviews.review_id) AS review_count,
    AVG(ratings.rating) AS book_rating_avg
FROM
    books
    INNER JOIN reviews ON reviews.book_id = books.book_id
    INNER JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    title;
    """)

# Guardando resultado de la consulta y mostrando

ex_2 = read_sql(query, con=engine)
ex_2

Unnamed: 0,title,review_count,book_rating_avg
0,The Count of Monte Cristo,115,4.217391
1,Count Zero (Sprawl #2),4,2.500000
2,The Botany of Desire: A Plant's-Eye View of th...,4,3.500000
3,The Poisonwood Bible,110,4.363636
4,The Canterbury Tales,18,3.333333
...,...,...,...
988,Of Love and Other Demons,4,4.500000
989,In the Heart of the Sea: The Tragedy of the Wh...,9,3.333333
990,Welcome to Temptation (Dempseys #1),4,5.000000
991,World's End (The Sandman #8),4,4.500000


**Conclusión**

Mostramos todos los libros en conjunto con la cantidad de reseñas y el promedio de calificaciones correspondiente.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo.
</div>

<a name='id6'></a>
## Ejercicio 3

Vamos a mostrar la editorial con mayor publicación de libros con más de 50 páginas para evitar mostrar folletos y textos similares.

[Regresar](#indice)

In [15]:
# Escribiendo consulta 
query = ("""

    SELECT
        publishers.publisher,
        COUNT(books.book_id) AS book_count
    FROM
        publishers
        INNER JOIN books ON books.publisher_id = publishers.publisher_id
    WHERE
        books.num_pages > 50
    GROUP BY
        publisher
    ORDER BY
        book_count DESC
    LIMIT
        1;
    """)

# Guardando resultado de la consulta y mostrando

ex_3 = read_sql(query, con=engine)
ex_3

Unnamed: 0,publisher,book_count
0,Penguin Books,42


**Conclusión**

Observamos que la editorial `Penguin Books` fue la que más libros publicó con un total de 42 libros.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente.
</div>

<a name='id7'></a>
## Ejercicio 4

Mostraremos al autor con la calificación promedio más alta entre los libros con más de 50 calificaciones.

[Regresar](#indice)

In [16]:
# Escribiendo consulta 
query = ("""

    SELECT
        authors.author,
        COUNT(books.book_id) AS book_count,
        AVG(ratings.rating) AS book_rating_avg
    FROM
        authors
        INNER JOIN books ON books.author_id = authors.author_id
        INNER JOIN ratings ON ratings.book_id = books.book_id
    GROUP BY
        author
    HAVING
        COUNT(ratings.rating_id) > 50
    ORDER BY
        book_rating_avg DESC
    LIMIT
        2;
    """)

# Guardando resultado de la consulta y mostrando

ex_4 = read_sql(query, con=engine)
ex_4

Unnamed: 0,author,book_count,book_rating_avg
0,J.K. Rowling/Mary GrandPré,312,4.288462
1,Agatha Christie,53,4.283019


**Conclusión**

El Autor con mejor promedio en calificaciones es J.K. Rowling junto a su ilustradora Mary GrandPré, entre ellas tienen un total de 312 publicaciones promediando un total de 4.29 puntos de 5.

En caso de no considerar las publicaciones en conjunto con su ilustradora, la autora Agatha Christie sería la poseedora del primer lugar con 53 publicaciones que promedian 4.28 puntos sobre 5.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Perfecto.
</div>

<a name='id8'></a>
## Ejercicio 5

Reflejaremos el número promedio de reseñas que han realizado los usuarios que llevan más de 50 calificaciones para libros.

[Regresar](#indice)

In [82]:
# Escribiendo consulta 
query = ("""

    SELECT
        AVG(review_qt) AS avg_review_quantity
        
    FROM
        (SELECT
            reviews.username AS reviewer,
            COUNT(DISTINCT reviews.book_id) AS review_qt
         FROM
            books
            INNER JOIN reviews ON reviews.book_id = books.book_id
            INNER JOIN ratings ON ratings.book_id = books.book_id
        GROUP BY
            reviewer
        HAVING
            COUNT(ratings.rating_id) > 50
        ORDER BY
            review_qt DESC) AS subq
    """)

# Guardando resultado de la consulta y mostrando

ex_5 = read_sql(query, con=engine)
ex_5

Unnamed: 0,avg_review_quantity
0,17.628205


**Conclusión**

En promedio, los usuarios que han calificado más de 50 libros, han hecho unas 18 reseñas aproximadamente.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

~~Revisa nuevamente la sentencia que estas generando, el promedio deberia ser mucho menor.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>

Buen trabajo.
</div>

<a name='id9'></a>
## Conclusión General

Luego de establecer conexión con la base de datos correspondiente, importamos 5 tablas: books, ratings, publishers, reviews y authors.

Respondimos a 5 preguntas a través de consultas de base de datos:

    1. Cantidad de libros publicados despues del 01-01-2000
    2. Cantidad de reseñas por libros y la califación promedio de los mismos
    3. Mostramos la editorial con más publicaciones de libros superiores a las 50 páginas
    4. Ubicamos al autor con mejor calificación entre sus libros, considerando que tuviera más de 50 calificaciones
    5. Mostramos la cantidad de reseñas que habían hecho los usuarios que habían calificado más de 50 libros.

Las tablas con las consultas realizadas se guardaron para su posterior uso.

[Regresar](#indice)

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
# Comentario General 

~~En general se desarrolló el proyecto de muy buena manera. Simplemente, te dejé algunos comentarios de aspectos del proyecto que se deben corregir, Revisalos y estaremos listos para una evaluación exitosa del proyecto.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
# Comentario General #2

Buen trabajo William, te felicito por la culminación del proyecto.</div>