# ¡Hola, Johan!  

Mi nombre es Francisco Benavides, soy code reviewer de Tripleten y voy a revisar el proyecto que acabas de desarrollar.


Cada ves que vea un error por primera vez, lo señalaré. Deberás encontrarlo y arreglarlo, ya que buscamos que te prepares para un trabajo real, en el cual tu líder de equipo hará lo mismo. Si no puedes solucionar el error, te brindaré algunos tips más especificos la proxima vez.

Podrás encontrar mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres**.

¿Cómo lo voy a hacer? Voy a leer cuidadosamente cada una de tus implementaciones que has llevado a cabo para complir con tu informe. Cada uno de mis comentarios tiene el siguiente código de colores:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Si encuentras que es necesario, puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Hola Johan, gracias por enviar tu proyecto de SQL! hiciste un gran trabajo, me gusto que en algunos puntos dieras el extra mostrando más información. Muestras gran manejo de este lenguaje! por lo que has logrado cumplir con todos los puntos con exito! felicidades :)
</div>


## Descripción del proyecto

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

## Descripción de los datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

## Ejercicios

- Encuentra el número de libros publicados después del 1 de enero de 2000.
- Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
- Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
- Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
- Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

## Instrucciones para completar la tarea

- Describe los objetivos del estudio.
- Estudia las tablas (imprime las primeras filas).
- Realiza una consulta SQL para cada una de las tareas.
- Genera los resultados de cada consulta en el Notebook.
- Describe tus conclusiones para cada una de las tareas.

## Conexion a la base de datos

In [1]:
# Importamos las librerias

import pandas as pd
from sqlalchemy import create_engine

In [2]:
# Definimos los parametros de conexion a la base de datos

db_config = {"user": "practicum_student",
             "pwd": "s65BlTKV3faNIGhmvJVzOqhs",
             "host": "rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net",
             "port": 6432,
             "db": "data-analyst-final-project-db"}

# Creamos string de conexión de la base de datos

connection_string = "postgresql://{}:{}@{}:{}/{}".format(db_config["user"],
                                                         db_config["pwd"],
                                                         db_config["host"],
                                                         db_config["port"],
                                                         db_config["db"])

# Nos conectamos a la base de datos

engine = create_engine(connection_string, connect_args={"sslmode":"require"})

## Descripcion de los objetivos de estudio

Recolectar informacion que pueda ser util para mostrar la viabilidad en el mercado de competidores y generar propuestas para el desarrollo de una nueva aplicacion para personas amantes a los libros.

- Generar propuestas viables para el nuevo producto
- Estudiar tendencias de la competencia en el sector
- Revisar comportamiento/preferencias de los usuarios de la aplicacion

## Estudio y exploracion de las tablas de la base de datos

In [3]:
# Tabla books

# Creamos consulta SQL

query_books = """
        SELECT
        *
        FROM
        books;
        """

# Ejecutamos la consulta y almacenamos el resultado en una variable

books = pd.io.sql.read_sql(query_books, con=engine)

In [4]:
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
# Tabla authors

# Consulta SQL

query_authors = """
                SELECT
                *
                FROM
                authors;
                """
# Ejecutamos la consulta y almacenamos el resultado en una variable

authors = pd.io.sql.read_sql(query_authors, con=engine)

In [6]:
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [7]:
# Tabla ratings

# Consulta SQL

query_ratings = """
                SELECT
                *
                FROM
                ratings;
                """

ratings = pd.io.sql.read_sql(query_ratings, con=engine)

In [8]:
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [9]:
# Tabla reviews

# Consulta SQL

query_reviews = """
               SELECT
               *
               FROM
               reviews;
               """

reviews = pd.io.sql.read_sql(query_reviews, con=engine)

In [10]:
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [11]:
# Tabla publishers

# Consulta SQL

query_publishers = """
                  SELECT
                  *
                  FROM
                  publishers;
                  """

publishers = pd.io.sql.read_sql(query_publishers, con=engine)

In [12]:
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


## Cosultas SQL y Conclusiones/Observaciones

### Encuentra el número de libros publicados después del 1 de enero de 2000

In [13]:
# Mostramos la tabla books

books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [14]:
# Consulta SQL

query1 = """
SELECT
COUNT(title) AS published_count
FROM
books
WHERE
publication_date::date > '1999-12-31';
"""

published_books = pd.io.sql.read_sql(query1, con=engine)

In [15]:
published_books

Unnamed: 0,published_count
0,821


**OBSERVACIONES: Podemos notar que 821 libros fueron publicados despues de 1 de Enero del 2020. Es una cantidad de libros considerable. Si se quiere crear una aplicaciones para amantes a los libros sin dudad la cantidad de libros publicados por años es una dato importante a considerar. Entre mas libros pueda contener nuetra aplicacion mucho mejor ya que asi podremos tener variedad.**

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [16]:
# Mostramos los datasets

books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [17]:
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [18]:
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [19]:
# Consulta SQL

query2 = """
SELECT
books.title AS book_title,
COUNT(reviews.text) AS review_count,
AVG (ratings.rating::real) AS avg_rating

FROM
books
INNER JOIN reviews ON reviews.book_id = books.book_id
INNER JOIN ratings ON ratings.book_id = books.book_id

GROUP BY
book_title

ORDER BY
review_count DESC,
avg_rating DESC;
"""

books_rating_review = pd.io.sql.read_sql(query2, con=engine)

In [20]:
books_rating_review

Unnamed: 0,book_title,review_count,avg_rating
0,Twilight (Twilight #1),1120,3.662500
1,The Hobbit or There and Back Again,528,4.125000
2,The Catcher in the Rye,516,3.825581
3,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.414634
4,Harry Potter and the Chamber of Secrets (Harry...,480,4.287500
...,...,...,...
988,Death: The High Cost of Living,2,3.000000
989,Moo Baa La La La!,2,3.000000
990,History of Beauty,2,2.500000
991,Tsubasa: RESERVoir CHRoNiCLE Vol. 1,2,2.500000


**OBSERVACIONES: En esta caso, podemos concluir que el libro con el mayor numero de reseñas es Twilight (Twilight #1) aunque la calificacion promedio no es tan alta. Parece que los libros con mejor calificacion promedio son los de Harry Potter, por ejemplo Harry Potter and the Prisoner of Azkaban. Los libros con la mejor calificacion promedio son sin duda las mejores opciones para nuestra aplicacion asi podemos ofrencer lo mejor a nuestros usuarios.**

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis)

In [21]:
# Mostramos los datasets

books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [22]:
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [23]:
# Consulta SQL

query3 = """
SELECT
publishers.publisher AS publisher_name,
COUNT (books.title) AS book_count

FROM
books
INNER JOIN publishers ON publishers.publisher_id = books.publisher_id

WHERE 
books.num_pages > 50

GROUP BY
publisher_name

ORDER BY
book_count DESC;
"""

publisher_name_count = pd.io.sql.read_sql(query3, con=engine)

In [24]:
publisher_name_count

Unnamed: 0,publisher_name,book_count
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Turtleback,1
330,Atheneum Books for Young Readers: Richard Jack...,1
331,Penguin Signet,1
332,Victor Gollancz,1


**OBSERVACIONES: En esta parte podemos concluir que la editorial que ha publicado el mayor numero de libros con más de 50 paginas es Penguin Books seguida de Vintage. Seria una excelente idea enfocarse en las editoriales con mayor publicacion de libros para tener una gran variedad de libros por editorial en nuestra aplicacion y asi lo usuarios puedan elegir la mejor opcion.**

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones

In [25]:
# Mostramos los datasets

books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [26]:
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [27]:
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [28]:
# Consulta SQL

query4= """
SELECT
authors.author AS author_name,
books.title AS book_title,
COUNT (ratings.rating) AS rating_count,
AVG (ratings.rating::real) AS avg_rating

FROM
books
INNER JOIN authors ON authors.author_id = books.author_id
INNER JOIN ratings ON ratings.book_id = books.book_id

GROUP BY

author_name,
book_title

HAVING 

COUNT (ratings.rating) >= 50

ORDER BY

avg_rating DESC;

"""

avg_books_count = pd.io.sql.read_sql(query4, con=engine)

avg_books_count

Unnamed: 0,author_name,book_title,rating_count,avg_rating
0,J.K. Rowling/Mary GrandPré,Harry Potter and the Prisoner of Azkaban (Harr...,82,4.414634
1,J.R.R. Tolkien,The Fellowship of the Ring (The Lord of the Ri...,74,4.391892
2,J.K. Rowling/Mary GrandPré,Harry Potter and the Chamber of Secrets (Harry...,80,4.2875
3,Markus Zusak/Cao Xuân Việt Khương,The Book Thief,53,4.264151
4,J.K. Rowling/Mary GrandPré,Harry Potter and the Half-Blood Prince (Harry ...,73,4.246575
5,Louisa May Alcott,Little Women,52,4.192308
6,J.K. Rowling/Mary GrandPré,Harry Potter and the Order of the Phoenix (Har...,75,4.186667
7,J.R.R. Tolkien,The Hobbit or There and Back Again,88,4.125
8,Arthur Golden,Memoirs of a Geisha,56,4.107143
9,Rick Riordan,The Lightning Thief (Percy Jackson and the Oly...,62,4.080645


**OBSERVACIONES: Podemos concluir que los autores con la mas alta calificacion promedio para los libros que tiene al menos 50 calificacion son J.K. Rowling/Mary GrandPré, estos autores represetan las mejores calificaciones promedio entre los diferentes libros publicados. Tenemos un dato interesante que podemos usar para recomendar libros o autores un nuestra aplicacion para los usuarios amantes a los libros.**

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros

In [29]:
# Mostramos los datasets

books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [30]:
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [31]:
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [32]:
# Consulta SQL filtro de referencia

query5 = """
SELECT 
username AS username

FROM
ratings

GROUP BY
username

HAVING 
COUNT (rating) > 50;

"""

username_filter = pd.io.sql.read_sql(query5, con=engine)

username_filter

Unnamed: 0,username
0,sfitzgerald
1,jennifermiller
2,xdavis
3,paul88
4,martinadam
5,richard89


In [33]:
# Consulta SQL utilizando subconcosulta query5

query6 = """
SELECT
AVG (Sub.text_count) AS avg_text

FROM
(SELECT
username AS username,
COUNT (text) AS text_count

FROM
reviews

WHERE

username IN 
(SELECT 
username AS username

FROM
ratings

GROUP BY
username

HAVING 
COUNT (rating) > 50)

GROUP BY 
username) AS Sub;
"""
avg_book_reviews = pd.io.sql.read_sql(query6, con=engine)

avg_book_reviews

Unnamed: 0,avg_text
0,24.333333


**OBSERVACIONES: En este caso, podemos concluir que en promedio tenemos aproximadamente 24 reseñas entre los usuarios que calificaron más de 50 libros. Esto quiere decir que cada usuario califico con reseña 24 veces por libros leidos, un dato interesante para saber que tan activos son los usuarios al momento de dejar opiniones o reseñas de los libros disponibles en la aplicacion. En conclusion, tenemos datos interesantes que podemos compartir con el equipo de diseño de la aplicacion y marketing.**