# Proyecto SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

# Descripción de los datos

**books:**

Contiene datos sobre libros:

- book_id — identificación del libro
- author_id — identificación del autor o autora
- title — título
- num_pages — número de páginas
- publication_date — fecha de la publicación
- publisher_id — identificación de la editorial

**authors:**

Contiene datos sobre autores:

- author_id — identificación del autor o autora
- author — el autor o la autora

**publishers:**

Contiene datos sobre editoriales:

- publisher_id — identificación de la editorial
- publisher — la editorial

**ratings:**

Contiene datos sobre las calificaciones de usuarios:

- rating_id — identificación de la calificación
- book_id — identificación del libro
- username — el nombre del usuario que revisó el libro
- rating — calificación

**reviews:**

Contiene datos sobre las reseñas de los y las clientes:

- review_id — identificación de la reseña
- book_id — identificación del libro
- username — el nombre del usuario que revisó el libro
- text — el texto de la reseña

# Ejercicio

- Encuentra el número de libros publicados después del 1 de enero de 2000.
- Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
- Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
- Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
- Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

# Instrucciones para completar la tarea

- Describe los objetivos del estudio.
- Estudia las tablas (imprime las primeras filas).
- Realiza una consulta SQL para cada una de las tareas.
- Genera los resultados de cada consulta en el Notebook.
- Describe tus conclusiones para cada una de las tareas.

## Objetivos del estudio

El objetivo es analizar los datos de una plataforma de libros en línea para obtener información relevante sobre:

- Los libros publicados después de una fecha específica.
- Las reseñas y calificaciones de los libros.
- Las editoriales que publican libros más largos.
- El autor con la mejor calificación promedio en libros con suficientes reseñas.
- El comportamiento de los usuarios que califican muchos libros.

## Conectarse a la base de datos

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Estudiar las tablas (imprimir primeras filas)

**Imprimir primeras filas de la tabla books**

In [2]:
# Consultar las primeras filas de la tabla books
books_query = "SELECT * FROM books LIMIT 5;"
books_df = pd.io.sql.read_sql(books_query, con=engine)
books_df


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Imprimir primeras filas de la tabla authors**

In [3]:
# Consultar las primeras filas de la tabla authors
authors_query = "SELECT * FROM authors LIMIT 5;"
authors_df = pd.io.sql.read_sql(authors_query, con=engine)
authors_df


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Imprimir primeras filas de la tabla publishers**

In [4]:
# Consultar las primeras filas de la tabla publishers
publishers_query = "SELECT * FROM publishers LIMIT 5;"
publishers_df = pd.io.sql.read_sql(publishers_query, con=engine)
publishers_df


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Imprimir primeras filas de la tabla ratings**

In [5]:
# Consultar las primeras filas de la tabla ratings
ratings_query = "SELECT * FROM ratings LIMIT 5;"
ratings_df = pd.io.sql.read_sql(ratings_query, con=engine)
ratings_df


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Imprimir primeras filas de la tabla reviews**

In [6]:
# Consultar las primeras filas de la tabla reviews
reviews_query = "SELECT * FROM reviews LIMIT 5;"
reviews_df = pd.io.sql.read_sql(reviews_query, con=engine)
reviews_df


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Realiza una consulta SQL para cada una de las tareas

**1. Encuentra el número de libros publicados después del 1 de enero de 2000**

In [7]:
libros_publicados = """
SELECT COUNT(*) AS books_after_2000
FROM books
WHERE publication_date > '2000-01-01';
"""
pd.io.sql.read_sql(libros_publicados, con = engine)

Unnamed: 0,books_after_2000
0,819


El número de libros cuya fecha de publicación es posterior al 1 de enero de 2000 es 819.

**2. Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro**

Queremos saber cuántas reseñas tiene cada libro y cuál es la calificación promedio. Para eso, necesitamos juntar las tablas ratings y reviews, agrupando por el book_id.

In [8]:
reseñas_usuarios = """
SELECT b.book_id, b.title, 
       COUNT(r.review_id) AS num_reviews, 
       AVG(rat.rating) AS avg_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rat ON b.book_id = rat.book_id
GROUP BY b.book_id;
"""

pd.io.sql.read_sql(reseñas_usuarios, con = engine)

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,652,The Body in the Library (Miss Marple #3),4,4.500000
1,273,Galápagos,4,4.500000
2,51,A Tree Grows in Brooklyn,60,4.250000
3,951,Undaunted Courage: The Pioneering First Missio...,4,4.000000
4,839,The Prophet,28,4.285714
...,...,...,...,...
995,64,Alice in Wonderland,52,4.230769
996,55,A Woman of Substance (Emma Harte Saga #1),4,5.000000
997,148,Christine,21,3.428571
998,790,The Magicians' Guild (Black Magician Trilogy #1),4,3.500000


Esta consulta proporciona el número total de reseñas y la calificación promedio de cada libro, incluyendo aquellos que no tienen reseñas, gracias al uso de un LEFT JOIN.

**3. Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas**

Queremos encontrar cuál editorial ha publicado el mayor número de libros con más de 50 páginas. Para esto, debemos filtrar los libros que tienen más de 50 páginas y agruparlos por publisher_id.

In [9]:
editorial_max_books = """
SELECT p.publisher, COUNT(b.book_id) AS books_count
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id
ORDER BY books_count DESC
LIMIT 1;
"""
pd.io.sql.read_sql(editorial_max_books, con = engine)


Unnamed: 0,publisher,books_count
0,Penguin Books,42


 La consulta devuelve la editorial Penguin Books, la cual  ha publicado más libros de más de 50 páginas, excluyendo libros más pequeños como folletos.

**4. Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.**

Queremos encontrar al autor cuyo libro tiene la calificación promedio más alta, pero solo considerando los libros con al menos 50 calificaciones.

In [10]:
author_max_avg = """
SELECT a.author, AVG(rat.rating) AS avg_rating
FROM authors a
JOIN books b ON a.author_id = b.author_id
JOIN (
    SELECT book_id
    FROM ratings
    GROUP BY book_id
    HAVING COUNT(rating) >= 50
) AS filtered_books ON b.book_id = filtered_books.book_id
JOIN ratings rat ON b.book_id = rat.book_id
GROUP BY a.author_id
ORDER BY avg_rating DESC
LIMIT 1;
"""
pd.io.sql.read_sql(author_max_avg, con = engine)


Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


J.K. Rowling/Mary GrandPré es el nombre del autor con la calificación promedio más alta, solo considerando los libros que tienen al menos 50 calificaciones.

**5. Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.**

Queremos saber cuántas reseñas de texto, en promedio, dejan los usuarios que han calificado más de 50 libros. Para esto, necesitamos contar cuántas reseñas de texto tiene cada usuario, pero solo para aquellos que han calificado más de 50 libros.

In [11]:
reseñas_avg = """
SELECT AVG(user_reviews.num_reviews) AS avg_reviews_per_user
FROM (
    SELECT r.username, COUNT(r.review_id) AS num_reviews
    FROM reviews r
    JOIN ratings rat ON r.book_id = rat.book_id
    GROUP BY r.username
    HAVING COUNT(rat.book_id) > 50
) AS user_reviews;
"""
pd.io.sql.read_sql(reseñas_avg, con = engine)


Unnamed: 0,avg_reviews_per_user
0,166.679487
