# Proyecto SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

# **Descripción de los datos** 

1) *books:* Contiene datos sobre libros:
    - book_id — identificación del libro
    - author_id — identificación del autor o autora
    - title — título
    - num_pages — número de páginas
    - publication_date — fecha de la publicación
    - publisher_id — identificación de la editorial


2) *authors:* Contiene datos sobre autores:
    - author_id — identificación del autor o autora
    - author — el autor o la autora


3) *publishers:* Contiene datos sobre editoriales:
    - publisher_id — identificación de la editorial
    - publisher — la editorial


4) *ratings:* Contiene datos sobre las calificaciones de usuarios:
    - rating_id — identificación de la calificación
    - book_id — identificación del libro
    - username — el nombre del usuario que revisó el libro
    - rating — calificación


5) *reviews:* Contiene datos sobre las reseñas de los y las clientes:
    - review_id — identificación de la reseña
    - book_id — identificación del libro
    - username — el nombre del usuario que revisó el libro
    - text — el texto de la reseña

## Inicialización

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
query = """
    SELECT *
    FROM books
    LIMIT 10
"""

In [3]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


In [4]:
query = """
    SELECT *
    FROM authors
    LIMIT 10
"""

In [5]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


In [6]:
query = """
    SELECT *
    FROM publishers
    LIMIT 10
"""

In [7]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


In [8]:
query = """
    SELECT *
    FROM ratings
    LIMIT 10
""" 

In [9]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


In [10]:
query = """
    SELECT *
    FROM reviews
    LIMIT 10
"""

In [11]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


## Consultas

A continuación realizaremos las consultas para dar respuesta a las preguntas del ejercicio.

### Encuentra el número de libros publicados después del 1 de enero de 2000

In [12]:
query = """
SELECT COUNT(*) AS num_libros
FROM books
WHERE publication_date > '2000-01-01';
"""

In [13]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,num_libros
0,819


**Comentarios:** Después de realizar la consulta, encontramos que el número de libros publicados después del 1 de enero de 2000 fueron 819.

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.



In [14]:
query = """
SELECT b.book_id, b.title, 
       COUNT(r.review_id) AS num_reviews, 
       AVG(rt.rating) AS average_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY num_reviews DESC;
"""

In [15]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,num_reviews,average_rating
0,948,Twilight (Twilight #1),1120,3.662500
1,750,The Hobbit or There and Back Again,528,4.125000
2,673,The Catcher in the Rye,516,3.825581
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.414634
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.287500
...,...,...,...,...
995,221,Essential Tales and Poems,0,4.000000
996,808,The Natural Way to Draw,0,3.000000
997,191,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


**Comentarios:** Algunos libros tienen un alto número de reseñas, como "Twilight 1" con 1120 reseñas, lo que lo coloca en el puesto número 1 seguido por "The Hobbit or There and Back Again" con 528 reseñas.

In [16]:
query = """
SELECT b.book_id, b.title, 
       COUNT(r.review_id) AS num_reviews, 
       AVG(rt.rating) AS average_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY average_rating DESC;
"""

In [17]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,num_reviews,average_rating
0,518,Pop Goes the Weasel (Alex Cross #5),4,5.00
1,732,The Ghost Map: The Story of London's Most Terr...,4,5.00
2,347,In the Hand of the Goddess (Song of the Liones...,6,5.00
3,610,Tai-Pan (Asian Saga #2),4,5.00
4,330,How to Be a Domestic Goddess: Baking and the A...,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,12,2.25
996,371,Junky,4,2.00
997,316,His Excellency: George Washington,4,2.00
998,202,Drowning Ruth,9,2.00


**Comentarios:** La calificación promedio varía significativamente entre los libros. Algunos libros tienen calificaciones extremadamente altas (5.0), mientras que otros tienen calificaciones bajas (por debajo de 2.0) lo que podría sesgar el análisis.

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).


In [18]:
query = """
SELECT p.publisher, COUNT(b.book_id) AS num_libros
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_libros DESC
LIMIT 5;
"""

In [19]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,num_libros
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Bantam,19


**Comentarios:** Penguin Books lidera la lista con 42 libros, seguida por Vintage (31 libros). Penguin tiene dos subdivisiones en la lista (Penguin Books y Penguin Classics), lo que indica una fuerte presencia en la industria editorial.

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.


In [20]:
query = """
SELECT a.author, AVG(rt.rating) AS average_rating
FROM books b
JOIN authors a ON b.author_id = a.author_id
JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY a.author
HAVING COUNT(rt.rating_id) >= 50
ORDER BY average_rating DESC
LIMIT 5;
"""

In [21]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,average_rating
0,Diana Gabaldon,4.3
1,J.K. Rowling/Mary GrandPré,4.288462
2,Agatha Christie,4.283019
3,Markus Zusak/Cao Xuân Việt Khương,4.264151
4,J.R.R. Tolkien,4.240964


**Comentarios:** 
Los resultados de la consulta realizada son los siguientes:
- Diana Gabaldon lidera el ranking con una calificación promedio de 4.30, lo que indica una recepción muy positiva de sus libros.
- J.K. Rowling/Mary GrandPré ocupa la segunda posición con 4.288, lo que confirma la popularidad y apreciación de la saga de Harry Potter.
- Agatha Christie se encuentra en tercer lugar con 4.283, lo que sugiere que sus libros siguen siendo altamente valorados por los lectores.

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [22]:
query = """
WITH user_reviews AS (
    SELECT username, COUNT(*) AS num_ratings
    FROM ratings
    GROUP BY username
    HAVING COUNT(*) > 50
)
SELECT ROUND(AVG(num_reviews), 2) AS avg_text_reviews
FROM (
    SELECT r.username, COUNT(*) AS num_reviews
    FROM reviews AS r
    JOIN user_reviews AS ur ON r.username = ur.username
    GROUP BY r.username
) AS subquery;
"""

In [23]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg_text_reviews
0,24.33


**Comentarios:** La consulta indica que el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros fue de 24.33

## Describe tus conclusiones

- La cantidad de reseñas es un buen indicador de la popularidad de un libro en la plataforma.
- Algunos libros con muchas reseñas podrían ser los más recomendados para estrategias de marketing o para destacar en una nueva aplicación de libros.
- Un análisis adicional con histogramas o gráficos de dispersión podría ayudar a visualizar mejor la relación entre el número de reseñas y la calificación promedio.
- Autores de fantasía y literatura juvenil dominan la lista de autores con más altas calificaciones, lo que indica que estos géneros reciben calificaciones muy positivas sugiriendo una gran satisfacción entre los lectores.
- Para un nuevo producto, podría ser interesante analizar a profundidad qué géneros o autores tienen más reseñas y explorar formas de incentivar la reseña de libros menos comentado.
- En cuanto a las editoriales, lo recomendable sería trabajar con Penguin Books ya que tiene una fuerte presencia en la industria editorial.