# Proyecto SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

# Instrucciones para completar la tarea

- Describe los objetivos del estudio.
- Estudia las tablas (imprime las primeras filas).
- Realiza una consulta SQL para cada una de las tareas.
- Genera los resultados de cada consulta en el Notebook.
- Describe tus conclusiones para cada una de las tareas.

# Objetivos del Estudio

Los objetivos del estudio son los siguientes:

- Determinar cuántos libros han sido publicados desde el 1 de enero de 2000. Esto permite analizar la producción reciente de libros y comprender si existe un crecimiento en las publicaciones durante los últimos años.

- Obtener el número de reseñas de usuarios y la calificación promedio para cada libro. Este objetivo permite identificar qué libros son más populares y mejor valorados por los lectores, lo cual puede ayudar en la toma de decisiones sobre qué libros promover.

- Determinar qué editorial ha publicado la mayor cantidad de libros con más de 50 páginas. Este análisis excluye folletos y otras publicaciones menores, ayudando a identificar editoriales que se especializan en libros más extensos y completos.

- Identificar al autor que tiene la calificación promedio más alta para sus libros, considerando solo aquellos libros que tienen al menos 50 calificaciones. Este objetivo permite destacar a los autores que son consistentemente bien recibidos por el público.

- Encontrar el número promedio de reseñas de texto entre los usuarios que han calificado más de 50 libros. Este objetivo ayuda a entender el comportamiento de los usuarios más comprometidos en la plataforma y cómo su actividad puede influir en la comunidad.


En conjunto, estos objetivos buscan proporcionar una visión integral del comportamiento de los usuarios, la calidad y popularidad de los libros, la relevancia de las editoriales y autores, y la actividad general del mercado de libros en el contexto de una aplicación de lectura. Esto permitirá desarrollar estrategias más informadas para mejorar la propuesta de valor del producto y satisfacer las necesidades y preferencias de los lectores.

## Importar librerías y conectarse a la base de datos

In [2]:
# Importar librerías

import pandas as pd
from sqlalchemy import create_engine

In [16]:
# Configuración de la base de datos

db_config = {
    'user': 'practicum_student',
    'pwd': 's65BlTKV3faNIGhmvJVzOqhs',
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432,
    'db': 'data-analyst-final-project-db'
}

# Cadena de conexión

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'], db_config['pwd'], db_config['host'], db_config['port'], db_config['db']
)

# Crear motor de conexión

engine = create_engine(connection_string, connect_args={'sslmode': 'require'})

## Estudiar las tablas

In [18]:
# Dataset books

query = "SELECT * FROM books LIMIT 5;"
books_df = pd.io.sql.read_sql(query, con=engine)
display(books_df.head())

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [19]:
# Dataset authors

query = "SELECT * FROM authors LIMIT 5;"
authors_df = pd.io.sql.read_sql(query, con=engine)
display(authors_df.head())

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [20]:
# Dataset publishers

query = "SELECT * FROM publishers LIMIT 5;"
publishers_df = pd.io.sql.read_sql(query, con=engine)
display(publishers_df.head())

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [21]:
# Dataset ratings

query = "SELECT * FROM ratings LIMIT 5;"
ratings_df = pd.io.sql.read_sql(query, con=engine)
display(ratings_df.head())

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [22]:
# Dataset reviews

query = "SELECT * FROM reviews LIMIT 5;"
reviews_df = pd.io.sql.read_sql(query, con=engine)
display(reviews_df.head())

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Ejercicios

1. Encuentra el número de libros publicados después del 1 de enero de 2000.
2. Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
3. Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
4. Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
5. Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [37]:
# Número de libros publicados después del 1 de enero de 2000

query = '''

SELECT COUNT(*) AS num_books
FROM books
WHERE publication_date > '2000-01-01';'''

num_books_df = pd.io.sql.read_sql(query, con=engine)
display(num_books_df.head())

Unnamed: 0,num_books
0,819


- El número de libros que se publicaron después del 1 de enero de 2000 es de 819. 
- Es útil para analizar la cantidad de publicaciones recientes y puede ayudar a comprender las tendencias de publicación actuales.

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [38]:
# Número de reseñas de usuarios y calificación promedio para cada libro

query = '''

SELECT
    b.book_id,
    b.title,
    COUNT(r.review_id) AS num_reviews,
    AVG(rt.rating) AS avg_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title;'''

books_reviews_rating_df = pd.io.sql.read_sql(query, con=engine)
display(books_reviews_rating_df.head())

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,652,The Body in the Library (Miss Marple #3),4,4.5
1,273,Galápagos,4,4.5
2,51,A Tree Grows in Brooklyn,60,4.25
3,951,Undaunted Courage: The Pioneering First Missio...,4,4.0
4,839,The Prophet,28,4.285714


- Esta consulta proporciona el número de reseñas de usuarios y la calificación promedio para cada libro. 
- Ahora es posible identificar cuáles libros son más populares y mejor valorados, lo cual puede ser útil para recomendaciones.

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [39]:
# Editorial con más libros con más de 50 páginas

query = '''

SELECT
    p.publisher,
    COUNT(b.book_id) AS num_books
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_books DESC
LIMIT 1;'''

pub_num_books_50_pages_df = pd.io.sql.read_sql(query, con=engine)
display(pub_num_books_50_pages_df.head())

Unnamed: 0,publisher,num_books
0,Penguin Books,42


- Penguin Books, con 42 libros, ha publicado la mayor cantidad de libros con más de 50 páginas. 
- Esto es relevante para entender qué editoriales están más enfocadas en publicaciones completas y de mayor contenido.

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [40]:
# Autor con la calificación promedio más alta (libros con al menos 50 calificaciones)

query = '''

SELECT
    a.author,
    AVG(rt.rating) AS avg_rating
FROM books b
JOIN authors a ON b.author_id = a.author_id
JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY a.author
HAVING COUNT(rt.rating) >= 50
ORDER BY avg_rating DESC
LIMIT 1;'''

avg_rating_author_50_pages_df = pd.io.sql.read_sql(query, con=engine)
display(avg_rating_author_50_pages_df.head())

Unnamed: 0,author,avg_rating
0,Diana Gabaldon,4.3


- Diana Gabaldon es la autora con la calificación promedio más alta entre los libros que tienen al menos 50 calificaciones.
- Esto es importante para identificar autores altamente valorados y populares, lo cual puede ser una ventaja en la promoción de libros.

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [41]:
# Número promedio de reseñas de texto entre usuarios que calificaron más de 50 libros

query = '''

SELECT
    AVG(num_reviews) AS avg_num_reviews
FROM (
    SELECT
        username,
        COUNT(review_id) AS num_reviews
    FROM reviews
    WHERE username IN (
        SELECT username
        FROM ratings
        GROUP BY username
        HAVING COUNT(book_id) > 50
    )
    GROUP BY username
) AS user_reviews;'''

avg_num_reviews_user_50_books_df = pd.io.sql.read_sql(query, con=engine)
display(avg_num_reviews_user_50_books_df.head())

Unnamed: 0,avg_num_reviews
0,24.333333


- El número promedio de reseñas de texto entre los usuarios que han calificado más de 50 libros es de 24. 
- Este dato puede ayudar a identificar usuarios altamente activos y comprometidos en la comunidad de lectores, lo cual puede servir para generar estrategias de fidelización.