## SQL
El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Descripción de los datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Instrucciones del análisis SQL

- Describe los objetivos del estudio.

El objetivo principal de este estudio es analizar los datos registrados sobre los libros que se leyeron durante la pandemia. Esto se logrará a través de consultas SQL para extraer información relevante que sirva de base para diseñar una propuesta de valor atractiva para un nuevo producto digital para las startups.. 


- Estudia las tablas (imprime las primeras filas).

In [2]:
pd.read_sql("SELECT * FROM books LIMIT 5;", con=engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [3]:
pd.read_sql("SELECT * FROM authors LIMIT 5;", con=engine)


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [4]:
pd.read_sql("SELECT * FROM publishers LIMIT 5;", con=engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [5]:
pd.read_sql("SELECT * FROM ratings LIMIT 5;", con=engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [6]:
pd.read_sql("SELECT * FROM reviews LIMIT 5;", con=engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


- Realiza una consulta SQL para cada una de las tareas.
- Genera los resultados de cada consulta en el Notebook.
- Describe tus conclusiones para cada una de las tareas.

### Ejercicio
- Encuentra el número de libros publicados después del 1 de enero de 2000.

In [7]:
query = """
SELECT COUNT(*) AS books_2000
FROM books
WHERE publication_date > '2000-01-01';
"""

pd.read_sql(query, con=engine)

Unnamed: 0,books_2000
0,819


Los usuarios registran una preferencia por libros recientes, ya sea por los temas, un lenguaje más actual, accesibilidad o por la popularidad de los libros que se mantienen en la memoria de los usuarios. Podemos hacer una pequeña consulta para comparar los resultados: 

In [8]:
query = """
SELECT COUNT(*) AS books_2000
FROM books
WHERE publication_date < '2000-01-01';
"""

pd.read_sql(query, con=engine)

Unnamed: 0,books_2000
0,179


Por lo tanto, los usuarios leen más libros escritos después del 2000. 

- Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [9]:
query = """
SELECT COUNT(*) AS total_reviews
FROM reviews;
"""

pd.read_sql(query, con=engine)

Unnamed: 0,total_reviews
0,2793


In [10]:
query = """
SELECT 
    books.book_id,
    books.title,
    ROUND(AVG(ratings.rating), 1) AS average_rating
FROM books
JOIN ratings ON books.book_id = ratings.book_id
GROUP BY books.book_id, books.title
ORDER BY book_id ASC
"""
pd.read_sql(query, con=engine)

Unnamed: 0,book_id,title,average_rating
0,1,'Salem's Lot,3.7
1,2,1 000 Places to See Before You Die,2.5
2,3,13 Little Blue Envelopes (Little Blue Envelope...,4.7
3,4,1491: New Revelations of the Americas Before C...,4.5
4,5,1776,4.0
...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3.7
996,997,Xenocide (Ender's Saga #3),3.4
997,998,Year of Wonders,3.2
998,999,You Suck (A Love Story #2),4.5


Los usuarios muestran una participación activa en escribir reviews de los libros que leyeron durante la pandemia. Al revisar los libros con mejor calificación, podemos concluir que la audiencia favorece libros de varios tipos de género, tales como misterio por la serie de Women's Club, historia por 1776 y romance por A Bend in the Road. Por lo tanto, los lectores muestran una variedad de historias en sus bibliotecas. 

- Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [11]:
query = """
SELECT 
    publishers.publisher,
    COUNT(books.book_id) AS cantidad_libros
FROM books
JOIN publishers ON books.publisher_id = publishers.publisher_id
WHERE books.num_pages > 50
GROUP BY publishers.publisher
ORDER BY cantidad_libros DESC
LIMIT 1;
"""

pd.read_sql(query, con=engine)

Unnamed: 0,publisher,cantidad_libros
0,Penguin Books,42


La famosa editorial Penguin Books es la que tiene más cantidad de libros. Por lo que se puede recomendar que las start ups procuren algún acuerdo con esta editorial. Igualmente sus libros puede ser los más accesibles para el publico y puede brindar confianza al lector al evaluar la calidad del libro. 

- Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [12]:
query = """
SELECT 
  authors.author_id,
  authors.author,
  AVG(ratings.rating) AS best_rating
FROM books 
JOIN authors  ON books.author_id = authors.author_id
JOIN ratings  ON books.book_id = ratings.book_id
JOIN (
    SELECT book_id
    FROM ratings
    GROUP BY book_id
    HAVING COUNT(*) >= 50
) AS popular_books ON books.book_id = popular_books.book_id
GROUP BY authors.author_id, authors.author
ORDER BY best_rating DESC
LIMIT 1;
    
"""

pd.read_sql(query, con=engine)

Unnamed: 0,author_id,author,best_rating
0,236,J.K. Rowling/Mary GrandPré,4.287097


La autora con libros mejor calificados es J.K. Rowling. Por lo tanto, este podría ser un libro que se mantiene en tendencia por su popularidad o senimiento de nostalgia entre la audiencia. Por lo tanto, sería importante asegurar que la aplicación que se desarrolle considere una lista de series de libros populares. 

- Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [13]:
query = """
SELECT 
    AVG(review_counts.review_count) AS avg_num_reviews
FROM (
    SELECT 
        reviews.username,
        COUNT(reviews.review_id) AS review_count
    FROM (
        SELECT 
            username
        FROM ratings
        GROUP BY username
        HAVING COUNT(*) > 50
    ) AS filtered_users
    JOIN reviews ON filtered_users.username = reviews.username
    GROUP BY reviews.username
) AS review_counts;

"""

pd.read_sql(query, con=engine)

Unnamed: 0,avg_num_reviews
0,24.333333


Los usuarios no solo asignan una calificación a los libros, sino que también tienen una preferencia por escribir su opinión sobre el libro. Por lo tanto, este tipo de audiencia procura interactuar, formar una opinión y recomendar a otros los libros que merecen la pena. 

## Conclusión 
Se recomiendan lo siguientes puntos a los start ups para construir sus aplicaciones: 
 - Incluir libros actuales porque son los más leídos por los ususarios. 
 - Planear un acuerdo con las editoriales más populares para asegurar la calidad de los libros y brindar confianza a los lectores. 
 - Integrar una variedad de géneros de libros. Sin embargo, se puede colocar al inicio libros de los géneros más populares como misterio, ficción, romance y aventura. Igulamente al promocionar sus apps, pueden mencionar autores o libros de estos géneros para atraer usuarios. 
 - Procurar también incluir en el catálogo serie de libros populares para asegurar una audiencia inicial. 
 - Los usuarios son una audiencia activa que gusta de participar y recomendar libros. Por lo que es importante incluir una sección de puntaje y una en donde puedan escribir su reseña. 