# Proyecto SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

# Objetivo
 
Analizar la base,  de datos para comprender el mercado de los amantes de los libros y crear un producto o servicio que sea destacable al plantear las necesidades y preferencias de la población lectora, todo a partir de las conclusiones identificadas a partir de los datos recopilados y analizados.

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# Conexion a la base de datos
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
# Vemos el contenido del dataframe books
query = '''
SELECT
    *
FROM
    books
LIMIT
    5
'''
data_books = pd.io.sql.read_sql(query, con=engine)
data_books

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [4]:
# Verficamos que no haya valores nulos
query = ''' 
SELECT
    COUNT(*)
FROM
    books
WHERE
    book_id IS NULL
    OR author_id IS NULL
    OR title IS NULL
    OR num_pages IS NULL
    OR publication_date IS NULL
    OR publisher_id IS NULL;
'''
data_books_null_count = pd.io.sql.read_sql(query, con=engine)
data_books_null_count

Unnamed: 0,count
0,0


In [5]:
# Verificamos que no haya valores duplicados
query = '''
SELECT
    COUNT(*)
FROM
    (
        SELECT
            book_id,
            author_id,
            title,
            num_pages,
            publication_date,
            publisher_id,
            COUNT(*)
        FROM
            books
        GROUP BY
            book_id,
            author_id,
            title,
            num_pages,
            publication_date,
            publisher_id
        HAVING
            COUNT(*) > 1
    ) AS SUB
'''
data_books_duplicated_count = pd.io.sql.read_sql(query, con=engine)
data_books_duplicated_count

Unnamed: 0,count
0,0


Nuestra tabla `books` contiene los datos sobre libros, almacenados en las siguientes columnas:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

La tabla no presenta valores ausentes o duplicados

In [6]:
# Vemos el contenido del dataframe authors
query = '''
SELECT
    *
FROM
    authors
LIMIT
    5
'''
data_authors = pd.io.sql.read_sql(query, con=engine)
data_authors

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [7]:
# Verficamos que no haya valores nulos
query = '''
SELECT
    COUNT(*)
FROM
    authors
WHERE
    author_id IS NULL
    OR author IS NULL;
'''
data_authors_null_count = pd.io.sql.read_sql(query, con=engine)
data_authors_null_count

Unnamed: 0,count
0,0


In [8]:
# Verificamos que no haya valores duplicados
query = '''
SELECT
    COUNT(*)
FROM
    (
        SELECT
            author_id,
            author,
            COUNT(*)
        FROM
            authors
        GROUP BY
            author_id,
            author
        HAVING
            COUNT(*) > 1
    ) AS SUB
'''
data_authors_duplicated_count = pd.io.sql.read_sql(query, con=engine)
data_authors_duplicated_count

Unnamed: 0,count
0,0


Nuestra tabla `authors` contiene los datos sobre autores, almacenados en las siguientes columnas:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

La tabla no presenta valores ausentes o duplicados

In [9]:
# Vemos el contenido del dataframe ratings
query = '''
SELECT
    *
FROM
    ratings
LIMIT
    5 '''
data_ratings = pd.io.sql.read_sql(query, con=engine)
data_ratings

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [10]:
# Verficamos que no haya valores nulos
query = '''
SELECT
    COUNT(*)
FROM
    ratings
WHERE
    rating_id IS NULL
    OR book_id IS NULL
    OR username IS NULL
    OR rating IS NULL;
 '''
data_ratings_null_count = pd.io.sql.read_sql(query, con=engine)
data_ratings_null_count

Unnamed: 0,count
0,0


In [11]:
# Verificamos que no haya valores duplicados
query = '''
SELECT
    COUNT(*)
FROM
  (SELECT rating_id,
          book_id,
          username,
          rating,
          COUNT(*)
   FROM
    ratings
   GROUP BY rating_id,
            book_id,
            username,
            rating
   HAVING COUNT(*) > 1
  ) AS SUB
'''
data_ratings_duplicated_count = pd.io.sql.read_sql(query, con=engine)
data_ratings_duplicated_count

Unnamed: 0,count
0,0


Nuestra tabla `ratings` contiene los datos sobre las calificaciones de usuarios, almacenados en las siguientes columnas:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

La tabla no presenta valores ausentes o duplicados

In [12]:
# Vemos el contenido de la tabla reviews
query = '''
SELECT
    *
FROM
    reviews
LIMIT
    5
'''
data_reviews = pd.io.sql.read_sql(query, con=engine)
data_reviews

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [13]:
# Verficamos que no haya datos nulos
query = '''
SELECT
    COUNT(*)
FROM
    reviews
WHERE
    review_id IS NULL
    OR book_id IS NULL
    OR username IS NULL
    OR text IS NULL;
'''
data_reviews_null_count = pd.io.sql.read_sql(query, con=engine)
data_reviews_null_count

Unnamed: 0,count
0,0


In [14]:
# Verificamos que no haya datos duplicados
query = '''
SELECT
    COUNT(*)
FROM
  (SELECT review_id,
          book_id,
          username, text, COUNT(*)
   FROM
    reviews
   GROUP BY review_id,
            book_id,
            username, text
   HAVING
    COUNT(*) > 1
  ) AS SUB
'''
data_reviews_duplicated_count = pd.io.sql.read_sql(query, con=engine)
data_reviews_duplicated_count

Unnamed: 0,count
0,0


Nuestra tabla `reviews` que contiene datos sobre las reseñas de los y las clientes, presenta las siguientes columnas:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña
    
La tabla no presenta valores ausentes o duplicados

In [15]:
# Vemos el contenido de la tabla publishers
query = '''
SELECT
    *
FROM
    publishers
LIMIT
    5
'''
data_publishers = pd.io.sql.read_sql(query, con=engine)
data_publishers

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [16]:
# Verficamos que no haya datos nulos
query = '''
SELECT
    COUNT(*)
FROM
    publishers
WHERE
    publisher_id IS NULL
    OR publisher IS NULL;
'''
data_publishers_null_count = pd.io.sql.read_sql(query, con=engine)
data_publishers_null_count

Unnamed: 0,count
0,0


In [17]:
# Verificamos que no haya datos duplicados
query = '''
SELECT
    COUNT(*)
FROM
  (SELECT publisher_id,
          publisher,
          COUNT(*)
   FROM
    publishers
   GROUP BY publisher_id,
            publisher
   HAVING
    COUNT(*) > 1) AS SUB
'''
data_publishers_duplicated_count = pd.io.sql.read_sql(query, con=engine)
data_publishers_duplicated_count

Unnamed: 0,count
0,0


Nuestra tabla `publishers` que contiene datos sobre editoriales, presenta las siguientes columnas:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

La tabla no presenta valores ausentes o duplicados

# Ejercicio

1. Encuentra el número de libros publicados después del 1 de enero de 2000.
2. Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
3. Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
4. Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
5. Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

# Encuentra el número de libros publicados después del 1 de enero de 2000.

In [18]:
# Número de libros publicados después del 1 de enero del 2000
query = '''
SELECT
    COUNT(*) AS cnt
FROM
    BOOKS
WHERE
    publication_date > '2000-01-01'
'''
exercise1 = pd.io.sql.read_sql(query, con=engine)
exercise1

Unnamed: 0,cnt
0,819


Podemos ver que el número de libros publicados despues del 1 de enero del 2000 son 819

# Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [19]:
# Número de reseñas de usuarios y la calificacion promedio de cada libro
query = '''
SELECT 
    bk.book_id,
    bk.title,
    COUNT(r.review_id) AS num_reviews,
    AVG(rt.rating) AS avg_rating
FROM 
    public.books AS bk
INNER JOIN
    public.reviews AS r ON bk.book_id = r.book_id
INNER JOIN 
    public.ratings AS rt ON bk.book_id = rt.book_id
GROUP BY 
    bk.book_id,
    bk.title
ORDER BY
    num_reviews DESC
'''
exercise2 = pd.io.sql.read_sql(query, con=engine)
exercise2

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,948,Twilight (Twilight #1),1120,3.662500
1,750,The Hobbit or There and Back Again,528,4.125000
2,673,The Catcher in the Rye,516,3.825581
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.414634
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.287500
...,...,...,...,...
989,187,Debt of Honor (Jack Ryan #7),2,3.000000
990,984,Winter Prey (Lucas Davenport #5),2,4.500000
991,186,Death: The High Cost of Living,2,3.000000
992,760,The Iliad/The Odyssey,2,4.000000


Como podemos observar, tenemos una tabla con la calificación promedio y número de reseñas por cada libro junto con su titulo. Por ejemplo, el libro de `Angels Fall` tiene una calificación media de 5.0 y un total de reviews de 2. Esto nos puede ayudar a ver los libros mejor rankeados y cuantas reviews podemos encontrar de ellos.

# Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [20]:
# Editorial que ha publicado mayor número de libros con más de 50 páginas
query = '''
SELECT SUB.publisher_id AS id,
       publishers.publisher AS publisher_name,
       COUNT(SUB.book_id) AS count_books
FROM
  (SELECT book_id,
          publisher_id
   FROM books
   WHERE num_pages > 50) AS SUB
INNER JOIN publishers ON publishers.publisher_id = SUB.publisher_id
GROUP BY id,
         publisher_name
ORDER BY count_books DESC
LIMIT 2
'''
exercise3 = pd.io.sql.read_sql(query, con=engine)
exercise3

Unnamed: 0,id,publisher_name,count_books
0,212,Penguin Books,42
1,309,Vintage,31


De acuerdo a la consulta, podemos ver que la editorial Penguin Books es la que mayor número de libros ha publicado con 42 libros con más de 50 páginas. Un análisis posterior podria indicarnos el promedio de las reviews de los libros de la editorial

# Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [21]:
# Autor con calificacion promedio más alta de libros con al menos 50 calificaciones
query = '''
SELECT books.author_id,
       author,
       AVG(avg_rating) AS avg_ratings
FROM
  (SELECT books.book_id AS id_book,
          COUNT(rating_id) AS count_ratings,
          AVG(rating) AS avg_rating
   FROM ratings
   INNER JOIN books ON books.book_id = ratings.book_id
   GROUP BY id_book) AS SUB
INNER JOIN books ON books.book_id = SUB.id_book
INNER JOIN authors ON authors.author_id = books.author_id
WHERE count_ratings >= 50
GROUP BY books.author_id,
         author
ORDER BY avg_ratings DESC
LIMIT 5
'''

exercise4 = pd.io.sql.read_sql(query, con=engine)
exercise4

Unnamed: 0,author_id,author,avg_ratings
0,236,J.K. Rowling/Mary GrandPré,4.283844
1,402,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,240,J.R.R. Tolkien,4.258446
3,376,Louisa May Alcott,4.192308
4,498,Rick Riordan,4.080645


Como podemos ver en la consulta, la autora J.K. Rowling es la autora con mejor calificacion promedio de sus libros con más de 50 calificaciones.

# Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [22]:
# Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros
query = '''
SELECT AVG(count_reviews) AS avg_reviews
FROM
  (SELECT username,
          count(rating) AS count_rating
   FROM ratings
   GROUP BY username) AS SUB
INNER JOIN
  (SELECT username,
          COUNT(text) AS count_reviews
   FROM reviews
   GROUP BY username) AS SUB1 ON SUB.username = SUB1.username
WHERE count_rating > 50
'''

exercise5 = pd.io.sql.read_sql(query, con=engine)
exercise5

Unnamed: 0,avg_reviews
0,24.333333


Podemos ver por la consulta, que el numero promedio de reseñas de texto que realizan usuarios que califican más de 50 libros es 24.3, minimo el 50% de los libros que han calificado.

# Conclusiones generales

En general, los resultados de nuestras consultas son los siguientes:

- El total de libros publicados despues del 1 de enero del 200, son 819 libros.
- El top 5 de libros con mayor número de reseñas son: 
1. Twilight #1 (1120)
2. The Hobbit or There and Back Again (528)
3. The Catcher in the Rye (516)
4. Harry Potter and the Prisoner of Azkaban (492)
5. Harry Potter and the Chamber of Secrets (480) 

Twilight #1, tuvo muchas reseñas(1120), pero el rpomedio de las calificaciones fue de 3.7, mientras que, Harry Potter and the Prisoner of Azkaban tuvo menos reseñas (492), pero su calificación fue la más alta, 4.4. Al parecer, los libros más populares (los más calificados) son libros de ficción y fantasía.
- La editorial con mayor número de libros mayores a 50 páginas es Penguin Books con 42
- J.K. Rowling es la autora con mejor calificacion promedio (4.2) en libros con más de 50 calificaciones
- El ejercicio final, nos muestra como, en promedio, los usuarios que han calificado más de 50 libros han escrito aproximadamente 24.33 reseñas textuales. Esto significa que no todos los usuarios que califican libros también escriben reseñas textuales.