## Descripción del proyecto:
La empresa ha adquirido un servicio de lectura de libros por suscripción. La tarea principal es analizar la base de datos existente.

Hay 5 tablas disponibles:

-   books
-   authors
-   publishers
-   ratings 
-   reviews

Es necesario estudiar los datos y formar una impresión preliminar de qué libros y datos tiene nuestro servicio.

### Preparación y familiarización con las tablas.

In [7]:
import pandas as pd
from sqlalchemy import create_engine
import dotenv
import os

dotenv.load_dotenv()

os.getenv('user')



'practicum_student'

In [14]:
db_config = {'user': os.getenv('user'),         # nombre de usuario
            'pwd': os.getenv('pwd'), # contraseña
            'host': os.getenv('host'),
            'port': os.getenv('port'),              # puerto de conexión
            'db': os.getenv('db')}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                    db_config['pwd'],
                                                                    db_config['host'],
                                                                    db_config['port'],
                                                                    db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})


### Tabla Libros

Contiene datos sobre los libros:

    book_id — identificador del libro;
    author_id — identificador del autor;
    title — título del libro;
    num_pages — número de páginas;
    publication_date — fecha de publicación del libro;
    publisher_id — identificador del editor.

In [15]:
query = '''
SELECT 
    *
FROM books
'''


In [16]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


La base de datos contiene información sobre 1000 libros.

## Tabla Autores
Contiene datos sobre los autores:

author_id — identificador del autor;
author — nombre del autor.

In [17]:
query = '''
SELECT 
    author_id,
    author
FROM authors
LIMIT 10
'''

In [18]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


## Tabla publishers (editoriales)

Contiene datos sobre las editoriales:

    publisher_id — identificador de la editorial.
    publisher — nombre de la editorial.

In [19]:
query = '''
SELECT 
    *
FROM publishers
LIMIT 10
'''

In [20]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


## Tabla de Calificaciones

Contiene datos sobre las calificaciones de los usuarios a los libros:

    rating_id — identificador de la calificación;
    book_id — identificador del libro;
    username — nombre del usuario que dejó la calificación;
    rating — calificación del libro.

In [21]:
query = '''
SELECT 
    *
FROM ratings
LIMIT 10
'''

In [22]:

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


## Tabla de Reseñas

Contiene datos sobre las reseñas de los usuarios:

    review_id — identificador de la reseña;
    book_id — identificador del libro;
    username — nombre del autor de la reseña;
    text — texto de la reseña.

In [23]:
query = '''
SELECT 
    *
FROM reviews
'''

In [24]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


### Tareas

    a.  Encuentra el número de libros publicados después del 1 de enero de 2000.

In [25]:
query = '''
SELECT 
    COUNT(*) AS cnt
FROM 
    books
WHERE
    publication_date > '2000-01-01'
'''

In [26]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,cnt
0,819


En la base de datos hay información sobre 819 libros cuya fecha de publicación es posterior al 1 de enero del año 2000.


    b.  Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [27]:
query = '''
SELECT
    books.title AS book_name,
    subquery_reviews.reviews_qty AS reviews_qty,
    AVG(ratings.rating) AS avg_rating
FROM 
    books
    LEFT JOIN (
        SELECT
            book_id,
            COUNT(username) AS reviews_qty
        FROM
            reviews
        GROUP BY
            book_id
        ) AS subquery_reviews ON subquery_reviews.book_id = books.book_id
    LEFT JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    books.title,
    subquery_reviews.reviews_qty
ORDER BY
    avg_rating DESC
'''

In [28]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_name,reviews_qty,avg_rating
0,Homage to Catalonia,2.0,5.00
1,March,2.0,5.00
2,In the Hand of the Goddess (Song of the Liones...,2.0,5.00
3,Welcome to Temptation (Dempseys #1),2.0,5.00
4,Stone of Farewell (Memory Sorrow and Thorn #2),1.0,5.00
...,...,...,...
995,The World Is Flat: A Brief History of the Twen...,3.0,2.25
996,Junky,2.0,2.00
997,His Excellency: George Washington,2.0,2.00
998,Drowning Ruth,3.0,2.00


Es bueno que la base de datos contenga información sobre calificaciones y reseñas de los libros. Sin embargo, al mostrar la tabla ordenada, observamos que el número máximo de reseñas no es muy alta; para el libro más popular, "Crepúsculo", solo hay 7 reseñas.

    c.  Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas — de esta manera, excluye de su análisis folletos y publicaciones similares del análisis.

In [29]:
query = '''
SELECT
    publishers.publisher,
    COUNT(title) AS books_qty
FROM
    books
    LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE 
    num_pages > 50
GROUP BY
    publishers.publisher
ORDER BY
    books_qty DESC
LIMIT 1
'''

In [30]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher,books_qty
0,Penguin Books,42


La editorial "Penguin Books" ha publicado el mayor número de libros en nuestra biblioteca, con un total de 42 libros.

    d.  Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [31]:
query = '''
SELECT
    authors.author,
    AVG(subquery_ratings.avg_rating) AS average_rating
FROM
    books
    LEFT JOIN (
        SELECT 
            book_id,
            AVG(rating) AS avg_rating,
            COUNT(rating) AS rating_qty
        FROM
            ratings
        GROUP BY
            book_id
    ) AS subquery_ratings ON subquery_ratings.book_id = books.book_id
    LEFT JOIN authors ON authors.author_id = books.author_id
WHERE
    rating_qty > 50
GROUP BY
    author
ORDER BY
    average_rating DESC
LIMIT 1
'''

In [32]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.283844


J.K. Rowling tiene la calificación promedio más alta para sus libros, un resultado bastante esperado dado que la serie de Harry Potter es extremadamente popular. La calificación promedio de sus libros en la base de datos de nuestro servicio es de 4.28.

    e.  Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [34]:
query = '''
WITH
    ratings_subquery AS (
        SELECT
            ratings.username,
            COUNT(rating) AS ratings_quantity
        FROM
            ratings
        GROUP BY
            ratings.username
        HAVING
            COUNT(rating) > 50
        ),
    reviews_subquery AS (
        SELECT
            reviews.username,
            COUNT(text) AS reviews_quantity
        FROM
            reviews
        GROUP BY
            reviews.username
    )
SELECT
    AVG(reviews_quantity)
FROM
    ratings_subquery
    LEFT JOIN reviews_subquery ON reviews_subquery.username = ratings_subquery.username
'''

In [35]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,avg
0,24.333333


En la base de datos hay información sobre usuarios activos que han dejado más de 50 calificaciones. En promedio, estos usuarios han dejado 24.8 reseñas por libro.


## Conclusión

La base de datos del nuevo servicio contiene información sobre 1000 libros. Aproximadamente el 82% de los libros fueron publicados en los últimos 20 años. La mayoría de los libros en la base de datos tienen calificaciones y reseñas (99%). La editorial que ha publicado la mayor cantidad de libros en nuestra selección es "Penguin Books", con 42 unidades, lo que representa el 4% de nuestra selección. Las calificaciones más altas son para la autora J.K. Rowling, con un promedio de 4.3. La base de datos también contiene información sobre usuarios activos, indicando que el servicio adquirido es bastante "vivo", aunque no cuenta con una colección muy extensa de libros.
