## Descripción del proyecto
El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

![Diagrama base de datos](/Users/sayurichong/Documents/proyecto_final/SQL/base.png)

## Objetivos del estudio 

Extraer información si¡obre el comportamiento de usuarios y características de libros usando una base de datos de un servicio de lectura.

## Carga de datos

In [1]:
# importar librerías
import pandas as pd

## Conexión a la base de datos

In [2]:

from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})


## Estructura de la tablas

In [3]:
query = 'SELECT * FROM books;'
df = pd.read_sql(query, con=engine)
display(df.head(5))
df.info()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


El DataFrame **books** contiene registros sobre libros y tiene 6 columnas nombradas: *book_id: identificación del libro, author_id: identificación del autor o autora, title: título, num_pages: número de páginas, publication_date: fecha de la publicación publisher_id: identificación de la editorial*. Las columas en este dataframe son de dos tipos de datos object y int64. Con respecto de las filas **books** contiene 1000 entradas.

In [4]:
query = 'SELECT * FROM authors;'
df = pd.read_sql(query, con=engine)
display(df.head(5))
df.info()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


El DataFrame **authors** contiene registros sobre autores y tiene 2 columnas nombradas: *author_id: identificación del autor o autora, author: el autor o la autora*. Las columas en este dataframe son de dos tipos de datos object y int64. Con respecto de las filas **authors** contiene 636 entradas.

In [5]:
query = 'SELECT * FROM publishers;'
df = pd.read_sql(query, con=engine)
display(df.head(5))
df.info()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


El DataFrame **publishers** contiene registros sobre editoriales y tiene 2 columnas nombradas: *publisher_id: identificación de la editorial, publisher: la editorial*. Las columas en este dataframe son de dos tipos de datos object y int64. Con respecto de las filas **publishers** contiene 340 entradas.

In [6]:
query = 'SELECT * FROM ratings;'
df = pd.read_sql(query, con=engine)
display(df.head(5))
df.info()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


El DataFrame **ratings** contiene registros sobre las calificaciones de usuarios y tiene 4 columnas nombradas: *rating_id: identificación de la calificación, book_id: identificación del libro, username: el nombre del usuario que revisó el libro, rating: calificación*. Las columas en este dataframe son de dos tipos de datos object y int64. Con respecto de las filas **ratings** contiene 6455 entradas.

In [7]:
query = 'SELECT * FROM reviews;'
df = pd.read_sql(query, con=engine)
display(df.head(5))
df.info()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


El DataFrame **reviews** contiene registros sobre las reseñas de los y las clientes y tiene 4 columnas nombradas: *review_id: identificación de la reseña, book_id: identificación del libro, username: el nombre del usuario que revisó el libro, text: el texto de la reseña*. Las columas en este dataframe son de dos tipos de datos object y int64. Con respecto de las filas **reviews** contiene 2793 entradas.

## Número de libros publicados después del 1 de enero de 2000.

In [8]:
query = '''
SELECT COUNT(*) AS books_after_2000
FROM books
WHERE publication_date > '2000-01-01';
'''

pd.read_sql(query, con=engine)

Unnamed: 0,books_after_2000
0,819


Los libros publicados después del 1 de enero de 2000 fueron 819

## Número de reseñas de usuarios y la calificación promedio para cada libro.

In [9]:
query = '''
SELECT 
    b.book_id,
    b.title,
    COUNT(r.review_id) AS num_reviews,
    AVG(rt.rating) AS avg_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY num_reviews DESC
LIMIT 10;
'''
pd.read_sql(query, con=engine)

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,948,Twilight (Twilight #1),1120,3.6625
1,750,The Hobbit or There and Back Again,528,4.125
2,673,The Catcher in the Rye,516,3.825581
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.414634
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.2875
5,75,Angels & Demons (Robert Langdon #1),420,3.678571
6,301,Harry Potter and the Order of the Phoenix (Har...,375,4.186667
7,779,The Lightning Thief (Percy Jackson and the Oly...,372,4.080645
8,722,The Fellowship of the Ring (The Lord of the Ri...,370,4.391892
9,79,Animal Farm,370,3.72973


En la tabla anterior se observa el top 10 de los libros con mayores vistas y la calificación promedio de los usuarios. Los primeros dos libros son **Twilight** con 1120 vistas y 3.66 de calificación promedio, continuando con **The Hobbit or There and Back Again** con 528 vistas y 4.12 de calificación promedio. Los últimos dos libros son **The Fellowship of the Ring (The Lord of the Rings)** con 370 vistas y 4.39 de calificación y por último el libro con menos reseñas es **Animal Farm** con 370 vistas y 3.72 de calificación. 

## Editorial que ha publicado el mayor número de libros con más de 50 páginas

In [10]:
query = '''
SELECT 
    p.publisher,
    COUNT(*) AS num_books
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_books DESC
LIMIT 1;
'''
pd.read_sql(query, con=engine)

Unnamed: 0,publisher,num_books
0,Penguin Books,42


La editorial que ha publicado el mayor número de libros con más de 50 páginas es **Penguin Books** con 42 libros con estas características.

## Autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [11]:
query = '''
SELECT 
    a.author,
    ROUND(AVG(book_avg_rating), 2) AS avg_author_rating
FROM (
    SELECT 
        b.book_id,
        b.author_id,
        AVG(r.rating) AS book_avg_rating,
        COUNT(r.rating) AS rating_count
    FROM books b
    JOIN ratings r ON b.book_id = r.book_id
    GROUP BY b.book_id, b.author_id
    HAVING COUNT(r.rating) >= 50
) AS filtered_books
JOIN authors a ON filtered_books.author_id = a.author_id
GROUP BY a.author
ORDER BY avg_author_rating DESC
LIMIT 1;
'''
pd.read_sql(query, con=engine)

Unnamed: 0,author,avg_author_rating
0,J.K. Rowling/Mary GrandPré,4.28


El autor o autora que tiene la más alta calificación promedio del libro es **J.K. Rowling/Mary GrandPré** con un promedio de calificación de 4.28.

## Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros

In [12]:
query ='''
WITH active_users AS (
    SELECT username
    FROM ratings
    GROUP BY username
    HAVING COUNT(rating_id) > 50
)

SELECT 
    ROUND(AVG(user_reviews.num_reviews), 2) AS avg_reviews_text
FROM (
    SELECT username, COUNT(*) AS num_reviews
    FROM reviews
    WHERE username IN (SELECT username FROM active_users)
    GROUP BY username
) AS user_reviews;
'''
pd.read_sql(query, con=engine)

Unnamed: 0,avg_reviews_text
0,24.33


El promedio de reseñas escritas entre los usuarios que calificaron más de 50 libros fue de 24.33

## Conclusiones

La base de datos representa el modelo relacional diseñada para un servicio de libros (como una plataforma de lectura o reseñas). Las relaciones clave que existen es que un libro tiene: un autor (author_id), una editorial (publisher_id), muchas calificaciones (ratings) y muchas reseñas (reviews)
Tambien existe que un autor puede tener muchos libros, una editorial puede publicar muchos libros y un usuario puede calificar y reseñar varios libros.

El estudio indica que fueron 819 los libros publicados después del 2000y el libro que más reseña tiene es **Twilight** y el libro con calificación promedio más alta fue **The Fellowship of the Ring (The Lord of the Rings)** con una calificación de 4.39. El autor que tiene una mejores críticas es J.K. Rowling/Mary GrandPré con una crítica promedio de 4.28 y la editorial que domina las publicaciones extensas es **Penguin Books** con 42 libros de más de 50 páginas. Por último el promedio de reseñas escritas entre los usuarios que calificaron más de 50 libros fue de 24.33, por lo tanto es un poco menos de la mitad de las personas que calificaron más de 50 libros realizan reseñas escritas.