# SQL

## Objetivos

El propósito de este ejercicio es analizar una base de datos relacionada con libros, autores, editoriales, calificaciones y reseñas para proporcionar información que pueda ser utilizada para desarrollar una propuesta de valor para un nuevo producto en el mercado de aplicaciones para amantes de los libros. 

Los objetivos específicos son:

1. Determinar el volumen de publicaciones recientes y evaluar la relevancia de los libros publicados en el contexto actual del mercado.

2. Obtener una visión general sobre la popularidad y la recepción de los libros en función de las reseñas y calificaciones de los usuarios.

3. Conocer cuál editorial se destaca en la publicación de libros de mayor longitud, excluyendo publicaciones más cortas como folletos.

4. Identificar al autor más valorado entre los libros con una cantidad significativa de reseñas, proporcionando información sobre la popularidad y calidad de los autores.

5. Entender el comportamiento de los usuarios que son muy activos en la plataforma, proporcionando información sobre su tendencia a dejar reseñas detalladas.

#### Importar librerías

In [1]:
import pandas as pd
from sqlalchemy import create_engine 

#### Conectarse a la base de datos

In [2]:
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# verificar la conexión
try:
    with engine.connect() as connection:
        print("Conexión exitosa a la base de datos")
except Exception as e:
    print(f"Error en la conexión: {e}")

Conexión exitosa a la base de datos


## Estudio de la tablas

In [7]:
# books
query = ''' SELECT *
            FROM books
        '''
        
books= pd.io.sql.read_sql(query, con = engine)
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [16]:
print(books.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB
None


In [9]:
# authors
query = ''' SELECT *
            FROM authors
        '''
        
authors= pd.io.sql.read_sql(query, con = engine)
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [17]:
print(authors.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
None


In [10]:
# publishers
query = ''' SELECT *
            FROM publishers
        '''
        
publishers= pd.io.sql.read_sql(query, con = engine)
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [18]:
print(publishers.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
None


In [11]:
# ratings
query = ''' SELECT *
            FROM ratings
        '''
        
ratings= pd.io.sql.read_sql(query, con = engine)
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [19]:
print(ratings.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
None


In [12]:
# reviews
query = ''' SELECT *
            FROM reviews
        '''
        
reviews= pd.io.sql.read_sql(query, con = engine)
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [20]:
print(reviews.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB
None


## Consultas SQL

1. Número de libros publicados después del 1 de enero de 2000.

In [71]:
query = ''' SELECT COUNT(*) AS num_books
            FROM books
            WHERE publication_date >= '2000-01-01';
        '''
        
num_books = pd.io.sql.read_sql(query, con = engine)
num_books

Unnamed: 0,num_books
0,821


Se publicaron 821 libros después del 1 de enero de 2000, este dato es útil para entender la cantidad de nuevos títulos disponibles en el mercado.

2. Número de reseñas de usuarios y la calificación promedio para cada libro.

In [70]:
query = ''' SELECT ratings.book_id, books.title, COUNT(review_id) AS num_reviews, AVG(rating) AS average_rating
            FROM ratings LEFT JOIN reviews ON ratings.book_id = reviews.book_id JOIN books ON ratings.book_id = books.book_id
            GROUP BY ratings.book_id, books.title;
        '''
        
book_reviews = pd.io.sql.read_sql(query, con = engine)
book_reviews.head()

Unnamed: 0,book_id,title,num_reviews,average_rating
0,412,Lucy Sullivan Is Getting Married,4,2.5
1,427,Memoirs of a Geisha,30,3.7
2,480,No Ordinary Time: Franklin and Eleanor Rooseve...,4,3.5
3,873,The Sorrows of Young Werther,4,4.0
4,693,The Crucible,44,3.090909


3. Editorial que ha publicado el mayor número de libros con más de 50 páginas

In [76]:
query = ''' SELECT publishers.publisher, COUNT(*) AS num_books   
            FROM books JOIN publishers ON books.publisher_id = publishers.publisher_id 
            WHERE books.num_pages > 50
            GROUP BY publishers.publisher
            ORDER BY num_books DESC;
        '''
        
top_publisher = pd.io.sql.read_sql(query, con = engine)
top_publisher.head()

Unnamed: 0,publisher,num_books
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19


***Penguin Books*** lidera con 42 libros publicados, lo que indica una alta producción de libros. ***Vintage*** y ***Grand Central Publishing*** también son editoriales prominentes, lo que sugiere una fuerte presencia en el mercado editorial.

4. Autor que tiene la más alta calificación promedio del libro (libros con al menos 50 calificaciones)

In [73]:
query = ''' SELECT authors.author, AVG(ratings.rating) AS average_rating, COUNT(rating) AS count_rating
            FROM books JOIN authors ON books.author_id = authors.author_id JOIN ratings ON books.book_id = ratings.book_id
            GROUP BY authors.author
            HAVING COUNT (ratings.rating) >= 50
            ORDER BY average_rating DESC;
        '''
        
top_author = pd.io.sql.read_sql(query, con = engine)
top_author.head()

Unnamed: 0,author,average_rating,count_rating
0,Diana Gabaldon,4.3,50
1,J.K. Rowling/Mary GrandPré,4.288462,312
2,Agatha Christie,4.283019,53
3,Markus Zusak/Cao Xuân Việt Khương,4.264151,53
4,J.R.R. Tolkien,4.240964,166


***Diana Gabaldon*** tiene la calificación promedio más alta con 4.3, lo que indica que sus libros son altamente apreciados por los lectores.

5. Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros

In [75]:
query = '''
SELECT AVG(review_count) AS average_reviews
FROM (
    SELECT r.username, COUNT(r.review_id) AS review_count
    FROM reviews r
    JOIN ratings ra ON r.book_id = ra.book_id
    GROUP BY r.username
    HAVING COUNT(ra.book_id) > 50
) AS user_review_counts;
'''

avg_reviews = pd.io.sql.read_sql(query, con = engine)
avg_reviews


Unnamed: 0,average_reviews
0,166.679487


Los usuarios que califican más de 50 libros tienden a escribir un promedio de aproximadamente 167 reseñas de texto. Esto sugiere que estos usuarios son muy activos en la plataforma, no solo calificando libros, sino también dejando comentarios detallados. Esto puede indicar un alto nivel de compromiso y participación con los libros que leen.

## Conclusiones

Estos resultados ofrecen una visión general sobre la actividad en la plataforma de reseñas de libros. Se observa una variada cantidad de reseñas y calificaciones para distintos libros y autores, así como una clara tendencia en la producción editorial. Este análisis puede ser útil para una startup que busca entender el mercado de libros y cómo las diferentes editoriales y autores se posicionan en términos de recepción por parte de los lectores. Además, la información sobre los usuarios más activos puede ayudar a identificar patrones de comportamiento y potenciales áreas para mejorar la propuesta de valor del producto.