# Proyecto SQL

## Introducción
El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Nos han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Descripción de los datos

#### books
Contiene datos sobre libros:
- `book_id` — identificación del libro
- `author_id` — identificación del autor o autora
- `title` — título
- `num_pages` — número de páginas
- `publication_date` — fecha de la publicación
- `publisher_id` — identificación de la editorial

#### authors
Contiene datos sobre autores:
- `author_id` — identificación del autor o autora
- `author` — el autor o la autora

#### publishers
Contiene datos sobre editoriales:
- `publisher_id` — identificación de la editorial
- `publisher` — la editorial

#### ratings
Contiene datos sobre las calificaciones de usuarios:
- `rating_id` — identificación de la calificación
- `book_id` — identificación del libro
- `username` — el nombre del usuario que revisó el libro
- `rating` — calificación

#### reviews
Contiene datos sobre las reseñas de los y las clientes:
- `review_id` — identificación de la reseña
- `book_id` — identificación del libro
- `username` — el nombre del usuario que revisó el libro
- `text` — el texto de la reseña

### Objetivos del estudio
1. Encontrar el número de libros publicados después del 1 de enero de 2000.
2. Encontrar el número de reseñas de usuarios y la calificación promedio para cada libro.
3. Identificar la editorial que ha publicado el mayor número de libros con más de 50 páginas.
4. Identificar al autor que tiene la más alta calificación promedio del libro (considerando solo los libros con al menos 50 calificaciones).
5. Encontrar el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.


## Conexión a la base de datos

### Importación de librerias

In [11]:
# importación de librerías
import pandas as pd
from sqlalchemy import create_engine
from IPython.display import display

### Configuración de la base de datos

In [2]:
# Configuración de la base de datos
db_config = {
    'user': 'practicum_student',         # Nombre de usuario
    'pwd': 's65BlTKV3faNIGhmvJVzOqhs',   # Contraseña
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', # Servidor de la base de datos
    'port': 6432,                        # Puerto de conexión
    'db': 'data-analyst-final-project-db' # Nombre de la base de datos
}

# Cadena de conexión a la base de datos
connection_string = f"postgresql://{db_config['user']}:{db_config['pwd']}@{db_config['host']}:{db_config['port']}/{db_config['db']}"

# Creación del motor de conexión
engine = create_engine(connection_string, connect_args={'sslmode': 'require'})



## Estudio de datos

### Análisis de tablas

In [3]:
# Lista de tablas a analizar
tables = ['books', 'authors', 'publishers', 'ratings', 'reviews']

for table in tables:
    # Construcción de la consulta SQL
    query = f'SELECT * FROM {table} LIMIT 5'

    # Lectura de la tabla en un DataFrame
    df = pd.read_sql(query, con=engine)

    # Visualización de las primeras filas de la tabla
    print(f"Tabla: {table}")
    display(df)

    # Verificación de duplicados
    duplicates = df.duplicated()
    if duplicates.any():
        print(f"Se encontraron duplicados en la tabla '{table}':")
        display(df[duplicates])
    else:
        print(f"No se encontraron valores duplicados en la tabla '{table}'.")

    # Verificación de valores faltantes
    missing_values = df.isnull().sum()
    if missing_values.any():
        print(f"Se encontraron valores faltantes en la tabla '{table}':")
        display(missing_values[missing_values > 0])
    else:
        print(f"No se encontraron valores faltantes en la tabla '{table}'.")
    print("\n" + "-"*50 + "\n")


Tabla: books


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


No se encontraron valores duplicados en la tabla 'books'.
No se encontraron valores faltantes en la tabla 'books'.

--------------------------------------------------

Tabla: authors


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


No se encontraron valores duplicados en la tabla 'authors'.
No se encontraron valores faltantes en la tabla 'authors'.

--------------------------------------------------

Tabla: publishers


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


No se encontraron valores duplicados en la tabla 'publishers'.
No se encontraron valores faltantes en la tabla 'publishers'.

--------------------------------------------------

Tabla: ratings


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


No se encontraron valores duplicados en la tabla 'ratings'.
No se encontraron valores faltantes en la tabla 'ratings'.

--------------------------------------------------

Tabla: reviews


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


No se encontraron valores duplicados en la tabla 'reviews'.
No se encontraron valores faltantes en la tabla 'reviews'.

--------------------------------------------------



La tabla `books` contiene información sobre varios libros, incluyendo su identificación (`book_id`), identificación del autor (`author_id`), título (`title`), número de páginas (`num_pages`), fecha de publicación (`publication_date`) e identificación de la editorial (`publisher_id`). Al revisar las primeras cinco filas de esta tabla, encontramos títulos notables como 'Salem's Lot' y '1,000 Places to See Before You Die'. No se encontraron valores duplicados ni faltantes en esta tabla, lo que indica que los datos están completos y únicos.

La tabla `authors` almacena datos sobre los autores, específicamente su identificación (`author_id`) y su nombre (`author`). Entre los autores listados en las primeras cinco filas, se encuentran nombres reconocidos como A.S. Byatt y Agatha Christie. Al igual que en la tabla de libros, no se encontraron valores duplicados ni faltantes, lo que sugiere una alta calidad en los datos de los autores.

En la tabla `publishers`, se presenta la identificación de la editorial (`publisher_id`) y el nombre de la editorial (`publisher`). Ejemplos de editoriales en las primeras filas incluyen Ace, Ace Book, y Addison Wesley Publishing Company. La revisión de esta tabla no reveló duplicados ni valores faltantes, indicando datos completos y bien gestionados.

La tabla `ratings` contiene información sobre las calificaciones dadas a los libros por los usuarios, incluyendo la identificación de la calificación (`rating_id`), identificación del libro (`book_id`), nombre del usuario (`username`) y la calificación (`rating`). Las primeras cinco filas muestran una variedad de calificaciones dadas por diferentes usuarios a distintos libros. Esta tabla también está libre de valores duplicados y faltantes, lo que asegura la integridad y la fiabilidad de los datos de calificaciones.

Por último, la tabla `reviews` proporciona detalles sobre las reseñas de los libros, incluyendo la identificación de la reseña (`review_id`), identificación del libro (`book_id`), nombre del usuario (`username`) y el texto de la reseña (`text`). Las reseñas en las primeras filas muestran una diversidad de opiniones de los usuarios sobre varios libros. Al igual que las otras tablas, no se encontraron valores duplicados ni faltantes en esta tabla, garantizando que los datos de las reseñas sean completos y únicos.

En resumen, las tablas `books`, `authors`, `publishers`, `ratings` y `reviews` no contienen valores duplicados ni faltantes, lo que sugiere que los datos son de alta calidad y están listos para ser utilizados en análisis más detallados.


## Análisis y Resultados de Consultas SQL
Función para ejecutar consultas SQL

In [4]:
# Crear una función para ejecutar consultas SQL
def execute(query):
    """
    Ejecuta una consulta SQL y devuelve los resultados en un DataFrame de pandas.

    Parámetros:
    query (str): La consulta SQL a ejecutar.

    Retorna:
    pd.DataFrame: Un DataFrame de pandas que contiene los resultados de la consulta.
    """
    return pd.read_sql(query, con=engine)

### Número de libros publicados después del 1 de enero de 2000

In [5]:
# Definir la consulta SQL para contar los libros totales y los publicados después del 1 de enero de 2000
query1 = '''
SELECT
    (SELECT COUNT(*) FROM books) AS total_book_count,
    COUNT(*) AS book_count_after_date
FROM
    books
WHERE
    publication_date > '2000-01-01';
'''

# Ejecutar la consulta y almacenar el resultado en un DataFrame
result1 = execute(query1)

# Mostrar el resultado
display(result1)


Unnamed: 0,total_book_count,book_count_after_date
0,1000,819


De los 1000 libros en el conjunto de datos, una mayoría significativa de 819 libros, representando el 81.9%, se publicaron después del 1 de enero de 2000. Esto indica una clara tendencia hacia publicaciones más recientes, reflejando el panorama literario en evolución y la prevalencia de obras contemporáneas. Los datos muestran un cambio en las preferencias de los lectores hacia lanzamientos más nuevos, destacando la relevancia y popularidad de los libros del siglo XXI.

### Número de reseñas de usuarios y la calificación promedio para cada libro

In [6]:
# Definir la consulta SQL para obtener el número de reseñas de usuarios y la calificación promedio para cada libro
query2 = '''
SELECT 
    b.title AS book_title, 
    COUNT(DISTINCT r.review_id) AS reviews_count,
    AVG(ra.rating) AS average_rating
FROM 
    books b
LEFT JOIN 
    reviews r ON b.book_id = r.book_id
LEFT JOIN 
    ratings ra ON b.book_id = ra.book_id
GROUP BY 
    b.title
ORDER BY 
    reviews_count DESC, average_rating DESC;
'''

# Ejecutar la consulta y almacenar el resultado en un DataFrame
result2 = execute(query2)

# Mostrar el resultado
display(result2)


Unnamed: 0,book_title,reviews_count,average_rating
0,Memoirs of a Geisha,8,4.138462
1,Twilight (Twilight #1),7,3.662500
2,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
3,Harry Potter and the Chamber of Secrets (Harry...,6,4.287500
4,The Book Thief,6,4.264151
...,...,...,...
994,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
995,Essential Tales and Poems,0,4.000000
996,Leonardo's Notebooks,0,4.000000
997,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


Analizando los resultados, podemos observar patrones interesantes:

- 'Memoirs of a Geisha' lidera con 8 reseñas y una calificación promedio de 4.13, recibiendo comentarios positivos que reflejan su narrativa cautivadora.
- 'Twilight (Twilight #1)' sigue de cerca con 7 reseñas, pero recibe una calificación promedio relativamente baja de alrededor de 3.6, implicando opiniones mixtas de los lectores.
- Los libros de 'Harry Potter', cada uno con 6 reseñas, destacan con calificaciones promedio consistentemente altas que superan el 4.1. Esto subraya la magia perdurable y el estatus querido de la serie encantadora de J.K. Rowling.
- 'The Book Thief' también recibe 6 reseñas y tiene una calificación promedio de 4.26, consolidando aún más su reputación como una obra literaria cautivadora y muy apreciada.

###  Editorial que ha publicado el mayor número de libros con más de 50 páginas

In [7]:
# Definir la consulta SQL para identificar la editorial que ha publicado el mayor número de libros con más de 50 páginas
query3 = '''
SELECT 
    p.publisher, 
    COUNT(b.book_id) AS books_count
FROM 
    books b
JOIN 
    publishers p ON b.publisher_id = p.publisher_id
WHERE 
    b.num_pages > 50
GROUP BY 
    p.publisher
ORDER BY 
    books_count DESC
LIMIT 
    1;
'''

# Ejecutar la consulta y almacenar el resultado en un DataFrame
result3 = execute(query3)

# Mostrar el resultado
display(result3)


Unnamed: 0,publisher,books_count
0,Penguin Books,42


En nuestra base de datos, la reconocida editorial 'Penguin Books' brilla con luz propia. Gracias a sus contribuciones, tenemos el placer de sumergirnos en una diversa colección de 42 libros cautivadores, cada uno con más de 50 páginas. 'Penguin Books' ha entregado consistentemente tesoros literarios que atraen e inspiran a los lectores, convirtiéndola en una verdadera estrella en el mundo editorial.

### Autor con la más alta calificación promedio del libro (al menos 50 calificaciones)

In [8]:
# Definir la consulta SQL para identificar al autor con la más alta calificación promedio del libro (considerando solo libros con al menos 50 calificaciones)
query4 = '''
SELECT 
    a.author, 
    AVG(ra.rating) AS average_rating
FROM 
    books b
JOIN 
    authors a ON b.author_id = a.author_id
JOIN 
    ratings ra ON b.book_id = ra.book_id
GROUP BY 
    a.author
HAVING 
    COUNT(ra.rating) > 50
ORDER BY 
    average_rating DESC
LIMIT 
    1;
'''

# Ejecutar la consulta y almacenar el resultado en un DataFrame
result4 = execute(query4)

# Mostrar el resultado
display(result4)


Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.288462


Cuando se trata del autor con la calificación promedio más alta, el dúo dinámico de J.K. Rowling y la talentosa ilustradora Mary GrandPré, el equipo mágico detrás de la popular serie Harry Potter, se lleva la corona. Han recibido una calificación promedio increíble de ~4.3 estrellas, encantando a los lectores con narraciones cautivadoras e ilustraciones visualmente impresionantes que dan vida al mundo mágico.

### Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros

In [9]:
# Definir la consulta SQL para encontrar el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros
query5 = '''
SELECT 
    AVG(review_count) AS average_text_reviews
FROM (
    SELECT 
        r.username, 
        COUNT(r.review_id) AS review_count
    FROM 
        ratings ra
    JOIN 
        reviews r ON ra.book_id = r.book_id AND ra.username = r.username
    WHERE 
        ra.username IN (
            SELECT 
                username
            FROM 
                ratings
            GROUP BY 
                username
            HAVING 
                COUNT(book_id) > 50
        )
    GROUP BY 
        r.username
) AS subquery;
'''

# Ejecutar la consulta y almacenar el resultado en un DataFrame
result5 = execute(query5)

# Mostrar el resultado
display(result5)


Unnamed: 0,average_text_reviews
0,24.333333


El análisis revela que, en promedio, los usuarios que han calificado más de 50 libros también han escrito aproximadamente 24 reseñas de texto. Esto indica un alto nivel de compromiso y participación entre los usuarios más activos, lo cual es útil para diseñar programas de fidelización y estrategias de retención.

## Conclusiones


El análisis de la base de datos revela varias tendencias y patrones importantes que afectan la industria del libro, especialmente durante la pandemia de coronavirus. Estos son nuestros hallazgos clave:

1. **Predilección por publicaciones recientes:** La mayoría de los libros en la base de datos se publicaron después del 1 de enero de 2000, lo que refleja una clara preferencia por parte de los lectores hacia títulos más actuales. Para mantenerse relevante en el mercado, es crucial que los nuevos productos o servicios se centren en ofrecer libros contemporáneos.

2. **Popularidad de ciertos títulos:** Libros como 'Memoirs of a Geisha', 'Twilight' y la serie 'Harry Potter' han recibido numerosas reseñas y calificaciones altas, lo que demuestra su aceptación y popularidad entre los lectores. Sin embargo, 'Twilight' presenta opiniones divididas, destacando la importancia de profundizar en las preferencias de los lectores. Obtener más retroalimentación puede ayudar a comprender mejor lo que atrae a los lectores y a adaptar los productos en consecuencia.

3. **Éxito de 'Harry Potter':** La serie 'Harry Potter' sigue siendo muy popular, con una base de fans dedicada y altas calificaciones constantes. Esto sugiere que crear narrativas atractivas y mundos inmersivos similares podría ser una estrategia efectiva para atraer a los lectores.

4. **Dominio de 'Penguin Books':** 'Penguin Books' sobresale como la editorial con más libros publicados de más de 50 páginas. Esto subraya su papel importante en la industria editorial y su habilidad para mantener a los lectores interesados con contenido diverso y de calidad.

5. **Alto rendimiento de J.K. Rowling:** J.K. Rowling, junto con Mary GrandPré, destaca como la autora con la calificación promedio más alta, reafirmando la calidad y el atractivo duradero de sus libros.

6. **Compromiso de los usuarios activos:** Los usuarios que califican muchos libros también tienden a escribir numerosas reseñas, lo que indica un alto nivel de compromiso. Fomentar esta participación mediante la creación de una comunidad donde los lectores puedan conectarse y personalizar sus recomendaciones puede ser beneficioso.

En resumen, los datos analizados proporcionan una visión valiosa sobre las tendencias de publicación y las preferencias de los lectores. Estas ideas pueden ser utilizadas para desarrollar nuevas aplicaciones y servicios en el mercado de libros, asegurando que sean relevantes y atractivos para los entusiastas de la lectura. ¡Es hora de ser creativos y hacer algo increíble para los amantes de los libros!
