# Proyecto SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

## Descripción de los datos

### books

Contiene datos sobre libros:

- `book_id` — identificación del libro
- `author_id` — identificación del autor o autora
- `title` — título
- `num_pages` — número de páginas
- `publication_date` — fecha de la publicación
- `publisher_id` — identificación de la editorial

### authors

Contiene datos sobre autores:

- `author_id` — identificación del autor o autora
- `author` — el autor o la autora

### publishers

Contiene datos sobre editoriales:

- `publisher_id` — identificación de la editorial
- `publisher` — la editorial

### ratings

Contiene datos sobre las calificaciones de usuarios:

- `rating_id` — identificación de la calificación
- `book_id` — identificación del libro
- `username` — el nombre del usuario que revisó el libro
- `rating` — calificación

### reviews

Contiene datos sobre las reseñas de los y las clientes:

- `review_id` — identificación de la reseña
- `book_id` — identificación del libro
- `username` — el nombre del usuario que revisó el libro
- `text` — el texto de la reseña


### Objetivos

1. Encuentra el número de libros publicados después del 1 de enero de 2000.
2. Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
3. Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
4. Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
5. Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.



## Importamos librerías

In [1]:
import pandas as pd
from sqlalchemy import create_engine


## Conexion a la  base de datos 

In [2]:
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Análisis de tablas

### Análisis de la tabla 'books'

In [3]:
query_books = 'SELECT * FROM books LIMIT 5'
df_books = pd.read_sql(query_books, con=engine)
duplicates_books = df_books.duplicated()
if duplicates_books.any():
    print("Hay duplicados:")
    df_books[duplicates_books]
else:
    print("No se encontraron valores duplicados")
missing_values_books = df_books.isnull().sum()
if missing_values_books.any():
    print("Se encontraron valores Ausentes")
    missing_values_books[missing_values_books > 0]
else:
    print("No se encontraron valores ausentes")
df_books

No se encontraron valores duplicados
No se encontraron valores ausentes


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


### Análisis de la tabla 'authors'

In [4]:
query_authors = 'SELECT * FROM authors LIMIT 5'
df_authors = pd.read_sql(query_authors, con=engine)
duplicates_authors = df_authors.duplicated()
if duplicates_authors.any():
    print("Hay duplicados")
    df_authors[duplicates_authors]
else:
    print("No se encontraron valores duplicados")
missing_values_authors = df_authors.isnull().sum()
if missing_values_authors.any():
    print("Se encontraron valores ausentes")
    missing_values_authors[missing_values_authors > 0]
else:
    print("No se encontraron valores ausentes")
df_authors

No se encontraron valores duplicados
No se encontraron valores ausentes


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


### Análisis de la tabla 'publishers'

In [5]:
query_publishers = 'SELECT * FROM publishers LIMIT 5'
df_publishers = pd.read_sql(query_publishers, con=engine)
duplicates_publishers = df_publishers.duplicated()
if duplicates_publishers.any():
    print("Hay duplicados")
    df_publishers[duplicates_publishers]
else:
    print("No se encontraron valores duplicados")
missing_values_publishers = df_publishers.isnull().sum()
if missing_values_publishers.any():
    print("Se encontraron valores ausentes")
    missing_values_publishers[missing_values_publishers > 0]
else:
    print("No se encontraron valores ausentes")
df_publishers

No se encontraron valores duplicados
No se encontraron valores ausentes


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


### Análisis de la tabla 'ratings'

In [15]:
query_ratings = 'SELECT * FROM ratings LIMIT 5'
df_ratings = pd.read_sql(query_ratings, con=engine)
duplicates_ratings = df_ratings.duplicated()
if duplicates_ratings.any():
    print("Hay duplicados")
    df_ratings[duplicates_ratings]
else:
    print("No se encontraron valores duplicados")
missing_values_ratings = df_ratings.isnull().sum()
if missing_values_ratings.any():
    print("Se encontraron valores ausentes")
    missing_values_ratings[missing_values_ratings > 0]
else:
    print("No se encontraron valores ausentes")
df_ratings

No se encontraron valores duplicados
No se encontraron valores ausentes


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


### Análisis de la tabla 'reviews'

In [16]:
query_reviews = 'SELECT * FROM reviews LIMIT 5'
df_reviews = pd.read_sql(query_reviews, con=engine)
duplicates_reviews = df_reviews.duplicated()
if duplicates_reviews.any():
    print("Hay duplicados ")
    df_reviews[duplicates_reviews]
else:
    print("No se encontraron valores duplicados")
missing_values_reviews = df_reviews.isnull().sum()
if missing_values_reviews.any():
    print("Se encontraron valores ausentes")
    missing_values_reviews[missing_values_reviews > 0]
else:
    print("No se encontraron valores ausentes")
df_reviews

No se encontraron valores duplicados
No se encontraron valores ausentes


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Consultas SQL

In [8]:
def sql_query(query):
    return pd.io.sql.read_sql(query, con = engine)

### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [9]:
query1= '''
SELECT
    (SELECT COUNT(*) FROM books) AS total_book_count,
    COUNT(*) AS book_count_after_date
FROM
    books
WHERE
    publication_date > '2000-01-01';

    '''

sql_query(query1)

Unnamed: 0,total_book_count,book_count_after_date
0,1000,819


Un análisis de 1000 libros revela que el 81,9% de ellos, es decir, 819 libros, fueron publicados después del 1 de enero de 2000. Esto muestra una tendencia clara hacia las publicaciones más recientes.

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [23]:
query2 = '''
SELECT 
    books.title AS book_title, 
    COUNT(DISTINCT reviews.review_id) AS reviews_count,
    AVG(ratings.rating) AS average_rating
FROM 
    books
LEFT JOIN 
    reviews ON books.book_id = reviews.book_id
LEFT JOIN 
    ratings ON books.book_id = ratings.book_id
GROUP BY 
    books.title
ORDER BY 
    reviews_count DESC, 
    average_rating DESC;


'''

sql_query(query2)


Unnamed: 0,book_title,reviews_count,average_rating
0,Memoirs of a Geisha,8,4.138462
1,Twilight (Twilight #1),7,3.662500
2,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
3,Harry Potter and the Chamber of Secrets (Harry...,6,4.287500
4,The Book Thief,6,4.264151
...,...,...,...
994,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
995,Essential Tales and Poems,0,4.000000
996,Leonardo's Notebooks,0,4.000000
997,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


Se observan algunos patrones interesantes. 'Memorias de una geisha' lidera con 8 reseñas y una calificación promedio de 4.13, lo que refleja su popularidad . 'Crepúsculo (Crepúsculo #1)' le sigue con 7 reseñas, pero con una calificación más baja de 3.6.

Los libros de 'Harry Potter', cada uno con 6 reseñas, destacan con calificaciones consistentemente altas, superiores a 4.1, lo que subraya su continua popularidad . 'La ladrona de libros' también cuenta con 6 reseñas y una alta calificación promedio de 4.26, consolidando su reputación como una obra literaria reconocida.


### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [25]:
query3 = '''

SELECT 
    publishers.publisher, 
    COUNT(books.book_id) AS books_count
FROM 
    books
JOIN 
    publishers ON books.publisher_id = publishers.publisher_id
WHERE 
    books.num_pages > 50
GROUP BY 
    publishers.publisher
ORDER BY 
    books_count DESC
LIMIT 1;

'''

sql_query(query3)

Unnamed: 0,publisher,books_count
0,Penguin Books,42


Editorial 'Penguin Books' destaca notablemente.Tiene una colección diversa de 42 libros cautivadores, cada uno con más de 50 páginas. 

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [26]:
query4 = '''
SELECT 
    authors.author, 
    AVG(ratings.rating) AS average_rating
FROM 
    books
JOIN 
    authors ON books.author_id = authors.author_id
JOIN 
    ratings ON books.book_id = ratings.book_id
GROUP BY 
    authors.author
HAVING 
    COUNT(ratings.rating) > 50
ORDER BY 
    average_rating DESC
LIMIT 1;


'''
sql_query(query4)

Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.288462


El autor con la calificación promedio más alta, el dúo de J.K. Rowling y la ilustradora Mary GrandPré, el equipo detrás de la popular serie de Harry Potter, se lleva la corona. Han recibido una increíble calificación promedio de aproximadamente 4.3 estrellas.

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [20]:
query5 = '''
SELECT 
    AVG(review_count) AS average_text_reviews
FROM (
    SELECT 
        r.username, 
        COUNT(r.review_id) AS review_count
    FROM 
        ratings ra
    JOIN 
        reviews r ON ra.book_id = r.book_id AND ra.username = r.username
    WHERE 
        ra.username IN (
            SELECT 
                username
            FROM 
                ratings
            GROUP BY 
                username
            HAVING 
                COUNT(book_id) > 50
        )
    GROUP BY 
        r.username
) AS subquery;

'''
sql_query(query5)

Unnamed: 0,average_text_reviews
0,24.333333


El número promedio de reseñas escritas entre los usuarios que han calificado más de 50 libros es de aproximadamente 24.33. Estos usuarios estan comprometidos en proporcionar activamente comentarios detallados y reseñas para una cantidad significativa de libros que han calificado.

## Conclusiones

En nuestro estudio sobre el impacto del coronavirus en la industria del libro, descubrimos que los lectores están muy interesados en nuevos títulos, lo que sugiere que cualquier nuevo producto o servicio debería centrarse en ofrecer libros frescos. También observamos que algunos libros, como 'Crepúsculo', generan opiniones divididas entre los lectores, lo que destaca la importancia de entender mejor sus preferencias a través de la recopilación de más comentarios.

La magia de 'Harry Potter' sigue siendo innegable, con una base de fans dedicada y altas calificaciones constantes. Esto indica que, para atraer a los lectores, debemos crear narrativas cautivadoras y mundos inmersivos. Además, 'Penguin Books' se destaca por su habilidad para seleccionar títulos atractivos, lo que sugiere que debemos enfocarnos en la calidad, diversidad y contenido interesante para lograr el éxito.

Finalmente, notamos que hay usuarios muy comprometidos que escriben reseñas detalladas y comparten su amor por los libros. Es importante fomentar esta pasión creando una comunidad donde puedan conectarse, discutir y personalizar sus recomendaciones. Estas ideas son esenciales para desarrollar un producto o servicio que los entusiastas de los libros adorarán.