# SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Descripción de los datos

**`books`** (Datos sobre libros):
- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`** (Datos sobre autores):
- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`** (Datos sobre editoriales):
- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`** (Calificaciones de usuarios):
- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`** (Reseñas de los y las clientes):
- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

## Describe los objetivos del estudio.


Generar una propuesta de valor para un nuevo producto para el sector literario, para el desarrollo de una aplicación para los amantes de los libros.

In [114]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine
import psycopg2


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

conn = psycopg2.connect(
            dbname=db_config["db"],
            host=db_config["host"],
            port=db_config["port"],
            user=db_config["user"],
            password=db_config["pwd"],
        )

## Estudia las tablas (imprime las primeras filas).


In [115]:
# Imprimir muestra del dataSet libros
df_books= pd.read_sql_query('SELECT * FROM books LIMIT 5;', conn)
display(df_books)


  df_books= pd.read_sql_query('SELECT * FROM books LIMIT 5;', conn)


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [116]:
# Imprimir muestra del dataSet autores
df_authors = pd.read_sql_query('SELECT * FROM authors LIMIT 5;', conn)
display(df_authors)

  df_authors = pd.read_sql_query('SELECT * FROM authors LIMIT 5;', conn)


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [117]:
# Imprimir muestra del dataSet editoriales
df_publishers = pd.read_sql_query('SELECT * FROM publishers LIMIT 5;', conn)
display(df_publishers)

  df_publishers = pd.read_sql_query('SELECT * FROM publishers LIMIT 5;', conn)


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [118]:
# Imprimir muestra del dataSet calificaciones
df_ratings = pd.read_sql_query('SELECT * FROM ratings LIMIT 5;', conn)
display(df_ratings)

  df_ratings = pd.read_sql_query('SELECT * FROM ratings LIMIT 5;', conn)


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [119]:
# Imprimir muestra del dataSet de reseñas
df_reviews = pd.read_sql_query('SELECT * FROM reviews LIMIT 5;', conn)
display(df_reviews)

  df_reviews = pd.read_sql_query('SELECT * FROM reviews LIMIT 5;', conn)


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Consulta SQL

### Número de libros publicados después del 1 de enero de 2000.


In [134]:
# Filtrar por fecha y contabilizar los titulos filtrados
pd.read_sql_query("""SELECT COUNT (title) AS publicaded_books FROM books 
                                                              WHERE (publication_date >'2000-01-01');""", conn)


  pd.read_sql_query("""SELECT COUNT (title) AS publicaded_books FROM books


Unnamed: 0,publicaded_books
0,819


### Número de reseñas de usuarios y la calificación promedio para cada libro.


In [121]:
# Unir las tablas de libros, reseñas y calificaciones; determinar el promedio de clasificaciones y cantidas de reseñas
pd.read_sql_query('''SELECT books.title AS title, 
                            AVG(ratings.rating) AS avg_rating,
                            COUNT(reviews.text) AS n_review FROM reviews 
                                                            INNER JOIN books ON books.book_id = reviews.book_id
                                                            INNER JOIN ratings ON ratings.book_id = reviews.book_id
                                                            GROUP BY books.book_id, books.title
                                                            ORDER BY COUNT(reviews.text) DESC;''', conn)

  pd.read_sql_query('''SELECT books.title AS title,


Unnamed: 0,title,avg_rating,n_review
0,Twilight (Twilight #1),3.662500,1120
1,The Hobbit or There and Back Again,4.125000,528
2,The Catcher in the Rye,3.825581,516
3,Harry Potter and the Prisoner of Azkaban (Harr...,4.414634,492
4,Harry Potter and the Chamber of Secrets (Harry...,4.287500,480
...,...,...,...
989,Debt of Honor (Jack Ryan #7),3.000000,2
990,Winter Prey (Lucas Davenport #5),4.500000,2
991,Death: The High Cost of Living,3.000000,2
992,The Iliad/The Odyssey,4.000000,2


### Editorial que ha publicado el mayor número de libros con más de 50 páginas (esto excluye folletos y publicaciones similares).


In [132]:
# Unir tablas de libros y editoriales; filtrando el número de libros publicados, contabilizando los titulos publicados y ordenandolos descendentemente
pd.read_sql_query('''SELECT books.publisher_id,
                            publishers.publisher,
                            COUNT(books.title) AS n_titles FROM publishers 
                                                           INNER JOIN books ON books.publisher_id = publishers.publisher_id
                                                           WHERE (books.num_pages>50) 
                                                           GROUP BY books.publisher_id, publishers.publisher
                                                           ORDER BY COUNT(books.title) DESC
                                                           LIMIT 1;''', conn)

  pd.read_sql_query('''SELECT books.publisher_id,


Unnamed: 0,publisher_id,publisher,n_titles
0,212,Penguin Books,42


### Autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.


In [130]:
# Unir tablas libros, calificaciones y autores; filtrando los libros con más de 50 calificaciones, sacando el promedio de estas y ordenandolos de manera descente para encontrar el mejor ranqueado
pd.read_sql_query('''SELECT authors.author,
                            AVG(rating) AS avg_rating,
                            books.title FROM books 
                                        INNER JOIN ratings ON ratings.book_id = books.book_id
                                        INNER JOIN authors ON authors.author_id = books.author_id
                                        GROUP BY authors.author, books.title
                                        HAVING COUNT(ratings.book_id)>50
                                        ORDER BY COUNT(ratings.rating) DESC
                                        LIMIT 1''', conn)

  pd.read_sql_query('''SELECT authors.author,


Unnamed: 0,author,avg_rating,title
0,Stephenie Meyer,3.6625,Twilight (Twilight #1)


### Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [124]:
# Se realiza una recopilación de valores mayores de 50 calificaciones, para determinar los usuarios y hacer la contabilización de sus reseñas; finalmente se envuelve en una subcolsulta de promedia cantidad de estas
pd.read_sql_query('''SELECT AVG(n_text) AS avg_review_text FROM (
                                                                  SELECT username, COUNT(text) AS n_text FROM reviews 
                                                                                                         WHERE username IN (SELECT username FROM ratings 
                                                                                                                            GROUP BY username
                                                                                                                            HAVING COUNT(rating) > 50)
                                                                                                                        GROUP BY username) AS SUB''', conn)

  pd.read_sql_query('''SELECT AVG(n_text) AS avg_review_text FROM (


Unnamed: 0,avg_review_text
0,24.333333


In [126]:
pd.read_sql_query('''SELECT username, COUNT(text) AS n_text FROM reviews 
                                                            WHERE username IN (SELECT username FROM ratings 
                                                                                               GROUP BY username
                                                                                               HAVING COUNT(rating) > 50)
                                                                                GROUP BY username''', conn)

  pd.read_sql_query('''SELECT username, COUNT(text) AS n_text FROM reviews


Unnamed: 0,username,n_text
0,sfitzgerald,28
1,jennifermiller,25
2,xdavis,18
3,paul88,22
4,martinadam,27
5,richard89,26


In [128]:
# Unir tablas libros, calificaciones y autores; filtrando los libros con más de 50 calificaciones, sacando el promedio de estas y ordenandolos de manera descente para encontrar el mejor ranqueado
pd.read_sql_query('''SELECT authors.author,
                            books.publisher_id,
                            AVG(rating) AS avg_rating,
                            books.title FROM books 
                                        INNER JOIN ratings ON ratings.book_id = books.book_id
                                        INNER JOIN authors ON authors.author_id = books.author_id
                                        GROUP BY authors.author, books.title, books.publisher_id
                                        HAVING COUNT(ratings.book_id)>50
                                        ORDER BY COUNT(ratings.rating) DESC
                                        LIMIT 1''', conn)

  pd.read_sql_query('''SELECT authors.author,


Unnamed: 0,author,publisher_id,avg_rating,title
0,Stephenie Meyer,176,3.6625,Twilight (Twilight #1)


## Conclusiones

- 819 se han publicado despues del 01 de Enero del 2000, aumentando un 78% de las publicaciones previas a la fecha 
- Número de reseñas por libro tiene un rango de 1120 a 2, sin embargo las calificaciónes no estan directamente ligadas al numero de reseñas, teniendo una escala de 1 a 5.
- Penguin Books es la editorial que ha publicado 42 libros con más de 50 páginas, teniendo la mayor cantidad de publicaciones.
- La autora Stephenie Meyer tiene el mejor promedio de calificación de 3.6625 con libros de más de 50 calificaciones, para el libro Twilight (Twilight #1) con 1120 reseñas, teniendo un 53% más de reseñas con respecto al 'The Hobbit or There and Back Again' que tiene mejor calificación (4.12).
- El número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros es de 24.3, en un rango de 28 a 18 reseñas.