---

----

# Proyecto final SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.


# Objetivo del proyecto

Nuestra tarea es accesar a la base de datos que se nos ha sifo ofrecida y obtener la información necesario para crear nuevas propuestas para un producto nuevo que se quiere lanzar y así conocer la información necesaria para lograr un éxito con el producto.

#  Descripción de los datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

# Diagrama de datos

![Untitled.webp](attachment:Untitled.webp)

Gracias al diagrama podemos conocer como se realizan los datas para su uso posterior, pero también podemos corroborar si los datos viene en el tipo de dato correcto, en este caso la columna con fechas ("publication_date" del data "books" viene en el tipo datetime, lo que nos facilita el trabajo al no tener que cambiar su tipo de dato durante las consultas.

En general pareciera que todos los datos vienen en el tipo de dato correcto, esto lo comprobaremos al lograr visualizar los datas.

# Acesso a base de datos SQL

In [1]:
# import librarias
import pandas as pd
from sqlalchemy import create_engine

In [2]:
db_config = {'user': 'practicum_student', # usuario
             'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
             'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
             'port': 5432, # portal de conexión
             'db': 'data-analyst-final-project-db' # nombre de la base de datos
            }

In [3]:
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],db_config['pwd'],db_config['host'],db_config['port'],db_config['db'])

In [4]:
#variable para guardar base de datos
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [5]:
#variable para abrir data books
books= 'SELECT* FROM BOOKS  LIMIT 10'

In [6]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(books, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


In [7]:
#variable para abrir data authors
authors= 'SELECT* FROM AUTHORS LIMIT 10'

In [8]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(authors, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


In [9]:
#variable para abrir data publishers
publishers= 'SELECT* FROM PUBLISHERS LIMIT 5'

In [10]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(publishers, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [11]:
#variable para abrir data ratings
rating= 'SELECT* FROM RATINGS LIMIT 5'

In [12]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(rating, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [13]:
#variable para abrir data reviews
reviews= 'SELECT* FROM REVIEWS LIMIT 5'

In [14]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(reviews, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


# Consultas SQL

Para esta sección respionderemos las 5 sonsultas deseadas por el cliente, con la finalidad de que los resultados obtenidos sean utilizados para generar una mejor propuesta para el nuevo producto a lanzar por la compañia.

In [15]:
#Encuentra el número de libros publicados después del 1 de enero de 2000.
number_books= """
SELECT COUNT(BOOK_ID) AS BOOKS_CNT 
FROM BOOKS 
WHERE PUBLICATION_DATE > '2000-01-01'; """

In [16]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(number_books, con = engine)

Unnamed: 0,books_cnt
0,819


Se han registrado 819 libros desde inicios de los 2000 en esta base de datos.

In [17]:
#Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
total_reviews= total_reviews= """
SELECT TITLE, 
SUM(REVIEW_ID) AS TOTAL_RESEÑAS, 
AVG(RATING) AS CALIF_PROMEDIO
FROM BOOKS
JOIN REVIEWS ON BOOKS.BOOK_ID = REVIEWS.BOOK_ID
JOIN RATINGS ON BOOKS.BOOK_ID = RATINGS.BOOK_ID
GROUP BY TITLE; """

In [18]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(total_reviews, con = engine)

Unnamed: 0,title,total_reseÑas,calif_promedio
0,The Count of Monte Cristo,219420,4.217391
1,Count Zero (Sprawl #2),1818,2.500000
2,The Botany of Desire: A Plant's-Eye View of th...,7290,3.500000
3,The Poisonwood Bible,253880,4.363636
4,The Canterbury Tales,33246,3.333333
...,...,...,...
988,Of Love and Other Demons,5382,4.500000
989,In the Heart of the Sea: The Tragedy of the Wh...,8442,3.333333
990,Welcome to Temptation (Dempseys #1),10822,5.000000
991,World's End (The Sandman #8),11106,4.500000


El número de reseñas varia demasiado entre cada título al igual que la calificación promedio que se le fue otorgada.

Visto de forma general no conocemos el género, ni autor, ni año de lanzamiento de los libros por lo cual solo podemos saber porque la diferencia en estos datos.

In [19]:
#Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas 
#(esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
top_publisher= '''
SELECT PUBLISHER,
COUNT(BOOK_ID) AS TOTAL_PUBLICATIONS
FROM PUBLISHERS 
JOIN BOOKS  ON PUBLISHERS.PUBLISHER_ID = BOOKS.PUBLISHER_ID  
WHERE NUM_PAGES > 49  
GROUP BY PUBLISHER  
ORDER BY TOTAL_PUBLICATIONS DESC; '''

In [20]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(top_publisher, con = engine)

Unnamed: 0,publisher,total_publications
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Turtleback,1
330,Atheneum Books for Young Readers: Richard Jack...,1
331,Penguin Signet,1
332,Victor Gollancz,1


La editorial "Penguin Books" es aquella con 42 libros publicados con más de 50 páginas, concluyendo que si son libros y no ediciones más pequeñas.
Será necesari conocer que libros fueron los publicados y su calificación para conocer si han sido buenos éxitos o solo ha publicado la mayor cantidad de libros sin impacto en la audiencia.

In [21]:
#Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
top_author= """
SELECT AUTHOR,
AVG(RATINGS.RATING) AS CALIFICACION_PROMEDIO                
FROM BOOKS
JOIN AUTHORS ON BOOKS.AUTHOR_ID = AUTHORS.AUTHOR_ID
JOIN RATINGS ON BOOKS.BOOK_ID = RATINGS.BOOK_ID
GROUP BY AUTHOR
HAVING COUNT(RATINGS.RATING) >= 50
ORDER BY CALIFICACION_PROMEDIO DESC;
"""

In [22]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(top_author, con = engine)

Unnamed: 0,author,calificacion_promedio
0,Diana Gabaldon,4.3
1,J.K. Rowling/Mary GrandPré,4.288462
2,Agatha Christie,4.283019
3,Markus Zusak/Cao Xuân Việt Khương,4.264151
4,J.R.R. Tolkien,4.240964
5,Roald Dahl/Quentin Blake,4.209677
6,Louisa May Alcott,4.203704
7,Rick Riordan,4.130952
8,Arthur Golden,4.107143
9,Stephen King,4.009434


Diana Gabaldon es una escritora estadounidense conocida por la saga de novelas Forastera. En sus libros se desarrolla una trama que mezcla varios estilos como pueden ser la ficción histórica, la novela romántica, el misterio, la aventura y la fantasía.
Y gracias a sus éxitos es considerada como la mejor escritora en cuanto a la calificacion dada por los usuarios.


In [23]:
#Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.
avg_reviews= """
SELECT AVG(REVIEW_COUNT) AS AVG_REVIEWS_PER_USER
FROM (
    SELECT USERNAME, COUNT(*) AS REVIEW_COUNT
    FROM REVIEWS 
    WHERE USERNAME IN (
        SELECT DISTINCT USERNAME
        FROM RATINGS
        GROUP BY USERNAME
        HAVING COUNT(DISTINCT BOOK_ID) > 50
    )
    GROUP BY USERNAME
) AS FILTERED_REVIEWS; 
"""

In [24]:
#ejecutar una consulta con SQL en python
pd.io.sql.read_sql(avg_reviews, con = engine)

Unnamed: 0,avg_reviews_per_user
0,24.333333


Los usuarios que han realizado más de 50 reseñas (lectores apasionados) han hecho un promedio de 24 (24.33333) reseñas.

# Conclusiones

- Ahora conocemos que desde inicio de los años 2000, tenemos un registro de que se han publicado 812 libros, registrados en esta base de datos.


- El promedio de calificación y numero de reseas varia demasiado entre cada libro, se deberá hacer un filtro más a fondo, según el autor o editorial o categoría que nos guie sobre estos detas y pueda ser utiliado de una forma más objetiva para el proyecto deseado.


- La editorial "Penguin Books" es en nuestro data la editorial con mayor número de libros publicados con un registro de	42 títulos, seguido por la editorial "Vintage" con	31 títulos y en 3er lugar "Grand Central Publishing" con 25 títulos. Será necesario conocer más sobre los titulos y las editoriales para conocer el impacto de estos en la audiencia y tomar decisiones a favor de la propueta a realizar, si se desea llegar a las editoriales con mayor número de publicaciones estas  pueden ser consideras.


- La escritora Estadounidense Diana Gabaldon es considerada la escritora con mejor calificacion de los usuarios con sus publicacions con un promedio de	4.300000, seguida por J.K. Rowling/Mary GrandPré con una calificacion de 4.288462 y finalizando en 3er lugar con Agatha Christie con una calificación de 4.283019. Es importante evaluar el tipo de libros que realia cada autor para así entender su calificación, aunque es importante recordar que estas calificaciones fueron dadas por los usuarios y no por gente dedicada a este fin.


- Los usuarios que han realizado más de 50 reseñas han hecho un promedio de 24 reseñas para diferentes autores de libros consideremos que no muchos usuarios harán más de 50 reseñas diferentes, lo que nos dice que de los miles usuarios que han reseado solo 24 han reseñado más de 50 libros sin duda son pocos pero si existen grandes lectores.



**Al no conocer el proyecto en el que se trabaja y las propuestas que se desean realizar esperó que la investigación sea de ayuda y guía para la toma de decisiones y el trabajo que se busca sea de éxito**