## Rating de puntuación de autores y libros

En el contexto de la era digital, aun los libros forman parte importante en la adquisición de conocimiento y entretenimiento. A partir de marzo de 2020 la compra de libros mostró un aumento por un evento mundial. 

A continuación estudiaremos extrayendo desde una base de datos la información referente a libros, editoriales, reseñas de usuarios y puntuaciones obtenidas.

### Contenido

* Objetivos de estudio

* Importación de librerias

* Conexión a la base de datos

* Estudio exploratorio de las tablas

* Desarrollo

    * Encuentra el número de libros publicados después del 1 de enero de 2000.
    * Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
    * Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas
    * Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50  calificaciones.
    * Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

* Resumen

### Objetivos del estudio.

En esta sección se trabajará con bases de datos de editoriales, información de libros y autores.

* Cargar los dataset que estan alojados en la base de datos 

* Realizar el analisis de la información contenida.

* Encontrar el número de libros publicados a partir de una fecha determinada.

* Determinar que autores tienen la mayor puntuación.

* Encuentrar el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

En el siguiente link esta el diagrama de la base de datos que se manejará en el proyecto

 ! [Imagen](https://drive.google.com/file/d/1Q3RptmyEt47578SN-RvDTndpDTLaIxEC/view?usp=sharing)

### Importar las librerias

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine
from PIL import Image 

### Conexion a la base de datos

In [2]:
db_config = {'user': 'practicum_student', # nombre de usuario
'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # puerto de conexión
'db': 'data-analyst-final-project-db'} # nombre de la base de datos
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Estudio exploratorio de las tablas

#### Estudio de la tabla *books*

In [3]:
#Estudiamos la tabla books
consulta=""" SELECT *
            FROM books  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


resultado.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


##### Determinar si hay valores en blanco o Null

In [4]:
#Busqueda de valores Null o en blanco
consulta=""" SELECT * 
            FROM books where title = 'NULL' or  title = ''  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


display(resultado)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id


No se han encontrado valores en blanco o filas que contengan valores Null

##### Busqueda de duplicados

In [5]:
#Busqueda de filas duplicados
consulta=""" SELECT title FROM books
            group by title
            HAVING COUNT(*)> 1 """

resultado= pd.io.sql.read_sql(consulta, con = engine)
    

resultado

Unnamed: 0,title
0,Memoirs of a Geisha


Ha aparecido Memoirs of a Geisha, exploraremos si en realidad esta duplicado este libro

In [6]:
#Estudiamos la tabla books
consulta=""" SELECT * FROM books
            where title = 'Memoirs of a Geisha' """

resultado= pd.io.sql.read_sql(consulta, con = engine)
    

resultado

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,426,39,Memoirs of a Geisha,434,2005-11-15,241
1,427,39,Memoirs of a Geisha,503,2005-11-22,311


Se observa que no la misma fila repetida, ya que el numero de pagina es diferente en ambos y el número de identificador de la editorial es diferente, asi que no es una fila duplicada. 

#### Estudio de la tabla *authors*

In [7]:
#Estudiamos la tabla authors
consulta=""" SELECT *
            FROM authors  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


resultado.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


##### Determinar si hay valores en blanco o Null

In [8]:
#Estudiamos la tabla authors
consulta=""" SELECT * 
            FROM authors where author = 'NULL' or  author = ''  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


resultado

Unnamed: 0,author_id,author


No hay valores en blanco o Null

##### Busqueda de autores duplicados

In [9]:
#Buscando los duplicados en authors
consulta=""" SELECT author FROM authors
            group by author
            HAVING COUNT(*)> 1 """

resultado= pd.io.sql.read_sql(consulta, con = engine)
    

resultado

Unnamed: 0,author


No se encontraron autores duplicados en la tabla

#### Estudio de la tabla publishers

In [10]:
#Estudiamos la tabla publishers
consulta=""" SELECT *
            FROM publishers  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


resultado.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


##### Busqueda de valores en blanco o Null

In [11]:
#Estudiamos la tabla publishers para valores en blanco o null
consulta=""" SELECT * 
            FROM publishers where publisher = 'NULL' or  publisher = ''  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


display(resultado)

Unnamed: 0,publisher_id,publisher


No se encontraron valores en blanco o Null en la tabla

##### Busqueda de filas duplicadas

In [12]:
#Estudiamos la tabla publishers buscando filas duplicadas
consulta=""" SELECT publisher FROM publishers
            group by publisher
            HAVING COUNT(*)> 1 """

resultado= pd.io.sql.read_sql(consulta, con = engine)
    

display(resultado)

Unnamed: 0,publisher


No se encontraron filas que tuvieran nombres de las editoriales duplicados

#### Estudio de la tabla ratings

In [13]:
#Estudiamos la tabla ratings
consulta=""" SELECT *
            FROM ratings  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


display(resultado.head())

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


##### Busqueda de datos en blanco o Null

In [14]:
#Estudiamos la tabla ratings
consulta=""" SELECT * 
            FROM ratings where username = 'NULL' or  username = ''  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


display(resultado)

Unnamed: 0,rating_id,book_id,username,rating


No se encontraron valores en blanco o Null en la tabla de ratings

##### Buscando filas duplicadas para los usuarios de los ratings

In [15]:
#Busqueda de usuarios duplicados en la table ratings
consulta=""" SELECT CONCAT(username,'_',book_id) as username_libro FROM ratings
            group by CONCAT(username,'_',book_id)
            HAVING COUNT(*)>1 """

resultado= pd.io.sql.read_sql(consulta, con = engine)
    

display(resultado)

Unnamed: 0,username_libro


No se encontraron filas duplicadas con los nombres de los usuarios en la tabla ratings

#### Estudio de la tabla reviews

In [16]:
#Estudiamos la tabla reviews
consulta=""" SELECT *
            FROM reviews  """

resultado= pd.io.sql.read_sql(consulta, con = engine)

#print(resultado)
resultado.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


##### Buscamos valores en blanco o Null 

In [17]:
#Estudiamos la tabla reviews
consulta=""" SELECT * 
            FROM reviews where text = 'NULL' or  text = ''  """

resultado= pd.io.sql.read_sql(consulta, con = engine)


display(resultado)

Unnamed: 0,review_id,book_id,username,text


No se encontraron valores en blanco o null en la tabla

##### Busqueda de filas duplicadas en la tabla reviews

In [18]:
#Estudiamos la tabla reviews
consulta=""" SELECT CONCAT(username,'_',book_id) as username_libro FROM reviews
            group by CONCAT(username,'_',book_id)
            HAVING COUNT(*)>1 """

resultado= pd.io.sql.read_sql(consulta, con = engine)
    

display(resultado)

Unnamed: 0,username_libro


No se encontraron filas duplicadas en la tabla reviews en los usuarios

### Desarrollo

#### Encontrar el número de libros publicados después del 1ro de enero de 2000

In [19]:
#Encuentra el número de libros publicados después del 1 de enero de 2000.

consulta=""" SELECT count(book_id) as Numero_de_Libros_Publicados
             FROM books 
             WHERE publication_date> '2000-01-01' """

resultado= pd.io.sql.read_sql(consulta, con = engine)

display(resultado)



Unnamed: 0,numero_de_libros_publicados
0,819


Se han publicado 819 libros después del 1° de enero del año 2000

#### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro

In [20]:
#Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

consulta="""SELECT reviews.book_id,books.title as Libro, count(reviews.review_id) as reseñas,ROUND(AVG(ratings.rating),2) as calificación
            FROM reviews
            JOIN ratings ON reviews.book_id=ratings.book_id
            JOIN books ON reviews.book_id=books.book_id
            GROUP BY  reviews.book_id ,books.title
            ORDER BY count(reviews.review_id) , ROUND(AVG(ratings.rating),2) DESC """

resultado= pd.io.sql.read_sql(consulta, con = engine),

display(resultado)



(     book_id                                              libro  reseñas  \
 0        625  The Adventures of Tom Sawyer and Adventures of...        2   
 1        330  How to Be a Domestic Goddess: Baking and the A...        2   
 2        599  Stone of Farewell (Memory  Sorrow  and Thorn  #2)        2   
 3         14     A Christmas Carol and Other Christmas Writings        2   
 4        984                  Winter Prey (Lucas Davenport  #5)        2   
 ..       ...                                                ...      ...   
 989      299  Harry Potter and the Chamber of Secrets (Harry...      480   
 990      302  Harry Potter and the Prisoner of Azkaban (Harr...      492   
 991      673                             The Catcher in the Rye      516   
 992      750                The Hobbit  or There and Back Again      528   
 993      948                            Twilight (Twilight  #1)     1120   
 
      calificación  
 0            5.00  
 1            5.00  
 2         

Se puede observar que los tres primero libros tienen la mayor calificación del dataset con 5 puntos, pero tienen solo 2 reseñas, mientras que el último libro solo tiene una clasificación de 3.66 puntos pero tiene un alto número de reseñas 1120.

#### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas 

In [21]:
#Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

consulta="""SELECT publishers.publisher_id as Editorial_id,publishers.publisher as Editorial, Count(books.book_id) as Cantidad_de_Libros 
            FROM publishers
            JOIN books ON publishers.publisher_id=books.publisher_id and books.num_pages>50 
            GROUP BY  publishers.publisher_id 
            ORDER BY Count(books.book_id) DESC """

resultado= pd.io.sql.read_sql(consulta, con = engine),

display(resultado)


(     editorial_id                     editorial  cantidad_de_libros
 0             212                 Penguin Books                  42
 1             309                       Vintage                  31
 2             116      Grand Central Publishing                  25
 3             217              Penguin Classics                  24
 4              33              Ballantine Books                  19
 ..            ...                           ...                 ...
 329            34         Ballantine Books (NY)                   1
 330           225                 Plaza y Janés                   1
 331           138       HarperCollinsPublishers                   1
 332           245  Random House: Modern Library                   1
 333           205                 Pan Childrens                   1
 
 [334 rows x 3 columns],)

La editorial Penguin Books es la editorial que más libros ha publicado con 42 libros, seguida por Vintage con 31 libros, de más de 50 páginas, de esta forma se han filtrado las publicaciones de tipo folleto.

#### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones. 


In [22]:
#Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.   #Count(ratings.rating)>50 and

consulta=""" SELECT authors.author_id as Author_id, authors.author as Author, ROUND(AVG(ratings.rating),2) as calificación_promedio 
            FROM  authors
            JOIN books ON  books.author_id= authors.author_id  
            JOIN ratings ON ratings.book_id= books.book_id  WHERE ratings.book_id in (SELECT ratings.book_id AS cantidad FROM ratings GROUP BY ratings.book_id  HAVING COUNT(ratings.rating)>=50 ) 
            GROUP BY authors.author_id order by ROUND(AVG(ratings.rating),2) DESC """

resultado= pd.io.sql.read_sql(consulta, con = engine),

display(resultado)



(    author_id                                             author  \
 0         236                         J.K. Rowling/Mary GrandPré   
 1         402                  Markus Zusak/Cao Xuân Việt Khương   
 2         240                                     J.R.R. Tolkien   
 3         376                                  Louisa May Alcott   
 4         498                                       Rick Riordan   
 5         621                                    William Golding   
 6         235                                      J.D. Salinger   
 7         469           Paulo Coelho/Alan R. Clarke/Özdemir İnce   
 8         630  William Shakespeare/Paul Werstine/Barbara A. M...   
 9         372                                         Lois Lowry   
 10        106                                          Dan Brown   
 11        195            George Orwell/Boris Grabnar/Peter Škerl   
 12        554                                    Stephenie Meyer   
 13        311                    

Las autoras J.K. Rolling  y Mary GrandPré son las autoras con la mayor calificación promedio de 4.29, seguidas por Markus Zusak, Cao Xuân Việt Khương con 4.26. 

#### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [23]:
#Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

consulta="""SELECT reviews.book_id,books.title as Libro, AVG(reviews.review_id) as promedio_reseñas 
        FROM reviews
        JOIN books ON  books.book_id= reviews.book_id
        JOIN ratings ON reviews.book_id=ratings.book_id WHERE reviews.book_id in 
        ( Select ratings.book_id FROM ratings GROUP BY ratings.book_id  HAVING COUNT(ratings.rating)>=50 ) 
        GROUP BY reviews.book_id ,books.title
        ORDER BY AVG(reviews.review_id) DESC """

resultado= pd.io.sql.read_sql(consulta, con = engine),

display(resultado)

(    book_id                                              libro  \
 0       948                            Twilight (Twilight  #1)   
 1       779  The Lightning Thief (Percy Jackson and the Oly...   
 2       750                The Hobbit  or There and Back Again   
 3       733                          The Giver (The Giver  #1)   
 4       722  The Fellowship of the Ring (The Lord of the Ri...   
 5       696             The Da Vinci Code (Robert Langdon  #2)   
 6       673                             The Catcher in the Rye   
 7       656                                     The Book Thief   
 8       627                                      The Alchemist   
 9       545                                   Romeo and Juliet   
 10      488                                    Of Mice and Men   
 11      405                                  Lord of the Flies   
 12      399                                       Little Women   
 13      302  Harry Potter and the Prisoner of Azkaban (Harr..

The Twilight tiene el mayor número de reseñas promedios con 2646, le sigue The Lightning Thief con 2166,5. El que menos reseñas promedio tiene es  Angels & Demons con 218

### Resumen

* Se realizó conexión a una base de datos, y se extrageron tablas que contienen información de libros, editoriales, autores, y reseñas

* Se realizó el analisis exploratorio de cada una de las tablas en busqueda de filas duplicadas, valores en blanco y valores Null

* Se determinó que después del 1 de enero del 2020 se publicaron 819 libros

* Se puedo observar que los tres primero libros tienen la mayor calificación del dataset con 5 puntos, pero tienen solo 2 reseñas, mientras que el último libro solo tiene una clasificación de 3.66 puntos pero tiene un alto número de reseñas 1120, esto indica que no siempre un alto número de reseñas permite obtener altas calificaiones.

* La editorial Penguin Books es la editorial que más libros ha publicado con 42 libros de más de 50 páginas

* Las autoras J.K. Rolling y Mary GrandPré son las autoras con la mayor calificación promedio de 4.29, por el contrario John Steinbeck tiene la calificación más baja con 3.62

* The Twilight tiene el mayor número de reseñas promedios con 2646, le sigue The Lightning Thief con 2166,5. El que menos reseñas promedio tiene es  Angels & Demons con 218