# Análisis de datos de libros: propuesta de valor para un nuevo producto

La pandemia del COVID-19 cambió la forma en que vivimos nuestras vidas cotidianas, obligando a muchas personas a quedarse en casa y reducir su contacto social. A medida que la gente buscaba nuevas formas de pasar el tiempo en casa, la lectura de libros se convirtió en una actividad popular. Esto atrajo la atención de las startups emergentes, que rápidamente comenzaron a desarrollar nuevas aplicaciones para satisfacer la creciente demanda de los amantes de los libros. 

En este proyecto, utilizaremos una base de datos proporcionada por uno de estos servicios para analizar datos sobre libros, editoriales, autores, calificaciones de clientes y reseñas de libros. A partir de estos datos, generaremos una propuesta de valor para un nuevo producto en este mercado competitivo. 

Utilizaremos herramientas de SQL para extraer información valiosa de la base de datos y ofrecer recomendaciones para posibles productos nuevos.

# Contenido <a id='back'></a>

* [2 Descripción de los datos](#descripcion_datos)
    * [1.1 Diagrama de datos](#diagrama_datos)
* [2 Acceso a la base de datos](#acceso_datos)
* [3 Estudio de las tablas](#estudio_tablas)
    * [3.1 Tabla Books](#books)
    * [3.2 Tabla Authors](#authors)
    * [3.3 Tabla Publishers](#publishers)
    * [3.4 Tabla Ratings](#ratings)
    * [3.5 Tabla Reviews](#reviews)
* [4 Exploración inicial](#exploracion_inicial)
    * [4.1 Exploración visual de los datos](#pregunta_1)
    * [4.2 Exploración visual de los datos](#pregunta_2)
    * [4.3 Exploración visual de los datos](#pregunta_3)
    * [4.4 Exploración visual de los datos](#pregunta_4)
    * [4.5 Exploración visual de los datos](#pregunta_5)
* [5 Conclusiones Finales](#conclusiones_finales)

## Descripción de los datos <a id='descripcion_datos'></a>

Recibimos las siguientes 5 tablas:

**books**:
Contiene datos sobre libros:
- book_id — identificación del libro
- author_id — identificación del autor o autora
- title — título
- num_pages — número de páginas
- publication_date — fecha de la publicación
- publisher_id — identificación de la editorial

**authors**:
Contiene datos sobre autores:
- author_id — identificación del autor o autora
- author — el autor o la autora

**publishers**:
Contiene datos sobre editoriales:
- publisher_id — identificación de la editorial
- publisher — la editorial

**ratings**:
Contiene datos sobre las calificaciones de usuarios:
- rating_id — identificación de la calificación
- book_id — identificación del libro
- username — el nombre del usuario que revisó el libro
- rating — calificación

**reviews**:
Contiene datos sobre las reseñas de los y las clientes:
- review_id — identificación de la reseña
- book_id — identificación del libro
- username — el nombre del usuario que revisó el libro
- text — el texto de la reseña

### Diagrama de datos <a id='diagrama_datos'></a>

<img src='https://github.com/emalbran/Practicum-Data-Analyst/blob/main/sql_analysis/Diagrama%20de%20Datos.png?raw=true'>

## Acceso a la base de datos <a id='acceso_datos'></a>

Para acceder a la base de datos, utilizaremos las siguientes librerias:

In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [2]:
db_config = {'user': 'practicum_student', # nombre de usuario
    'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432, # puerto de conexión
    'db': 'data-analyst-final-project-db'} # nombre de la base de datos

In [3]:
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db'])

In [4]:
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Estudio de las tablas <a id='estudio_tablas'></a>

### Tabla Books: <a id='books'></a>

In [5]:
pd.io.sql.read_sql(
    "SELECT * FROM books LIMIT 5;",
    con = engine
)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Vamos a revisar si tiene valores ausentes:

In [6]:
pd.io.sql.read_sql(
    "SELECT * "
    "FROM books "
    "WHERE publication_date IS NULL; ",
    con = engine
)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id


Se revisaron todas las columnas y no se encontraron valores ausentes.

Vamos a revisar si la tabla tiene duplicados en la columna de book_id:

In [7]:
pd.io.sql.read_sql(
    "SELECT book_id, COUNT(*) "
    "FROM books "
    "GROUP BY book_id "
    "HAVING COUNT(*) >1; ",
    con = engine
)

Unnamed: 0,book_id,count


### Tabla Authors: <a id='authors'></a>

In [8]:
pd.io.sql.read_sql(
    "SELECT * FROM authors LIMIT 5;",
    con = engine
)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [9]:
pd.io.sql.read_sql(
    "SELECT * "
    "FROM authors "
    "WHERE author_id IS NULL; ",
    con = engine
)

Unnamed: 0,author_id,author


No se encontraron valores ausentes en ninguna de las columnas.

In [10]:
pd.io.sql.read_sql(
    "SELECT author_id, COUNT(*) "
    "FROM authors "
    "GROUP BY author_id "
    "HAVING COUNT(*) >1; ",
    con = engine
)

Unnamed: 0,author_id,count


No se encontraron valores duplicados en la columna author_id.

### Tabla Publishers: <a id='publishers'></a>

In [11]:
pd.io.sql.read_sql(
    "SELECT * FROM publishers LIMIT 5;",
    con = engine
)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [12]:
pd.io.sql.read_sql(
    "SELECT * "
    "FROM publishers "
    "WHERE publisher_id IS NULL; ",
    con = engine
)

Unnamed: 0,publisher_id,publisher


No se encontraron valores duplicados para ninguna de las columnas.

In [13]:
pd.io.sql.read_sql(
    "SELECT publisher_id, COUNT(*) "
    "FROM publishers "
    "GROUP BY publisher_id "
    "HAVING COUNT(*) >1; ",
    con = engine
)

Unnamed: 0,publisher_id,count


No se encontraron valores duplicados en la columna publisher_id.

### Tabla Ratings: <a id='ratings'></a>

In [14]:
pd.io.sql.read_sql(
    "SELECT * FROM ratings LIMIT 5;",
    con = engine
)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [15]:
pd.io.sql.read_sql(
    "SELECT * "
    "FROM ratings "
    "WHERE rating_id IS NULL; ",
    con = engine
)

Unnamed: 0,rating_id,book_id,username,rating


No se encontraron valores ausentes en ninguna de las columnas.

In [16]:
pd.io.sql.read_sql(
    "SELECT rating_id, COUNT(*) "
    "FROM ratings "
    "GROUP BY rating_id "
    "HAVING COUNT(*) >1; ",
    con = engine
)

Unnamed: 0,rating_id,count


No se encontraron valores duplicados en la columna rating_id.

### Tabla Reviews: <a id='reviews'></a>

In [17]:
pd.io.sql.read_sql(
    "SELECT * FROM reviews LIMIT 5;",
    con = engine
)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [18]:
pd.io.sql.read_sql(
    "SELECT * "
    "FROM reviews "
    "WHERE review_id IS NULL; ",
    con = engine
)

Unnamed: 0,review_id,book_id,username,text


No se encontraron valores ausentes en ninguna de las columnas.

In [19]:
pd.io.sql.read_sql(
    "SELECT review_id, COUNT(*) "
    "FROM reviews "
    "GROUP BY review_id "
    "HAVING COUNT(*) >1; ",
    con = engine
)

Unnamed: 0,review_id,count


No se encontraron valores duplicados en la columna review_id.

## Exploración inicial <a id='exploracion_inicial'></a>

### Número de libros publicados desde Enero 2000  <a id='pregunta_1'></a>

Lo primero que haremos es buscar el número de libros publicados después del 1 de enero de 2000.

In [20]:
pd.io.sql.read_sql(
    "SELECT COUNT(*) AS cnt " 
    "FROM books "
    "WHERE publication_date > '2000-01-01';",
    con = engine
)

Unnamed: 0,cnt
0,819


Encontramos que se publicaron **819** libros después del primero de enero del año 2000.

### Reseñas y calificaciones de usuarios <a id='pregunta_2'></a>

Buscaremos entonces el número de reseñas de usuarios y la calificación promedio para cada libro:

In [21]:
pd.io.sql.read_sql(
    "SELECT books.title AS title, "
    "COUNT(DISTINCT reviews.review_id) AS nbr, "
    "AVG(ratings.rating) AS avg "
    "FROM ratings "
    "INNER JOIN books "
    "ON books.book_id = ratings.book_id "
    "INNER JOIN reviews "
    "ON books.book_id = reviews.book_id "
    "GROUP BY books.title "
    "ORDER BY nbr DESC;",
    con = engine
)

Unnamed: 0,title,nbr,avg
0,Memoirs of a Geisha,8,4.138462
1,Twilight (Twilight #1),7,3.662500
2,The Da Vinci Code (Robert Langdon #2),6,3.830508
3,The Road,6,3.772727
4,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
...,...,...,...
988,Naked Empire (Sword of Truth #8),1,3.500000
989,Moo Baa La La La!,1,3.000000
990,Merrick (The Vampire Chronicles #7),1,4.000000
991,Babyville,1,3.500000


Encontramos que los 5 libros con más reseñas únicas son Memoirs of a Geisha (8), Twilight (Twilight #1) (7), The Da Vinci Code (Robert Langdon #2) (6), The Road (6) y Harry Potter and the Prisoner of Azkaban (6).

Mientras que los 5 libros con menos reseñas son Naked Empire (Sword of Truth #8) (1), Moo Baa La La La!	(1), Merrick (The Vampire Chronicles #7) (1), Babyville (1) y Lysistrata (1).

In [27]:
pd.io.sql.read_sql(
    "SELECT books.title AS title, "
    "COUNT(reviews.review_id) AS nbr, "
    "AVG(ratings.rating) AS avg "
    "FROM ratings "
    "INNER JOIN books "
    "ON books.book_id = ratings.book_id "
    "INNER JOIN reviews "
    "ON books.book_id = reviews.book_id "
    "GROUP BY books.title "
    "ORDER BY avg DESC;",
    con = engine
)

Unnamed: 0,title,nbr,avg
0,School's Out—Forever (Maximum Ride #2),12,5.00
1,The War of Art: Break Through the Blocks & Win...,4,5.00
2,A Woman of Substance (Emma Harte Saga #1),4,5.00
3,Misty of Chincoteague (Misty #1),4,5.00
4,In the Hand of the Goddess (Song of the Liones...,6,5.00
...,...,...,...
988,The World Is Flat: A Brief History of the Twen...,12,2.25
989,Junky,4,2.00
990,His Excellency: George Washington,4,2.00
991,Drowning Ruth,9,2.00


Los 5 libros con mejor calificación promedio tienen menos de 15 calificaciones de hecho cuatro de ellos tienen menos de 7. Esta cantidad de calificaciones no es suficiente para poder sacar una conclusión real de que sean efectivamente los mejor calificados. De acuerdo a [Lizzie Davey de Shopify](https://www.shopify.com/blog/15359677-why-online-store-owners-should-embrace-online-reviews#:~:text=Products%20are%20270%25%20more%20likely,you%20can%20secure%2C%20the%20better.): "los productos tienen un 270 % más de probabilidades de venderse con tan solo cinco reseñas; sin embargo, un estudio descubrió que los compradores quieren ver al menos 40 reseñas para justificar una calificación de estrellas promedio. Entonces, si bien no necesita una revisión de cada cliente, cuanto más pueda asegurar, mejor.". Para nuestro estudio tomaremos 40 reseñas como mínimo.

In [28]:
pd.io.sql.read_sql(
    "SELECT books.title AS title, "
    "COUNT(reviews.review_id) AS nbr, "
    "AVG(ratings.rating) AS avg "
    "FROM ratings "
    "INNER JOIN books "
    "ON books.book_id = ratings.book_id "
    "INNER JOIN reviews "
    "ON books.book_id = reviews.book_id "
    "GROUP BY books.title "
    "HAVING COUNT(ratings.username) > 40 "
    "ORDER BY avg DESC "
    "LIMIT 5;",
    con = engine
)

Unnamed: 0,title,nbr,avg
0,Snow Flower and the Secret Fan,55,4.636364
1,And Then There Were None,110,4.454545
2,The Thirteenth Tale,45,4.444444
3,Gone with the Wind,175,4.428571
4,Matilda,76,4.421053


Los 5 libros con mejores reseñas son Snow Flower and the Secret Fan, And Then There Were None, The Thirteenth Tale, Gone with the Wind y Matilda.

### Editoriales con mayor número de libros publicados <a id='pregunta_3'></a>

Identificaremos la editorial que ha publicado el mayor número de libros con más de 50 páginas (de esta forma excluiremos folletos y publicaciones similares de nuestro análisis).

In [24]:
pd.io.sql.read_sql(
    "SELECT publishers.publisher, "
    "COUNT(books.book_id) AS nbr "
    "FROM books "
    "INNER JOIN publishers "
    "ON publishers.publisher_id = books.publisher_id "
    "WHERE books.num_pages > 50 "
    "GROUP BY publishers.publisher "
    "ORDER BY nbr DESC "
    "LIMIT 1;",
    con=engine
)

Unnamed: 0,publisher,nbr
0,Penguin Books,42


La editorial que más libros (con más de 50 páginas) a editado es Penguin Books, que a sacado a la venta 42 libros.

### Autor con la más alta calificación promedio <a id='pregunta_4'></a>

Identificaremos al autor que tiene la más alta calificación promedio del libro: Buscaremos solo los libros con al menos 50 calificaciones.

In [25]:
pd.io.sql.read_sql(
    "SELECT authors.author, "
    "AVG(ratings.rating) AS avg "
    "FROM books "
    "INNER JOIN ratings "
    "ON ratings.book_id = books.book_id "
    "INNER JOIN authors "
    "ON authors.author_id = books.author_id "
    "WHERE books.book_id IN ("
    "    SELECT book_id"
    "    FROM ratings"
    "    GROUP BY book_id"
    "    HAVING COUNT(*) >= 50"
    ") "
    "GROUP BY authors.author "
    "ORDER BY avg DESC "
    "LIMIT 1;",
    con=engine
)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.287097


La autora con la clasificación promedio más alta (4.3) es J.K. Rowling junto a Mary GrandPré. La busqueda se hizo considerando solo libros con al menos 50 calificciones.

### Promedio de reseñas por usuario <a id='pregunta_5'></a>

Encontraremos el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [26]:
pd.io.sql.read_sql(
    "SELECT AVG(reviews_count) AS avg_reviews_count "
    "FROM ( "
    "    SELECT COUNT(reviews.username) AS reviews_count "
    "    FROM reviews "
    "    INNER JOIN books ON reviews.book_id = books.book_id "
    "    INNER JOIN ( "
    "        SELECT ratings.username "
    "        FROM ratings "
    "        GROUP BY ratings.username "
    "        HAVING COUNT(ratings.book_id) > 50 "
    "    ) AS top_reviewers ON reviews.username = top_reviewers.username "
    "    GROUP BY reviews.username "
    ") AS subquery; ",
    con=engine
)

Unnamed: 0,avg_reviews_count
0,24.333333


Encontramos que en promedio los usuarios que pusieron más de 50 calificaciones escribieron 24 reseñas textuales.

## Conclusiones Finales <a id='conclusiones_finales'></a>

En general, la tarea de extraer información valiosa de la base de datos y ofrecer recomendaciones para posibles productos nuevos se ha llevado a cabo con éxito. Se han encontrado datos interesantes y útiles, como los libros más populares (Twilight, The Hobbit y de la saga Harry Potter y Lord of the Rings) y los menos populares, la editorial con más libros editados, la autora con la clasificación promedio más alta (J.K. Rowling junto a Mary GrandPré) y la cantidad promedio de reseñas textuales escritas por los usuarios que pusieron más de 50 calificaciones que corresponde a 24 reseñas.

Además, se han aplicado algunas limitaciones para considerar solo los datos más relevantes, como la cantidad mínima de reseñas necesarias para poder considerar un libro como uno de los mejor calificados, 40 reseñas.

En base a estos hallazgos, se podrían hacer recomendaciones específicas para posibles productos nuevos, por ejemplo, la publicación de más libros de fantasía y ficción, o la consideración de una colaboración con la editorial Penguin Books para la publicación de un nuevo libro.