# Descripción de proyecto

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Tenemos una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

# Indice

1. Descripción de proyecto
2. Inicio
3. Descripción de datos
4. Valores nulos
5. Ejercicios
6. Conclusión

# Inicio

In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [2]:
db_config = {'user': 'praktikum_student',         # user name
             'pwd': 'Sdf4$2;d-d30pp', # password
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # connection port
             'db': 'data-analyst-final-project-db'}          # the name of the data base

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

query = """
SELECT * 
FROM books
limit 5
"""

results = pd.io.sql.read_sql(query, con = engine)
results

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


# Descripción de datos

In [3]:
# creamos una consulta a la tabla 'books'
query="SELECT * FROM public.books LIMIT 5"

# realizamos la consulta a la BD
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**BOOKS**

**Contiene datos sobre libros:**

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

In [4]:
# creamos una consulta a la tabla 'authors'
query="SELECT * FROM public.authors LIMIT 5"

# realizamos la consulta a la BD
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**AUTHORS**

**Contiene datos sobre autores:**

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora
---

In [5]:
# creamos una consulta a la tabla 'publishers'
query="SELECT * FROM public.publishers LIMIT 5"

# realizamos la consulta a la BD
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**PUBLISHERS**

**Contiene datos sobre editoriales:**

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial
---

In [6]:
# creamos una consulta a la tabla 'ratings'
query="SELECT * FROM public.ratings LIMIT 5"

# realizamos la consulta a la BD
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**RATINGS**

**Contiene datos sobre las calificaciones de usuarios:**

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

In [7]:
# creamos una consulta a la tabla 'reviews'
query="SELECT * FROM public.reviews LIMIT 5"

# realizamos la consulta a la BD
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


**REVIEWS**

**Contiene datos sobre las reseñas de los y las clientes:**

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

# Valores nulos y duplicados

In [15]:
# Definir la consulta SQL para cargar datos
query = "SELECT * FROM public.books"

# Ejecutar la consulta y cargar los datos en un DataFrame
df = pd.read_sql(query, con=engine)

# Verificar la presencia de valores nulos en el DataFrame
valores_nulos = df.isnull().sum()

# Imprimir la cantidad de valores nulos en cada columna
print("Valores nulos en cada columna:")
print(valores_nulos)

# Verificar valores duplicados en el DataFrame
valores_duplicados = df[df.duplicated()]

# Imprimir los valores duplicados
print("\nValores duplicados:")
print(valores_duplicados)

# Contar la cantidad de filas duplicadas
cantidad_duplicados = valores_duplicados.shape[0]
print("\nCantidad de filas duplicadas:", cantidad_duplicados)

Valores nulos en cada columna:
book_id             0
author_id           0
title               0
num_pages           0
publication_date    0
publisher_id        0
dtype: int64

Valores duplicados:
Empty DataFrame
Columns: [book_id, author_id, title, num_pages, publication_date, publisher_id]
Index: []

Cantidad de filas duplicadas: 0


In [16]:
# Definir la consulta SQL
query="SELECT * FROM public.authors"

# Ejecutar la consulta y cargar los datos en un DataFrame
df = pd.read_sql(query, con=engine)

# Verificar la presencia de valores nulos en el DataFrame
valores_nulos = df.isnull().sum()

# Imprimir la cantidad de valores nulos en cada columna
print("Valores nulos en cada columna:")
print(valores_nulos)

# Verificar valores duplicados en el DataFrame
valores_duplicados = df[df.duplicated()]

# Imprimir los valores duplicados
print("\nValores duplicados:")
print(valores_duplicados)

# Contar la cantidad de filas duplicadas
cantidad_duplicados = valores_duplicados.shape[0]
print("\nCantidad de filas duplicadas:", cantidad_duplicados)

Valores nulos en cada columna:
author_id    0
author       0
dtype: int64

Valores duplicados:
Empty DataFrame
Columns: [author_id, author]
Index: []

Cantidad de filas duplicadas: 0


In [17]:
# Definir la consulta SQL
query="SELECT * FROM public.publishers"

# Ejecutar la consulta y cargar los datos en un DataFrame
df = pd.read_sql(query, con=engine)

# Verificar la presencia de valores nulos en el DataFrame
valores_nulos = df.isnull().sum()

# Imprimir la cantidad de valores nulos en cada columna
print("Valores nulos en cada columna:")
print(valores_nulos)

# Verificar valores duplicados en el DataFrame
valores_duplicados = df[df.duplicated()]

# Imprimir los valores duplicados
print("\nValores duplicados:")
print(valores_duplicados)

# Contar la cantidad de filas duplicadas
cantidad_duplicados = valores_duplicados.shape[0]
print("\nCantidad de filas duplicadas:", cantidad_duplicados)

Valores nulos en cada columna:
publisher_id    0
publisher       0
dtype: int64

Valores duplicados:
Empty DataFrame
Columns: [publisher_id, publisher]
Index: []

Cantidad de filas duplicadas: 0


In [18]:
# Definir la consulta SQL
query="SELECT * FROM public.ratings"

# Ejecutar la consulta y cargar los datos en un DataFrame
df = pd.read_sql(query, con=engine)

# Verificar la presencia de valores nulos en el DataFrame
valores_nulos = df.isnull().sum()

# Imprimir la cantidad de valores nulos en cada columna
print("Valores nulos en cada columna:")
print(valores_nulos)

# Verificar valores duplicados en el DataFrame
valores_duplicados = df[df.duplicated()]

# Imprimir los valores duplicados
print("\nValores duplicados:")
print(valores_duplicados)

# Contar la cantidad de filas duplicadas
cantidad_duplicados = valores_duplicados.shape[0]
print("\nCantidad de filas duplicadas:", cantidad_duplicados)

Valores nulos en cada columna:
rating_id    0
book_id      0
username     0
rating       0
dtype: int64

Valores duplicados:
Empty DataFrame
Columns: [rating_id, book_id, username, rating]
Index: []

Cantidad de filas duplicadas: 0


In [14]:
# Definir la consulta SQL
query="SELECT * FROM public.reviews"

# Ejecutar la consulta y cargar los datos en un DataFrame
df = pd.read_sql(query, con=engine)

# Verificar la presencia de valores nulos en el DataFrame
valores_nulos = df.isnull().sum()

# Imprimir la cantidad de valores nulos en cada columna
print(valores_nulos)

review_id    0
book_id      0
username     0
text         0
dtype: int64


# Ejercicios

### Número de libros publicados después del 1 de enero de 2000

In [15]:
# creamos una consulta a la tabla 'books'
query="SELECT COUNT(book_id) FROM public.books WHERE publication_date>'2000-01-01'"

# realizamos la consulta a la BD
count_books=pd.io.sql.read_sql(query, con = engine)
print(f'Despues del 01 de enero de 2000 se publicaron: ', count_books.iloc[0,0],' libros')

Despues del 01 de enero de 2000 se publicaron:  819  libros


### Número de reseñas de usuarios y la calificación promedio para cada libro

In [17]:
# creamos una consulta a la tabla 'books' y sus uniones con 'ratings' y 'reviews'
query="""
SELECT b.book_id, COUNT(r.review_id) AS conteo_review_id, AVG(ra.rating) AS promedio_rating
FROM public.books b
JOIN public.reviews r ON b.book_id = r.book_id
JOIN public.ratings ra ON b.book_id = ra.book_id
GROUP BY b.book_id;
"""
review_rating_by_book=pd.io.sql.read_sql(query, con = engine)
review_rating_by_book.head()

Unnamed: 0,book_id,conteo_review_id,promedio_rating
0,652,4,4.5
1,273,4,4.5
2,51,60,4.25
3,951,4,4.0
4,839,28,4.285714


### Identificar la editorial que ha publicado el mayor número de libros con más de 50 páginas

In [24]:
# creamos una consulta a la tabla 'books' y su union con 'publisher'
query="""
SELECT publisher, COUNT(book_id) AS conteo
FROM public.books b
JOIN public.publishers p ON b.publisher_id = p.publisher_id
WHERE num_pages > 50
GROUP BY publisher
ORDER BY conteo DESC
LIMIT 10;
"""
publisher=pd.io.sql.read_sql(query, con = engine)
publisher

Unnamed: 0,publisher,conteo
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
5,Bantam,19
6,Berkley,17
7,St. Martin's Press,14
8,Berkley Books,14
9,William Morrow Paperbacks,13


Después de analizar la base de datos, hemos identificado las 10 principales editoriales que publican libros con más de 50 páginas. En la cima de la lista se encuentra "Penguin Books" con un total de 42 libros, seguido de cerca por "Vintage" con 31 libros. Esta información sugiere que estas dos editoriales tienen una presencia significativa en la publicación de libros más extensos. Además, "Grand Central Publishing," "Penguin Classics," "Ballantine Books," y "Bantam" también son editoriales destacadas en esta categoría, con un número considerable de libros que cumplen con este criterio. Este análisis puede ser útil para comprender qué editoriales están contribuyendo más a la producción de libros más largos en la base de datos.

### Identificar al autor que tiene la más alta calificación promedio del libro: mirar solo los libros con al menos 50 calificaciones

In [23]:
# creamos una consulta a la tabla 'books' y sus uniones con 'authors' y 'ratings'
query="""
SELECT a.author, AVG(ra.rating) AS promedio_rating, COUNT(ra.book_id) AS conteo
FROM public.books b
JOIN public.authors a ON b.author_id = a.author_id
JOIN public.ratings ra ON b.book_id = ra.book_id
WHERE b.book_id IN (
                    SELECT book_id
                    FROM public.ratings
                    GROUP BY book_id
                    HAVING COUNT(book_id) >= 50
                    )
GROUP BY a.author
ORDER BY promedio_rating DESC
LIMIT 10;
"""
author=pd.io.sql.read_sql(query, con = engine)
author

Unnamed: 0,author,promedio_rating,conteo
0,J.K. Rowling/Mary GrandPré,4.287097,310
1,Markus Zusak/Cao Xuân Việt Khương,4.264151,53
2,J.R.R. Tolkien,4.246914,162
3,Louisa May Alcott,4.192308,52
4,Rick Riordan,4.080645,62
5,William Golding,3.901408,71
6,J.D. Salinger,3.825581,86
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474,57
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879,66
9,Lois Lowry,3.75,56


Hemos analizado los datos y hemos identificado a los 10 autores principales que han recibido las calificaciones promedio más altas para sus libros, considerando aquellos que tienen al menos 50 calificaciones.

J.K. Rowling/Mary GrandPré: Promedio de calificación - 4.29, con un total de 310 calificaciones.
Markus Zusak/Cao Xuân Việt Khương: Promedio de calificación - 4.26, con un total de 53 calificaciones.
J.R.R. Tolkien: Promedio de calificación - 4.25, con un total de 162 calificaciones.

Estos resultados proporcionan información valiosa sobre los autores cuyos libros tienen las calificaciones promedio más altas en la base de datos, lo que podría ser útil para los lectores que buscan obras de alta calidad.

### Encontrar el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros

In [25]:
# creamos una consulta a la tabla 'reviews' y una subconsulta a la tabla 'ratings'
query="""
SELECT AVG(tabla1.conteo_text) AS promedio_conteo_text
FROM (
    SELECT COUNT(r.text) AS conteo_text
    FROM public.reviews r
    WHERE r.username IN (
                        SELECT username
                        FROM public.ratings
                        GROUP BY username
                        HAVING COUNT(book_id)>50
                        )
        
) AS tabla1;
"""
promedio_reviews=pd.io.sql.read_sql(query, con = engine)
promedio_reviews

Unnamed: 0,promedio_conteo_text
0,146.0


# Conclusión

En general, los datos proporcionados sobre los libros publicados después del **01 de enero de 2000** ofrecen una visión fascinante del mundo literario moderno. Durante este período, se han publicado un total de 819 libros, lo que refleja una industria editorial vibrante y en constante crecimiento.

Entre los libros más destacados, encontramos varios títulos que han sido altamente aclamados por los lectores, con calificaciones promedio sobresalientes. Estos libros han logrado capturar la imaginación y el interés de los lectores, gracias a sus historias cautivadoras y estilos de escritura envolventes.

En términos de editoriales, algunas se destacan por su papel fundamental en la difusión de nuevas obras literarias. Penguin Books, Vintage, Grand Central Publishing, Penguin Classics, Ballantine Books y Bantam son algunas de las editoriales que han contribuido significativamente a la diversidad de opciones disponibles para los lectores.

Los autores también han dejado una impresión duradera en la comunidad lectora. Aquellos con calificaciones promedio más altas, como J.K. Rowling/Mary GrandPré, Markus Zusak/Cao Xuân Việt Khương y J.R.R. Tolkien, han demostrado su habilidad para crear obras que resuenan profundamente con los lectores y que han recibido elogios por sus narrativas magistrales.

Además, la participación activa de los lectores es evidente en las reseñas y calificaciones que han proporcionado para aproximadamente 146 libros en promedio. Esta retroalimentación es esencial para el mundo literario, ya que permite a los autores y editoriales comprender las preferencias del público y mejorar continuamente sus obras.

En conjunto, estos datos resaltan la vitalidad de la industria literaria en la era moderna y la importancia de los lectores como participantes clave en este proceso creativo. La diversidad de géneros, estilos y voces presentes en los libros publicados después del 01 de enero de 2000 demuestra que la literatura continúa siendo una fuente inagotable de conocimiento, entretenimiento y enriquecimiento cultural para la sociedad. Con cada libro publicado y cada reseña compartida, la comunidad lectora sigue nutriendo la magia de la palabra escrita y su poder para inspirar, emocionar y conectar a las personas en todo el mundo.