# Contenido <a id='back'></a>

* [Introducción](#intro) 
* [Etapa 1. Inicialización](inicializacion)
* [Etapa 2. Preparar los datos](#preparar)
    * [Books](#books)
    * [Authors](#authors)
    * [Publishers](#publishers)
    * [Ratings](#ratings)
    * [Reviews](#reviews)
* [Etapa 3. Realizar consultas](#consultas)
    * [Número de libros publicados después del 1 de enero de 2000](#libros)
    * [Número de reseñas de usuarios y la calificación promedio para cada libro.](#reseñas)
    * [Editorial que ha publicado el mayor número de libros con más de 50 páginas](#editorial)
    * [Autor con la más alta calificación promedio del libro](#autor)
    * [Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.](#promedio)
* [Etapa 4. Conclusión general](#general)

# Recopilar información para desarrollar aplicaciones para amantes de los libros<a id='intro'></a>

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

Este proyecto tiene como propósito identificar información valiosa para desarrollar una aplicación que ayude a satisfacer las necesidades literarias de las personas y hacer que sus días en confinamiento sean más llevaderos, además es muy probable que esta necesidad llegue a formar parte de la vida cotidiana de muchos en el futuro. Es por ello que se necesita identificar aquellos libros que fueron publicados a partir del año 2000, las calificaciones promedio, las editoriales con la mayor cantidad de libros publicados y identificar los autores con las más altas calificaciones en sus libros para que esta aplicación cumpla con las espectativas de los consumidores.

## Inicialización <a id='inicializacion'></a>

In [1]:
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import create_engine, text

In [2]:
!pip install psycopg2-binary



## Preparar los datos <a id='preparar'></a>

In [3]:
# Crear conexión a la base de datos

db_config = {'user': 'practicum_student', # nombre de usuario
'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # puerto de conexión
'db': 'data-analyst-final-project-db'} # nombre de la base de datos
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Books <a id='books'></a>

In [4]:
# tabla books

query_books= """
SELECT *
FROM books

"""
books = pd.read_sql_query(sql=text(query_books), con=engine.connect())
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


**books**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

La tabla contiene 6 campos y 1000 registros y no tiene valores ausentes. 

### Authors <a id='authors'></a>

In [6]:
# tabla authors

query_authors= """ SELECT *
                FROM authors
                
        """
authors = pd.read_sql_query(sql=text(query_authors), con=engine.connect())
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [7]:
authors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


**authors**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

La tabla contiene 2 campos y 636 registros no se encontraron valores ausentes.

### Publishers <a id='publishers'></a>

In [8]:
# tabla publishers

query_publishers= """ SELECT *
                FROM publishers
        """
publishers = pd.read_sql_query(sql=text(query_publishers), con=engine.connect())
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [9]:
publishers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


**publishers**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial
    
La tabla contiene 2 campos y 340 registro, no se encontraton valores ausentes.

### Ratings <a id='ratings'></a>

In [10]:
# tabla ratings

query_ratings= """ SELECT *
                FROM ratings
        """
ratings = pd.read_sql_query(sql=text(query_ratings), con=engine.connect())
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [11]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


**ratings**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

La tabla contiene 4 campos y 6456 registros, no se encontraron valores ausentes.

### Reviews <a id='reviews'></a>

In [12]:
# tabla reviews

query_reviews= """ SELECT *
                FROM reviews
        """
reviews = pd.read_sql_query(sql=text(query_reviews), con=engine.connect())
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [13]:
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


**reviews**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

La tabla contiene 4 campos y 2793 registros, no se encontraron valores ausentes.

## Realizar consultas <a id='consultas'></a>

### Número de libros publicados después del 1 de enero de 2000 <a id='libros'></a>

In [14]:
# Número de libros publicados después del 1 de enero de 2000

query= '''SELECT COUNT(*) AS cnt
          FROM books
          WHERE publication_date > '2000-01-01';
'''
results= pd.io.sql.read_sql(query, con=engine)
display(results)

Unnamed: 0,cnt
0,819


- Se publicaron 819 libros después de 1 de enero de 2020.

### Número de reseñas de usuarios y Calificación promedio para cada libro <a id='reseñas'></a>

In [15]:
# Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

query= '''SELECT books.book_id,
                 authors.author,
                 books.title,                
                 COUNT(reviews.review_id) AS cnt_reviews,
                 AVG(ratings.rating) AS average_rating
          FROM books 
          LEFT JOIN reviews ON books.book_id = reviews.book_id
          LEFT JOIN ratings ON books.book_id = ratings.book_id
          INNER JOIN authors ON books.author_id = authors.author_id
          GROUP BY
                books.book_id,
                authors.author,
                books.title               
          ORDER BY 
                average_rating DESC;

'''
results= pd.io.sql.read_sql(query, con=engine)
display(results)

Unnamed: 0,book_id,author,title,cnt_reviews,average_rating
0,421,Neil Gaiman/Andy Kubert/Richard Isanove/Peter ...,Marvel 1602,4,5.00
1,418,Geraldine Brooks,March,4,5.00
2,518,James Patterson,Pop Goes the Weasel (Alex Cross #5),4,5.00
3,599,Tad Williams,Stone of Farewell (Memory Sorrow and Thorn #2),2,5.00
4,598,Kelley Armstrong,Stolen (Women of the Otherworld #2),4,5.00
...,...,...,...,...,...
995,915,Thomas L. Friedman,The World Is Flat: A Brief History of the Twen...,12,2.25
996,371,William S. Burroughs/Oliver Harris/Allen Gins...,Junky,4,2.00
997,316,Joseph J. Ellis,His Excellency: George Washington,4,2.00
998,202,Christina Schwarz,Drowning Ruth,9,2.00


### Editorial que ha publicado el mayor número de libros con más de 50 páginas <a id='editorial'></a> 

In [16]:
# Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

query= ''' SELECT publishers.publisher,
                  MAX(books.cnt_books) AS max_books_count
           FROM publishers
           INNER JOIN (
                SELECT
                    publisher_id,
                    COUNT(*) AS cnt_books
                FROM 
                    books
                WHERE
                    num_pages > 50
                GROUP BY 
                    publisher_id
                ) books ON publishers.publisher_id = books.publisher_id
                GROUP BY publishers.publisher
                ORDER BY max_books_count DESC
                LIMIT 1;
    ''' 
results= pd.io.sql.read_sql(query, con=engine)
display(results)

Unnamed: 0,publisher,max_books_count
0,Penguin Books,42


- La editorial que ha publicado el mayor número de libros con más de 50 páginas es Penguin Books con 42 libros.

### Autor que tiene la más alta calificación promedio del libro <a id='autor'>

In [17]:
# Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

query= '''SELECT author,
                 subquery.avg_rating
          FROM authors
          INNER JOIN (
            SELECT 
                author_id, 
                AVG(rating) AS avg_rating
            FROM books
            INNER JOIN ratings ON books.book_id = ratings.book_id
            GROUP BY books.author_id
            HAVING COUNT(ratings.rating_id) >= 50 
            ) AS subquery ON authors.author_id = subquery.author_id
        ORDER BY subquery.avg_rating DESC
        LIMIT 1;
'''
results= pd.io.sql.read_sql(query, con=engine)
display(results)

Unnamed: 0,author,avg_rating
0,Diana Gabaldon,4.3


- Diana Gabaldon es el autor con la calificación promedio más alta 4.3.

### Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros. <a id='promedio'>

In [18]:
# Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

query= '''SELECT AVG(sub.cnt_reviews) AS average_reviews
          FROM (
            SELECT username, 
            COUNT(*) AS cnt_reviews
            FROM (
                SELECT reviews.username, 
                       reviews.text
                FROM reviews
                INNER JOIN (
                    SELECT username, 
                    COUNT(DISTINCT book_id) AS cnt_books
                    FROM ratings
                    GROUP BY username
                    HAVING COUNT(DISTINCT book_id) > 50
        ) AS subquery ON reviews.username = subquery.username
    ) AS subquery_2
        GROUP BY username
) AS sub;

'''
results= pd.io.sql.read_sql(query, con=engine)
display(results)

Unnamed: 0,average_reviews
0,24.333333


- El número promedio de reseñas de texto realizadas por los usuarios que calificaron más de 50 libros es de 24.333333

## Conclusiones generales <a id='general'></a>

El estudio se llevó a cabo con la información contenida en 5 tablas:

- books que contiene los datos de los libros está formada por 6 campos y 1000 registros y no tiene valores ausentes.
- authors que contiene los datos sobre los autores formada por 2 campos y 636 registros no se encontraron valores ausentes.
- publishers contiene datos sobre editoriales formada por 2 campos y 340 registro, no se encontraton valores ausentes.
- ratings Contiene datos sobre las calificaciones de usuarios formada por 4 campos y 6456 registros, no se encontraron valores ausentes.
- reviews contiene 4 campos y 2793 registros, no se encontraron valores ausentes.

Se realizaron una serie de consultas SQL para proporcionar información valiosa que permita desarrollar una aplicación que ayude a satisfacer las necesidades literarias de las personas, de estas consultas se extrae lo siguiente:

1. Se publicaron 819 libros después de 1 de enero de 2020.
2. Se encontró el número de reseñas de usuario y la calificación promedio de cada libro y se pueden mencionar los primeros 5 libros:
    - `Marvel 1602`	con 4 reseñas y una calificación de	5.00
	- `March`con 4 reseñas y una calificación de 5.00
	- `Pop Goes the Weasel (Alex Cross # 5)`con 4 reseñas y una calificación de	5.00
	- `Stone of Farewell (Memory Sorrow and Thorn # 2)`	con 2 reseñas y una calificación de	5.00	
    - `Stolen (Women of the Otherworld # 2)`con 4 reseñas y una calificación de 5.00
4. La editorial que ha publicado el mayor número de libros con más de 50 páginas es Penguin Books con 42 libros.
5. Diana Gabaldon es el autor con la calificación promedio más alta, su calificación promedio es de 4.3
6. El número promedio de reseñas de texto realizadas por los usuarios que calificaron más de 50 libros es de 24.333333.