# Proyecto SQL

## Tabla de Contenido<a id='back'></a>

1. [Importando librerías](#step1)
2. [Descripción del problema](#step2)
3. [Objetivo del problema](#step3)
4. [Instrucciones para completar el proyecto](#step4) 
5. [Descripción general de los datos](#step5) 
6. [Descripción de los datos](#step6) 
7. [Diagrama de datos](#step7)
8. [Conectar con la base de datos](#step8)
9. [Estudia las tablas](#step9) 
10. [Consulta SQL para cada una de las tareas](#step10)
11. [Conclusiones](#step11)

## Importando librerías<a name='step1'></a>

In [1]:
#Librerías DA
import pandas as pd

# SQL
from sqlalchemy import create_engine

#Libreria HTML
from IPython.display import Image
from IPython.display import display, HTML

## Descripción del problema<a name='step2'></a>

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

## Objetivo del problema<a name='step3'></a>

Generar una propuesta de valor para un nuevo producto con base a los datos proporcionados datasets de libros, editoriales, autores, calificaciones y reseñas de libros de clientes. Entonces se trata de la declaración que destaca los beneficios clave que la empresa proporciona a sus clientes, diferenciándose claramente de la competencia.


***Lo que vas a investigar (objetivos secundarios):***

- Encuentra el número de libros publicados después del 1 de enero de 2000.
- Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
- Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
- Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
- Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 librsition.asp

## Instrucciones para completar el proyecto<a name='step4'></a>



- Estudia las tablas (imprime las primeras filas).
- Realiza una consulta SQL para cada una de las tareas.
- Genera los resultados de cada consulta en el Notebook.
- Describe tus conclusiones para cada una de las tareas

## Descripción general de los datos<a name='step5'></a>
***Lo que nos dieron***

Contamos con cinco base de datos:
- Tabla de libros
- Tabla de autores
- Tabla de editorial
- Tabla de rating (calificaciones de usuarios)
- Tabla de las reseñas de los libros

## Descripción de los datos<a name='step6'></a>

`**books**`

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

`**authors**`

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

`**publishers**`

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

`**ratings**`

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

`**reviews**`

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

## Diagrama de datos<a name='step7'></a>

In [2]:
Image(url="https://miryamflores.com/sprint/diagramasql.png")

[Volver al Índice](#back)

# Conectar con la base de datos<a name='step8'></a>

In [4]:
# Crear conexión con la base de datos
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Estudiar las tablas<a name='step9'></a>

Primero creamos una función para ejecutar la consulta e imprimir las primeras filas de las bases de datos que nos proporcionaron.

In [5]:
# Creamos una función que ejecute consultas e imprima las primeras filas
def sql_print_data(database):
    query = '''SELECT * FROM {}'''.format(database)
    results = pd.io.sql.read_sql(query, con = engine)
    return results.head()

Empezamos a ver la base de datos de `books`:

In [6]:
books_data = sql_print_data('books')
books_data

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Vemos la segunda base de datos `authors` de todos los autores: 

In [7]:
authors_data = sql_print_data('authors')
authors_data

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Vemos la tercera base de datos `publishers` que es:

In [8]:
publishers_data = sql_print_data('publishers')
publishers_data

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Vemos la cuarta base de datos `ratings`que contiene las calificaciones de los libros, es:

In [9]:
ratings_data = sql_print_data('ratings')
ratings_data

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Vemos la quinta base de datos  `reviews`sobre la opinión de los libros:

In [10]:
reviews_data = sql_print_data('reviews')
reviews_data

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


[Volver al Índice](#back)

## Consulta SQL para cada una de las tareas<a name='step10'></a>

In [11]:
def results_data(query_name):
    results = pd.io.sql.read_sql(query_name, con = engine)
    return results

### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [12]:
num_books = '''
SELECT 
    COUNT(*) AS num_books_released
FROM 
    books
WHERE 
    publication_date > '2000-01-01';
'''
num_books_result = results_data(num_books)
num_books_result

Unnamed: 0,num_books_released
0,819


Como resultado encontramos 819 libros publicados después del 1 de enero de 2000.

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [13]:
num_reviews_avg_rating = '''
SELECT 
    books.book_id,
    books.title,
    COUNT(reviews.review_id) AS num_reviews,
    ROUND(AVG(ratings.rating), 2) AS avg_rating
FROM 
    books
    LEFT JOIN reviews ON books.book_id = reviews.book_id
    LEFT JOIN ratings ON books.book_id = ratings.book_id
GROUP BY 
    books.book_id
ORDER BY 
    num_reviews DESC;
'''
num_reviews_avg_rating_results = results_data(num_reviews_avg_rating)
num_reviews_avg_rating_results.head()

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,948,Twilight (Twilight #1),1120,3.66
1,750,The Hobbit or There and Back Again,528,4.13
2,673,The Catcher in the Rye,516,3.83
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.41
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.29


Entonces al combinar las base de datos de `books` y las otras dos base de datos `reviews` y `rating`, pudimos crear una tabla con el número de reseñas y la calificación promedio de cada libro.

Los primeros libros con más reviews son Twilight y The Hobbit  que son ficción y muy conocidos, su calificación de ambos no es tan buena. Libros con más reviews y mejor califación son dos de Harry Potter de lectura de fantasía. 

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [14]:
most_published_editorial = '''
SELECT publishers.publisher,
    COUNT(DISTINCT(books.book_id)) AS books_published
FROM publishers
    INNER JOIN books ON books.publisher_id = publishers.publisher_id
WHERE 
    books.num_pages > 50
GROUP BY 
    publisher
ORDER BY 
    books_published DESC
'''
most_published_editorial_results = results_data(most_published_editorial)
most_published_editorial_results.head()

Unnamed: 0,publisher,books_published
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Bantam,19


Las editoriales con más libros con más 50 páginas son `Penguin Books` con 42 libros y `Vintage` con 31 libros. Después encontramos a `Grand Central Publishing` y `Penguin Classics`.



### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [15]:
highest_book = '''
SELECT 
    title, 
    author, 
    AVG(rating) AS average_rating
FROM
    (SELECT 
    *
    FROM 
        books
        INNER JOIN authors on authors.author_id = books.author_id
        INNER JOIN ratings on ratings.book_id = books.book_id) AS book_authors
GROUP BY 
    author,
    title
HAVING COUNT(rating) > 50
ORDER BY average_rating DESC
'''
highest_book_results = results_data(highest_book)
highest_book_results

Unnamed: 0,title,author,average_rating
0,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,4.414634
1,The Fellowship of the Ring (The Lord of the Ri...,J.R.R. Tolkien,4.391892
2,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling/Mary GrandPré,4.2875
3,The Book Thief,Markus Zusak/Cao Xuân Việt Khương,4.264151
4,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.246575
5,Little Women,Louisa May Alcott,4.192308
6,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.186667
7,The Hobbit or There and Back Again,J.R.R. Tolkien,4.125
8,Memoirs of a Geisha,Arthur Golden,4.107143
9,The Lightning Thief (Percy Jackson and the Oly...,Rick Riordan,4.080645


En esta consulta combinamos varias tablas para poder obtener los primeros autores de lirbos que mínimo tengan 50 calificaciones, y descubrimos que tenemos en primer lugar el autor `J.K. Rowling/Mary GrandPré` de `Harry Potter`, en segundo lugar tenemos `J.R.R. Tolkien` de la serie de Señor de los Anillos. Si vemos los primeros tenemos la colección de Harry Potter y Señor de los Anillos y algunas novelas conocidas.


### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [16]:
avg_reviews = '''
WITH reviews_50 (username) AS (
    SELECT 
        ratings.username
    FROM
        ratings
    GROUP BY 
        username
    HAVING COUNT(rating_id) > 50
    ), 
    review_data AS (
        SELECT
            DISTINCT username,
            COUNT(review_id) OVER (partition by username) AS reviews_count
        FROM reviews_50
            INNER JOIN reviews USING(username)
    )
SELECT 
    ROUND(AVG(reviews_count), 2) AS avg_user_reviews
FROM 
    review_data
'''
avg_reviews_results = results_data(avg_reviews)
avg_reviews_results

Unnamed: 0,avg_user_reviews
0,24.33


Para obtener el resultado, se crearon subtablas y de está manera se obtuvó un promedio de 24.33 de reseñas de texto entre los usuarios que calificaron más de 50 libros.

## Conclusiones<a name='step11'></a>

Con los resultados obtenidos podemos crear una propuesta de valor que se enfoque en:

- los libros que cuenten con más reseñas y calificación, como por ejemplo libros de fantasía y novelas muy populares como ejemplo Harry Potter.
- los autores populares con buen promedio de rating, ejemplo J.K. Rowling/Mary GrandPré o J.R.R. Tolkien.
- los editoriales que hayan publicado más libros con más de 50 páginas como Penguin Books y Vintage.

Como podemos ver es un enfoque a populares libros, autores y editores que serán un éxito seguro.

[Volver al Índice](#back)