# Proyecto SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

In [1]:
# Librerias
import pandas as pd
from sqlalchemy import create_engine

# Tabla de contenidos <a id='back'></a>

1. [Conexión a la base de datos y análisis de tablas](#descarga_datos)
2. [Resolución de ejercicios](#eda)
3. [Conclusiones generales y recomendaciones](#conclusiones)

## Conexión a la base de datos y análisis de tablas

En este paso, se hara la conexion y primer analisis de las tablas

In [2]:
# Conexion a la base de datos
db_config = {'user': 'practicum_student', # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # puerto de conexión
             'db': 'data-analyst-final-project-db'} # nombre de la base de datos
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
# Vemos el contenido de la tabla books
query = ''' SELECT * FROM books '''
data_books = pd.io.sql.read_sql(query, con=engine)

data_books.head(5)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Nuestra tabla `books` que son los datos sobre libros, contiene las siguientes columnas:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

In [4]:
# Vemos el contenido de la tabla authors
query = ''' SELECT * FROM authors '''
data_authors = pd.io.sql.read_sql(query, con=engine)

data_books.head(5)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Nuestra tabla `authors` que son los datos sobre autores, contiene las siguientes columnas:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

In [5]:
# Vemos el contenido de la tabla ratings
query = ''' SELECT * FROM ratings '''
data_ratings = pd.io.sql.read_sql(query, con=engine)

data_books.head(5)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Nuestra tabla `ratings` que son los datos sobre las calificaciones de usuarios, contiene las siguientes columnas:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

In [6]:
# Vemos el contenido de la tabla reviews
query = ''' SELECT * FROM reviews '''
data_reviews = pd.io.sql.read_sql(query, con=engine)

data_books.head(5)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Nuestra tabla `reviews` que contiene datos sobre las reseñas de los y las clientes, presenta las siguientes columnas:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

In [7]:
# Vemos el contenido de la tabla publishers
query = ''' SELECT * FROM publishers '''
data_publishers = pd.io.sql.read_sql(query, con=engine)

data_books.head(5)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Nuestra tabla `publishers` que contiene datos sobre editoriales, presenta las siguientes columnas:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

## Resolución de ejercicios

1. Encuentra el número de libros publicados después del 1 de enero de 2000.
2. Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
3. Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
4. Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
5. Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [8]:
# Número de libros publicados después del 1 de enero del 2000
query = ''' SELECT COUNT(*) AS cnt FROM BOOKS WHERE publication_date > '2000-01-01' '''
exercise1 = pd.io.sql.read_sql(query, con=engine)
exercise1

Unnamed: 0,cnt
0,819


Podemos ver que el número de libros publicados despues del 1 de enero del 2000 son 819

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [9]:
# Número de reseñas de usuarios y la calificacion promedio de cada libro
query = ''' SELECT id, book_name, mean_rating, count_reviews FROM
    (SELECT ratings.book_id as id, books.title as book_name, AVG(ratings.rating) as mean_rating FROM ratings INNER JOIN books ON books.book_id = ratings.book_id GROUP BY id, book_name) as SUB1
    LEFT JOIN (SELECT book_id, COUNT(username) as count_reviews FROM reviews GROUP BY book_id) AS SUB2
    ON SUB1.id = SUB2.book_id
    ORDER BY id ASC;
'''
exercise2 = pd.io.sql.read_sql(query, con=engine)
exercise2

Unnamed: 0,id,book_name,mean_rating,count_reviews
0,1,'Salem's Lot,3.666667,2.0
1,2,1 000 Places to See Before You Die,2.500000,1.0
2,3,13 Little Blue Envelopes (Little Blue Envelope...,4.666667,3.0
3,4,1491: New Revelations of the Americas Before C...,4.500000,2.0
4,5,1776,4.000000,4.0
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3.666667,3.0
996,997,Xenocide (Ender's Saga #3),3.400000,3.0
997,998,Year of Wonders,3.200000,4.0
998,999,You Suck (A Love Story #2),4.500000,2.0


Como podemos observar, tenemos una tabla con la calificación promedio y número de reseñas por cada libro junto con su titulo. Por ejemplo, el libro de `Salem's Lot` tiene una calificación media de 3.6 y un total de reviews de 2. Esto nos puede ayudar a ver los libros mejor rankeados y cuantas reviews podemos encontrar de ellos.

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [10]:
# Editorial que ha publicado mayor número de libros con más de 50 páginas
query = ''' SELECT
    SUB.publisher_id AS id,
    publishers.publisher AS publisher_name,
    COUNT(SUB.book_id) as count_books
    FROM
    (SELECT book_id, publisher_id
    FROM books
    WHERE num_pages > 50) AS SUB
    INNER JOIN publishers ON publishers.publisher_id = SUB.publisher_id
    GROUP BY id, publisher_name
    ORDER BY count_books DESC
    LIMIT 1
'''
exercise3 = pd.io.sql.read_sql(query, con=engine)
exercise3

Unnamed: 0,id,publisher_name,count_books
0,212,Penguin Books,42


De acuerdo a la consulta, podemos ver que la editorial Penguin Books es la que mayor número de libros ha publicado con 42 libros con más de 50 páginas. Un análisis posterior podria indicarnos el promedio de las reviews de los libros de la editorial

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [11]:
# Autor con calificacion promedio más alta de libros con al menos 50 calificaciones
query = ''' SELECT
    books.author_id,
    author,
    AVG(avg_rating) AS avg_ratings
    FROM
    (SELECT
    books.book_id AS id_book,
    COUNT(rating_id) as count_ratings,
    AVG(rating) as avg_rating
    FROM
    ratings
    INNER JOIN books ON books.book_id = ratings.book_id
    GROUP BY id_book) AS SUB
    INNER JOIN books ON books.book_id = SUB.id_book
    INNER JOIN authors ON authors.author_id = books.author_id
    WHERE count_ratings >= 50
    GROUP BY books.author_id, author
    ORDER BY avg_ratings DESC
    LIMIT 1
'''

exercise4 = pd.io.sql.read_sql(query, con=engine)
exercise4

Unnamed: 0,author_id,author,avg_ratings
0,236,J.K. Rowling/Mary GrandPré,4.283844


Como podemos ver en la consulta, la autora J.K. Rowling es la autora con mejor calificacion promedio de sus libros con más de 50 calificaciones.

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [12]:
# Número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros
query = ''' SELECT
    AVG(count_reviews) AS avg_reviews
    FROM
    (SELECT
    username,
    count(rating) as count_rating
    FROM
    ratings
    GROUP BY username) AS SUB
    INNER JOIN
    (SELECT
    username,
    COUNT(text) as count_reviews
    FROM
    reviews
    GROUP BY username) AS SUB1
    ON SUB.username = SUB1.username
    WHERE count_rating > 50
'''

exercise5 = pd.io.sql.read_sql(query, con=engine)
exercise5

Unnamed: 0,avg_reviews
0,24.333333


Podemos ver por la consulta, que el numero promedio de reseñas de texto que realizan usuarios que califican más de 50 libros es 24.3, minimo el 50% de los libros que han calificado.

## Conclusiones generales

En general, los resultados de nuestras consultas son los siguientes:
- El total de libros publicados despues del 1 de enero del 200 son 819.
- Se logro generar una tabla donde por cada libro se tiene su rating promedio y su número de reseñas de texto
- La editorial con mayor número de libros mayores a 50 páginas es Penguin Books con 42
- J.K. Rowling es la autora con mejor calificacion promedio (4.2) en libros con más de 50 calificaciones
- El número promedio de reseñas de texto que realizan usuarios que califican más de 50 libros es de 24.3, minimo el 50% de los libros que han calificado