# Proyecto final - SQL

## Descripción del proyecto 
El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

## Diccionario de datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id` — identificación de la reseña
- `book_id` — identificación del libro
- `username` — el nombre del usuario que revisó el libro
- `text` — el texto de la reseña


## Conexión a la base de datos

In [2]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### funciones

In [3]:
# funcion para explorar las tablas
def explorar_tabla(nombre_tabla, limite=5):
    try:
        consulta = f"SELECT * FROM {nombre_tabla} LIMIT {limite};"
        raw_data = pd.read_sql(consulta, con=engine)
        return raw_data
    except Exception as e:
        print(f"Error al explorar la tabla {nombre_tabla}: {e}")
        return None

In [4]:
# funcion para imprimir los resultados de la consulta 
def imprimir_resultados(consulta):
    try:
        resultados = pd.read_sql(consulta, con=engine)
        print(resultados)
    except Exception as e:
        print(f"Error al ejecutar la consulta: {e}")

## Estudiar tablas (imprimir primeras filas)

### Tabla books

In [5]:
books = 'books'
explorar_tabla(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


### Tabla authors

In [6]:
authors = 'authors'
explorar_tabla(authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


### Tabla publishers

In [7]:
publishers = 'publishers'
explorar_tabla(publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


### Tabla ratings 

In [8]:
ratings = 'ratings'
explorar_tabla(ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


### Tabla reviews

In [9]:
reviews = 'reviews'
explorar_tabla(reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Tareas

### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [10]:
count_books = ''' 
SELECT COUNT (book_id) AS num_books
FROM books 
WHERE publication_date::date > '2000-01-01';
'''
imprimir_resultados(count_books)

   num_books
0        819


<span style="color:purple; font-weight:bold; font-size: 18px">
En esta consulta se encontraron un total de 819 libros publicados después del 1 de enero de 2000
</span>

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [11]:
review_rating = '''
SELECT 
    reviews.book_id,
    books.title,
    COUNT(reviews.review_id) AS num_reviews, 
    AVG(ratings.rating) AS avg_rating
FROM 
    reviews 
JOIN 
    books ON reviews.book_id = books.book_id
JOIN 
    ratings ON reviews.book_id = ratings.book_id
GROUP BY
    reviews.book_id,
    books.title
ORDER BY 
    avg_rating DESC;
'''
imprimir_resultados(review_rating)

     book_id                                              title  num_reviews  \
0        938                          Triptych (Will Trent  #1)            4   
1        967               Welcome to Temptation (Dempseys  #1)            4   
2        347  In the Hand of the Goddess (Song of the Liones...            6   
3         20              A Fistful of Charms (The Hollows  #4)            4   
4        390                                    Light in August            4   
..       ...                                                ...          ...   
989      915  The World Is Flat: A Brief History of the Twen...           12   
990      202                                      Drowning Ruth            9   
991      371                                              Junky            4   
992      316                  His Excellency: George Washington            4   
993      303                               Harvesting the Heart            4   

     avg_rating  
0          5.00  
1  

<span style="color:purple; font-weight:bold; font-size: 18px">
En esta consulta se aprecia que el promedio mas alto de calificacion es de 5 para diferentes libros, mientras que el numero de reseñas varia, además se observa que algunos titulos cuentan con un mayor numero de reseñas y esto se ve reflejado en la calificacion promedio del libro, siendo mas bajo que aquellos que presentan menos reseñas de usuarios
</span>

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [12]:
publishers_books = '''
SELECT 
    publishers.publisher,
    publishers.publisher_id,
    COUNT(books.book_id) AS num_books
FROM
    publishers
JOIN 
    books
ON 
    publishers.publisher_id = books.publisher_id
WHERE 
    books.num_pages > 50
GROUP BY 
    publishers.publisher,
    publishers.publisher_id
ORDER BY
    num_books DESC
LIMIT
    10;
'''
imprimir_resultados(publishers_books)

                  publisher  publisher_id  num_books
0             Penguin Books           212         42
1                   Vintage           309         31
2  Grand Central Publishing           116         25
3          Penguin Classics           217         24
4          Ballantine Books            33         19
5                    Bantam            35         19
6                   Berkley            45         17
7        St. Martin's Press           284         14
8             Berkley Books            46         14
9                     Delta            83         13


<span style="color:purple; font-weight:bold; font-size: 18px">
La editorial con mayor número de libros publicados con mas de 50 páginas es Penguin Books con un total de 42 libros publicados, seguido de Vintage con 31 libros y Grand Central Publishing con 25 libros.
</span>

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [13]:
author_avg = '''
SELECT 
    authors.author,
    authors.author_id,
    COUNT(ratings.rating) AS num_reviews,
    AVG(ratings.rating) AS avg_rating
FROM
    authors
JOIN 
    books ON authors.author_id = books.author_id
JOIN 
    ratings ON books.book_id = ratings.book_id
GROUP BY
    authors.author,
    authors.author_id
HAVING 
    COUNT(ratings.rating) >= 50
ORDER BY 
    avg_rating DESC
LIMIT 10 ;
    
'''
imprimir_resultados(author_avg)

                              author  author_id  num_reviews  avg_rating
0                     Diana Gabaldon        130           50    4.300000
1         J.K. Rowling/Mary GrandPré        236          312    4.288462
2                    Agatha Christie          3           53    4.283019
3  Markus Zusak/Cao Xuân Việt Khương        402           53    4.264151
4                     J.R.R. Tolkien        240          166    4.240964
5           Roald Dahl/Quentin Blake        499           62    4.209677
6                  Louisa May Alcott        376           54    4.203704
7                       Rick Riordan        498           84    4.130952
8                      Arthur Golden         39           56    4.107143
9                       Stephen King        542          106    4.009434


<span style="color:purple; font-weight:bold; font-size: 18px">
La autora con la mas alta calificación promedio por libro es Diana Gabaldon con un promedio de 4.3 y un total de 50 calificaciones recibidas, sin embargo, J.K. Rowling/Mary GrandPré cuentan con un mayor numero de calificaciones recibidas y estan muy cerca en cuanto a promedio de la autora Diana.
</span>

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [26]:
reviews_text = '''
SELECT
    AVG(reviews_count) AS avg_reviews_text
FROM (
    SELECT 
        ratings.username,
        COUNT(DISTINCT reviews.review_id) AS reviews_count
    FROM
        reviews
    JOIN 
        ratings ON reviews.username = ratings.username 
    GROUP BY
        ratings.username
    HAVING
        COUNT(DISTINCT ratings.rating_id) > 50
) user_many_review;

'''
imprimir_resultados(reviews_text)

   avg_reviews_text
0         24.333333


<span style="color:purple; font-weight:bold; font-size: 18px">
Por último se cálculo el promedio de reseñas de texto entre los usuarios que han calificado mas de 50 libros y esto dio como resultado 24.33 reseñas de texto por usuario.
</span>