# Proyecto SQL

# Introduccion
- El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

- Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

## Objetivo

- El objetivo de este estudio es realizar un analisis de los datos proporcionados sobre libros, autores, editoriales, calificaciones y reseñas de usuarios para generar una propuesta de valor para un nuevo producto en el mercado de servicios de lectura. En primer lugar, se busca determinar la cantidad de libros publicados despues del 1 de enero de 2000, con el fin de comprender la tendencia de publicacion en las ultimas dos decadas. Ademas, se pretende evaluar la interaccion de los usuarios con los libros calculando el numero de reseñas y la calificacion promedio para cada libro, proporcionando asi una vision sobre la popularidad y valoracion de los libros entre los usuarios. Otro objetivo es identificar la editorial mas prolifica, es decir, aquella que ha publicado el mayor numero de libros con mas de 50 paginas, excluyendo folletos y publicaciones similares, para destacar las editoriales mas productivas en terminos de publicaciones significativas. Finalmente, se busca reconocer a los autores mas valorados identificando al autor con la mas alta calificacion promedio de libro, considerando solo aquellos libros con al menos 50 calificaciones, lo que permitira destacar a los autores que consistentemente reciben valoraciones positivas de los lectores.

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine

# configuración de la base de datos
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs',   # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,                        # puerto de conexión
             'db': 'data-analyst-final-project-db'}  # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})



### Tablas

In [2]:
query_books = 'SELECT * FROM books LIMIT 5'
books_df = pd.read_sql(query_books, con=engine)
print("Tabla: books")
print(books_df)

Tabla: books
   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  


In [3]:
query_authors = 'SELECT * FROM authors LIMIT 5'
authors_df = pd.read_sql(query_authors, con=engine)
print("Tabla: authors")
print(authors_df)

Tabla: authors
   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd


In [4]:
query_publishers = 'SELECT * FROM publishers LIMIT 5'
publishers_df = pd.read_sql(query_publishers, con=engine)
print("Tabla: publishers")
print(publishers_df)

Tabla: publishers
   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company


In [5]:
query_ratings = 'SELECT * FROM ratings LIMIT 5'
ratings_df = pd.read_sql(query_ratings, con=engine)
print("Tabla: ratings")
print(ratings_df)

Tabla: ratings
   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2


In [6]:
query_reviews = 'SELECT * FROM reviews LIMIT 5'
reviews_df = pd.read_sql(query_reviews, con=engine)
print("Tabla: reviews")
print(reviews_df)

Tabla: reviews
   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  


# Ejercicios

## Encuentra el número de libros publicados después del 1 de enero de 2000.

In [7]:
query = '''
SELECT COUNT(*) as num_books_after_2000
FROM books
WHERE publication_date > '2000-01-01'
'''
num_books_after_2000 = pd.read_sql(query, con=engine)
print(num_books_after_2000)

   num_books_after_2000
0                   819


- La cantidad de libros publicados despues del 1 de enero de 2000 muestra un incremento en la produccion literaria en las ultimas dos decadas, indicando un mercado editorial en expansion y un interes continuo de los lectores por nuevos titulos.

## Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [8]:
query = '''
SELECT
    b.book_id,
    b.title,
    COUNT(r.rating_id) AS num_reviews,
    AVG(r.rating) AS avg_rating
FROM books b
LEFT JOIN ratings r ON b.book_id = r.book_id
GROUP BY b.book_id, b.title
'''
reviews_ratings = pd.read_sql(query, con=engine)
print(reviews_ratings)

     book_id                                              title  num_reviews  \
0        652          The Body in the Library (Miss Marple  #3)            2   
1        273                                          Galápagos            2   
2         51                           A Tree Grows in Brooklyn           12   
3        951  Undaunted Courage: The Pioneering First Missio...            2   
4        839                                        The Prophet            7   
..       ...                                                ...          ...   
995       64                                Alice in Wonderland           13   
996       55          A Woman of Substance (Emma Harte Saga #1)            2   
997      148                                          Christine            7   
998      790  The Magicians' Guild (Black Magician Trilogy  #1)            2   
999      828                           The Plot Against America            2   

     avg_rating  
0      4.500000  
1  

- El numero de reseñas y la calificacion promedio para cada libro revela cuáles son los libros más populares y mejor valorados por los usuarios. Libros con muchas reseñas y altas calificaciones son generalmente bien recibidos, mientras que aquellos con pocas reseñas y bajas calificaciones indican menor interes o satisfaccion.


## Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [9]:
query = '''
SELECT
    p.publisher,
    COUNT(b.book_id) AS num_books
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_books DESC
LIMIT 1
'''
top_publisher = pd.read_sql(query, con=engine)
print(top_publisher)

       publisher  num_books
0  Penguin Books         42


- La editorial que ha publicado el mayor numero de libros con más de 50 páginas se destaca por su productividad en publicaciones significativas. Esto es util para identificar a las editoriales dominantes en el mercado y ayudar a nuevos autores a elegir colaboraciones estrategicas.

## Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [10]:
query = '''
WITH book_ratings AS (
    SELECT
        b.book_id,
        b.author_id,
        COUNT(r.rating_id) AS num_ratings,
        AVG(r.rating) AS avg_rating
    FROM books b
    JOIN ratings r ON b.book_id = r.book_id
    GROUP BY b.book_id
    HAVING COUNT(r.rating_id) >= 50
)
SELECT
    a.author,
    AVG(br.avg_rating) AS author_avg_rating
FROM book_ratings br
JOIN authors a ON br.author_id = a.author_id
GROUP BY a.author
ORDER BY author_avg_rating DESC
LIMIT 1
'''
top_author = pd.read_sql(query, con=engine)
print(top_author)

                       author  author_avg_rating
0  J.K. Rowling/Mary GrandPré           4.283844


- El autor con la mas alta calificación promedio, considerando libros con al menos 50 calificaciones, demuestra consistentemente valoraciones positivas de los lectores. Esto destaca a los autores mas exitosos y valiosos para futuras publicaciones.

## Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [11]:
query = '''
WITH user_ratings AS (
    SELECT
        username,
        COUNT(rating_id) AS num_ratings
    FROM ratings
    GROUP BY username
    HAVING COUNT(rating_id) > 50
),
user_reviews AS (
    SELECT
        r.username,
        COUNT(rv.review_id) AS num_reviews
    FROM reviews rv
    JOIN user_ratings r ON rv.username = r.username
    GROUP BY r.username
)
SELECT AVG(num_reviews) AS avg_reviews_per_user
FROM user_reviews
'''
avg_reviews_per_user = pd.read_sql(query, con=engine)
print(avg_reviews_per_user)

   avg_reviews_per_user
0             24.333333


- Los usuarios que han calificado más de 50 libros tienden a dejar un numero promedio significativo de reseñas de texto. Estos usuarios comprometidos e influyentes son cruciales para estrategias de engagement y fidelización en plataformas de lectura.