# **SQL**

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Descripción de los datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

# **Libreria a Utilizar**

In [74]:
pip install pandas sqlalchemy




In [75]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine
import sqlite3



In [76]:
#Cargar archivo de datos desde conexion SQL a Python

#Definir la conexión a la base de datos
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],db_config['pwd'],db_config['host'],db_config['port'],db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# **Carga de Datos**

In [77]:
libros = pd.read_sql('SELECT * FROM books', con = engine)
autores = pd.read_sql('SELECT * FROM authors', con = engine)
editorial =pd.read_sql('SELECT * FROM publishers', con = engine)
ratings = pd.read_sql('SELECT * FROM ratings', con = engine)
resenas = pd.read_sql('SELECT * FROM reviews', con = engine)

# 1️⃣ Objetivos del estudio

El objetivo del presente trabajo es investigar datos recogidos en una biblioteca en línea para poder determinar información relevante para diseñar una propuesta de valor para un nuevo producto en el mercado de lectores.

Para esto, se estudiarán aspectos como:

✅ El número total de libros publicados en la era moderna (desde el 1 de enero del 2000).

✅ La popularidad del libro, basada en el número de reseñas y la puntuación promedio.

✅ Las editoriales que han publicado más libros largos (más de 50 páginas).

✅ Los autores más valorados, filtrando por los que cuenten con una gran cantidad de evaluaciones.

✅ El comportamiento de los usuarios que califican varios libros, analizando cuántas reseñas de texto suelen dejar.

Este análisis permitirá comprender mejor los mercados de libros digitales y físicos, así como las tendencias y preferencias de los lectores, con el fin de desarrollar un producto competitivo.

# 2️⃣ Exploración, Preparacion de datos y Limpieza

In [78]:
def info_gral(datos):
    print("Primeras Filas")
    print(datos.head())
    print('-------------------------------------------')
    print("Datos Generales")
    print(datos.info())
    print('-------------------------------------------')
    print("Revision de Datos Ausentes")
    print(datos.isna().sum())
    print('-------------------------------------------')
    print("Revision de Duplicados")
    print(datos.duplicated().sum())

In [79]:
info_gral(libros)

Primeras Filas
   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  
-------------------------------------------
Datos Generales
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  --

In [80]:
info_gral(autores)

Primeras Filas
   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd
-------------------------------------------
Datos Generales
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
None
-------------------------------------------
Revision de Datos Ausentes
author_id    0
author       0
dtype: int64
-------------------------------------------
Revision de Duplicados
0


In [81]:
info_gral(editorial)

Primeras Filas
   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company
-------------------------------------------
Datos Generales
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
None
-------------------------------------------
Revision de Datos Ausentes
publisher_id    0
publisher       0
dtype: int64
-------------------------------------------
Revision de Duplicados
0


In [82]:
info_gral(ratings)

Primeras Filas
   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2
-------------------------------------------
Datos Generales
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
None
-------------------------------------------
Revision de Datos Ausentes
rating_id    0
book_id      0
username     0
rating       0
dtype: int64
-------------------------------------------
Revision de Duplicados
0


In [83]:
info_gral(resenas)

Primeras Filas
   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  
-------------------------------------------
Datos Generales
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(

NOTA:

- No se encontro Datos ausentes en ningun DF
- No se encontraron Datos Duplicados en ningun DF

Todos los datos se encuentran limpios asi que iniciamos con nuestro analisis

# 3️⃣ Análisis exploratorio de datos (EDA)

## - Número de libros publicados después del 1 de enero de 2000

In [84]:
query = """
SELECT 
    COUNT(books.book_id) AS total_de_libros
FROM 
    books
WHERE 
    publication_date >'2000-01-01';
"""

total_libros = pd.read_sql(query, con=engine)

print(total_libros)

   total_de_libros
0              819


Explicación:

- Se cuenta la cantidad total de libros (COUNT(books.book_id)).
- Se obtiene la información de la tabla books.
- Se filtran solo los libros cuya fecha de publicación (publication_date) sea posterior al 1 de enero del 2000 (WHERE publication_date > '2000-01-01').
- Se almacena el resultado en un DataFrame de Pandas (pd.read_sql(query, con=engine)).
- Se imprime el número total de libros publicados después del 1 de enero del 2000 (print(total_libros)).

Explicación paso a paso:

- Se selecciona la cantidad total de libros (COUNT(books.book_id))

- Se cuenta el número de registros en la tabla books usando COUNT(book_id).
- Se asigna un alias total_de_libros para nombrar la columna en los resultados.
- Se especifica la tabla de origen (FROM books)

- Se extraen los datos desde la tabla books, que contiene información sobre los libros.
- Se aplica un filtro de fecha (WHERE publication_date > '2000-01-01')

- Se filtran solo los libros cuya fecha de publicación (publication_date) sea posterior al 1 de enero del 2000.
- Se ejecuta la consulta y se almacena en un DataFrame de Pandas

- pd.read_sql(query, con=engine) ejecuta la consulta SQL y almacena el resultado en total_libros.
- print(total_libros) muestra en pantalla la cantidad total de libros publicados después del año 2000.

## - Número de reseñas y calificación promedio para cada libro

In [86]:
query = """
SELECT
    authors.author,
    COUNT(books.book_id) AS total_libros
FROM
    books
JOIN
    authors ON authors.author_id = books.author_id
GROUP BY
    authors.author
ORDER BY
    total_libros DESC
LIMIT 1;
"""

autor_mas_libros = pd.read_sql(query, con=engine)

print(autor_mas_libros)

            author  total_libros
0  Terry Pratchett            15


Explicación:

- Se selecciona el title de la tabla books.
- Se cuenta el número de reseñas (COUNT(reviews.review_id)).
- Se calcula la calificación promedio (AVG(ratings.rating)) redondeada a dos decimales.
- Se usa LEFT JOIN para incluir todos los libros, incluso si no tienen reseñas o calificaciones.
- Se agrupa por title para obtener los datos por libro.
- Se ordena en orden descendente según el número de reseñas.

## - Editorial con más libros de más de 50 páginas

In [87]:
query = """
SELECT
    publishers.publisher,
    COUNT(books.book_id) AS total_libros
FROM
    books
JOIN
    publishers ON publishers.publisher_id = books.publisher_id
WHERE
    books.num_pages > 50
GROUP BY
    publishers.publisher
ORDER BY
    total_libros DESC
LIMIT 1;
"""

editorial_mas_libros = pd.read_sql(query, con=engine)

print(editorial_mas_libros)


       publisher  total_libros
0  Penguin Books            42


Explicación:

- Se selecciona el nombre de la editorial (publishers.publisher).
- Se cuenta la cantidad de libros con más de 50 páginas (COUNT(books.book_id)).
- Se usa JOIN para enlazar books con publishers mediante publisher_id.
- Se filtran solo los libros con más de 50 páginas (WHERE books.num_pages > 50).
- Se agrupa por editorial (GROUP BY publishers.publisher).
- Se ordena en orden descendente por cantidad de libros (ORDER BY total_libros DESC).
- Se usa LIMIT 1 para obtener la editorial con más libros largos.

## - Autor con la más alta calificación promedio (mínimo 50 calificaciones por libro)

In [88]:
query = """
SELECT
    authors.author,
    ROUND(AVG(ratings.rating), 2) AS calificacion_promedio
FROM
    books
JOIN
    authors ON authors.author_id = books.author_id
JOIN
    ratings ON books.book_id = ratings.book_id
GROUP BY
    authors.author
HAVING
    COUNT(ratings.rating_id) >= 50
ORDER BY
    calificacion_promedio DESC
LIMIT 1;
"""

autor_mejor_calificado = pd.read_sql(query, con=engine)

print(autor_mejor_calificado)


           author  calificacion_promedio
0  Diana Gabaldon                    4.3


Explicación:

- Se selecciona el nombre del autor (authors.author).
- Se calcula el promedio de calificaciones (AVG(ratings.rating)) y se redondea a dos decimales.
- Se usa JOIN para enlazar las tablas books, authors y ratings mediante author_id y book_id.
- Se agrupa por autor (GROUP BY authors.author).
- Se filtran solo los autores cuyos libros tengan al menos 50 calificaciones (HAVING COUNT(ratings.rating_id) >= 50).
- Se ordena en orden descendente por calificación promedio (ORDER BY calificacion_promedio DESC).
- Se usa LIMIT 1 para obtener el autor con la mejor calificación promedio.

## - Número promedio de reseñas de texto entre usuarios que calificaron más de 50 libros

In [90]:
query = """
WITH usuarios_activos AS (
    SELECT
        username
    FROM
        ratings
    GROUP BY
        username
    HAVING
        COUNT(rating_id) > 50
)

SELECT
    ROUND(AVG(num_resenas), 2) AS promedio_resenas
FROM (
    SELECT
        r.username,
        COUNT(r.review_id) AS num_resenas
    FROM
        reviews r
    JOIN
        usuarios_activos u ON r.username = u.username
    GROUP BY
        r.username
) subquery;
"""

promedio_resenas = pd.read_sql(query, con=engine)   

print(promedio_resenas)


   promedio_resenas
0             24.33


Explicación:

- Se usa una Common Table Expression (CTE) (usuarios_activos) para obtener los usuarios que han calificado más de 50 libros.
- Se seleccionan solo esos usuarios de la tabla ratings, agrupando por username y filtrando con HAVING COUNT(rating_id) > 50.
- En la consulta principal:
- Se cuenta cuántas reseñas ha dejado cada usuario (COUNT(r.review_id)).
- Se agrupa por username para calcular el total de reseñas por usuario.
- Se obtiene el promedio de esas reseñas (AVG(num_resenas)) y se redondea a dos decimales.
- El resultado muestra el número promedio de reseñas de texto entre los usuarios que han calificado más de 50 libros.