# Proyecto SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Diccionario de Datos 

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

### Describe los objetivos del estudio.

**Número de libros publicados después del 1 de enero de 2000:** Conocer uántos libros se han publicado después de esta fecha para entender la tendencia de publicaciones en el siglo XXI.

**Número de reseñas y calificación promedio por libro:** Analizar la interacción de los usuarios con los libros, midiendo cuántas reseñas han recibido y cuál es la calificación promedio.

**Editorial con más libros publicados con más de 50 páginas:** Queremos identificar la editorial más activa en la publicación de libros sustanciales, excluyendo folletos y publicaciones cortas.

**Autor con la más alta calificación promedio en libros con al menos 50 calificaciones:** Encontrar al autor más valorado por los lectores, considerando solo libros con un número significativo de calificaciones.

**Número promedio de reseñas de texto entre usuarios que calificaron más de 50 libros:** Entender el comportamiento de los usuarios más activos, midiendo cuántas reseñas de texto suelen hacer.

### Conexión a la Base de Datos

In [1]:
# Verificar la conexión
try:
    query = "SELECT version();"  # Consulta simple para verificar la conexión
    df = pd.read_sql_query(query, con=engine)
    print("Conexión exitosa. Versión de PostgreSQL:")
    print(df)
except Exception as e:
    print(f"Error al conectar: {e}")

Error al conectar: name 'pd' is not defined


In [2]:
# Importar librerías
import pandas as pd
from sqlalchemy import create_engine

# Configuración de la base de datos
db_config = {
    'user': 'practicum_student',         # Nombre de usuario
    'pwd': 's65BlTKV3faNIGhmvJVzOqhs',  # Contraseña
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',  # Host
    'port': 6432,                        # Puerto
    'db': 'data-analyst-final-project-db' # Nombre de la base de datos
}

# Crear la cadena de conexión
connection_string = f"postgresql://{db_config['user']}:{db_config['pwd']}@{db_config['host']}:{db_config['port']}/{db_config['db']}"

# Crear el motor de SQLAlchemy
engine = create_engine(connection_string, connect_args={'sslmode': 'require'})

### Estudia las tablas (imprime las primeras filas).

In [3]:
# Listar las tablas disponibles
query_tables = "SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';"
tables = pd.read_sql_query(query_tables, con=engine)
print("Tablas disponibles en la base de datos:")
print(tables)

Tablas disponibles en la base de datos:
           table_name
0  advertisment_costs
1             authors
2               books
3           check_avg
4              orders
5          publishers
6             ratings
7             reviews
8              visits


In [4]:
# funcion para explorar las tablas
def explorar(nombre_tabla, limite=5):
    try:
        consulta = f"SELECT * FROM {nombre_tabla} LIMIT {limite};"
        datos_originales = pd.read_sql(consulta, con=engine)
        return datos_originales
    except Exception as e:
        print(f"Error al explorar la tabla {nombre_tabla}: {e}")
        return None

In [5]:
# funcion para imprimir los resultados de la consulta 
def imprimir_resultados(consulta):
    try:
        resultados = pd.read_sql(consulta, con=engine)
        print(resultados)
    except Exception as e:
        print(f"Error al ejecutar la consulta: {e}")

In [6]:
books = 'books'
explorar(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [7]:
# Explorar la tabla 'authors'
authors = explorar('authors')
authors

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [8]:
# Explorar la tabla 'publishers'
publishers = explorar('publishers')
publishers

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [9]:
# Explorar la tabla 'ratings'
ratings = explorar('ratings')
ratings

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [10]:
# Explorar la tabla 'reviews'
reviews = explorar('reviews')
reviews

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [11]:
query_1 = """
SELECT COUNT(*) AS num_books
FROM books
WHERE publication_date > '2000-01-01';
"""
imprimir_resultados(query_1)

   num_books
0        819


Se encontraron 819 libros publicados después del 1 de enero de 2000. Este resultado indica que una gran cantidad de libros en la base de datos fueron publicados en el siglo XXI. Esto sugiere que el servicio de libros analizado tiene una amplia colección de obras modernas, lo que podría ser atractivo para los usuarios interesados en literatura contemporánea. Además, refleja la tendencia de crecimiento en la industria editorial en las últimas dos décadas.

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [12]:
query_2 = """
SELECT 
    b.book_id,
    b.title,
    COUNT(r.review_id) AS num_reviews,
    AVG(rt.rating) AS avg_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title;
"""
imprimir_resultados(query_2)

     book_id                                              title  num_reviews  \
0        652          The Body in the Library (Miss Marple  #3)            4   
1        273                                          Galápagos            4   
2         51                           A Tree Grows in Brooklyn           60   
3        951  Undaunted Courage: The Pioneering First Missio...            4   
4        839                                        The Prophet           28   
..       ...                                                ...          ...   
995       64                                Alice in Wonderland           52   
996       55          A Woman of Substance (Emma Harte Saga #1)            4   
997      148                                          Christine           21   
998      790  The Magicians' Guild (Black Magician Trilogy  #1)            4   
999      828                           The Plot Against America            4   

     avg_rating  
0      4.500000  
1  

Se obtuvieron 1000 libros con su respectivo número de reseñas y calificación promedio. Por ejemplo, el libro "A Tree Grows in Brooklyn" tiene 60 reseñas y una calificación promedio de 4.25.
Esta consulta permite identificar qué libros son más populares y mejor valorados por los usuarios. Los libros con un mayor número de reseñas y una alta calificación promedio son candidatos ideales para ser promocionados o recomendados a nuevos usuarios. Además, esta información puede ser útil para entender qué tipo de contenido resuena más con la audiencia.

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [13]:
query_3 = """
SELECT 
    publishers.publisher,
    publishers.publisher_id,
    COUNT(books.book_id) AS num_books
FROM
    publishers
JOIN 
    books
ON 
    publishers.publisher_id = books.publisher_id
WHERE 
    books.num_pages > 50
GROUP BY 
    publishers.publisher,
    publishers.publisher_id
ORDER BY
    num_books DESC
LIMIT
    10;
"""
imprimir_resultados(query_3)

                  publisher  publisher_id  num_books
0             Penguin Books           212         42
1                   Vintage           309         31
2  Grand Central Publishing           116         25
3          Penguin Classics           217         24
4          Ballantine Books            33         19
5                    Bantam            35         19
6                   Berkley            45         17
7        St. Martin's Press           284         14
8             Berkley Books            46         14
9                     Delta            83         13


La editorial "Penguin Books" es la que ha publicado más libros con más de 50 páginas, con un total de 42 libros. "Penguin Books" es la editorial más activa en la publicación de libros. Esto la posiciona como una editorial líder en el mercado y sugiere que sus obras podrían ser un buen punto de partida para colaboraciones o promociones. Además, esta información es útil para enfocar esfuerzos en editoriales que producen contenido de mayor extensión y, presumiblemente, de mayor valor para los lectores.

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [14]:
query_4 = """
SELECT 
    authors.author,
    authors.author_id,
    COUNT(ratings.rating) AS num_reviews,
    AVG(ratings.rating) AS avg_rating
FROM
    authors
JOIN 
    books ON authors.author_id = books.author_id
JOIN 
    ratings ON books.book_id = ratings.book_id
GROUP BY
    authors.author,
    authors.author_id
HAVING 
    COUNT(ratings.rating) >= 50
ORDER BY 
    avg_rating DESC
LIMIT 10 ;
"""
imprimir_resultados(query_4)

                              author  author_id  num_reviews  avg_rating
0                     Diana Gabaldon        130           50    4.300000
1         J.K. Rowling/Mary GrandPré        236          312    4.288462
2                    Agatha Christie          3           53    4.283019
3  Markus Zusak/Cao Xuân Việt Khương        402           53    4.264151
4                     J.R.R. Tolkien        240          166    4.240964
5           Roald Dahl/Quentin Blake        499           62    4.209677
6                  Louisa May Alcott        376           54    4.203704
7                       Rick Riordan        498           84    4.130952
8                      Arthur Golden         39           56    4.107143
9                       Stephen King        542          106    4.009434


El autor con la más alta calificación promedio es Diana Gabaldon, con una calificación promedio de 4.30 en 50 reseñas. Diana Gabaldon es el autor más valorado por los lectores, considerando solo libros con al menos 50 calificaciones. Esto indica que sus obras tienen una alta aceptación entre los usuarios y podrían ser un buen punto de partida para recomendaciones o promociones. Además, este análisis resalta la importancia de considerar solo libros con un número significativo de calificaciones para evitar sesgos en los resultados.

### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [15]:
query_5 = """
SELECT
    AVG(reviews_count) AS avg_reviews_text
FROM (
    SELECT 
        ratings.username,
        COUNT(DISTINCT reviews.review_id) AS reviews_count
    FROM
        reviews
    JOIN 
        ratings ON reviews.username = ratings.username 
    GROUP BY
        ratings.username
    HAVING
        COUNT(DISTINCT ratings.rating_id) > 50
) user_many_review;
"""
imprimir_resultados(query_5)

   avg_reviews_text
0         24.333333


El número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros es de 24.33. Los usuarios más activos (aquellos que calificaron más de 50 libros) tienden a escribir un promedio de 24 reseñas de texto. Esto sugiere que estos usuarios no solo califican libros, sino que también contribuyen con reseñas escritas, lo que puede ser valioso para otros lectores. Este comportamiento indica que los usuarios más comprometidos son una fuente importante de contenido generado por los usuarios, lo que puede ser útil para mejorar la experiencia de otros lectores y fomentar la participación en la plataforma.