Hola de nuevo **Clara**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Muchísimas gracias por las observaciones 🤗
</div>

# Introducción 

El presente proyecto se centra en el análisis de una base de datos proporcionada por uno de estos servicios emergentes en el mercado literario digital. La base de datos incluye información detallada sobre libros, editoriales, autores, calificaciones de clientes y reseñas de libros. El objetivo principal de este análisis es generar una propuesta de valor sólida para un nuevo producto que pueda satisfacer mejor las necesidades de los lectores contemporáneos.

A través de un análisis exhaustivo de los datos, se explorarán diversas métricas clave, como el número de libros publicados, la calidad de las calificaciones, y el nivel de compromiso de los usuarios. Además, se identificarán tendencias y patrones que puedan informar el desarrollo de características innovadoras y atractivas para la nueva aplicación.

En un mundo donde la lectura digital está en auge, este proyecto tiene el potencial de aportar insights valiosos que ayuden a crear una plataforma de lectura más intuitiva y personalizada, fomentando una experiencia de usuario enriquecedora y alineada con las expectativas del lector moderno.

### Objetivos del Estudio

El presente estudio tiene como propósito principal analizar los datos proporcionados por un servicio emergente en el mercado literario digital para generar una propuesta de valor que mejore la experiencia de los usuarios y satisfaga mejor sus necesidades. Para lograr este propósito, se han definido los siguientes objetivos específicos:

1. **Analizar la Producción Editorial Reciente**:
   - **Objetivo**: Evaluar la cantidad de libros publicados después del 1 de enero de 2000 para entender la tendencia de producción editorial en los últimos años.

2. **Evaluar la Calidad del Contenido Literario**:
   - **Objetivo**: Determinar la calificación promedio de los libros y analizar las opiniones de los usuarios para evaluar la calidad del contenido ofrecido.

3. **Identificar la Editorial Más Activa**:
   - **Objetivo**: Identificar la editorial que ha publicado el mayor número de libros con más de 50 páginas, excluyendo así folletos y publicaciones menores.

4. **Determinar el Autor con Mejor Calificación Promedio**:
   - **Objetivo**: Identificar al autor que tiene la calificación promedio más alta, considerando solo los libros con al menos 50 calificaciones.

5. **Evaluar el Nivel de Compromiso de los Usuarios**:
   - **Objetivo**: Analizar el número promedio de reseñas de texto entre los usuarios que han calificado más de 50 libros para entender el nivel de compromiso y participación.
  
6. **Generar una Propuesta de Valor**:
   - **Objetivo**: Utilizar los insights obtenidos del análisis de datos para desarrollar una propuesta de valor que optimice la experiencia del usuario en la nueva aplicación.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen detalle el incluir la introducción al proyecto, esto hace que tu notebook sea mucho más fácil de entender. Te animo a continuar con esta práctica!
</div>

In [1]:
# Importacion de librerias necesarias
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# Código para la conexión a la base de datos 
db_config = {
 'user': 'practicum_student', # username
 'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
 'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
 'port': 5432, # connection port
 'db': 'data-analyst-final-project-db' # the name of the database
 }
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],

db_config['pwd'],

db_config['host'],
db_config['port'],

db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})
                                                        
#pd.io.sql.read_sql(query, con = engine)

In [22]:
# Lista de nombres de las tablas a consultar
tables = ["books", "authors", "ratings", "reviews", "publishers"]

# Ciclo for para ejecutar las consultas y mostrar los resultados
for table in tables:
    query = f"SELECT * FROM {table}"
    table_data = pd.read_sql(query, con = engine)
    print(f"Primeras filas de la tabla {table}: ")
    display(table_data.head())
    print("\n")

Primeras filas de la tabla books: 


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268




Primeras filas de la tabla authors: 


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd




Primeras filas de la tabla ratings: 


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2




Primeras filas de la tabla reviews: 


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...




Primeras filas de la tabla publishers: 


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company






#### Encuentra el número de libros publicados después del 1 de enero de 2000.

In [4]:
# Consulta SQL con COUNT
query_1 = "SELECT COUNT(book_id) AS num_books FROM books WHERE publication_date > '2000-01-01'"

# Ejecutar la consulta y cargar los resultados en un DataFrame
num_books_df = pd.read_sql(query_1, con=engine)

# Obtener el número de libros del DataFrame
num_books = num_books_df['num_books'].iloc[0]

print(f"Número de libros publicados después del 1 de enero de 2000: {num_books}")

Número de libros publicados después del 1 de enero de 2000: 819


El hecho de que se hayan publicado 819 libros después del 1 de enero de 2000 refleja una rápida adaptación y respuesta del mercado editorial a las cambiantes demandas de los consumidores. Las editoriales han estado activamente produciendo contenido nuevo para mantener el interés de los lectores durante estos tiempos.

Para las startups que compiten en este mercado, este número indica una oportunidad significativa para integrar una amplia gama de nuevos títulos en sus aplicaciones. Esto no solo atraerá a usuarios ávidos de nuevas lecturas, sino que también les permitirá ofrecer un catálogo actualizado y relevante.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con el cálculo! Aplicaste el filtro correcto para obtener los datos
</div>

#### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [17]:
# Creación de la consulta 
query_2 = """SELECT books.title, COUNT(DISTINCT reviews.review_id) AS num_reviews, AVG(ratings.rating) AS avg_rating
             FROM books
             LEFT JOIN reviews ON books.book_id = reviews.book_id
             LEFT JOIN ratings ON books.book_id = ratings.book_id
             GROUP BY 
             books.title; """


# Ejecutar la consulta y cargar los resultados en un DataFrame 
results_df = pd.read_sql(query_2, con=engine) 

# Mostrar los resultados usando display() 
display(results_df)


Unnamed: 0,title,num_reviews,avg_rating
0,1 000 Places to See Before You Die,1,2.500000
1,13 Little Blue Envelopes (Little Blue Envelope...,3,4.666667
2,1491: New Revelations of the Americas Before C...,2,4.500000
3,1776,4,4.000000
4,1st to Die (Women's Murder Club #1),4,3.500000
...,...,...,...
994,Wyrd Sisters (Discworld #6; Witches #2),3,3.666667
995,Xenocide (Ender's Saga #3),3,3.400000
996,Year of Wonders,4,3.200000
997,You Suck (A Love Story #2),2,4.500000


La cantidad de reseñas por libro varía significativamente, desde una única reseña hasta cuatro reseñas en los ejemplos proporcionados. Esto sugiere que algunos libros tienen un mayor nivel de participación de los usuarios que otros, lo cual podría estar influenciado por factores como la popularidad del libro, la campaña de marketing y la accesibilidad.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Aquí debes hacer uso de JOIN para que puedes usar la información de las tablas `books`, `reviews` y `ratings` que es donde están las columnas para que saques el resultado correcto y recuerda que solo debes usar python para hacer `display()` de tus resultados nada más
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Muy bien! Ahora aplicaste los JOIN necesario para tomar los datos de las diferentes tablas
</div>

#### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [20]:
# Creación de la consulta 
query_4 = """SELECT publishers.publisher AS publi, COUNT(DISTINCT books.book_id) AS books_cnt 
             FROM books 
             INNER JOIN publishers ON publishers.publisher_id = books.publisher_id 
             WHERE books.num_pages > 50 
             GROUP BY publishers.publisher 
             ORDER BY books_cnt DESC 
             LIMIT 1;"""

# Ejecutar la consulta y cargar los resultados en un DataFrame
pub_df = pd.read_sql(query_4, con=engine)

#Impresión de resultados
display(pub_df)

Unnamed: 0,publi,books_cnt
0,Penguin Books,42


Este resultado sugiere que Penguin Books podría ser una editorial clave a considerar para colaboraciones o análisis de mercado futuros. Su capacidad para publicar un número significativo de libros más sustanciosos indica una infraestructura editorial robusta y un compromiso con la publicación de obras de calidad.



<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Perfecto!
</div>

#### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [23]:
# Creación de la consulta 
query_5 = """ SELECT authors.author AS author_name, AVG(ratings.rating) AS rating_avg
              FROM books
              INNER JOIN ratings ON books.book_id = ratings.book_id
              INNER JOIN authors ON books.author_id = authors.author_id
              WHERE books.book_id IN (
                  SELECT book_id 
                  FROM ratings 
                  GROUP BY book_id 
                  HAVING COUNT(rating) >= 50)
              GROUP BY authors.author
              ORDER BY rating_avg DESC
              LIMIT 1; """

# Ejecutar la consulta y cargar los resultados en un DataFrame
author_df = pd.read_sql(query_5, con=engine)

#Impresión de resultados
display(author_df)

Unnamed: 0,author_name,rating_avg
0,J.K. Rowling/Mary GrandPré,4.287097


J.K. Rowling, con la colaboración de Mary GrandPré en las ilustraciones, se destaca significativamente en términos de calidad literaria, según la percepción de los usuarios. Una calificación promedio de 4.29, basada en libros con al menos 50 calificaciones, es un fuerte indicador de la consistencia y excelencia en la producción de contenido.

Para la nueva aplicación, destacar las obras de J.K. Rowling puede ser una estrategia efectiva para atraer y retener a los usuarios. Promocionar autores con altas calificaciones puede mejorar la percepción de calidad de la plataforma y atraer a lectores que buscan contenido altamente valorado.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Aquí deberías hacer uso de subconsultas, una para obtener primero los book_id que tengan mínimo 50 ratings y con ese resultado debes hacer el JOIN con la tabla de authors para sacar el promedio del rating
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Correcto! Ahora obtuviste el autor correcto
</div>

#### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

In [9]:
# Consulta SQL con subconsultas anidadas
query_6 = """SELECT AVG(SUBQ2.review_cnt) AS avg_review_cnt
             FROM (SELECT COUNT(reviews.review_id) AS review_cnt, SUBQ1.username
                   FROM (SELECT username, COUNT(rating_id) AS rating_cnt
                         FROM ratings
                         GROUP BY username
                         HAVING COUNT(rating_id) > 50) AS SUBQ1
             INNER JOIN reviews ON reviews.username = SUBQ1.username
             GROUP BY SUBQ1.username) AS SUBQ2 """

# Ejecutar la consulta y cargar los resultados en un DataFrame
avg_reviews_df = pd.read_sql(query_6, con=engine)

# Mostrar el número promedio de reseñas de texto
print(avg_reviews_df)


   avg_review_cnt
0       24.333333


El hecho de que los usuarios que calificaron más de 50 libros hayan dejado un promedio de aproximadamente 24.33 reseñas de texto indica un alto nivel de compromiso y participación. Estos usuarios no solo califican los libros, sino que también se toman el tiempo para escribir reseñas detalladas, lo cual es un indicador de una comunidad activa y entusiasta.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien utilizada la subconsulta para primero tomar los usuarios y el total para luego sacar el promedio!
</div>

# Conclusión

El análisis de la base de datos proporcionada por el servicio emergente en el mercado literario digital ha revelado una serie de insights valiosos que pueden informar el desarrollo de una propuesta de valor sólida para una nueva aplicación de lectura. A continuación, se resumen los hallazgos más relevantes:

1. **Producción Editorial Activa**:
   - Desde el 1 de enero de 2000, se han publicado 819 libros, indicando una producción editorial robusta y adaptativa a las demandas cambiantes del mercado. Esto refleja la capacidad de las editoriales para mantenerse relevantes en tiempos de crisis y cambios globales, como lo fue la pandemia del coronavirus.

2. **Cantidad de reseñas por libro**:
   - La cantidad de reseñas por libro varía significativamente, desde una única reseña hasta cuatro reseñas en los ejemplos proporcionados. Esto sugiere que algunos libros tienen un mayor nivel de participación de los usuarios que otros, lo cual podría estar influenciado por factores como la popularidad del libro, la campaña de marketing y la accesibilidad..

3. **Calidad Literaria de Diana Gabaldon**:
   - Identificar a J.K. Rowling como el autor con la más alta calificación promedio proporciona una valiosa oportunidad para desarrollar estrategias de contenido y marketing que mejoren la experiencia del usuario y el éxito de la nueva aplicación. Los libros de J.K. Rowling, especialmente la serie de Harry Potter, no solo atraen a muchos lectores, sino que también son altamente valorados por ellos, indicando una base de seguidores leales y satisfechos.

4. **Compromiso de los Usuarios**:
   - Los usuarios que han calificado más de 50 libros han dejado un promedio de 24.33 reseñas de texto. Este alto nivel de participación y feedback cualitativo refleja una comunidad activa y comprometida, lo cual es un activo valioso para cualquier plataforma literaria.

### Implicaciones y Oportunidades

- **Desarrollo de Propuestas de Valor**: Los insights obtenidos pueden ser utilizados para desarrollar características innovadoras y personalizadas en la nueva aplicación. Destacar autores populares y de alta calidad, como Diana Gabaldon, y colaborar con editoriales líderes, como Penguin Books, puede atraer y retener a los usuarios.

- **Estrategias de Fomento de Participación**: Implementar programas de incentivos y recompensas para fomentar la escritura de reseñas de texto puede aumentar aún más la participación de los usuarios y enriquecer la plataforma con feedback valioso.

- **Optimización de Contenidos**: Ofrecer un catálogo variado y de alta calidad, basado en las tendencias y preferencias reveladas por el análisis, puede mejorar la experiencia del usuario y satisfacer las necesidades de los lectores contemporáneos.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con los últimos cambios Clara! SQL es un lenguaje que verás con mucha frecuencia en tu vida laboral por lo que si te recomendaría darle algún tiempo de práctica más para que mejores tus habilidades con este lenguaje y que puedas destacar en el mercado laboral.
    
Saludos!
</div>