¡Hola, Jose!

Mi nombre es Tonatiuh Cruz. Me complace revisar tu proyecto hoy.

Al identificar cualquier error inicialmente, simplemente los destacaré. Te animo a localizar y abordar los problemas de forma independiente como parte de tu preparación para un rol como data-scientist. En un entorno profesional, tu líder de equipo seguiría un emnfoque similar. Si encuentras la tarea desafiante, proporcionaré una pista más específica en la próxima iteración.

Encontrarás mis comentarios a continuación - **por favor no los muevas, modifiques o elimines**.

Puedes encontrar mis comentarios en cajas verdes, amarillas o rojas como esta:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Éxito. Todo está hecho correctamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Observaciones. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Necesita corrección. El bloque requiere algunas correcciones. El trabajo no puede ser aceptado con comentarios en rojo.
</div>

Puedes responderme utilizando esto:

<div class="alert alert-block alert-info">


# Analisis SQL de Mercado para libros

## Introduccion

En el siguiente proyecto se analizara la base de datos usando python, en la libreria de pandas, y sql. Usando las herramientas se conseguira conseguir una propuesta para obtener un producto nuevo.

## Objetivos

**Objetivo general**

Analizar la base de datos de libros, autores, editoriales, calificaciones y reseñas con el fin de obtener información relevante que respalde la creación de una propuesta de valor para una nueva aplicación dirigida a lectores.

**Objetivos específicos**

1. Explorar la estructura de la base de datos para comprender sus tablas, relaciones y atributos clave.

2. Identificar patrones de comportamiento de los usuarios, como:

   - Cantidad de calificaciones realizadas.
   - Frecuencia y contenido de reseñas de texto.

3. Analizar el rendimiento de libros y autores, determinando:

   - Los libros más valorados.
   - Los autores con mayor calificación promedio.
   - La cantidad de reseñas por libro.

5. Evaluar el desempeño de las editoriales, incluyendo:
   - Editoriales con mayor producción de libros.
   - Editoriales con libros mejor calificados.

6. Detectar segmentos valiosos de usuarios, por ejemplo:

   - Usuarios altamente activos.
   - Usuarios que realizan muchas reseñas o calificaciones.
   - Generar insights accionables que permitan diseñar funciones, recomendaciones e incentivos adecuados para una futura aplicación de lectura.

## 1. Localizar datos:

In [32]:
from sqlalchemy import create_engine
import pandas as pd
from sqlalchemy import inspect

In [33]:
db_config = {
 'user': 'practicum_student', # username
 'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
 'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
 'port': 5432, # connection port
 'db': 'data-analyst-final-project-db' # the name of the database
 }
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])

In [34]:
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [35]:
inspect(engine).get_table_names()

['ratings',
 'advertisment_costs',
 'authors',
 'orders',
 'reviews',
 'visits',
 'books',
 'users',
 'publishers']

In [36]:
insp = inspect(engine)

Se utilizo el codigo dado para realizar el proyecto de investigacion ademas se creo la variable insp para inpeccionar los datos en un futuro.

## 2. Analisis y Resolucion de Datos 

### El Numero de libros publicados desde 1 de Enero del 2000

In [37]:
insp.get_columns('books')

[{'name': 'book_id',
  'type': INTEGER(),
  'nullable': False,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'author_id',
  'type': INTEGER(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'title',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'num_pages',
  'type': INTEGER(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'publication_date',
  'type': DATE(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'publisher_id',
  'type': INTEGER(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None}]

In [38]:
query = """
SELECT COUNT(*) AS total_libros
FROM books
WHERE publication_date > '2000-01-01';
"""

In [39]:
df = pd.read_sql(query, engine)

In [40]:
print (df)

   total_libros
0           819


Se observa que el numero de libros que tenemos en nuestra base de datos publicado despues del 2000 son 819.

### Numero de Reseñas de usuarios y la calificacion del libro

In [41]:
insp.get_columns('ratings')

[{'name': 'rating_id',
  'type': INTEGER(),
  'nullable': False,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'book_id',
  'type': INTEGER(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'username',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'rating',
  'type': INTEGER(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None}]

In [42]:
insp.get_columns('reviews')

[{'name': 'review_id',
  'type': INTEGER(),
  'nullable': False,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'book_id',
  'type': INTEGER(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'username',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'text',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None}]

In [43]:
result_2 ="""
SELECT 
    b.book_id,
    b.title,
    COUNT(DISTINCT r.review_id) AS num_reviews,
    AVG(rt.rating) AS avg_rating
FROM books b
LEFT JOIN reviews r ON b.book_id = r.book_id
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY num_reviews DESC;
"""

In [53]:
df_result_2 = pd.read_sql(result_2, engine)
df_result_2

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,948,Twilight (Twilight #1),7,3.662500
1,963,Water for Elephants,6,3.977273
2,734,The Glass Castle,6,4.206897
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667
996,808,The Natural Way to Draw,0,3.000000
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.000000
998,221,Essential Tales and Poems,0,4.000000


Se puede ver que el libro con mas reseñas es Twilight el primer libro, los que estan en el 2 y 3 puesto podemos observar que siguen el patron entre fantasia y romance. entre los menos/no calificados son libros para niños, entonces los que mas usan califican se podria decir que son entre adultos jovenes y adolecentes.

### Identificacion de editoriales que han publicado libros con mayor a 50 paginas

In [45]:
insp.get_columns('publishers')

[{'name': 'publisher_id',
  'type': INTEGER(),
  'nullable': False,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'publisher',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None}]

In [46]:
result_3 = """
SELECT
    p.publisher_id,
    p.publisher,
    COUNT(b.book_id) AS num_books
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id, p.publisher
ORDER BY num_books DESC
LIMIT 5
"""

In [56]:
df_result_3 = pd.read_sql(result_3, engine)
df_result_3

Unnamed: 0,publisher_id,publisher,num_books
0,212,Penguin Books,42
1,309,Vintage,31
2,116,Grand Central Publishing,25
3,217,Penguin Classics,24
4,35,Bantam,19


Nos indica la tabla que Penguin Books es el que posee mas publicaciones con 42 que posee gran variedad de generos y para todas las edades (segun su pagina). 

### Identificacion de autores que tienen la calificacion mas alta en promedio con el libros por mayores de 50 calificaciones

In [48]:
insp.get_columns('authors')

[{'name': 'author_id',
  'type': INTEGER(),
  'nullable': False,
  'default': None,
  'autoincrement': False,
  'comment': None},
 {'name': 'author',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': False,
  'comment': None}]

In [49]:
result_4 = """

WITH rating_per_book AS (
    SELECT
        b.book_id,
        b.author_id,
        COUNT(rt.rating_id) AS num_ratings,
        AVG(rt.rating) AS avg_book_rating
    FROM books b
    JOIN ratings rt ON b.book_id = rt.book_id
    GROUP BY b.book_id, b.author_id
    HAVING COUNT(rt.rating_id) >= 50
),

author_rating AS (
    SELECT
        au.author_id,
        au.author,
        rpb.num_ratings,
        AVG(rpb.avg_book_rating) AS avg_book_rating
    FROM authors au
    JOIN rating_per_book rpb ON au.author_id = rpb.author_id
    GROUP BY au.author_id, au.author, rpb.num_ratings
)

SELECT *
FROM author_rating
ORDER BY avg_book_rating DESC
LIMIT 5;
"""

In [57]:
df_result_4 = pd.read_sql(result_4, engine)
df_result_4

Unnamed: 0,author_id,author,num_ratings,avg_book_rating
0,236,J.K. Rowling/Mary GrandPré,82,4.414634
1,240,J.R.R. Tolkien,74,4.391892
2,236,J.K. Rowling/Mary GrandPré,80,4.2875
3,402,Markus Zusak/Cao Xuân Việt Khương,53,4.264151
4,236,J.K. Rowling/Mary GrandPré,73,4.246575


Los autores mas populares serian los las famosas series de ficcion/fantasia como Harry Potter y The Lord of the Rings, escritas por J.K.Rowling y J.R.R. Tolkien.

### Promedio de reseñas de texto entre usuario mas activos (50+ reseñas)

In [51]:
result_5 = """
WITH users_50_plus AS (
    SELECT
        rt.username,
        COUNT(rt.rating_id) as num_ratings
    FROM ratings rt
    GROUP BY rt.username
    HAVING COUNT(rt.rating_id) >= 50
),

reviews_typed AS (
    SELECT
        r.username,
        COUNT(r.review_id) as num_reviews
    FROM reviews r
    JOIN users_50_plus ufp ON r.username = ufp.username
    GROUP BY r.username
)

SELECT 
    AVG(num_reviews) AS avg_text_reviews
FROM reviews_typed;
"""

In [52]:
df_result_5 = pd.read_sql(result_5, engine)
df_result_5

Unnamed: 0,avg_text_reviews
0,24.222222


Los usuarios altamente activos (aquellos que calificaron más de 50 libros) generan, en promedio, 24 reseñas de texto, lo cual representa un nivel de participación elevado. Este grupo es especialmente valioso para la aplicación, ya que producen contenido significativo y útil para otros usuarios.

<div class="alert alert-block alert-success">
<b>Paso 2</b> <a class="tocSkip"></a><br>
Has realizado un buen trabajo al formular una consulta SQL para contar con:
    
    - el número de libros publicados después de una fecha específica.
    - Calificación promedio
    - Editorial que ha publicado la mayor cantidad de libros
    - Autor con la calificación promedio más alta
    - Promedio de reseñas
    
Esto demuestra tu habilidad para manipular y consultar bases de datos de manera efectiva. Solamente para terminar de complementar te recomiendo incluir el número de libros evaluados por autor para proporcionar un contexto adicional sobre la consistencia de sus calificaciones.
</div>

## Conclusiones

El análisis de la base de datos del servicio de lectura revela un ecosistema literario amplio, diverso y con información suficiente para sustentar el diseño de un nuevo producto digital orientado a lectores. La existencia de 819 libros publicados después del año 2000 confirma que el catálogo está compuesto mayoritariamente por obras modernas y relevantes para el público actual, lo que constituye una base sólida para recomendaciones atractivas y actualizadas.

En cuanto al comportamiento de los usuarios, se observa que los libros con mayor interacción presentan calificaciones promedio relativamente altas, lo que indica una comunidad lectora participativa y con una percepción generalmente positiva de las obras disponibles. Además, las reseñas y calificaciones muestran patrones consistentes que pueden ser aprovechados para segmentar preferencias y mejorar la experiencia personalizada dentro de la aplicación.

En conjunto, los resultados muestran que el servicio cuenta con suficiente volumen, variedad y calidad de datos para desarrollar una propuesta de valor sólida. El comportamiento de los usuarios, la consistencia del catálogo y la presencia de editoriales y autores destacados ofrecen una base estratégica para construir una aplicación competitiva que responda a los intereses y hábitos de lectura actuales.

**Propuesta**

Basándonos en el análisis detallado del catálogo, editoriales, autores y comportamiento de los usuarios, proponemos el desarrollo de un "Nuevo Producto", una plataforma inteligente de lectura diseñada para potenciar el descubrimiento, la comunidad y la personalización en el ecosistema digital de los amantes de los libros.

Durante la pandemia, el hábito de lectura aumentó significativamente, pero los usuarios se enfrentan a catálogos amplios sin filtros adecuados, recomendaciones genéricas que no se ajustan a su perfil real, falta de información útil para elegir su siguiente lectura y Escasa interacción significativa entre lectores.

La competencia actual ofrece muchas opciones, pero pocas integran datos profundos para brindar una experiencia personalizada y dinámica, basada en hábitos reales de los usuarios.