# Proyecto Análisis de datos literarios: Insights para el mercado de aplicaciones para lectores

# Tabla de contenido
1. [Introducción al Proyecto](#Introducción-al-Proyecto)
2. [Objetivos específicos](#Objetivos-específicos)
3. [Etapas de análisis del proyecto](#Etapas-de-análisis-del-proyecto)
4. [Exploración de las tablas](#Exploración-de-las-tablas)
5. [Consulta y análisis de datos](#Consulta-y-análisis-de-datos)
6. [Conclusiones y recomendaciones](#Conclusiones-y-recomendaciones)

# Introducción al Proyecto

El mercado de servicios y aplicaciones para amantes de los libros ha experimentado un crecimiento significativo, especialmente a raíz de los cambios en la rutina diaria derivados de la pandemia del coronavirus. Las personas, al pasar más tiempo en casa, han incrementado su consumo de libros, lo que ha impulsado a startups a desarrollar soluciones innovadoras que mejoren la experiencia del usuario y la oferta de contenido literario.

Este proyecto tiene como objetivo analizar una base de datos que contiene información detallada sobre libros, autores, editoriales, calificaciones y reseñas proporcionadas por los usuarios. El análisis de estos datos permitirá obtener insights valiosos que podrían servir para el desarrollo de una propuesta de valor competitiva en el mercado de aplicaciones para lectores.



# Objetivos específicos

1.Determinar la cantidad de libros publicados después del 1 de enero de 2000 para entender la producción reciente de contenido.

2.Calcular el número de reseñas y la calificación promedio por libro, lo cual permitirá evaluar el nivel de interacción y popularidad de los libros.

3.Identificar la editorial con la mayor producción de libros con más de 50 páginas, excluyendo publicaciones menores como folletos.

4.Determinar el autor con la calificación promedio más alta entre libros con al menos 50 calificaciones, para destacar a los autores más valorados por los usuarios.

5.Calcular el número promedio de reseñas de texto generadas por usuarios activos que calificaron más de 50 libros, lo que permitirá identificar patrones de comportamiento de los usuarios más comprometidos.

# Etapas de análisis del proyecto

**Exploración de las tablas:**

Revisar las estructuras y los primeros registros de cada tabla para familiarizarse con los datos (books, authors, publishers, ratings, reviews).
Entender las relaciones entre las tablas y cómo se conectan a través de sus claves primarias y foráneas.

**Consulta y análisis de datos:**

Etapa 1: Determinar la cantidad de libros publicados después del 1 de enero de 2000 mediante una consulta SQL.
Etapa 2: Calcular el número de reseñas y la calificación promedio por libro uniendo las tablas ratings y reviews.
Etapa 3: Identificar la editorial con la mayor cantidad de libros con más de 50 páginas utilizando las tablas books y publishers.
Etapa 4: Determinar el autor con la calificación promedio más alta considerando solo libros con al menos 50 calificaciones, a través de las tablas books, authors y ratings.
Etapa 5: Calcular el promedio de reseñas de texto generadas por usuarios que calificaron más de 50 libros, cruzando las tablas ratings y reviews.

**Conclusiones y recomendaciones:**

Analizar los resultados obtenidos en cada etapa, extrayendo conclusiones claras y relevantes.
Identificar tendencias en la producción de libros, el comportamiento de los usuarios y las editoriales o autores más destacados. Proporcionar recomendaciones basadas en los resultados del análisis que puedan contribuir a mejorar el desarrollo de un producto o servicio dirigido a los amantes de los libros.

**-Inicialización-Conexión a la base de datos**

In [1]:
!pip install psycopg2-binary



In [2]:
import pandas as pd
import sqlite3
from sqlalchemy import create_engine
import psycopg2
from psycopg2 import sql

In [3]:
db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# Exploración de las tablas

In [4]:
query = "SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';"
tables = pd.read_sql(query, engine)
print("Tablas disponibles en la base de datos:")
print(tables)

Tablas disponibles en la base de datos:
           table_name
0  advertisment_costs
1             authors
2               books
3           check_avg
4              orders
5          publishers
6             ratings
7             reviews
8              visits


**- Tabla books**

In [5]:
query = "SELECT * FROM books LIMIT 5;"
books_df = pd.read_sql(query, engine)
print(books_df)

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  


**-Tabla authors**

In [6]:
query = "SELECT * FROM authors LIMIT 5;"
authors_df = pd.read_sql(query, engine)
print(authors_df)

   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd


**-Tabla publishers**

In [7]:
query = "SELECT * FROM publishers LIMIT 5;"
publishers_df = pd.read_sql(query, engine)
print(publishers_df)

   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company


**-Tabla reviews**

In [8]:
query = "SELECT * FROM reviews LIMIT 5;"
reviews_df = pd.read_sql(query, engine)
print(reviews_df)

   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  


**-Tabla ratings**

In [9]:
query = "SELECT * FROM ratings LIMIT 5;"
ratings_df = pd.read_sql(query, engine)
print(ratings_df)

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2


**-Descripción de las tablas y relaciones**

**Tabla books**

Clave primaria (PK): book_id → Identifica de manera única cada libro.                                                                                   

Claves foráneas (FK):                                                                                                                                   
author_id → Relaciona los libros con la tabla authors para obtener información del autor o autora.                                                      
publisher_id → Relaciona los libros con la tabla publishers para obtener información de la editorial.                                                   

Relaciones:                                                                                                                                             
Cada libro está asociado a un autor mediante author_id.                                                                                               
Cada libro pertenece a una editorial mediante publisher_id.                                                                                             
Esta tabla es clave para conectar con reviews y ratings a través de book_id.

**Tabla authors**

Clave primaria (PK): author_id → Identifica de manera única a cada autor o autora.

Relación con otras tablas:
Se conecta con la tabla books mediante author_id.

Relaciones:
Cada autor puede tener uno o varios libros en la tabla books.

**Tabla publishers**

Clave primaria (PK): publisher_id → Identifica de manera única a cada editorial.

Relación con otras tablas:
Se conecta con la tabla books mediante publisher_id.

Relaciones:
Cada editorial puede haber publicado uno o varios libros en la tabla books.

**Tabla reviews**

Clave primaria (PK): review_id → Identifica de manera única cada reseña.

Claves foráneas (FK):
book_id → Relaciona las reseñas con la tabla books.

Otras columnas: username, text → Información adicional de la reseña.

Relaciones:
Cada reseña está asociada a un libro mediante book_id.
Un libro puede tener una o varias reseñas.

**Tabla ratings**

Clave primaria (PK): rating_id → Identifica de manera única cada calificación.

Claves foráneas (FK):
book_id → Relaciona las calificaciones con la tabla books.

Otras columnas: username, rating → Información sobre quién calificó y la calificación asignada.

Relaciones:
Cada calificación está asociada a un libro mediante book_id.
Un libro puede tener una o varias calificaciones.




# Consulta y análisis de datos

**-Etapa 1: Determinar la cantidad de libros publicados después del 1 de enero de 2000 mediante una consulta SQL.**

In [10]:
query_1 = '''
SELECT COUNT(*) AS num_books_after_2000
FROM books
WHERE publication_date > '2000-01-01';
'''

In [11]:
result_1 = pd.io.sql.read_sql(query_1, con=engine)
print(result_1)

   num_books_after_2000
0                   819


**-Etapa 2: Calcular el número de reseñas y la calificación promedio por libro uniendo las tablas ratings y reviews.**

In [12]:
query_2 = '''
SELECT 
    b.book_id,
    b.title,
    COUNT(r.review_id) AS num_reviews,
    AVG(rt.rating) AS avg_rating
FROM books AS b
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY num_reviews DESC;
'''

In [13]:
result_2 = pd.io.sql.read_sql(query_2, con=engine)
print(result_2.head())

   book_id                                              title  num_reviews  \
0      948                            Twilight (Twilight  #1)         1120   
1      750                The Hobbit  or There and Back Again          528   
2      673                             The Catcher in the Rye          516   
3      302  Harry Potter and the Prisoner of Azkaban (Harr...          492   
4      299  Harry Potter and the Chamber of Secrets (Harry...          480   

   avg_rating  
0    3.662500  
1    4.125000  
2    3.825581  
3    4.414634  
4    4.287500  


**Etapa 3: Identificar la editorial con la mayor cantidad de libros con más de 50 páginas utilizando las tablas books y publishers.**

In [14]:
query_3 = '''
SELECT 
    p.publisher,
    COUNT(b.book_id) AS num_books
FROM books AS b
JOIN publishers AS p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY num_books DESC
LIMIT 1;
'''

In [15]:
result_3 = pd.io.sql.read_sql(query_3, con=engine)
print(result_3)

       publisher  num_books
0  Penguin Books         42


**Etapa 4: Determinar el autor con la calificación promedio más alta considerando solo libros con al menos 50 calificaciones, a través de las tablas books, authors y ratings.**

In [16]:
query_4 = '''
SELECT 
    a.author,
    AVG(rt.rating) AS avg_rating
FROM authors AS a
JOIN books AS b ON a.author_id = b.author_id
JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY a.author
HAVING COUNT(rt.rating_id) >= 50
ORDER BY avg_rating DESC
LIMIT 1;
'''

In [17]:
result_4 = pd.io.sql.read_sql(query_4, con=engine)
print(result_4)

           author  avg_rating
0  Diana Gabaldon         4.3


**Etapa 5: Calcular el promedio de reseñas de texto generadas por usuarios que calificaron más de 50 libros, cruzando las tablas ratings y reviews.**

In [18]:
query_5 = '''
WITH user_ratings_count AS (
    SELECT 
        username,
        COUNT(rating_id) AS num_ratings
    FROM ratings
    GROUP BY username
    HAVING COUNT(rating_id) > 50
)
SELECT 
    AVG(review_count) AS avg_reviews
FROM (
    SELECT 
        urc.username,
        COUNT(r.review_id) AS review_count
    FROM user_ratings_count AS urc
    LEFT JOIN reviews AS r ON urc.username = r.username
    GROUP BY urc.username
) AS subquery;
'''

In [19]:
result_5 = pd.io.sql.read_sql(query_5, con=engine)
print(result_5)

   avg_reviews
0    24.333333


# Conclusiones y recomendaciones

**Conclusiones**

**Etapa 1: Cantidad de libros publicados después del 1 de enero de 2000**
Se identificaron 819 libros publicados después del 1 de enero de 2000. Esto demuestra una tendencia significativa de producción literaria en los últimos años, probablemente impulsada por la mayor disponibilidad de editoriales y tecnologías que facilitan la publicación.

**Etapa 2: Número de reseñas y calificación promedio por libro**
Libros como Twilight y Harry Potter and the Prisoner of Azkaban destacan con un alto número de reseñas (1120 y 492, respectivamente) y calificaciones promedio sobresalientes (3.66 y 4.41, respectivamente). Esto evidencia una fuerte correlación entre los libros más populares y la participación activa de los usuarios en reseñas y calificaciones.

**Etapa 3: Editorial con mayor cantidad de libros con más de 50 páginas**
La editorial Penguin Books lidera con 42 libros que tienen más de 50 páginas, mostrando su posición como una editorial prominente en la producción literaria de calidad. Esto refleja una fuerte presencia en el mercado editorial.

**Etapa 4: Autor con la calificación promedio más alta**
Diana Gabaldon obtuvo la calificación promedio más alta (4.3) considerando libros con al menos 50 calificaciones. Esto resalta su capacidad para conectar con los lectores y mantener un estándar elevado de calidad en su obra.

**Etapa 5: Promedio de reseñas generadas por usuarios que calificaron más de 50 libros**
Los usuarios que calificaron más de 50 libros generaron un promedio de 24.33 reseñas de texto, lo que indica un grupo altamente activo y comprometido dentro de la comunidad. Este segmento representa a lectores apasionados que tienen una influencia importante en la percepción de los libros.


**Recomendaciones**

**1.Fomentar la publicación de nuevos libros y géneros post-2000**

Las tendencias de producción después del año 2000 sugieren un mercado vibrante para nuevos lanzamientos. Las editoriales pueden enfocarse en explorar géneros populares (fantasía, ficción contemporánea, etc.) y trabajar con autores emergentes para satisfacer las demandas del mercado.

**2.Promover libros con alta participación de usuarios**

Libros como Twilight y la saga Harry Potter demuestran que la popularidad impulsa la interacción de los usuarios. Las plataformas de venta y promoción de libros podrían destacar títulos con calificaciones sobresalientes y numerosas reseñas para aumentar la visibilidad y las ventas.

**3.Fortalecer alianzas con editoriales líderes**

Dado que Penguin Books lidera en la producción de libros con más de 50 páginas, se recomienda fortalecer alianzas estratégicas con esta editorial y otras similares para maximizar la oferta de contenido atractivo.

**4.Promocionar autores con alto reconocimiento entre los lectores**

Autores como Diana Gabaldon, que cuentan con calificaciones promedio altas, pueden ser promocionados mediante campañas de marketing personalizadas, eventos de firma de libros o colaboraciones con plataformas digitales de lectura.

**5.Aprovechar la influencia de usuarios altamente activos**

Los usuarios que califican y reseñan muchos libros son embajadores clave de las plataformas de libros. Se recomienda implementar programas de fidelización, como descuentos, acceso anticipado a lanzamientos o invitaciones a eventos, para fomentar aún más su participación.

**6.Optimizar los servicios para comunidades lectoras**

Basándose en los comportamientos de los usuarios y las tendencias identificadas, plataformas dirigidas a amantes de los libros pueden ofrecer recomendaciones personalizadas, foros de discusión o funciones que promuevan la interacción social entre lectores.