# üìò Proyecto: An√°lisis de comportamiento lector durante la pandemia
___

## üß© Contexto
Durante la pandemia de COVID-19, el h√°bito de lectura se intensific√≥. Muchas personas comenzaron a consumir libros desde casa, lo que impuls√≥ el desarrollo de aplicaciones orientadas a lectores. Se nos ha proporcionado una base de datos de uno de estos servicios, con informaci√≥n sobre libros, autores, editoriales, calificaciones y rese√±as. 
____
## üéØObjetivos del estudio
- Analizar la estructura de la base de datos.
- Responder cinco preguntas clave mediante consultas SQL.
- Documentar hallazgos con claridad y trazabilidad.
____
# üóÉÔ∏è Exploraci√≥n inicial: conexi√≥n y estructura

In [56]:
# Creamos engine para conexion a sql
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'practicum_student',       # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contrase√±a
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexi√≥n
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

____________________

## üîç Tablas disponibles

In [57]:
# Verificamos la conexi√≥n y vemos las tablas
query = """
select table_name
from information_schema.tables
where table_schema='public'
"""

df = pd.io.sql.read_sql(query, con =engine)
df

Unnamed: 0,table_name
0,advertisment_costs
1,authors
2,books
3,check_avg
4,orders
5,publishers
6,ratings
7,reviews
8,visits


_____
# üìö1. Total de libros publicados despues de Enero 1, 2000

In [58]:
# Obtenemos numero de libros publicados despues de Enero 1, 2000
total_libros = """
select count(*) as total
from books
where publication_date is not null and publication_date > '2000-01-01'
"""
# Leemos el resultado en un dataframe
df_total_libros = pd.io.sql.read_sql(total_libros, con=engine)

# Extraemos el numero del dataframe
total_libros = df_total_libros['total'][0]
total_libros = int(total_libros) # Convertimos a entero

# Mostramos el resultado
print(f'Se publicaron {total_libros} libros despues del 1 de Enero del 2000')


Se publicaron 819 libros despues del 1 de Enero del 2000


## üß´Resultados
Se identificaron **819 libros** publicados despu√©s del 1 de enero del 2000, lo que demuestra una base s√≥lida de t√≠tulos recientes que pueden ser relevantes para lectores contempor√°neos.

______
## ‚úÖ2. Total de rese√±as hechas por usuarios

In [60]:
# obtenemos total de rese√±as hechas por usuarios y calificacion promedio para cada libro
total_rese√±as = """
select count(*) as total_rese√±as
from reviews
"""

# Leemos el resultado en un dataframe
df_total_rese√±as = pd.io.sql.read_sql(total_rese√±as, con=engine)

# Extraemos el numero del dataframe
total_rese√±as = df_total_rese√±as['total_rese√±as'][0]

print(f'Existen {total_rese√±as} rese√±as de usuarios en total')

Existen 2793 rese√±as de usuarios en total


## üß´Resultados
La base contiene **2793 rese√±as de texto**. Al calcular la calificaci√≥n promedio por libro, se identificaron varios t√≠tulos con puntuaciones perfectas, lo que permite destacar obras altamente valoradas por la comunidad lectora.

____
## üìó3. Calificacion promedio para cada libro
Consulta que calcula la calificaci√≥n promedio de cada libro, uniendo las tablas `ratings` y `books`. Se agrupa por `book_id` y `title` para asegurar unicidad y trazabilidad. El resultado se ordena de mayor a menor para destacar los libros mejor valorados.

In [61]:
# Obtenemos calificacion promedio para cada libro
average_rating = """
select b.book_id, b.title, avg(r.rating) as calificacion_promedio
from ratings as r
join books as b on r.book_id = b.book_id
group by b.book_id, b.title
order by calificacion_promedio desc
"""

# Leemos el resultado en un dataframe
df_average_rating = pd.io.sql.read_sql(average_rating, con=engine)

# Mostramos las primeras filas del dataframe
df_average_rating.head()

Unnamed: 0,book_id,title,calificacion_promedio
0,518,Pop Goes the Weasel (Alex Cross #5),5.0
1,732,The Ghost Map: The Story of London's Most Terr...,5.0
2,347,In the Hand of the Goddess (Song of the Liones...,5.0
3,610,Tai-Pan (Asian Saga #2),5.0
4,330,How to Be a Domestic Goddess: Baking and the A...,5.0


## üß´Resultados
Se calcularon las calificaciones promedio de todos los libros registrados. Los t√≠tulos con puntuaci√≥n perfecta (5.0) destacan por su alta valoraci√≥n entre los lectores, lo que los convierte en candidatos ideales para recomendaciones dentro de la aplicaci√≥n. 

Esto permite identificar contenido de alta calidad percibida.

____
## üèõÔ∏è4. Editorial con mayor numero de libros publicados(+50 paginas)

In [62]:
editoriales = """
select p.publisher, count(b.book_id) as total_libros
from books as b
join publishers as p on b.publisher_id = p.publisher_id
where b.num_pages > 50
group by p.publisher
order by total_libros desc
"""
# Leemos el resultado en un dataframe
df_editoriales = pd.io.sql.read_sql(editoriales, con=engine)

# Mostramos las primeras filas del dataframe
df_editoriales.head()

# Mostramos respues
print(f'La editorial con mayor numero de libros publicados con mas de 50 paginas\n es:\n\t{df_editoriales.iloc[0,0]} \ncon:\n\t{df_editoriales.iloc[0,1]} libros publicados.')


La editorial con mayor numero de libros publicados con mas de 50 paginas
 es:
	Penguin Books 
con:
	42 libros publicados.


## üß´Resultados
Penguin Books lidera con 42 libros de m√°s de 50 p√°ginas, posicion√°ndose como la editorial m√°s activa en publicaciones sustanciales dentro del conjunto de datos.

_____
## üë§5. Autor con mayor calificacion promedio del libro(minimo 50 calificaciones)

In [63]:
# libros con mayor calificacion promedio del libro(minimo 50 calificaciones)
autores = """
select a.author, b.title, avg(r.rating) as calificacion_promedio, count(r.rating) as total_calificaciones
from authors as a
join books as b on a.author_id = b.author_id
join ratings as r on b.book_id = r.book_id
group by b.book_id, b.title, a.author
having count(r.rating) >= 50
order by calificacion_promedio desc
"""

# Leemos el resultado en un dataframe
df_autores = pd.io.sql.read_sql(autores, con=engine)

# Mostramos las primeras filas del dataframe
df_autores.head()

# Mostramos respuesta
print(f'El autor con mayor calificacion promedio del libro es:\n\t{df_autores.iloc[0,0]} \ncon su libro:\n\t"{df_autores.iloc[0,1]}" \nque tiene una calificacion promedio de:\n\t{df_autores.iloc[0,2]:.2f} \nbasada en:\n\t{df_autores.iloc[0,3]} calificaciones.')

El autor con mayor calificacion promedio del libro es:
	J.K. Rowling/Mary GrandPr√© 
con su libro:
	"Harry Potter and the Prisoner of Azkaban (Harry Potter  #3)" 
que tiene una calificacion promedio de:
	4.41 
basada en:
	82 calificaciones.


## üß´Resultados
El autor con el libro mejor valorado fue **J.K. Rowling/Mary GrandPr√©**, con *Harry Potter and the Prisoner of Azkaban*, que obtuvo una calificaci√≥n promedio de 4.41 basada en **82 evaluaciones**. Este resultado no solo destaca la popularidad sostenida de la saga de Harry Potter, sino tambi√©n el nivel de satisfacci√≥n que genera entre lectores activos. Al aplicar el filtro de m√≠nimo 50 calificaciones, se garantiza que el dato refleje una percepci√≥n colectiva y confiable, lo que lo convierte en un referente s√≥lido para recomendaciones dentro de la aplicaci√≥n.

_____
## ‚ú≥Ô∏è6. Promedio de rese√±as escritas por usuarios(con mas de 50)

In [70]:
# Encuentra el n√∫mero promedio de rese√±as de texto entre los usuarios que calificaron m√°s de 50 libros
promedio_rese√±as_texto = """
SELECT AVG(total_reviews) AS promedio_rese√±as
FROM (
    select username, count(*) as total_reviews
    FROM reviews
    where username in (
        select username
        from ratings
        group BY username
        having count(*) > 50
    )
    group by username
) as subquery;
"""

df_promedio_rese√±as_texto = pd.io.sql.read_sql(promedio_rese√±as_texto, con=engine)

# Mostramos las primeras filas del dataframe
print(f'El promedio de rese√±as escritas por usuarios con mas de 50 calificaciones es de:\n\t{df_promedio_rese√±as_texto.iloc[0,0]:.2f} rese√±as por usuario.')

El promedio de rese√±as escritas por usuarios con mas de 50 calificaciones es de:
	24.33 rese√±as por usuario.


## üß´Resultados
Los usuarios m√°s activos escribieron en promedio 24.33 rese√±as de texto, lo que revela un segmento comprometido que podr√≠a ser clave para estrategias de fidelizaci√≥n y recomendaci√≥n.

_____


# üßæ Conclusi√≥n general
El an√°lisis permiti√≥ extraer insights clave sobre publicaciones, comportamiento de usuarios y calidad percibida de los libros. Las consultas SQL aplicadas ofrecieron trazabilidad y claridad, reforzando la utilidad de esta base de datos para dise√±ar productos centrados en lectores activos y contenido de alto valor.
____