Hola **Jairo**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Muchísimas gracias por las observaciones 🤗
</div>

# Proyecto SQL: CORONAVIRUS

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Descripción de los datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de l

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: 

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseñala editoriala editorial

## Instrucciones el desarrollo del proyecto:
- Describe los objetivos del estudio.
- Establecer la conexión de la base de datos y estudiar las tablas (imprime las primeras filas).
- Realiza una consulta SQL para cada una de las tareas.
- Describe tus conclusiones para cada una de las tareas.

## Objetivos del proyecto

Identificar el comportamiento de los autores, y como impacta en los editoriales la calificaciòn de cada libro.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen detalle el incluir la introducción al proyecto, esto hace que tu notebook sea mucho más fácil de entender. Te animo a continuar con esta práctica!
</div>

##  Establecer la conexión de la base de datos y estudiar las tablas

In [1]:
# importar librerías
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
engine

Engine(postgresql://practicum_student:***@rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net:6432/data-analyst-final-project-db)

In [3]:
# Crear una lista para cada tabla
tablas = ['books', 'authors', 'publishers', 'ratings', 'reviews']

##  Realizar consultas SQL

In [4]:
# imprimir las primeras filas

for tabla in tablas:
    query_1  = 'SELECT *  FROM ' + tabla + ' limit 10'
    display (pd.io.sql.read_sql(query_1, con = engine))  

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


In [5]:
# Query 2
# Conteo de datos por tablas 
for tabla in tablas:
    query_2 = 'SELECT COUNT (*)  FROM ' + tabla + ' limit 10'
    display (pd.io.sql.read_sql(query_2, con = engine))  

Unnamed: 0,count
0,1000


Unnamed: 0,count
0,636


Unnamed: 0,count
0,340


Unnamed: 0,count
0,6456


Unnamed: 0,count
0,2793


### Comprobar Valores Ausentes en las Tablas 

In [6]:
# query 3:

# Comprobar valores ausentes

for tabla in tablas:
    # Cargar los datos desde la base de datos
    query_3 = f'SELECT * FROM {tabla}'
    df = pd.read_sql(query_3, engine)
    
  # Mostrar los valores ausentes de la tabla actual
    print(f'--- Tabla: {tabla} ---')
    print('Valores ausentes por columna:')
    print(df.isnull().sum())  # Cuenta valores nulos por columna
    print('\n')   

--- Tabla: books ---
Valores ausentes por columna:
book_id             0
author_id           0
title               0
num_pages           0
publication_date    0
publisher_id        0
dtype: int64


--- Tabla: authors ---
Valores ausentes por columna:
author_id    0
author       0
dtype: int64


--- Tabla: publishers ---
Valores ausentes por columna:
publisher_id    0
publisher       0
dtype: int64


--- Tabla: ratings ---
Valores ausentes por columna:
rating_id    0
book_id      0
username     0
rating       0
dtype: int64


--- Tabla: reviews ---
Valores ausentes por columna:
review_id    0
book_id      0
username     0
text         0
dtype: int64




### Comprobar Valores duplicados en las Tablas 

In [7]:
# query 4:

for tabla in tablas:
    # Cargar los datos desde la base de datos
    query_4 = f'SELECT * FROM {tabla}'
    df = pd.read_sql(query_4, engine)
    
  # Mostrar los valores ausentes de la tabla actual
    print(f'--- Tabla: {tabla} ---')
    print('Duplicados:')
    print(df.duplicated().sum())
    print('\n')   

--- Tabla: books ---
Duplicados:
0


--- Tabla: authors ---
Duplicados:
0


--- Tabla: publishers ---
Duplicados:
0


--- Tabla: ratings ---
Duplicados:
0


--- Tabla: reviews ---
Duplicados:
0




Se puede observar que no hay ni valores ausentes ni duplicados en las tablas que se están analizando

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien, siempre es bueno dar un doble check a los datos con los que se trabajará 
</div>

###  Encuentra el número de libros publicados después del 1 de enero de 2000.

In [8]:
# query 5:

query_5 = """
SELECT COUNT(*) AS total_libros
FROM books
WHERE publication_date > '2000-01-01';
"""

result = pd.read_sql(query_5, engine)
result

Unnamed: 0,total_libros
0,819


El númer de libros publicados despues del 1 de enero de 2000 es 819 libros

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con el cálculo! Aplicaste el filtro correcto para obtener los datos
</div>

### Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.

In [9]:
# query 6:

query_6 = """
SELECT 
    b.book_id,
    b.title,
    COUNT(r.review_id) AS total_resenas,
    ROUND(AVG(rt.rating), 2) AS calificacion_promedio
FROM books AS b
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY total_resenas DESC;
"""

result = pd.read_sql(query_6, engine)
result

Unnamed: 0,book_id,title,total_resenas,calificacion_promedio
0,948,Twilight (Twilight #1),1120,3.66
1,750,The Hobbit or There and Back Again,528,4.13
2,673,The Catcher in the Rye,516,3.83
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.41
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.29
...,...,...,...,...
995,221,Essential Tales and Poems,0,4.00
996,808,The Natural Way to Draw,0,3.00
997,191,Disney's Beauty and the Beast (A Little Golden...,0,4.00
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Correcto, bien aplicado el JOIN para realizar el conteo!
</div>

### Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).

In [10]:
# query_7 : 

query_7 = """
SELECT 
    p.publisher_id,
    p.publisher,
    COUNT(b.book_id) AS total_libros
FROM books AS b
JOIN publishers AS p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id, p.publisher
ORDER BY total_libros DESC
LIMIT 1;
"""

result = pd.read_sql(query_7, engine)
print(result)

   publisher_id      publisher  total_libros
0           212  Penguin Books            42


De acuerdo a la consulta se puede identificar que la editorial que ha publicado el mayor número de libros con más de 50 páginas es: Penguin Books con 42 libros

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Perfecto!
</div>

### Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.

In [11]:
query_8 = """
SELECT 
    a.author AS author,
    AVG(r.rating) AS avg_rating
    
FROM authors a
JOIN books b ON a.author_id = b.author_id
JOIN ratings r ON b.book_id = r.book_id

WHERE b.book_id IN (
    SELECT 
        r.book_id
    FROM ratings r
    GROUP BY r.book_id
    HAVING COUNT(r.rating) >= 50
)
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 1;
"""

# Ejecutar la consulta y cargar el resultado en un DataFrame de Pandas
result = pd.read_sql_query(query_8, engine)

# Mostrar el resultado
result

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


El autor J.K. Rowling/Mary GrandPré cuenta con la calificación promedio de 4.28, más alta para libros con al menos 50 calificaciones.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Aquí deberías hacer uso de subconsultas, una para obtener primero los book_id que tengan mínimo 50 ratings y con ese resultado debes hacer el JOIN con la tabla de authors para sacar el promedio del rating
</div>


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Listo profe lo corregi 🤗
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Perfecto! Cómo puedes ver la forma en la que se obtiene los datos con las subconsultas altera el resultado
</div>


### Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Similar al caso anterior aquí también deberías usar subconsultas,una para obtener los usuarios con al menos 50 reseñas y a este resultado lo debes hacer JOIN con la tabla de reviews para calcular el promedio de las reseñas
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Listo profe lo corregi 🤗
</div>

In [12]:
query_11 = """
SELECT 
    AVG(user_reviews.num_reviews) AS avg_num_reviews
FROM (
    SELECT 
        rev.username,
        COUNT(rev.review_id) AS num_reviews
    FROM reviews rev
    WHERE rev.username IN (
        SELECT 
            r.username
        FROM ratings r
        GROUP BY r.username
        HAVING COUNT(r.book_id) > 50
    )
    GROUP BY rev.username
) AS user_reviews;
"""

# Ejecutar la consulta y cargar el resultado en un DataFrame de Pandas
result = pd.read_sql_query(query_11, engine)

# Mostrar el resultado
result

Unnamed: 0,avg_num_reviews
0,24.333333


 El resultado indica que, en promedio, los usuarios que han calificado más de 50 libros han escrito aproximadamente 24.33 reseñas de texto

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Excelente! Buen trabajo con la corrección!
</div>

## Otras consultas 

### Libros con mejor calificaciòn 

In [13]:
# Libro con mejor calificación

query_calificaciones = """
SELECT 
    b.book_id,
    b.title,
    ROUND(AVG(rt.rating), 2) AS calificacion_promedio
FROM books AS b
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY calificacion_promedio DESC
LIMIT 1;
"""
result_calificaciones = pd.read_sql(query_calificaciones, engine)
print("\nLibro con mejor calificación:")
print(result_calificaciones)


Libro con mejor calificación:
   book_id            title  calificacion_promedio
0      390  Light in August                    5.0


### Identificar libros con mayor impacto en las editoriales

In [14]:
query_libros_impacto = """
SELECT 
    p.publisher_id,
    p.publisher,
    b.book_id,
    b.title,
    COUNT(r.review_id) AS total_resenas,
    ROUND(AVG(rt.rating), 2) AS calificacion_promedio
FROM publishers AS p
JOIN books AS b ON p.publisher_id = b.publisher_id
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY p.publisher_id, p.publisher, b.book_id, b.title
ORDER BY calificacion_promedio DESC, total_resenas DESC;
"""

# Ejecutar la consulta en la base de datos
result_libros_impacto = pd.read_sql(query_libros_impacto, engine)

# Mostrar el resultado
result_libros_impacto

Unnamed: 0,publisher_id,publisher,book_id,title,total_resenas,calificacion_promedio
0,331,William Morrow,17,A Dirty Job (Grim Reaper #1),16,5.00
1,176,Little Brown and Company,553,School's Out—Forever (Maximum Ride #2),12,5.00
2,320,W. W. Norton Company,444,Moneyball: The Art of Winning an Unfair Game,9,5.00
3,274,Simon Pulse,347,In the Hand of the Goddess (Song of the Liones...,6,5.00
4,50,Black Dog & Leventhal Publishers,229,Evil Under the Sun (Hercule Poirot #24),4,5.00
...,...,...,...,...,...,...
995,106,Farrar Straus and Giroux (NY),915,The World Is Flat: A Brief History of the Twen...,12,2.25
996,33,Ballantine Books,202,Drowning Ruth,9,2.00
997,309,Vintage,316,His Excellency: George Washington,4,2.00
998,210,Penguin,371,Junky,4,2.00


##  Conclusiones

Se puede concluir con las consultas de la base de datos que despues del 1 enero del 2000 se han publicado 819 libros. El libro con la mejor calificacion es Light in August, sin embargo si analizamos los autores con al menos 50 calificaciones, se puede identificar que el mejor autor es Diana Gabaldon.  Por otro lado se puede concluir que los libros que tienen mayor cantidad de reseñas, tienen los promedios mas altos en las calificaciones. Por ultimo, los libros que generan un impacto mayor en las editoriales son los de novela y libros de investigaciones de crimenes. Lo anterior puede ayudar para poder enfocarse en generar productos que contengan estos temas, los cuales son mas apetecidos para los lectores. 

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Muy buen trabajo con tu proyecto Jairo! SQL es un lenguaje que verás en tu día a día cómo Data Analyst por lo que te animo a seguir practicando con el mismo para que en las entrevistas técnicas destaques cómo profesional! 
</div>