# SQL

El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros.

Te han dado una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.

### Descripción de los datos

**`books`**

Contiene datos sobre libros:

- `book_id`: identificación del libro
- `author_id`: identificación del autor o autora
- `title`: título
- `num_pages`: número de páginas
- `publication_date`: fecha de la publicación
- `publisher_id`: identificación de la editorial

**`authors`**

Contiene datos sobre autores:

- `author_id`: identificación del autor o autora
- `author`: el autor o la autora

**`publishers`**

Contiene datos sobre editoriales:

- `publisher_id`: identificación de la editorial
- `publisher`: la editorial

**`ratings`**

Contiene datos sobre las calificaciones de usuarios:

- `rating_id`: identificación de la calificación
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `rating`: calificación

**`reviews`**

Contiene datos sobre las reseñas de los y las clientes:

- `review_id`: identificación de la reseña
- `book_id`: identificación del libro
- `username`: el nombre del usuario que revisó el libro
- `text`: el texto de la reseña

### Ejercicio

- Encuentra el número de libros publicados después del 1 de enero de 2000.
- Encuentra el número de reseñas de usuarios y la calificación promedio para cada libro.
- Identifica la editorial que ha publicado el mayor número de libros con más de 50 páginas (esto te ayudará a excluir folletos y publicaciones similares de tu análisis).
- Identifica al autor que tiene la más alta calificación promedio del libro: mira solo los libros con al menos 50 calificaciones.
- Encuentra el número promedio de reseñas de texto entre los usuarios que calificaron más de 50 libros.

### Instrucciones para completar la tarea

- Describe los objetivos del estudio.
- Estudia las tablas (imprime las primeras filas).
- Realiza una consulta SQL para cada una de las tareas.
- Genera los resultados de cada consulta en el Notebook.
- Describe tus conclusiones para cada una de las tareas.

### Acceso a la base de datos

Conéctate a la base de datos siguiendo estas [instrucciones](https://www.notion.so/SQL-7684eef430ab4b10bfd8e3b2e042965e?pvs=21).

### Notas

- ¡No te olvides de las funciones! Pueden facilitar considerablemente tu vida y la ejecución de consultas.
- Tus resultados deben ser obtenidos con SQL. Usa pandas solamente para imprimir y almacenar los resultados de la consulta.

In [2]:
import pandas as pd
from sqlalchemy import create_engine


db_config = {'user': 'practicum_student',         # nombre de usuario
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # contraseña
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # puerto de conexión
             'db': 'data-analyst-final-project-db'}          # nombre de la base de datos

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
books_df = pd.read_sql('SELECT * FROM books', con=engine)
authors_df = pd.read_sql('SELECT * FROM authors', con=engine)
publishers_df = pd.read_sql('SELECT * FROM publishers', con=engine)
ratings_df = pd.read_sql('SELECT * FROM ratings', con=engine)
reviews_df = pd.read_sql('SELECT * FROM reviews', con=engine)

In [3]:
def analisis_exploratorio(df):
    print('Tamaño del dataset', df.shape,'\n')
    print('Info del dataset: \n', df.info())
    print('Caracteristicas del dataset: \n', df.describe())


In [4]:
def analisis_exploratorio2(df):
    print(df.head(),'\n')
    print('Numero de datos unicos: \n', df.nunique())

### Analisis exploratorio de books_df

In [5]:
analisis_exploratorio(books_df)

Tamaño del dataset (1000, 6) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB
Info del dataset: 
 None
Caracteristicas del dataset: 
            book_id    author_id   num_pages  publisher_id
count  1000.000000  1000.000000  1000.00000   1000.000000
mean    500.500000   320.417000   389.11100    171.270000
std     288.819436   181.620172   229.39014     99.082685
min       1.000000     1.000000    14.00000      1.000000
25%     250.750000   162.750000   249.00000     83.000000
50%     500.500000   316.500000   352.000

In [6]:
analisis_exploratorio2(books_df)

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268   

Numero de datos unicos: 
 book_id             1000
author_id            636
title                999
num_pages            454
publication_date     618
publisher_id         340
dtype: int64


### Analisis exploratorio de authors_df

In [7]:
analisis_exploratorio(authors_df)

Tamaño del dataset (636, 2) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
Info del dataset: 
 None
Caracteristicas del dataset: 
         author_id
count  636.000000
mean   318.500000
std    183.741666
min      1.000000
25%    159.750000
50%    318.500000
75%    477.250000
max    636.000000


In [8]:
analisis_exploratorio2(authors_df)

   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd 

Numero de datos unicos: 
 author_id    636
author       636
dtype: int64


### Analisis exploratorio de publishers_df

In [9]:
analisis_exploratorio(publishers_df)

Tamaño del dataset (340, 2) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
Info del dataset: 
 None
Caracteristicas del dataset: 
        publisher_id
count    340.000000
mean     170.500000
std       98.293777
min        1.000000
25%       85.750000
50%      170.500000
75%      255.250000
max      340.000000


In [10]:
analisis_exploratorio2(publishers_df)

   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company 

Numero de datos unicos: 
 publisher_id    340
publisher       340
dtype: int64


### Analisis exploratorio de ratings_df

In [11]:
analisis_exploratorio(ratings_df)

Tamaño del dataset (6456, 4) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
Info del dataset: 
 None
Caracteristicas del dataset: 
          rating_id      book_id       rating
count  6456.000000  6456.000000  6456.000000
mean   3228.500000   510.574195     3.928284
std    1863.831001   284.141636     0.943303
min       1.000000     1.000000     1.000000
25%    1614.750000   291.000000     3.000000
50%    3228.500000   506.000000     4.000000
75%    4842.250000   750.000000     5.000000
max    6456.000000  1000.000000     5.000000


In [12]:
analisis_exploratorio2(ratings_df)

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2 

Numero de datos unicos: 
 rating_id    6456
book_id      1000
username      160
rating          5
dtype: int64


### Analisis exploratorio de reviews_df

In [13]:
analisis_exploratorio(reviews_df)

Tamaño del dataset (2793, 4) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB
Info del dataset: 
 None
Caracteristicas del dataset: 
          review_id      book_id
count  2793.000000  2793.000000
mean   1397.000000   504.693161
std     806.413976   288.472931
min       1.000000     1.000000
25%     699.000000   259.000000
50%    1397.000000   505.000000
75%    2095.000000   753.000000
max    2793.000000  1000.000000


In [14]:
analisis_exploratorio2(reviews_df)

   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...   

Numero de datos unicos: 
 review_id    2793
book_id       994
username      160
text         2793
dtype: int64


# Consultas

### Numero de libros publicados antes del 1 de enero del 2000

In [16]:
query_1 = '''
SELECT COUNT(*) AS libros_publicados
FROM books
WHERE publication_date > '2000-01-01';
'''
pd.read_sql(query_1, con=engine)

Unnamed: 0,libros_publicados
0,819


### Numero de reseñas de usuario y calificacion promedio por libro

In [18]:
query_2 = '''
SELECT 
    r.book_id,
    b.title,
    COUNT(DISTINCT rv.review_id) AS total_reseñas,
    ROUND(AVG(r.rating), 2) AS promedio_rating
FROM ratings r
LEFT JOIN reviews rv ON r.book_id = rv.book_id AND r.username = rv.username
JOIN books b ON r.book_id = b.book_id
GROUP BY r.book_id, b.title
ORDER BY promedio_rating DESC;
'''
pd.read_sql(query_2, con=engine)

Unnamed: 0,book_id,title,total_reseñas,promedio_rating
0,86,Arrows of the Queen (Heralds of Valdemar #1),2,5.00
1,901,The Walking Dead Book One (The Walking Dead #...,2,5.00
2,390,Light in August,2,5.00
3,972,Wherever You Go There You Are: Mindfulness Me...,2,5.00
4,136,Captivating: Unveiling the Mystery of a Woman'...,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,316,His Excellency: George Washington,2,2.00
997,202,Drowning Ruth,3,2.00
998,371,Junky,2,2.00


### Editorial con mayor numero de libros con mas de 50 paginas

In [19]:
query_3 = '''
SELECT 
    p.publisher,
    COUNT(b.book_id) AS libros_largos
FROM books b
JOIN publishers p ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY libros_largos DESC
LIMIT 1;
'''
pd.read_sql(query_3, con=engine)

Unnamed: 0,publisher,libros_largos
0,Penguin Books,42


### Autor con mayor calificacion promedio en libros de mas de 50 paginas

In [4]:
query_4 = '''
WITH libros_populares AS (
    SELECT book_id
    FROM ratings
    GROUP BY book_id
    HAVING COUNT(*) >= 50
)

SELECT 
    a.author,
    ROUND(AVG(r.rating), 2) AS promedio_rating,
    COUNT(r.rating_id) AS total_calificaciones
FROM ratings r
JOIN libros_populares lp ON r.book_id = lp.book_id
JOIN books b ON r.book_id = b.book_id
JOIN authors a ON b.author_id = a.author_id
GROUP BY a.author
ORDER BY promedio_rating DESC
LIMIT 1;
'''
pd.read_sql(query_4, con=engine)

Unnamed: 0,author,promedio_rating,total_calificaciones
0,J.K. Rowling/Mary GrandPré,4.29,310


### Numero promedio de reseñas de texto escritas por usuarios que calificaron mas de 50 libros

In [21]:
query_5 = '''
WITH usuarios_activos AS (
    SELECT username
    FROM ratings
    GROUP BY username
    HAVING COUNT(*) > 50
),
reseñas_usuario AS (
    SELECT username, COUNT(*) AS num_reseñas
    FROM reviews
    WHERE username IN (SELECT username FROM usuarios_activos)
    GROUP BY username
)
SELECT ROUND(AVG(num_reseñas), 2) AS promedio_reseñas
FROM reseñas_usuario;
'''
pd.read_sql(query_5, con=engine)

Unnamed: 0,promedio_reseñas
0,24.33


# Conclusion
Desde el 1 de enero del 2000 se han publicado 819 libros en las editoriales analizadas, de estas, la editorial Penguin Books fue la que presento un mayor numero de libros publicados en el periodo de tiempo analizado, con un total de 42 libros publicados. J.K. Rowling y Mary GrandPre fueron los autores con la mejor puntuacion en un libro entre los libros con mas de 50 paginas y mas de 50 reseñas, recibiendo una puntuacion de 4.29 en 310 reseña. Por otro lado, se encontro que los usuarios que calificaron al menos 50 libros, en promedio realizaron 24 reseñas de texto