In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Cargar los datos
df = pd.read_csv('amazon_bestsellers.csv')


In [3]:
# Limpieza de datos (si es necesario)
df['date_scraped'] = pd.to_datetime(df['date_scraped'])


In [8]:
df.head(5)

Unnamed: 0,rank,title,author,price,score,type_cover,numbers_reviews,date_scraped
0,1,The Book of Bill (Gravity Falls),Alex Hirsch,18.03,4.7,Hardcover,235,2024-08-04
1,2,Hillbilly Elegy: A Memoir of a Family and Cult...,J. D. Vance,11.53,4.4,Paperback,101009,2024-08-04
2,3,It Ends with Us: A Novel (1),Colleen Hoover,10.98,4.7,Paperback,334525,2024-08-04
3,4,Onyx Storm (Deluxe Limited Edition) (The Empyr...,Rebecca Yarros,0.0,0.0,Hardcover,0,2024-08-04
4,5,It Starts with Us: A Novel (2) (It Ends with Us),Colleen Hoover,10.98,4.5,Paperback,170475,2024-08-04


In [9]:
# Análisis exploratorio de datos
print(df.info())
print(df.describe())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   rank             30 non-null     int64         
 1   title            30 non-null     object        
 2   author           30 non-null     object        
 3   price            30 non-null     float64       
 4   score            30 non-null     float64       
 5   type_cover       30 non-null     object        
 6   numbers_reviews  30 non-null     int64         
 7   date_scraped     30 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(2), int64(2), object(3)
memory usage: 2.0+ KB
None
            rank      price      score  numbers_reviews         date_scraped
count  30.000000  30.000000  30.000000        30.000000                   30
mean   15.500000  11.221333   4.176667     89705.800000  2024-08-04 00:00:00
min     1.000000   0.000000   0.000000         0.00

In [10]:
# Top 10 autores más frecuentes
top_authors = df['author'].value_counts().head(10)
print("Top 10 autores más frecuentes:")
print(top_authors)

Top 10 autores más frecuentes:
author
Freida McFadden      5
Colleen Hoover       2
Kristin Hannah       2
Coco Wyo             2
Sarah J. Maas        2
Alex Hirsch          1
Brian Tyler Cohen    1
Don Miguel Ruiz      1
Megan Basham         1
Chris Whitaker       1
Name: count, dtype: int64


In [11]:
# Precio promedio por tipo de cubierta
cover_avg_price = df.groupby('type_cover')['price'].mean().sort_values(ascending=False)
print("\nPrecio promedio por tipo de cubierta:")
print(cover_avg_price)


Precio promedio por tipo de cubierta:
type_cover
Hardcover     12.833333
Paperback     10.847000
Board book     4.200000
Name: price, dtype: float64


In [12]:
# Relación entre puntuación y número de reseñas
df_with_reviews = df[df['numbers_reviews'] > 0]
correlation = df_with_reviews['score'].corr(df_with_reviews['numbers_reviews'])
print(f"\nCorrelación entre puntuación y número de reseñas: {correlation:.2f}")



Correlación entre puntuación y número de reseñas: -0.22


In [14]:
# Configuración de estilos para matplotlib y seaborn
plt.style.use('ggplot')  # Usa el estilo 'ggplot' que es similar al de seaborn
sns.set_theme(style="whitegrid")  # Configuración de tema para seaborn
sns.set_palette("deep")

In [15]:
# Visualizaciones
plt.figure(figsize=(12, 6))
sns.histplot(df['price'], bins=20)
plt.title('Distribución de Precios')
plt.xlabel('Precio')
plt.savefig('price_distribution.png')
plt.close()

In [16]:
plt.figure(figsize=(12, 6))
sns.scatterplot(x='rank', y='price', hue='type_cover', data=df)
plt.title('Relación entre Ranking, Precio y Tipo de Cubierta')
plt.xlabel('Ranking')
plt.ylabel('Precio')
plt.legend(title='Tipo de Cubierta', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.savefig('rank_price_cover.png')
plt.close()

In [17]:
plt.figure(figsize=(12, 6))
sns.scatterplot(x='numbers_reviews', y='score', size='price', data=df_with_reviews)
plt.title('Relación entre Número de Reseñas, Puntuación y Precio')
plt.xlabel('Número de Reseñas')
plt.ylabel('Puntuación')
plt.savefig('reviews_score_price.png')
plt.close()

In [18]:
# Análisis de los libros mejor puntuados
top_rated = df[df['score'] > 4.5].sort_values('numbers_reviews', ascending=False).head(10)
print("\nTop 10 libros mejor puntuados (con más de 4.5 estrellas):")
print(top_rated[['title', 'author', 'score', 'numbers_reviews', 'price']])



Top 10 libros mejor puntuados (con más de 4.5 estrellas):
                                                title  \
2                        It Ends with Us: A Novel (1)   
16                           The Nightingale: A Novel   
14  A Court of Thorns and Roses (A Court of Thorns...   
5   Atomic Habits: An Easy & Proven Way to Build G...   
6                                  The Women: A Novel   
28  The Four Agreements: A Practical Guide to Pers...   
15                               The 48 Laws of Power   
24  The Body Keeps the Score: Brain, Mind, and Bod...   
29                    I Love You to the Moon and Back   
26  A Court of Thorns and Roses Paperback Box Set ...   

                      author  score  numbers_reviews  price  
2             Colleen Hoover    4.7           334525  10.98  
16            Kristin Hannah    4.7           314957   9.40  
14             Sarah J. Maas    4.6           223330  10.37  
5                James Clear    4.8           174094  13.79  
6  

In [19]:
# Guardar resultados procesados
df.to_csv('processed_amazon_bestsellers.csv', index=False)
print("\nDatos procesados guardados en 'processed_amazon_bestsellers.csv'")
print("Visualizaciones guardadas como 'price_distribution.png', 'rank_price_cover.png', y 'reviews_score_price.png'")


Datos procesados guardados en 'processed_amazon_bestsellers.csv'
Visualizaciones guardadas como 'price_distribution.png', 'rank_price_cover.png', y 'reviews_score_price.png'


In [21]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from IPython.display import display, HTML

def create_title(title):
    """Crea un título HTML para el reporte."""
    return HTML(f"<h1>{title}</h1>")

def create_subtitle(subtitle):
    """Crea un subtítulo HTML para el reporte."""
    return HTML(f"<h2>{subtitle}</h2>")

def create_paragraph(text):
    """Crea un párrafo HTML para el reporte."""
    return HTML(f"<p>{text}</p>")

def plot_pie_chart(df, values, names, title):
    """Crea un gráfico de pastel interactivo."""
    fig = px.pie(df, values=values, names=names, 
                 title=title,
                 color_discrete_sequence=px.colors.qualitative.Set3)
    fig.update_traces(textposition='inside', textinfo='percent+label')
    return fig

def plot_bar_chart(df, x, y, title, color=None):
    """Crea un gráfico de barras interactivo."""
    fig = px.bar(df, x=x, y=y, title=title, color=color,
                 color_discrete_sequence=px.colors.qualitative.Set2)
    return fig

def plot_scatter(df, x, y, title, size=None, color=None):
    """Crea un gráfico de dispersión interactivo."""
    fig = px.scatter(df, x=x, y=y, title=title, size=size, color=color,
                     color_continuous_scale=px.colors.sequential.Viridis)
    return fig

def plot_line_chart(df, x, y, title, color=None):
    """Crea un gráfico de líneas interactivo."""
    fig = px.line(df, x=x, y=y, title=title, color=color,
                  color_discrete_sequence=px.colors.qualitative.Set1)
    return fig

def create_table(df, title):
    """Crea una tabla interactiva."""
    fig = go.Figure(data=[go.Table(
        header=dict(values=list(df.columns),
                    fill_color='paleturquoise',
                    align='left'),
        cells=dict(values=[df[col] for col in df.columns],
                   fill_color='lavender',
                   align='left'))
    ])
    fig.update_layout(title=title)
    return fig

def generate_report(df):
    """Genera un reporte completo con varios gráficos y tablas."""
    display(create_title("Reporte de Best Sellers de Amazon"))

    # Distribución de precios
    display(create_subtitle("Distribución de Precios"))
    fig_price = plot_histogram(df, x='price', title='Distribución de Precios de Best Sellers')
    fig_price.show()

    # Top 10 autores
    display(create_subtitle("Top 10 Autores"))
    top_authors = df['author'].value_counts().head(10).reset_index()
    top_authors.columns = ['author', 'count']
    fig_authors = plot_bar_chart(top_authors, x='author', y='count', title='Top 10 Autores más Frecuentes')
    fig_authors.show()

    # Relación entre puntuación y número de reseñas
    display(create_subtitle("Relación entre Puntuación y Número de Reseñas"))
    fig_reviews = plot_scatter(df, x='numbers_reviews', y='score', title='Puntuación vs Número de Reseñas',
                               size='price', color='price')
    fig_reviews.show()

    # Precio promedio por tipo de cubierta
    display(create_subtitle("Precio Promedio por Tipo de Cubierta"))
    avg_price_cover = df.groupby('type_cover')['price'].mean().reset_index()
    fig_cover = plot_bar_chart(avg_price_cover, x='type_cover', y='price', 
                               title='Precio Promedio por Tipo de Cubierta')
    fig_cover.show()

    # Tabla de los 10 libros mejor puntuados
    display(create_subtitle("Top 10 Libros Mejor Puntuados"))
    top_rated = df[df['score'] > 4.5].sort_values('numbers_reviews', ascending=False).head(10)
    fig_table = create_table(top_rated[['title', 'author', 'score', 'numbers_reviews', 'price']], 
                             'Top 10 Libros Mejor Puntuados')
    fig_table.show()

# Función auxiliar para histograma
def plot_histogram(df, x, title):
    """Crea un histograma interactivo."""
    fig = px.histogram(df, x=x, title=title,
                       color_discrete_sequence=['skyblue'])
    return fig

# Ejemplo de uso
if __name__ == "__main__":
    # Asumiendo que tienes tu DataFrame cargado como 'df'
    df = pd.read_csv('amazon_bestsellers.csv')
    generate_report(df)