# Proyecto: BookFeelsVerse

En el desarrollo de los siguientes códigos, se presenta un análisis detallado de la extracción de datos requeridos provenientes de diversas plataformas. Con el propósito de obtener información precisa y relevante, se ha empleado una variedad de herramientas especializadas para abordar cada entorno de manera eficiente.

## 1. Extracción de Libros Más Vendidos desde Crisol

Este código en Python se enfoca en extraer información de la página web **Crisol**. Se recopilan datos como títulos, autores, precios y ofertas, organizándolos en un DataFrame de pandas para su fácil manipulación y análisis.

In [2]:
# Librerias utilizadas
import requests
from bs4 import BeautifulSoup
import pandas as pd
import csv

# URL de la página
url = "https://www.crisol.com.pe/otros/los-mas-vendidoss"

# Realizar la solicitud HTTP
response = requests.get(url)

# Verificar si la solicitud fue exitosa (código de respuesta 200)
if response.status_code == 200:
    # Parsear el contenido HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')
    titulos = []
    autores = []
    precios = []
    ofertas = []

    # Encontrar todos los elementos div que contienen información de los libros
    libros = soup.find_all('div', class_='product-item-info')

    # Iterar sobre los elementos y extraer la información
    for libro in libros:
        # Obtener Título
        titulo = libro.find('strong', class_='product name product-item-name')
        titulo_text = titulo.text.strip() if titulo else 'No Title'
        titulos.append(titulo_text)

        # Obtener Precios y Ofertas
        for price_box in libro.find_all('div', class_='price-box'):
            special_price = price_box.find('span', class_='special-price')
            old_price = price_box.find('span', class_='old-price')

            # Extraccion de los precios
            if old_price:
                precio_elem = old_price.find('span', class_='price').text.strip()
            else:
                precio_elem = price_box.find('span', class_='price').text.strip()

            # Extracción de las ofertas
            oferta_elem = special_price.find('span', class_='price').text.strip() if special_price else '-'

            # Append to lists
            precios.append(precio_elem)
            ofertas.append(oferta_elem)

        # Obtener Autores
        autor_elems = libro.find_all('div', class_='author')
        autores_text = ', '.join(set([autor.text.strip() for autor in autor_elems]))
        autores.append(autores_text)

    # Crear un DataFrame con los datos
    df = pd.DataFrame({
        'Titulo': titulos,
        'Autores': autores,
        'Precio': precios,
        'Oferta': ofertas
    })

# Imprimir el DataFrame resultante
df

Unnamed: 0,Titulo,Autores,Precio,Oferta
0,Cuando no queden más estrellas ...,"Martínez, María",S/ 59.90,-
1,Perronejo,"Ramos, Wendy",S/ 69.00,S/ 51.75
2,Tea Shop,"Pinasco, Bruno",S/ 79.90,S/ 59.93
3,Los genios,"Bayly, Jaime",S/ 79.00,S/ 59.25
4,Hábitos atómicos,"Clear, James",S/ 99.90,S/ 74.93
5,Le dedico mi silencio,"Vargas Llosa, Mario",S/ 89.00,S/ 66.75
6,Cómo Hacer que Te Pasen Cosas B...,"Rojas Estapé, Marian",S/ 89.90,S/ 67.43
7,La teoría de Kim,"Sandoval, Jay",S/ 99.00,S/ 74.25
8,Cien cuyes,"Rodríguez, Gustavo",S/ 69.00,S/ 51.75
9,"Rojo, blanco y sangre azul","McQuiston, Casey",S/ 89.00,S/ 66.75


## 2. Extracción de Información de Libros en Goodreads

Este código en Python extrae información de libros en Goodreads utilizando una lista de IDs. Incluye el título del libro, la puntuación y las reseñas, presentando los resultados de manera organizada en un DataFrame para facilitar su visualización.

In [3]:
# Importar las librerías necesarias
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Lista de IDs de libros en Goodreads
ids = ['58295801-cuando-no-queden-m-s-estrellas-que-contar', '202329456-perronejo', '200276684-tea-shop',
       '122800780-los-genios', '45028173-h-bitos-at-micos', '192888751-le-dedico-mi-silencio',
       '41811331-c-mo-hacer-que-te-pasen-cosas-buenas', '196963397-la-teor-a-de-kim', '91819656-cien-cuyes',
       '52950904-rojo-blanco-y-sangre-azul', '38913520-el-sutil-arte-de-que-te-importe-un-caraj', '141869624-la-teor-a-del-amor',
       '42744102-el-club-de-las-5-de-la-ma-ana', '193543529-presidentes-por-accidente', '54659294-tres-meses']

# URL base para los libros en Goodreads
base_url = 'https://www.goodreads.com/book/show/'
urls = [base_url + book_id for book_id in ids]

# Listas para almacenar la información extraída
titulos = []
puntuaciones = []
todas_reseñas = []

# Iterar a través de las URLs de los libros
for url in urls:
    # Realizar la solicitud HTTP para obtener la página
    response = requests.get(url)

    # Verificar si la solicitud fue exitosa (código de estado 200)
    if response.status_code == 200:
        # Utilizar BeautifulSoup para analizar el contenido HTML de la página
        soup = BeautifulSoup(response.content, 'html.parser')

        # Extraer el título del libro
        title_elem = soup.find('h1', {'class': 'Text Text__title1'})
        title = title_elem.text.strip() if title_elem else None
        titulos.append(title)

        # Extraer la puntuación del libro
        rating_elem = soup.find('div', class_='RatingStatistics__rating')
        rating = rating_elem.text.strip() if rating_elem else None
        puntuaciones.append(rating)

        # Extracción de las reseñas (cambiar según la estructura de la página)
        reseñas = []
        for reviews in soup.find_all('div', class_='ReviewsList'):
            reviews_elems = reviews.find_all('span', class_='Formatted')
            for review_elem in reviews_elems:
                review_text = review_elem.text.strip()
                reseñas.append(review_text)

        # Almacenar las primeras 5 reseñas en la lista principal
        todas_reseñas.append(reseñas)
    else:
        # Imprimir un mensaje de error si la solicitud no fue exitosa
        print(f'Error al obtener la página {url}. Código de estado: {response.status_code}')

# Crear un DataFrame con la información recopilada
df1 = pd.DataFrame({'Título': titulos, 'Puntuación': puntuaciones, 'Reseñas': todas_reseñas})

# Imprimir el DataFrame resultante
df1

Unnamed: 0,Título,Puntuación,Reseñas
0,Cuando no queden más estrellas que contar,4.43,[ME HA FASCINADO. No voy a cansarme de recomen...
1,Perronejo,4.78,[5 stars. A little ball of fluff in the desert...
2,Tea Shop,3.14,[De verdad quise que este libro me guste pero ...
3,Los genios,4.0,"[""Esto es por lo que NO le hiciste a Patricia""..."
4,Hábitos atómicos,4.36,[A Book That Changed My LifeA book worth readi...
5,Le dedico mi silencio,3.62,"[""Nada mas huachafo que llorar en la entrega d..."
6,Cómo hacer que te pasen cosas buenas,4.13,[Lo peor de este libro es el título.A pesar de...
7,La teoría de Kim,4.68,[2.5 WAR IS FINALLY OVER.genuinamente puedo de...
8,Cien cuyes,4.14,"[Últimamente, pocos libros me conmueven tanto ..."
9,"Rojo, blanco y sangre azul",4.1,[I am a soulless void. I have definitely said ...


## 3. Análisis de Sentimientos en Reseñas de Libros

Este código en Python utiliza la biblioteca paralleldots, para realizar un análisis de sentimientos extrayendo el sentimiento predominante en las reseñas de cada libro; además, limitando la cantidad de reseñas analizadas a un máximo de 5 para hacer el proceso más eficiente. También incluye un preprocesamiento que elimina caracteres especiales y palabras irrelevantes. 

In [None]:
pip install paralleldots

In [25]:
# Importar las librerías
import paralleldots
import pandas as pd
import json
import re

# Configuración de la clave de la API de ParallelDots y reemplaza 'YOUR_PARALLELDOTS_API_KEY' con tu clave de API
paralleldots.set_api_key('YOUR_PARALLELDOTS_API_KEY')

def find_max_avg_sentiment(sentiments):
    """
    Encuentra la clave de sentimiento con el mayor promedio a partir de un conjunto de sentimientos.
    Parámetros:
    - sentiments (list): Lista de diccionarios que representan sentimientos para cada elemento.
    Retorna:
    - str: Clave de sentimiento con el mayor promedio ('negative', 'neutral' o 'positive').
    """
    # Verificar si la lista de sentimientos está vacía
    if not sentiments:
        return 'neutral'  # Si no hay sentimientos, se considera neutral

    # Calcular el promedio de cada tipo de sentimiento
    avg_sentiments = {
        'negative': sum(sentiment.get('negative', 0) for sentiment in sentiments) / len(sentiments),
        'neutral': sum(sentiment.get('neutral', 0) for sentiment in sentiments) / len(sentiments),
        'positive': sum(sentiment.get('positive', 0) for sentiment in sentiments) / len(sentiments)
    }

    # Devolver la clave de sentimiento con el mayor promedio
    return max(avg_sentiments, key=avg_sentiments.get, default='neutral')

def limpiar_texto(texto):
    """
    Limpia el texto eliminando caracteres especiales, números y palabras irrelevantes.
    Parámetros:
    - texto (str): Texto que se va a limpiar.
    Retorna:
    - str: Texto limpio sin caracteres especiales, números y palabras irrelevantes.
    """
    # Eliminar caracteres especiales y números usando expresiones regulares
    texto = re.sub(r'[^a-zA-Z\s]', '', texto)

    # Convertir a minúsculas
    texto = texto.lower()

    # Eliminar palabras irrelevantes
    palabras_irrelevantes = ['a', 'el', 'la', 'y', 'en', 'con', 'es', 'de', 'para', 'que', 'se', 'un', 'una', 'por', 'lo']
    palabras = texto.split()
    palabras_filtradas = [palabra for palabra in palabras if palabra not in palabras_irrelevantes]

    # Unir las palabras filtradas en un solo texto
    texto = ' '.join(palabras_filtradas)

    return texto

#  Restringe las reseñas para que solo se tomen en cuenta como máximo 5
reseñas_5=[todas_reseñas[i][:5] for i in range(0,len(todas_reseñas))]

# Lista para almacenar las respuestas
max_avg_keys = []

# Iterar a través de cada oración
for i in range(0, len(reseñas_5)):
    text = reseñas_5[i]
    # Limpiar cada oración
    textos_limpios = [limpiar_texto(texto) for texto in text]

    try:
        # Realizar análisis de sentimientos en bulto para las oraciones limpias
        response = paralleldots.batch_sentiment(textos_limpios)
    except json.JSONDecodeError as e:
        print()

    # Calcular la clave de sentimiento con el mayor promedio
    avg_sentiment_key = find_max_avg_sentiment(response['sentiment'])
    max_avg_keys.append(avg_sentiment_key)

    # Imprimir la clave de sentimiento con el mayor promedio para la oración actual
    print(f"Clave de Sentimiento con Mayor Promedio para las reseñas {i + 1}: {avg_sentiment_key}")

# Documentación adicional:
# - Asegúrate de tener instalada la biblioteca `paralleldots` antes de ejecutar el código (`pip install paralleldots`).
# - Asegúrate de que la variable `todas_reseñas` esté definida antes de ejecutar el script.

Clave de Sentimiento con Mayor Promedio para las reseñas 1: neutral
Clave de Sentimiento con Mayor Promedio para las reseñas 2: positive
Clave de Sentimiento con Mayor Promedio para las reseñas 3: positive
Clave de Sentimiento con Mayor Promedio para las reseñas 4: positive

Clave de Sentimiento con Mayor Promedio para las reseñas 5: positive
Clave de Sentimiento con Mayor Promedio para las reseñas 6: positive
Clave de Sentimiento con Mayor Promedio para las reseñas 7: negative
Clave de Sentimiento con Mayor Promedio para las reseñas 8: positive
Clave de Sentimiento con Mayor Promedio para las reseñas 9: positive
Clave de Sentimiento con Mayor Promedio para las reseñas 10: negative

Clave de Sentimiento con Mayor Promedio para las reseñas 11: negative
Clave de Sentimiento con Mayor Promedio para las reseñas 12: negative
Clave de Sentimiento con Mayor Promedio para las reseñas 13: negative

Clave de Sentimiento con Mayor Promedio para las reseñas 14: negative
Clave de Sentimiento con Ma

## 4. Visualización de la Extracción y Análisis de Datos de Libros con Sentimientos

Este código en Python crea un DataFrame (df2) utilizando las listas previamente obtenidas de títulos, autores, precios, ofertas, puntuaciones, reseñas y análisis de sentimientos. Luego, imprime el DataFrame, consolidando la información de los libros en un formato tabular para facilitar su visualización y análisis.

In [26]:
# Crear un DataFrame
df2 = pd.DataFrame({'Título': titulos, 'Autores': autores, 'Precio': precios, 'Oferta': ofertas,
                    'Puntuación': puntuaciones, 'Reseñas': todas_reseñas, 'Análsis de Sentimiento': max_avg_keys})

# Imprimir el DataFrame
df2

Unnamed: 0,Título,Autores,Precio,Oferta,Puntuación,Reseñas,Análsis de Sentimiento
0,Cuando no queden más estrellas que contar,"Martínez, María",S/ 59.90,-,4.43,[ME HA FASCINADO. No voy a cansarme de recomen...,neutral
1,Perronejo,"Ramos, Wendy",S/ 69.00,S/ 51.75,4.78,[5 stars. A little ball of fluff in the desert...,positive
2,Tea Shop,"Pinasco, Bruno",S/ 79.90,S/ 59.93,3.14,[De verdad quise que este libro me guste pero ...,positive
3,Los genios,"Bayly, Jaime",S/ 79.00,S/ 59.25,4.0,"[""Esto es por lo que NO le hiciste a Patricia""...",positive
4,Hábitos atómicos,"Clear, James",S/ 99.90,S/ 74.93,4.36,[A Book That Changed My LifeA book worth readi...,positive
5,Le dedico mi silencio,"Vargas Llosa, Mario",S/ 89.00,S/ 66.75,3.62,"[""Nada mas huachafo que llorar en la entrega d...",positive
6,Cómo hacer que te pasen cosas buenas,"Rojas Estapé, Marian",S/ 89.90,S/ 67.43,4.13,[Lo peor de este libro es el título.A pesar de...,negative
7,La teoría de Kim,"Sandoval, Jay",S/ 99.00,S/ 74.25,4.68,[2.5 WAR IS FINALLY OVER.genuinamente puedo de...,positive
8,Cien cuyes,"Rodríguez, Gustavo",S/ 69.00,S/ 51.75,4.14,"[Últimamente, pocos libros me conmueven tanto ...",positive
9,"Rojo, blanco y sangre azul","McQuiston, Casey",S/ 89.00,S/ 66.75,4.1,[I am a soulless void. I have definitely said ...,negative


## 5. Extracción de Reseñas y Análisis de Sentimientos para Libros
Este código Python amplía el análisis anterior al mostrar los análisis de sentimientos individuales de cada reseña para un título específico. El usuario puede ingresar un índice para seleccionar un libro, y el código presenta de manera detallada el análisis de sentimientos de cada reseña asociada a ese título.

In [15]:
import pandas as pd
import paralleldots

# Configuración de la clave de la API de ParallelDots y reemplaza 'YOUR_PARALLELDOTS_API_KEY' con tu clave de API
paralleldots.set_api_key('YOUR_PARALLELDOTS_API_KEY')

def obtener_analisis_sentimientos(reseña):
    try:
        # Realizar la solicitud de análisis de sentimientos a ParallelDots
        response = paralleldots.batch_sentiment(reseña)

        # Devolver los resultados de sentimientos si la solicitud fue exitosa
        return response['sentiment'] if response and 'sentiment' in response else None
    except Exception as e:
        # Manejar errores e imprimir mensajes de error
        print(f"Error al obtener el análisis de sentimientos: {e}")
        return None

def obtener_reseñas_y_sentimientos_para_titulo(indice_elegido):
    # Crear un DataFrame con las reseñas del título seleccionado
    df_reseñas = pd.DataFrame({'Reseñas': todas_reseñas[indice_elegido]})

    # Obtener el análisis de sentimientos para cada reseña
    df_reseñas['Análisis de Sentimientos'] = obtener_analisis_sentimientos(df_reseñas['Reseñas'].tolist())

    # Convertir los resultados de análisis de sentimientos a cadenas
    df_reseñas['Análisis de Sentimientos'] = df_reseñas['Análisis de Sentimientos'].apply(str)

    # Agregar una fila con el título correspondiente y dejar la columna 'Análisis de Sentimientos' vacía
    df_reseñas.at[-1, 'Reseñas'] = titulos[indice_elegido]
    df_reseñas.at[-1, 'Análisis de Sentimientos'] = ''

    # Incrementar índices para acomodar la nueva fila
    df_reseñas.index = df_reseñas.index + 1

    # Ordenar el DataFrame por índice
    df_reseñas.sort_index(inplace=True)

    return df_reseñas

# Ejemplo de uso
indice_elegido = int(input("Ingrese el índice del libro que le interesa (0 al 14): "))

# Obtener el DataFrame resultante
df_reseñas_y_sentimientos = obtener_reseñas_y_sentimientos_para_titulo(indice_elegido)

# Imprimir el DataFrame resultante
df_reseñas_y_sentimientos

Ingrese el índice del libro que le interesa (0 al 14): 2


Unnamed: 0,Reseñas,Análisis de Sentimientos
0,Tea Shop,
1,De verdad quise que este libro me guste pero n...,"{'negative': 0.654, 'neutral': 0.272, 'positiv..."
2,¡Hola! ¿cómo están?Les dejo la sinopsis:Tea Sh...,"{'negative': 0.269, 'neutral': 0.453, 'positiv..."
3,"3.8Una historia tierna, ligera y llena de ilus...","{'negative': 0.144, 'neutral': 0.357, 'positiv..."
4,Me encantó la historia! Eliot y Grey lo son to...,"{'negative': 0.252, 'neutral': 0.41, 'positive..."
5,Obra romántica que se basa en los principios d...,"{'negative': 0.331, 'neutral': 0.417, 'positiv..."
6,Fue una gran experiencia leer Tea Shop💜Es un l...,"{'negative': 0.025, 'neutral': 0.185, 'positiv..."
7,Siento que le tengo mucho cariño a este libro🫶...,"{'negative': 0.507, 'neutral': 0.32, 'positive..."
