# Proyecto: BookFeelsVerse

En el desarrollo de los siguientes c√≥digos, se presenta un an√°lisis detallado de la extracci√≥n de datos requeridos provenientes de diversas plataformas. Con el prop√≥sito de obtener informaci√≥n precisa y relevante, se ha empleado una variedad de herramientas especializadas para abordar cada entorno de manera eficiente.

## 1. Extracci√≥n de Libros M√°s Vendidos desde Crisol

Este c√≥digo en Python se enfoca en extraer informaci√≥n de la p√°gina web **Crisol**. Se recopilan datos como t√≠tulos, autores, precios y ofertas, organiz√°ndolos en un DataFrame de pandas para su f√°cil manipulaci√≥n y an√°lisis.

In [2]:
# Librerias utilizadas
import requests
from bs4 import BeautifulSoup
import pandas as pd
import csv

# URL de la p√°gina
url = "https://www.crisol.com.pe/otros/los-mas-vendidoss"

# Realizar la solicitud HTTP
response = requests.get(url)

# Verificar si la solicitud fue exitosa (c√≥digo de respuesta 200)
if response.status_code == 200:
    # Parsear el contenido HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')
    titulos = []
    autores = []
    precios = []
    ofertas = []

    # Encontrar todos los elementos div que contienen informaci√≥n de los libros
    libros = soup.find_all('div', class_='product-item-info')

    # Iterar sobre los elementos y extraer la informaci√≥n
    for libro in libros:
        # Obtener T√≠tulo
        titulo = libro.find('strong', class_='product name product-item-name')
        titulo_text = titulo.text.strip() if titulo else 'No Title'
        titulos.append(titulo_text)

        # Obtener Precios y Ofertas
        for price_box in libro.find_all('div', class_='price-box'):
            special_price = price_box.find('span', class_='special-price')
            old_price = price_box.find('span', class_='old-price')

            # Extraccion de los precios
            if old_price:
                precio_elem = old_price.find('span', class_='price').text.strip()
            else:
                precio_elem = price_box.find('span', class_='price').text.strip()

            # Extracci√≥n de las ofertas
            oferta_elem = special_price.find('span', class_='price').text.strip() if special_price else '-'

            # Append to lists
            precios.append(precio_elem)
            ofertas.append(oferta_elem)

        # Obtener Autores
        autor_elems = libro.find_all('div', class_='author')
        autores_text = ', '.join(set([autor.text.strip() for autor in autor_elems]))
        autores.append(autores_text)

    # Crear un DataFrame con los datos
    df = pd.DataFrame({
        'Titulo': titulos,
        'Autores': autores,
        'Precio': precios,
        'Oferta': ofertas
    })

# Imprimir el DataFrame resultante
df

Unnamed: 0,Titulo,Autores,Precio,Oferta
0,Cuando no queden m√°s estrellas ...,"Mart√≠nez, Mar√≠a",S/ 59.90,-
1,Perronejo,"Ramos, Wendy",S/ 69.00,S/ 51.75
2,Tea Shop,"Pinasco, Bruno",S/ 79.90,S/ 59.93
3,Los genios,"Bayly, Jaime",S/ 79.00,S/ 59.25
4,H√°bitos at√≥micos,"Clear, James",S/ 99.90,S/ 74.93
5,Le dedico mi silencio,"Vargas Llosa, Mario",S/ 89.00,S/ 66.75
6,C√≥mo Hacer que Te Pasen Cosas B...,"Rojas Estap√©, Marian",S/ 89.90,S/ 67.43
7,La teor√≠a de Kim,"Sandoval, Jay",S/ 99.00,S/ 74.25
8,Cien cuyes,"Rodr√≠guez, Gustavo",S/ 69.00,S/ 51.75
9,"Rojo, blanco y sangre azul","McQuiston, Casey",S/ 89.00,S/ 66.75


## 2. Extracci√≥n de Informaci√≥n de Libros en Goodreads

Este c√≥digo en Python extrae informaci√≥n de libros en Goodreads utilizando una lista de IDs. Incluye el t√≠tulo del libro, la puntuaci√≥n y las rese√±as, presentando los resultados de manera organizada en un DataFrame para facilitar su visualizaci√≥n.

In [3]:
# Importar las librer√≠as necesarias
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Lista de IDs de libros en Goodreads
ids = ['58295801-cuando-no-queden-m-s-estrellas-que-contar', '202329456-perronejo', '200276684-tea-shop',
       '122800780-los-genios', '45028173-h-bitos-at-micos', '192888751-le-dedico-mi-silencio',
       '41811331-c-mo-hacer-que-te-pasen-cosas-buenas', '196963397-la-teor-a-de-kim', '91819656-cien-cuyes',
       '52950904-rojo-blanco-y-sangre-azul', '38913520-el-sutil-arte-de-que-te-importe-un-caraj', '141869624-la-teor-a-del-amor',
       '42744102-el-club-de-las-5-de-la-ma-ana', '193543529-presidentes-por-accidente', '54659294-tres-meses']

# URL base para los libros en Goodreads
base_url = 'https://www.goodreads.com/book/show/'
urls = [base_url + book_id for book_id in ids]

# Listas para almacenar la informaci√≥n extra√≠da
titulos = []
puntuaciones = []
todas_rese√±as = []

# Iterar a trav√©s de las URLs de los libros
for url in urls:
    # Realizar la solicitud HTTP para obtener la p√°gina
    response = requests.get(url)

    # Verificar si la solicitud fue exitosa (c√≥digo de estado 200)
    if response.status_code == 200:
        # Utilizar BeautifulSoup para analizar el contenido HTML de la p√°gina
        soup = BeautifulSoup(response.content, 'html.parser')

        # Extraer el t√≠tulo del libro
        title_elem = soup.find('h1', {'class': 'Text Text__title1'})
        title = title_elem.text.strip() if title_elem else None
        titulos.append(title)

        # Extraer la puntuaci√≥n del libro
        rating_elem = soup.find('div', class_='RatingStatistics__rating')
        rating = rating_elem.text.strip() if rating_elem else None
        puntuaciones.append(rating)

        # Extracci√≥n de las rese√±as (cambiar seg√∫n la estructura de la p√°gina)
        rese√±as = []
        for reviews in soup.find_all('div', class_='ReviewsList'):
            reviews_elems = reviews.find_all('span', class_='Formatted')
            for review_elem in reviews_elems:
                review_text = review_elem.text.strip()
                rese√±as.append(review_text)

        # Almacenar las primeras 5 rese√±as en la lista principal
        todas_rese√±as.append(rese√±as)
    else:
        # Imprimir un mensaje de error si la solicitud no fue exitosa
        print(f'Error al obtener la p√°gina {url}. C√≥digo de estado: {response.status_code}')

# Crear un DataFrame con la informaci√≥n recopilada
df1 = pd.DataFrame({'T√≠tulo': titulos, 'Puntuaci√≥n': puntuaciones, 'Rese√±as': todas_rese√±as})

# Imprimir el DataFrame resultante
df1

Unnamed: 0,T√≠tulo,Puntuaci√≥n,Rese√±as
0,Cuando no queden m√°s estrellas que contar,4.43,[ME HA FASCINADO. No voy a cansarme de recomen...
1,Perronejo,4.78,[5 stars. A little ball of fluff in the desert...
2,Tea Shop,3.14,[De verdad quise que este libro me guste pero ...
3,Los genios,4.0,"[""Esto es por lo que NO le hiciste a Patricia""..."
4,H√°bitos at√≥micos,4.36,[A Book That Changed My LifeA book worth readi...
5,Le dedico mi silencio,3.62,"[""Nada mas huachafo que llorar en la entrega d..."
6,C√≥mo hacer que te pasen cosas buenas,4.13,[Lo peor de este libro es el t√≠tulo.A pesar de...
7,La teor√≠a de Kim,4.68,[2.5 WAR IS FINALLY OVER.genuinamente puedo de...
8,Cien cuyes,4.14,"[√öltimamente, pocos libros me conmueven tanto ..."
9,"Rojo, blanco y sangre azul",4.1,[I am a soulless void. I have definitely said ...


## 3. An√°lisis de Sentimientos en Rese√±as de Libros

Este c√≥digo en Python utiliza la biblioteca paralleldots, para realizar un an√°lisis de sentimientos extrayendo el sentimiento predominante en las rese√±as de cada libro; adem√°s, limitando la cantidad de rese√±as analizadas a un m√°ximo de 5 para hacer el proceso m√°s eficiente. Tambi√©n incluye un preprocesamiento que elimina caracteres especiales y palabras irrelevantes. 

In [None]:
pip install paralleldots

In [25]:
# Importar las librer√≠as
import paralleldots
import pandas as pd
import json
import re

# Configuraci√≥n de la clave de la API de ParallelDots y reemplaza 'YOUR_PARALLELDOTS_API_KEY' con tu clave de API
paralleldots.set_api_key('YOUR_PARALLELDOTS_API_KEY')

def find_max_avg_sentiment(sentiments):
    """
    Encuentra la clave de sentimiento con el mayor promedio a partir de un conjunto de sentimientos.
    Par√°metros:
    - sentiments (list): Lista de diccionarios que representan sentimientos para cada elemento.
    Retorna:
    - str: Clave de sentimiento con el mayor promedio ('negative', 'neutral' o 'positive').
    """
    # Verificar si la lista de sentimientos est√° vac√≠a
    if not sentiments:
        return 'neutral'  # Si no hay sentimientos, se considera neutral

    # Calcular el promedio de cada tipo de sentimiento
    avg_sentiments = {
        'negative': sum(sentiment.get('negative', 0) for sentiment in sentiments) / len(sentiments),
        'neutral': sum(sentiment.get('neutral', 0) for sentiment in sentiments) / len(sentiments),
        'positive': sum(sentiment.get('positive', 0) for sentiment in sentiments) / len(sentiments)
    }

    # Devolver la clave de sentimiento con el mayor promedio
    return max(avg_sentiments, key=avg_sentiments.get, default='neutral')

def limpiar_texto(texto):
    """
    Limpia el texto eliminando caracteres especiales, n√∫meros y palabras irrelevantes.
    Par√°metros:
    - texto (str): Texto que se va a limpiar.
    Retorna:
    - str: Texto limpio sin caracteres especiales, n√∫meros y palabras irrelevantes.
    """
    # Eliminar caracteres especiales y n√∫meros usando expresiones regulares
    texto = re.sub(r'[^a-zA-Z\s]', '', texto)

    # Convertir a min√∫sculas
    texto = texto.lower()

    # Eliminar palabras irrelevantes
    palabras_irrelevantes = ['a', 'el', 'la', 'y', 'en', 'con', 'es', 'de', 'para', 'que', 'se', 'un', 'una', 'por', 'lo']
    palabras = texto.split()
    palabras_filtradas = [palabra for palabra in palabras if palabra not in palabras_irrelevantes]

    # Unir las palabras filtradas en un solo texto
    texto = ' '.join(palabras_filtradas)

    return texto

#  Restringe las rese√±as para que solo se tomen en cuenta como m√°ximo 5
rese√±as_5=[todas_rese√±as[i][:5] for i in range(0,len(todas_rese√±as))]

# Lista para almacenar las respuestas
max_avg_keys = []

# Iterar a trav√©s de cada oraci√≥n
for i in range(0, len(rese√±as_5)):
    text = rese√±as_5[i]
    # Limpiar cada oraci√≥n
    textos_limpios = [limpiar_texto(texto) for texto in text]

    try:
        # Realizar an√°lisis de sentimientos en bulto para las oraciones limpias
        response = paralleldots.batch_sentiment(textos_limpios)
    except json.JSONDecodeError as e:
        print()

    # Calcular la clave de sentimiento con el mayor promedio
    avg_sentiment_key = find_max_avg_sentiment(response['sentiment'])
    max_avg_keys.append(avg_sentiment_key)

    # Imprimir la clave de sentimiento con el mayor promedio para la oraci√≥n actual
    print(f"Clave de Sentimiento con Mayor Promedio para las rese√±as {i + 1}: {avg_sentiment_key}")

# Documentaci√≥n adicional:
# - Aseg√∫rate de tener instalada la biblioteca `paralleldots` antes de ejecutar el c√≥digo (`pip install paralleldots`).
# - Aseg√∫rate de que la variable `todas_rese√±as` est√© definida antes de ejecutar el script.

Clave de Sentimiento con Mayor Promedio para las rese√±as 1: neutral
Clave de Sentimiento con Mayor Promedio para las rese√±as 2: positive
Clave de Sentimiento con Mayor Promedio para las rese√±as 3: positive
Clave de Sentimiento con Mayor Promedio para las rese√±as 4: positive

Clave de Sentimiento con Mayor Promedio para las rese√±as 5: positive
Clave de Sentimiento con Mayor Promedio para las rese√±as 6: positive
Clave de Sentimiento con Mayor Promedio para las rese√±as 7: negative
Clave de Sentimiento con Mayor Promedio para las rese√±as 8: positive
Clave de Sentimiento con Mayor Promedio para las rese√±as 9: positive
Clave de Sentimiento con Mayor Promedio para las rese√±as 10: negative

Clave de Sentimiento con Mayor Promedio para las rese√±as 11: negative
Clave de Sentimiento con Mayor Promedio para las rese√±as 12: negative
Clave de Sentimiento con Mayor Promedio para las rese√±as 13: negative

Clave de Sentimiento con Mayor Promedio para las rese√±as 14: negative
Clave de Sent

## 4. Visualizaci√≥n de la Extracci√≥n y An√°lisis de Datos de Libros con Sentimientos

Este c√≥digo en Python crea un DataFrame (df2) utilizando las listas previamente obtenidas de t√≠tulos, autores, precios, ofertas, puntuaciones, rese√±as y an√°lisis de sentimientos. Luego, imprime el DataFrame, consolidando la informaci√≥n de los libros en un formato tabular para facilitar su visualizaci√≥n y an√°lisis.

In [26]:
# Crear un DataFrame
df2 = pd.DataFrame({'T√≠tulo': titulos, 'Autores': autores, 'Precio': precios, 'Oferta': ofertas,
                    'Puntuaci√≥n': puntuaciones, 'Rese√±as': todas_rese√±as, 'An√°lsis de Sentimiento': max_avg_keys})

# Imprimir el DataFrame
df2

Unnamed: 0,T√≠tulo,Autores,Precio,Oferta,Puntuaci√≥n,Rese√±as,An√°lsis de Sentimiento
0,Cuando no queden m√°s estrellas que contar,"Mart√≠nez, Mar√≠a",S/ 59.90,-,4.43,[ME HA FASCINADO. No voy a cansarme de recomen...,neutral
1,Perronejo,"Ramos, Wendy",S/ 69.00,S/ 51.75,4.78,[5 stars. A little ball of fluff in the desert...,positive
2,Tea Shop,"Pinasco, Bruno",S/ 79.90,S/ 59.93,3.14,[De verdad quise que este libro me guste pero ...,positive
3,Los genios,"Bayly, Jaime",S/ 79.00,S/ 59.25,4.0,"[""Esto es por lo que NO le hiciste a Patricia""...",positive
4,H√°bitos at√≥micos,"Clear, James",S/ 99.90,S/ 74.93,4.36,[A Book That Changed My LifeA book worth readi...,positive
5,Le dedico mi silencio,"Vargas Llosa, Mario",S/ 89.00,S/ 66.75,3.62,"[""Nada mas huachafo que llorar en la entrega d...",positive
6,C√≥mo hacer que te pasen cosas buenas,"Rojas Estap√©, Marian",S/ 89.90,S/ 67.43,4.13,[Lo peor de este libro es el t√≠tulo.A pesar de...,negative
7,La teor√≠a de Kim,"Sandoval, Jay",S/ 99.00,S/ 74.25,4.68,[2.5 WAR IS FINALLY OVER.genuinamente puedo de...,positive
8,Cien cuyes,"Rodr√≠guez, Gustavo",S/ 69.00,S/ 51.75,4.14,"[√öltimamente, pocos libros me conmueven tanto ...",positive
9,"Rojo, blanco y sangre azul","McQuiston, Casey",S/ 89.00,S/ 66.75,4.1,[I am a soulless void. I have definitely said ...,negative


## 5. Extracci√≥n de Rese√±as y An√°lisis de Sentimientos para Libros
Este c√≥digo Python ampl√≠a el an√°lisis anterior al mostrar los an√°lisis de sentimientos individuales de cada rese√±a para un t√≠tulo espec√≠fico. El usuario puede ingresar un √≠ndice para seleccionar un libro, y el c√≥digo presenta de manera detallada el an√°lisis de sentimientos de cada rese√±a asociada a ese t√≠tulo.

In [15]:
import pandas as pd
import paralleldots

# Configuraci√≥n de la clave de la API de ParallelDots y reemplaza 'YOUR_PARALLELDOTS_API_KEY' con tu clave de API
paralleldots.set_api_key('YOUR_PARALLELDOTS_API_KEY')

def obtener_analisis_sentimientos(rese√±a):
    try:
        # Realizar la solicitud de an√°lisis de sentimientos a ParallelDots
        response = paralleldots.batch_sentiment(rese√±a)

        # Devolver los resultados de sentimientos si la solicitud fue exitosa
        return response['sentiment'] if response and 'sentiment' in response else None
    except Exception as e:
        # Manejar errores e imprimir mensajes de error
        print(f"Error al obtener el an√°lisis de sentimientos: {e}")
        return None

def obtener_rese√±as_y_sentimientos_para_titulo(indice_elegido):
    # Crear un DataFrame con las rese√±as del t√≠tulo seleccionado
    df_rese√±as = pd.DataFrame({'Rese√±as': todas_rese√±as[indice_elegido]})

    # Obtener el an√°lisis de sentimientos para cada rese√±a
    df_rese√±as['An√°lisis de Sentimientos'] = obtener_analisis_sentimientos(df_rese√±as['Rese√±as'].tolist())

    # Convertir los resultados de an√°lisis de sentimientos a cadenas
    df_rese√±as['An√°lisis de Sentimientos'] = df_rese√±as['An√°lisis de Sentimientos'].apply(str)

    # Agregar una fila con el t√≠tulo correspondiente y dejar la columna 'An√°lisis de Sentimientos' vac√≠a
    df_rese√±as.at[-1, 'Rese√±as'] = titulos[indice_elegido]
    df_rese√±as.at[-1, 'An√°lisis de Sentimientos'] = ''

    # Incrementar √≠ndices para acomodar la nueva fila
    df_rese√±as.index = df_rese√±as.index + 1

    # Ordenar el DataFrame por √≠ndice
    df_rese√±as.sort_index(inplace=True)

    return df_rese√±as

# Ejemplo de uso
indice_elegido = int(input("Ingrese el √≠ndice del libro que le interesa (0 al 14): "))

# Obtener el DataFrame resultante
df_rese√±as_y_sentimientos = obtener_rese√±as_y_sentimientos_para_titulo(indice_elegido)

# Imprimir el DataFrame resultante
df_rese√±as_y_sentimientos

Ingrese el √≠ndice del libro que le interesa (0 al 14): 2


Unnamed: 0,Rese√±as,An√°lisis de Sentimientos
0,Tea Shop,
1,De verdad quise que este libro me guste pero n...,"{'negative': 0.654, 'neutral': 0.272, 'positiv..."
2,¬°Hola! ¬øc√≥mo est√°n?Les dejo la sinopsis:Tea Sh...,"{'negative': 0.269, 'neutral': 0.453, 'positiv..."
3,"3.8Una historia tierna, ligera y llena de ilus...","{'negative': 0.144, 'neutral': 0.357, 'positiv..."
4,Me encant√≥ la historia! Eliot y Grey lo son to...,"{'negative': 0.252, 'neutral': 0.41, 'positive..."
5,Obra rom√°ntica que se basa en los principios d...,"{'negative': 0.331, 'neutral': 0.417, 'positiv..."
6,Fue una gran experiencia leer Tea ShopüíúEs un l...,"{'negative': 0.025, 'neutral': 0.185, 'positiv..."
7,Siento que le tengo mucho cari√±o a este libroü´∂...,"{'negative': 0.507, 'neutral': 0.32, 'positive..."
