# **Análisis y Predicción de Ratings de Libros**

En este notebook realizaremos un análisis completo del dataset Books_rating_5000.csv, el cual contiene información sobre miles de libros (título, autor, género, páginas, etc.) junto con sus valoraciones numéricas.
El objetivo será explorar los datos, preprocesarlos y finalmente construir un modelo supervisado capaz de predecir la valoración (rating) de un libro a partir de sus características.

El propósito es entender paso a paso cómo abordar un flujo de trabajo completo en un proyecto de machine learning con datos reales.

# **1. Introducción**

En este proyecto trabajaremos con un dataset que contiene información sobre **libros**, incluyendo:

- Título  
- Autor  
- Género  
- Número de páginas  
- Rating o puntuación  
- Número de votos  
- Entre otras características según columnas disponibles

Los objetivos principales son:

- Comprender la estructura del dataset  
- Identificar patrones relevantes en las valoraciones de libros  
- Preparar los datos para análisis o modelado  
- Construir un modelo que permita predecir la valoración (*rating*) de un libro o clasificarlo según criterios derivados

# **2. Importar librerías**

En esta celda importaremos todas las librerías necesarias para llevar a cabo el análisis.

In [None]:
import pandas as pd
import numpy as np

# Cargar dataset de libros
df = pd.read_csv("Books_rating_5000.csv")

df.head()

# **3. Cargar datos**

A continuación cargamos el dataset Books_rating_5000.csv.
Este archivo contiene aproximadamente **** libros y múltiples atributos asociados.

Vamos a visualizar la forma del dataset y las primeras columnas para entender su estructura.

In [None]:
df = pd.read_csv("Books_rating_5000.csv", sep=None, engine="python", encoding="latin1")
df.head()

# **4. Exploración inicial de los datos**

El objetivo de esta sección es comprender la estructura básica del dataset:

- Primeras filas

- Dimensiones

- Tipos de datos

- Valores faltantes

- Estadísticas descriptivas

In [None]:
print("Dimensiones:", df.shape)
print("\nColumnas:", df.columns)

print("\nPrimeras filas:")
display(df.head())

print("\nValores nulos:")
print(df.isnull().sum())

print("\nTipos de datos:")
print(df.dtypes)

# **5. Análisis Exploratorio (EDA)**

Buscaremos patrones interesantes, distribuciones y relaciones:

- Distribución del rating

- Libros con más valoraciones

- Relación entre número de páginas y puntuación

- Gráficos relevantes

In [None]:
# Histograma del rating
df['rating'].hist(bins=30)
plt.xlabel("Rating")
plt.ylabel("Frecuencia")
plt.title("Distribución del Rating")
plt.show()

# Libros con más votaciones (si existe la columna)
if 'num_votes' in df.columns:
    df['num_votes'].hist(bins=30)
    plt.xlabel("Número de votos")
    plt.ylabel("Frecuencia")
    plt.title("Distribución de número de votos")
    plt.show()


# **6. Preprocesamiento de los datos**

Realizaremos lo necesario para preparar los datos:

- Eliminar nulos

- Convertir tipos

- Normalizar variables numéricas si se usan modelos

- Codificación de texto si es necesario

In [None]:
# Eliminar filas con nulos
df_clean = df.dropna()

# Convertir columnas numéricas si es necesario
# df_clean['rating'] = pd.to_numeric(df_clean['rating'], errors='coerce')

df_clean.head()

# **7. Modelado**

Aquí seleccionaremos un modelo sencillo para evaluar qué tan bien podemos predecir la valoración (*rating*).
Por ejemplo, podemos usar un **modelo de regresión lineal** si el rating es numérico.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Ejemplo: usamos número de páginas y número de votos como predictores si existen
features = ['num_pages', 'num_votes']
features = [f for f in features if f in df_clean.columns]

X = df_clean[features]
y = df_clean['rating']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

# **8. Evaluación del modelo**

Mediremos el rendimiento del modelo:

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

predictions = model.predict(X_test)

print("MSE:", mean_squared_error(y_test, predictions))
print("R2 Score:", r2_score(y_test, predictions))

# **9. Pruebas con ejemplos nuevos**

Permite al lector ver cómo el modelo responde con datos nuevos o manuales.

In [None]:
nuevo = pd.DataFrame({
    "num_pages": [320],
    "num_votes": [5500]
})

print("Predicción de rating:", model.predict(nuevo)[0])

# **10. Exportar modelo o resultados**

Guarda el modelo para uso posterior o exporta resultados relevantes.

In [None]:
import joblib

joblib.dump(model, "modelo_rating_libros.pkl")
print("Modelo guardado.")

# **11. Conclusiones**

- Se analizó la estructura y las características del dataset Books_rating_5000.csv.

- Se identificaron patrones importantes en los ratings y la popularidad de los libros.

- Se construyó un modelo predictivo sencillo que muestra una primera aproximación al problema.

- Pueden mejorarse los resultados incorporando más variables, aplicando modelos más complejos o realizando ingeniería de características.