# Predicción de Puntuaciones de Animes utilizando Regresión con RandomForest

Este Colab se enfoca en la carga, procesamiento y modelado de datos de un dataset de animes, utilizando la biblioteca scikit-learn. A continuación, se detalla el proceso llevado a cabo en este Colab, incluyendo la preparación de datos, la codificación de variables categóricas, la división de datos en conjuntos de entrenamiento y prueba, el entrenamiento de un modelo de regresión y la evaluación del modelo.

## Librerías

Instalación y Verificación de Versiones de Bibliotecas

In [None]:
!pip install scikit-learn==1.4.2

Collecting scikit-learn==1.4.2
  Downloading scikit_learn-1.4.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.1/12.1 MB[0m [31m26.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: scikit-learn
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.2.2
    Uninstalling scikit-learn-1.2.2:
      Successfully uninstalled scikit-learn-1.2.2
Successfully installed scikit-learn-1.4.2


In [None]:
import sklearn
print(sklearn.__version__)

1.4.2


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LogisticRegression
import pickle
import joblib

## Preparación de los datos y bel entrenamiento del modelo

Preparación de Datos:

- Se eliminan columnas no necesarias para el modelo.
- Se eliminan filas con valores nulos en las columnas 'Type' y 'Rating'.
- Se convierte la columna 'Score' a enteros.

Codificación de Variables Categóricas:

- Se mapean las categorías de texto a números para las columnas 'Type', 'Source' y 'Rating'.

División de Datos en Conjuntos de Entrenamiento y Prueba:

- Se separan los datos en características (X) y etiquetas (y).
- Se dividen los datos en conjuntos de entrenamiento y prueba usando una proporción del 80% para entrenamiento y 20% para prueba.

Entrenamiento del Modelo:

- Se entrena un modelo de regresión utilizando `RandomForestRegressor`.



In [None]:
# Cargar el archivo CSV
data = pd.read_csv("/content/drive/MyDrive/dataset/tfm/scrapping_anime_data.csv")

# Eliminar columnas no necesarias para el entrenamiento
data = data.drop(columns=["ID", "Title", "Episodes", "Studios", "Demographic", "Year", "Producers", "Genres", "Licensors", "Duration",
                          "Ranked", "Popularity", "Members", "Favorites", "Synopsis", "Image_URL"])

# Eliminar filas con valores nulos en 'Type' y 'Rating'
data = data.dropna(subset=['Type', 'Rating'])

data.Score = data.Score.astype(int)

# Codificar columnas categóricas
# Sustituir los campos de texto por números para facilitar el trabajo
tipo_mapping = {'TV': 1, 'Movie': 2, 'ONA': 3, 'OVA': 4, 'Special': 5, 'TV Special': 6}
source_mapping = {'Manga': 1, 'Original': 2, 'Visual novel': 3, 'Light novel': 4, 'Web novel': 5, 'Game': 6, 'Other': 7, 'Novel': 8, '4-koma manga': 9,
                  'Web manga': 10, 'Book': 11, 'Pivture book': 12, 'Mixed media': 13, 'Card game': 14, 'Music': 15, 'Radio': 16, 'Unknown': 17}
rating_mapping = {'PG-13 - Teens 13 or older': 1, 'G - All Ages': 2, 'PG - Children': 3, 'Rx - Hentai': 4, 'R - 17+ (violence & profanity)': 5, 'R+ - Mild Nudity': 6}

data['Type'] = data['Type'].map(tipo_mapping)
data['Source'] = data['Source'].map(source_mapping)
data['Rating'] = data['Rating'].map(rating_mapping)
data = data.dropna(subset=['Source'])

# Dividir los datos en características (X) y etiquetas (y)
X = data.drop(columns=["Score"])
y = data["Score"]

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

Evaluación del Modelo:

- Se realizan predicciones sobre el conjunto de prueba.
- Se calcula el error cuadrático medio (MSE) y el coeficiente de determinación (R²).

In [None]:
# Evaluar el modelo
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Error cuadrático medio: {mse}")

Error cuadrático medio: 2.3627224595189413


In [None]:
# Coeficiente de determinación: 1 es la predicción perfecta.qui
print("Coeficiente de determinación: ", r2_score(y_test, y_pred))

Coeficiente de determinación:  0.3266103096546217


Guardado del Modelo:

- Se guarda el modelo entrenado en un archivo utilizando joblib.

In [None]:
joblib.dump(model, '/content/model.pkl')

['/content/model.pkl']

Información Adicional y Exploración de Datos
- Se muestra la información del DataFrame y las categorías únicas de 'Source' y 'Type'.
- Se realiza un conteo de los valores de 'Type'.

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11203 entries, 0 to 12595
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Type    11203 non-null  int64  
 1   Source  11203 non-null  float64
 2   Rating  11203 non-null  int64  
 3   Score   11203 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 437.6 KB


In [None]:
data.Source.unique()

array(['Original', 'Manga', 'Light novel', 'Game', 'Visual novel',
       '4-koma manga', 'Novel', 'Other', 'Unknown', 'Picture book',
       'Web manga', 'Music', 'Radio', 'Book', 'Mixed media', 'Card game',
       'Web novel'], dtype=object)

In [None]:
data.Type.value_counts()

Type
1    3954
4    2979
2    1824
5    1129
3    1042
6     365
Name: count, dtype: int64

In [None]:
data

Unnamed: 0,Type,Source,Rating,Score
0,1,2.0,5,8
1,2,2.0,5,8
2,1,1.0,1,8
3,1,2.0,1,7
4,1,1.0,3,6
...,...,...,...,...
12590,1,10.0,2,1
12592,3,2.0,1,1
12593,2,2.0,2,1
12594,2,11.0,3,1
