# Explore here

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score

# Cargar los datos
data = pd.read_csv('anime.csv')  # Asegúrate de que el archivo anime.csv esté en el mismo directorio

# Filtramos solo las columnas necesarias y eliminamos filas con valores nulos
# Cambia 'rating' a la columna que quieres predecir, y ajusta las características según sea necesario.
data = data[['rating', 'genre']].dropna()

# Convertir 'rating' a categorías (ajusta según tu clasificación deseada)
data['rating'] = pd.cut(data['rating'], bins=[0, 5, 10], labels=['Low', 'High'])

# Usar Label Encoding para la variable dependiente y las características
label_encoder = LabelEncoder()
data['rating'] = label_encoder.fit_transform(data['rating'])
X = data['genre'].values.reshape(-1, 1)  # Característica (ajusta según tus necesidades)
y = data['rating']  # Variable dependiente

# Convertir texto a características numéricas
X = pd.get_dummies(pd.Series(X.flatten()), prefix='genre')

# Dividir el dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Realizar predicciones
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Calcular las métricas
accuracy_test = accuracy_score(y_test, y_pred_test)
f1_score_test = f1_score(y_test, y_pred_test, average='micro')
precision_test = precision_score(y_test, y_pred_test, average='micro')
recall_test = recall_score(y_test, y_pred_test, average='micro')

# Imprimir las métricas
print("Accuracy Test: ", accuracy_test)
print("F1 Score Test: ", f1_score_test)
print("Precision Test: ", precision_test)
print("Recall Test: ", recall_test)


Accuracy Test:  0.9172212978369384
F1 Score Test:  0.9172212978369384
Precision Test:  0.9172212978369384
Recall Test:  0.9172212978369384


In [2]:
from joblib import dump


dump(model, open("anime_rating_classifier.sav", "wb"))
