# ML

In [None]:
import pandas as pd
import joblib
from sklearn.feature_extraction.text import TfidfVectorizer
import re
from nltk.corpus import stopwords

# Descargamos stopwords si no están disponibles
import nltk
nltk.download('stopwords')

# Función de preprocesamiento del texto
def preprocess_text(text):
    # Eliminamos caracteres especiales y puntuación
    text = re.sub(r'[^\w\s]', '', text)
    # Convertimos a minúsculas
    text = text.lower()
    # Se eliminan stopwords
    stop_words = set(stopwords.words('english'))
    text = ' '.join(word for word in text.split() if word not in stop_words)
    return text

# Se carga el dataset
df = pd.read_csv('/content/dataset_limpio.csv')

### Aplicaciones

In [None]:
# Aplicamos el preprocesamiento al título en base a la "nube de palabras"
df['title_processed'] = df['title'].apply(preprocess_text)

# Vectorización
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['title_processed'])

# Guardamos el DataFrame y el modelo entrenado
df.to_csv('/content/trabajo/recursosApi/dataframe_procesado.csv', index=False)
joblib.dump(tfidf, 'tfidf_vectorizer.joblib')
joblib.dump(tfidf_matrix, 'tfidf_matrix.joblib')


##### Este proceso asegura que los títulos de las películas se preprocesen adecuadamente y se vectoricen en una representación que puede ser utilizada para tareas de Machine Learning, como la recomendación de películas.

#### Este ML fue realizado en Colab de Google