In [None]:
import numpy as np
import pandas as pd
import os

# Ruta local para buscar los datos en tu entorno
base_dir = './data'
file_name = 'wiki_movie_plots_deduped.csv'

file_path = os.path.join(base_dir, file_name)

# Leer el archivo CSV
try:
    data = pd.read_csv(file_path)
    print("\nArchivo cargado correctamente.")
except FileNotFoundError:
    print(f"\nArchivo no encontrado en: {file_path}. Verifica la ruta.")

# Visualizar la estructura del dataset
print("\nEstructura del dataset:")
print(data.info())

# Seleccionar solo las columnas necesarias: Title y Plot
if 'Title' in data.columns and 'Plot' in data.columns:
    movies = data[['Title', 'Plot']]
    print("\nDatos seleccionados con éxito (Title y Plot).")
else:
    print("Las columnas 'Title' y 'Plot' no están presentes en el dataset.")
    movies = pd.DataFrame()  # Crear un DataFrame vacío si las columnas no existen

output_path = os.path.join(base_dir, 'full_movies_data.csv')
movies.to_csv(output_path, index=False)
print(f"\nDataset completo guardado en: {output_path}")



Archivo cargado correctamente.

Estructura del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34886 entries, 0 to 34885
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Release Year      34886 non-null  int64 
 1   Title             34886 non-null  object
 2   Origin/Ethnicity  34886 non-null  object
 3   Director          34886 non-null  object
 4   Cast              33464 non-null  object
 5   Genre             34886 non-null  object
 6   Wiki Page         34886 non-null  object
 7   Plot              34886 non-null  object
dtypes: int64(1), object(7)
memory usage: 2.1+ MB
None

Datos seleccionados con éxito (Title y Plot).

Dataset completo guardado en: ./data\full_movies_data.csv


In [1]:
import csv
import string
from nltk.corpus import stopwords
import nltk

# Descargar las stopwords de NLTK si no lo has hecho antes
nltk.download('stopwords')

# Configuración
archivo_original = './data/full_movies_data.csv'
archivo_salida = 'archivo_procesado.csv'
stop_words = set(stopwords.words('english'))  # Cambia a tu idioma, por ejemplo 'english'

# Función para procesar el texto
def procesar_texto(texto):
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar signos de puntuación
    texto = texto.translate(str.maketrans('', '', string.punctuation))
    # Eliminar stopwords
    palabras = texto.split()
    palabras_filtradas = [palabra for palabra in palabras if palabra not in stop_words]
    return ' '.join(palabras_filtradas)

# Leer el archivo original y procesar
with open(archivo_original, mode='r', encoding='utf-8') as entrada:
    lector = csv.reader(entrada)
    filas_procesadas = [[procesar_texto(celda) for celda in fila] for fila in lector]

# Escribir el archivo procesado
with open(archivo_salida, mode='w', encoding='utf-8', newline='') as salida:
    escritor = csv.writer(salida)
    escritor.writerows(filas_procesadas)

print(f"El archivo procesado ha sido guardado como '{archivo_salida}'.")


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kale\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


El archivo procesado ha sido guardado como 'archivo_procesado.csv'.
