## Dataset de películas

#### Manejo del archivo original

In [6]:
import csv
import os
import collections
import random

ruta_wd = os.getcwd()
ruta = os.path.join(ruta_wd,"mymoviedb.csv")

with open(ruta,encoding="utf-8") as archivo:
    csvreader = csv.reader(archivo,delimiter=',')
    encabezado = next(csvreader)
    print(encabezado)
    #lista = [x for x in csvreader if x[2] != "" and len(x[6]) <= 2] 
    lista = []
    for linea in csvreader:
        try: # Hay lineas vacias en el csv
            if linea[2] != "" and len(linea[6]) <= 2: lista.append(linea)
        except:
            continue

['Release_Date', 'Title', 'Overview', 'Popularity', 'Vote_Count', 'Vote_Average', 'Original_Language', 'Genre', 'Poster_Url']


#### Contador de palabras de todas las overviews

In [7]:
contador = collections.Counter()
for pelicula in lista:
    overview = pelicula[2].lower().replace(",","").replace(".","").replace("-","").split()
    contador.update(overview)

palabras_mas_comunes = list(map(lambda x: x[0],contador.most_common(100)))
print(palabras_mas_comunes)

['the', 'a', 'to', 'and', 'of', 'in', 'his', 'is', 'with', 'her', 'an', 'he', 'for', 'on', 'that', 'their', 'when', 'as', 'by', 'who', 'from', 'but', 'they', 'she', 'are', 'has', 'after', 'into', 'at', 'him', 'life', 'new', 'one', 'young', 'it', 'up', 'out', 'world', 'be', 'must', 'two', 'this', 'will', 'have', 'all', 'family', 'them', 'find', 'man', 'only', 'love', 'while', 'where', 'friends', 'finds', 'years', 'time', 'story', 'about', 'not', 'woman', 'help', 'school', 'get', 'home', 'back', 'was', 'can', 'mysterious', 'own', 'what', 'against', 'now', 'take', 'group', 'which', 'save', 'way', 'before', 'more', 'first', 'soon', 'girl', 'other', 'been', 'himself', 'through', 'war', 'father', 'become', 'over', 'lives', 'becomes', 'most', 'town', 'being', 'takes', 'down', 'during', 'team']


#### Funciones para transformar las sinopsis

In [8]:
def eliminar_palabras_comunes(overview,palabras_comunes,titulo):
    ### Recibe una sinopsis de pelicula en string, le elimina las palabras mas comunes y las incluidas en el titulo, y la retorna en tipo lista ###
    overview = overview.lower().replace(",","").replace(".","").replace("-","").replace("–","").split()
    titulo.split()
    overview = [elem for elem in overview if elem not in titulo]
    overview_filtrado = list(filter(lambda x: x not in palabras_comunes,overview))
    return overview_filtrado

def reducir_overview_random(overview):
    ### Recibe una sinopsis en lista, la desordena, y retorna 3 palabras al azar, separadas con ";" en una string ###
    if len(overview) < 3: 
        random.shuffle(overview)
        overview_reducida = overview
    else :
        random.shuffle(overview)
        overview_reducida = random.sample(overview,3)
    overview_reducida = [elem.strip().strip('"') for elem in overview_reducida]
    overview_reducida_str = "; ".join(overview_reducida)
    return overview_reducida_str

def modificar_overview(overview,palabras_comunes):
    ov = eliminar_palabras_comunes(overview,palabras_comunes)
    return reducir_overview_random(ov)

#### Ejemplo de cómo queda el overview de una película

In [9]:
print("-"*50)
print(f"Sinopsis original \n\n {lista[0][2]}\n")
overview_sin_comunes = eliminar_palabras_comunes(lista[0][2],palabras_mas_comunes,lista[0][1])
print("-"*50)
print(f"Sinopsis sin las 100 palabras más comunes\n\n{overview_sin_comunes}\n")
print("-"*50)
overview_final = reducir_overview_random(overview_sin_comunes)
print(f"Sinopsis en 3 palabras al azar\n\n{overview_final}")

--------------------------------------------------
Sinopsis original 

 Peter Parker is unmasked and no longer able to separate his normal life from the high-stakes of being a super-hero. When he asks for help from Doctor Strange the stakes become even more dangerous, forcing him to discover what it truly means to be Spider-Man.

--------------------------------------------------
Sinopsis sin las 100 palabras más comunes

['peter', 'parker', 'unmasked', 'no', 'longer', 'able', 'separate', 'normal', 'highstakes', 'superhero', 'asks', 'doctor', 'strange', 'stakes', 'even', 'dangerous', 'forcing', 'discover', 'truly', 'means', 'spiderman']

--------------------------------------------------
Sinopsis en 3 palabras al azar

discover; highstakes; asks


##### Modificación de la columna Overview

In [10]:
for pelicula in lista:
    nueva_overview = modificar_overview(pelicula[2],palabras_mas_comunes)
    pelicula[2] = nueva_overview

TypeError: eliminar_palabras_comunes() missing 1 required positional argument: 'titulo'

#### Generación del nuevo dataset

In [None]:
ruta_wd = os.getcwd()
ruta = os.path.join(ruta_wd,"peliculas_formateado.csv")

with open(ruta,"w",encoding="utf-8") as archivo:
    writer = csv.writer(archivo,delimiter=',',lineterminator='\n')
    writer.writerow([encabezado[7],encabezado[6],encabezado[0],encabezado[5],encabezado[2],encabezado[1]])
    for pelicula in lista:
        writer.writerow([pelicula[7],pelicula[6],pelicula[0],pelicula[5],pelicula[2],pelicula[1]])
