Importamos las librerías necesarias para realizar nuestro análisis

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Importamos el archivo en el que tenemos guardados todas las películas a las que vamos a realizarle el análisis, que contiene: información sobre la película, título y guión

In [2]:
csv= pd.read_csv('imsdb.csv')

Debido a la forma de extraer los datos de la web (con WebScraper de Google Chrome), la tabla tiene que ser limpiada, ya que contiene filas que no son interesantes para el análisis

In [3]:
csv=csv.replace('null', np.nan)
csv= csv.dropna()

Una vez realizado el primer procesamiento del DataFrame, tomamos sólo las columnas que de momento nos interesan para realizar nuestro análisis

In [4]:
imsdb= csv[['movie', 'genre', 'script']]

Reestablecemos el índice

In [5]:
imsdb.index=range(0, len(imsdb))

Renombramos las columnas para que sea más fácil el análisis

In [6]:
imsdb= imsdb[['movie', 'genre', 'script']]
imsdb.columns =[ 'title', 'genre', 'script']

Procesamos algunos títulos de las películas, los que tienen la palabra 'The' en el título, ya que los títulos en estos casos aparecen desordenados, lo que va a dificultar nuestro análisis posterior. Se reordenan los títulos para que aparezcan correctos

In [7]:
for index, title in enumerate(imsdb['title']):

    if 'The' in title:
        splitted_title= title.split(' ')
        reordered_title=list()
        
        if 'The' in splitted_title[-1]:
            reordered_title.append('The')
            for words in splitted_title:
                reordered_title.append(words)

            del reordered_title[-1]
            imsdb['title'].iloc[index]=' '.join(reordered_title)    
            

En esta parte comenzamos el procesamiento del texto de los guiones, que están guardados en la columna del DataFrame 'script'

Separamos el texto de los guiones por párrafos

In [8]:
imsdb['script_2']= np.nan

for i, j in enumerate(imsdb['script']):
    imsdb['script_2'].iloc[i]=j.split('\n\n')


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


Creamos una funcion que limpie el texto de espacios en blanco, y a la vez divida cada párrafo en líneas

In [9]:
def strip_nd_splitlines(estring):
    a= estring.strip()
    b=a.splitlines()
    return b

In [10]:
for i, j in enumerate(imsdb['script_2']):
    imsdb['script_2'][i] =list(map(strip_nd_splitlines, j))

Hacemos un último procesamiento del texto, limpiando cada línea de texto de espacios en blanco

In [11]:
for i, j in enumerate(imsdb['script_2']):
    for a, b in enumerate(j):
        imsdb['script_2'].iloc[i][a]= list(map(lambda x: x.strip(), imsdb['script_2'].iloc[i][a]))

Por otro lado, es necesario extraer información sobre si las películas pasan el test o no. Para ello, es necesario extraer estos datos de otra web, ya que en imsdb.com no aparece esta información.

Obtengo mi tabla con la información de la página bechdeltest.com, de dónde obtengo un listado de 7678 películas etiquetadas según si pasan el test o no.
Esta tabla será la que utilizaré para comprobar la precisión de mi código a la hora de determinar si una película pasa el test o no en base a su guión.

In [12]:
bt_movies=pd.read_csv('bechdeltest_movies.csv')
bt_result=pd.read_csv('bechdeltest_result.csv')

bt_movies=bt_movies.sort_values(by='web-scraper-order')
bt_result=bt_result.sort_values(by='web-scraper-order')

bt_movies.index= range(0, len(bt_movies))
bt_result.index=range(0, len(bt_result))

bt_movies=bt_movies[['movies']]
bt_result=bt_result[['result-src']]

bt=bt_movies.merge(bt_result, right_index=True, left_index=True)

bt['result-src'][bt['result-src']=='/static/pass.png']=1
bt['result-src'][bt['result-src']=='/static/nopass.png']=0


Primero voy a filtrar las películas de las que he podido obtener el guión (1107), para procesar sólo aquellas de las que también tengo el dato de si pasan el test o no, de cara a poder comprobar posteriormente la precisión de mi código.

Nos quedamos sólo con las películas de las que tenemos información sobre el resultado del test de Bechdel (las que aparecen en la página web 'bechdeltest.com')

In [13]:
films=imsdb[imsdb['title'].isin(bt['movies'])]
films.index=range(0, len(films))
bt=bt.drop(bt.index[bt.duplicated(subset='movies', keep='first')])
films=films.merge(bt, left_on='title', right_on='movies')
films=films[['title', 'genre', 'script', 'script_2', 'result-src']]

En esta parte del código, una vez tenemos los guiones etiquetados con su resultado del test, hacemos el procesamiento de los guiones para convertir cada uno en un dataframe, de cara a que el procesamiento de los guiones sea más sencillo. 
Cada dataframe (guión), lo guardamos en un diccionario que contiene su índice en el DataFrame 'films', para poder acceder a toda la información relativa al guión cuando sea necesario.

In [14]:
films_to_process= films[['title', 'script_2']]

In [15]:
bechdel_test={}
for j, i in enumerate(films_to_process['script_2']):
    df=pd.DataFrame(i)
    df.fillna(value=' ', inplace=True)
    df['Speech']=' '
    for names in df.columns[1:-1]:
        df['Speech']=df['Speech']+ ' ' +df[names]
    df['Speech']=df['Speech'].str.strip()
    df=df[[0, 'Speech']]
    df= df[df[0].apply(str.isupper)]
    df.index=range(0, len(df))
    df= df[df['Speech'] != '']
    bechdel_test[films_to_process['title'].iloc[j]] = df

Elimino todos aquellos guiones que no se han procesado correctamente debido al formato en el que están escritos en la página web de la que los hemos obtenido, que no cumple con los requisitos estándares de los formatos de guiones.

In [16]:
for key in list(bechdel_test):
    if len(bechdel_test[key])<10:
        del bechdel_test[key]


Compruebo la cantidad de "intervenciones" que hay en cada guión. El entrecomillado hace referencia a que hay algunas filas que el programa hasta el momento ha tomado como intervenciones, pero que en realidad no lo son. Esto se debe, como en la parte anterior, al formato que tiene el guión en la web de la que está sacado. 
Es preciso, por lo tanto, eliminar estos guiones de nuestra base de datos, para que no entorpezcan el análisis.


Primero, listaremos el número de intervenciones que hay por guión, y lo guardaremos en un DataFrame que contiene, por un lado, el índice con el que está guardado el guión en nuestra base de datos (y que nos permite conocer la información de la película), y por otro lado, el número de intervenciones que hay en ella.

In [17]:
longitudes={}
for key in list(bechdel_test):
    longitudes[key] = [len(bechdel_test[key].groupby(0).count())]

df_number_of_characters=pd.DataFrame.from_dict(longitudes, orient='index')   

Lo hemos guardado en un DataFrame, para poder hacer un análisis rápido de los valores del número de intervenciones.

Podemos ver que, si bien la media del número de intervenciones es de 100, el 75% de los guiones tienen menos de 115 intervenciones. Merece la pena explorar aquellos guiones en los que aparecen más intervenciones, para determinar a qué se debe esto.

In [18]:
df_number_of_characters.describe()

Unnamed: 0,0
count,469.0
mean,100.865672
std,85.000635
min,7.0
25%,50.0
50%,75.0
75%,115.0
max,719.0


Guardamos el índice de estos guiones poco usuales en cuanto a número de intervenciones

In [19]:
index_films_to_delete=df_number_of_characters[df_number_of_characters[0]>115].index

In [20]:
df_number_of_characters[df_number_of_characters[0]>115]

Unnamed: 0,0
Public Enemies,382
Cecil B. Demented,371
42,286
American Hustle,167
Defiance,395
Elizabeth: The Golden Age,173
A Serious Man,135
Real Genius,226
Sherlock Holmes,121
Judge Dredd,439


Hay 117 guiones que tienen este número anormal de intervenciones

In [21]:
len(index_films_to_delete)

117

Exploramos una intervención al azar, para ver a qué se debe la discrepancia en el número de intervenciones.

Podemos ver que, en el guión de la película 'Signs', tras nuestro procesamiento, no sólo aparecen listadas las intervenciones de los personajes (como debería suceder), si no que también aparecen partes descriptivas del guión. Al explorar este guión en http://www.imsdb.com/scripts/Signs.html podemos ver que el formato en el que está escrito, si bien se asemeja a la estructura que debería seguir un guión de cine, no está del todo bien hecha, ya que tiene partes descriptivas en mayúsculas, cuando las guías de estilo de los guiones indican que estas partes debería tener formato de oración, dejando las partes escritas en mayúscula para las intervenciones de los personajes.



In [22]:
index_films_to_delete[37]

'Signs'

In [23]:
bechdel_test[index_films_to_delete[37]].groupby(0).count().sort_values(by= 'Speech', ascending=False)

Unnamed: 0_level_0,Speech
0,Unnamed: 1_level_1
GRAHAM,235
MERRILL,108
MORGAN,87
OFFICER PASKI,47
BO,34
TV ANCHOR,9
CREWCUT GUY,9
COLLEEN,9
PHARMACIST,7
RAY,6


Este es sólo un ejemplo del por qué de esta discrepancia. Haciendo una exploración aleatoria de algunos de los 117 guiones, podemos ver que se debe a diversas causas, todas relativas al estilo en el que están escritos en la página web, que no sigue exactamente las directrices de estilo, y por tanto, dificultan la generalización de nuestro análisis. Es por esto por lo que tomo la decisión de eliminar estos guiones del análisis, ya que, al ser tan dispares los formatos en los que están escritos, la "limpieza" y estandarización de los mismos habría que hacerse de forma manual uno a uno, y eso escapa a los objetivos de este TFM.

In [24]:
for index in index_films_to_delete:
    del bechdel_test[index]

Limpiamos el csv que hemos scrapeado con todos los enlaces a cada página con la informacion sobre cada película, nos quedamos sólo con las que necesitamos(las 588 que vamos a analizar en un principio, porque tenemos su guión y su etiqueta sobre si pasa el test o no), para guardarlo como otro CSV que utilizaremos para hacer scraping de esta información con R.

In [25]:
#EN ESTA CELDA PODEMOS OBTENER EL AÑO DE LA PELÍCULA. NO SE SI SERÁ UTIL PARA EL FUTURO


#def clean_the_title(estring_):
 #   a=estring_.split()
 #   b=" ".join(a[:-2])
 #   return b


#names_movies_bt= pd.read_csv('Info_films/titles.csv')
#names_movies_bt['link_to_imbd']=names_movies_bt['link_to_imbd'].apply(lambda x: x.split()[-1][1:5])
#names_movies_bt=names_movies_bt[['link_1', 'link_to_imbd', 'link_to_imbd-href']]
#names_movies_bt.columns= ['title', 'year', 'href']

Preparamos un dataframe para guardarlo como CSV, y así poder hacer scrapping de la tabla de personajes y actores/actrices de cada película de la que vamos a realizar el análisis

In [26]:
names_movies_bt= pd.read_csv('Info_films/titles.csv', usecols=['link_1', 'link_to_imbd-href'])
names_movies_bt.columns= ['title', 'href']
names_movies_bt=names_movies_bt[names_movies_bt['title'].isin(films_to_process['title'])]
names_movies_bt=names_movies_bt.drop_duplicates(subset='title')
names_movies_bt.index=range(0, len(names_movies_bt))
names_movies_bt['href']= names_movies_bt['href']+'fullcredits'
names_movies_bt.to_csv('ref_for_characters_scrapping.csv')

## ...............................................................................................................................................

## En esta parte utilizamos R para extraer las tablas con la información de personajes y actores/actrices

## ...............................................................................................................................................

Extraemos dos diccionarios, uno con una lista de personajes femeninos en cada palícula y otro con la lista de personajes masculinos, a partir de los csv que hemos conseguido utilizando R

In [27]:
women_names= pd.read_csv('women_names.csv', usecols=['women names'])
women_names['women names']= women_names['women names'].str.upper()
men_names= pd.read_csv('men_names.csv', usecols= ['men names'])
men_names['men names']= men_names['men names'].str.upper()

female_character_in_films_to_process={}
for index, title in enumerate(names_movies_bt['title']):
    if ':' in title:
        continue
    elif '?' in title:
        continue
    else:
        path= "C:\\Users\\Coral\\Desktop\\MASTER\\TFM\\results_of_scrapping\\"+title+".csv"
        df_cast=pd.read_csv(path, encoding = "ISO-8859-1")
        df_cast=df_cast[['X2','X4']].iloc[1:len(df_cast)]
        df_cast.columns=[['Real', 'Character']]
        df_cast=df_cast.apply(lambda x: x.str.upper())
        df_cast['Real_name']=df_cast['Real'].apply(lambda x: x.split()[0])
        df_cast=df_cast.drop(df_cast[df_cast['Character'].str.contains(' AS ') | df_cast['Character'].str.contains('(UNCREDITED)') ].index)
        df_cast['Woman']=df_cast['Real_name'].isin(women_names['women names'])
        df_cast=df_cast[df_cast['Woman']]
        df_cast=pd.DataFrame(df_cast['Character'])
        df_cast['Splitted_character']=df_cast['Character'].str.split()
        df_cast.index= range(0, len(df_cast))
        female_character_in_films_to_process[title]= df_cast
        
    



Como se puede observar en el código anterior, eliminamos un total de 23 películas debido a la forma que tienen su guión(si contienen :, ?). Esto se debe a que este formato de título dificulta el almacenamiento de los archivos .csv generados con el scraping con R, por lo que existe la posibilidad de que no estén guardados correctamente para que nuestro código los pueda extraer y analizar.

In [28]:
len(female_character_in_films_to_process)

565

In [29]:
len(bechdel_test)

352

Ahora debemos quedarnos solo con las películas de las que hemos conseguido un buen procesamiento de sus guiones(las que tenemos en bechdel_test)

In [30]:
bechdel_test_title_serie=pd.Series(list(bechdel_test.keys()))
female_character_in_films_to_process_title_serie=pd.Series(list(female_character_in_films_to_process.keys()))

In [31]:
list_of_films_title_to_analyze=female_character_in_films_to_process_title_serie\
                                [female_character_in_films_to_process_title_serie.isin(bechdel_test_title_serie)]

Con esta parte del código, obtenemos un dataframe por película, que tiene listadas únicamente las intervenciones femeninas en la película

In [32]:
movie_women_speaking={}
for movie in list_of_films_title_to_analyze:
    
    if len(female_character_in_films_to_process[movie])==0:
        movie_women_speaking[movie]=np.nan
    else:
    
        condition_1= bechdel_test[movie][0].isin(female_character_in_films_to_process[movie]['Character'])
    
        condition_2=[0]* len(bechdel_test[movie])
        for splitted_names in female_character_in_films_to_process[movie]['Splitted_character']:
            if type(splitted_names) is not list:
                if np.isnan(splitted_names):
                    continue
            else:
                condition_2= condition_2 + bechdel_test[movie][0].isin(splitted_names).astype(int)
                condition_2[condition_2>0]=1
    
        sum_of_conditions=condition_1 | condition_2.astype(bool)
        movie_women_speaking[movie]=bechdel_test[movie][sum_of_conditions]

Llegados a este punto, me he dado cuenta de que existe un problema con los personajes femeninos listados en movie_women_speaking, que puede ser atacado de dos maneras:

SEGUNDO CASO: HACER LIMPIEZA DE LA LISTA DE INTERVENCIONES OBTENIDA EN EL CÓDIGO ANTERIOR, IDENTIFICANDO LOS NOMBRES DE LOS PERSONAJES COMO NOMBRES PROPIOS O NO.

En este caso, lo que se busca es eliminar todos aquellos personajes identificados por el código anterior que 1. carezcan de nombre propio, o 2. sean personajes masculinos mal identificados.

Para ello, lo que se realiza es un filtro, tomando la lista de intervenciones de personajes femeninos obtenida en el código anterior, comprobando si estos nombres aparecen en nuestra lista de nombres de mujer, o si, en el caso de que no sea así, son nombres propios con título (por ejemplo 'MR. GUMP' en Forrest Gump), para lo que tenemos generada previamente una lista con los títulos más comunes en inglés para referirse a una mujer.

El problema que en este caso podemos encontrarnos es que el programa limpiará los nombres de aquellos personajes femeninos que no aparezcan en nuestra lista, o cuyo título no aparezca representado en ella.

ESTRATEGIA DE LIMPIEZA DE NOMBRES

In [38]:
#Primero, consigo una lista de todos aquellos nombres que no están contenidos en nuestra lista de nombres femeninos,
#ni en la lista de títulos femeninos más comunes(que creo en este momento)

titles_fem=pd.DataFrame(['MRS.', 'MS.', 'MISS', 'PRINCESS', \
                        'LADY', 'MISTRESS', 'MADAME', 'MADAM', 'MADEMOISELLE'], columns=[ 'Title'])

list_=[]
for a in list(movie_women_speaking.keys()):
    
    if isinstance(movie_women_speaking[a], pd.DataFrame):
        
        list_of_women_speaking=movie_women_speaking[a][0]
        booleano=~(list_of_women_speaking.isin(women_names['women names']) |\
                   list_of_women_speaking.apply(lambda x: pd.Series([i in x for i in titles_fem['Title']]).any()))
        
        list_ =list_+ movie_women_speaking[a][0][booleano].unique().tolist() 
        
    else:
        continue
        
#Convierto esta lista en una Serie, para poder utilizar funciones propias de este objeto. 
#Aplico .unique() para eliminar posibles repeticiones.
no_woman_names=pd.Series(pd.Series(list_).unique().tolist())

#Escojo sólo aquellos nombres que no están listados como nombres masculinos en nuestra lista de referencia
possible_woman_names=no_woman_names[~no_woman_names.isin(men_names['men names'])]

#Creo una variable de términos comunes relativos a familiares, que pueden aparecer como nombres de personajes.
list_of_fem_family_names=pd.Series(['BOY', 'BROTHER', 'FRIEND', 'GIRL', 'WOMAN', 'MAN', 'MOM', 'MUM', 'MOTHER', 'SISTER'])
#Escojo aquellos nombres que no contienen ninguno de estos términos
possible_woman_names=possible_woman_names[~possible_woman_names.apply(\
                                           lambda x: pd.Series([i in x for i in list_of_fem_family_names]).any())]

#Creo otra lista con nombres de professiones en inglés, que también pueden ser utilizados para nombrar a un personaje.
professions=pd.read_csv('professions.csv', quoting=3)
professions=professions['job'].str.strip(' "')
professions=professions.str.upper()

#Escojo sólo aquellos nombres de personajes que no estén contenidos en la lista previa (que no sean nombrados sólo por su profesión)
possible_woman_names=possible_woman_names[~possible_woman_names.isin(professions)]

#Finalmente, añado la lista resultante a woman_names, sabiendo que es muy probable que, tras haber realizado la limpieza,
#los nombres que contiene sean nombres de personajes femeninos con nombre propio

women_names_with_possible=women_names['women names'].append(possible_woman_names)

In [39]:
result_of_analysis_bt_with_named_women=pd.DataFrame({'title': [np.nan], 'num_of_named': [np.nan], 'result_1': [np.nan], 'result_2': [np.nan]})

for film in list(movie_women_speaking.keys()):
    if isinstance(movie_women_speaking[film], pd.DataFrame):
        
        list_of_women_speaking=movie_women_speaking[film][0]
        df=movie_women_speaking[film][(list_of_women_speaking.isin(women_names_with_possible))]
        number_of_named_women=df[0].nunique()
   
        if number_of_named_women<=1:
            df_result=pd.DataFrame({'title':[film], 'num_of_named': [number_of_named_women], 'result_1': [int(0)]})
            
        else:
            df_result=pd.DataFrame({'title':[film], 'num_of_named': [int(number_of_named_women)], 'result_1': [int(1)]})    
                    
    else:
        df_result=pd.DataFrame({'title':[film], 'num_of_named': [int(0)], 'result_1': [int(0)]})
    
    result_of_analysis_bt_with_named_women=pd.concat((result_of_analysis_bt_with_named_women, df_result))

Vamos a analizar la viabilidad de esta opción, en cuanto a cuánto error comete determinando si una película pasa el test o no (en cuanto a número de personajes femeninos con nombre en ella).
Hay que tener en cuenta que en este caso, sólo es posible evaluar el error cometido con aquellas películas que:

NUESTRO CÓDIGO ETIQUETA COMO 0 (NO PASAN EL TEST)

EN LA WEB ESTÁN ETIQUETADOS COMO 1 (SÍ PASAN EL TEST)

Porque, aunque nuestro código etiquete películas como 1, aunque en la web sean 0, no podemos determinar si falla o no, ya que aún quedan 2 condiciones por cumplir, que podrían cambiar el 1 de nuestro resultado a 0.

In [40]:
accuracy_namedwomen=result_of_analysis_bt_with_named_women.merge(films, right_on='title', left_on='title')
accuracy_namedwomen=accuracy_namedwomen[['title', 'result_1', 'result-src']]
error_namedwomen_data= len(accuracy_namedwomen[\
                               (accuracy_namedwomen['result_1']==0) & (accuracy_namedwomen['result-src']==1)])\
                               *100/ len(accuracy_namedwomen)
error_namedwomen_data

4.747774480712166

FALTA MIRAR COMO HACER PARA COMPROBAR QUE LAS CONVERSACIONES SON ENTRE VARIAS MUJERES

In [109]:
result_conversation=pd.DataFrame({'title': [np.nan], 'result_2': [np.nan]})
#for film in list(movie_women_speaking.keys()):
for film in result_of_analysis_bt_with_named_women['title'][result_of_analysis_bt_with_named_women['result_1']==1]:
    print(film)
    dict_consecutive={}
    if isinstance(movie_women_speaking[film], pd.DataFrame) and len(movie_women_speaking[film])>1:
        
        list_of_consecutive_speeches=movie_women_speaking[film].\
                                      loc[sorted(np.append(movie_women_speaking[film][\
                                      (np.diff(np.append(movie_women_speaking[film].index, [37]))==1)].index, \
                                       movie_women_speaking[film][(np.diff(np.append(movie_women_speaking[film].index, [37]))==1)].index+1))]

        list_of_consecutive_speeches=list_of_consecutive_speeches.drop_duplicates()
        list_of_consecutive_speeches['index']=list_of_consecutive_speeches.index
        
        
        list_of_true_conversation_index=[]
        for n in list(range(0, len(list_of_consecutive_speeches)-1)):
            
            characters_are_different=list_of_consecutive_speeches[0].iloc[n]!= list_of_consecutive_speeches[0].iloc[n+1]
            speeches_are_consecutive=(list_of_consecutive_speeches['index'].iloc[n+1]-list_of_consecutive_speeches['index'].iloc[n])==1
            
            if (characters_are_different) and (speeches_are_consecutive):
                list_of_true_conversation_index.append([n, n+1])
        
        
        
        if not list_of_true_conversation_index:
            list_of_true_conversation_index=list(set(list_of_true_conversation_index))
            df_result=pd.DataFrame({'title':[film], 'result_2': [int(0)]})
        
        else:
            #index=list(set(list_of_true_conversation_index))
            df_result=pd.DataFrame({'title':[film], 'result_2': [int(1)]})
    else:
        
        df_result=pd.DataFrame({'title':[film], 'result_2': [int(0)]})
                                
    result_conversation=pd.concat((result_conversation, df_result))                           

Peeping Tom
Final Destination
Insomnia
Aliens
Scream
Fracture
Strange Days
Punch-Drunk Love
Kate & Leopold
Hellboy
Logan's Run
Purple Rain
Marty
Adaptation
An Education
Hackers
Bruce Almighty
Malcolm X
Grand Hotel
Amadeus
Dragonslayer
Lord of War
Margot at the Wedding
Rear Window
No Country for Old Men
Bad Santa
Vanilla Sky
American Graffiti
Red Riding Hood
48 Hrs.
Batman
Major League
Wild Things
Gamer
Swordfish
Midnight Cowboy
Hellraiser
Annie Hall
Thelma & Louise
Fight Club
Eternal Sunshine of the Spotless Mind
Papadopoulos & Sons
Devil in a Blue Dress
Monkeybone
Alien Nation
Funny People
Mirrors
Repo Man
Arsenic and Old Lace
G.I. Jane
How to Train Your Dragon 2
Belle
Citizen Kane
Get Carter
Tremors
Supergirl
Being John Malkovich
Chronicle
Stepmom
Ocean's Eleven
I Still Know What You Did Last Summer
Anastasia
Pretty Woman
What Lies Beneath
Natural Born Killers
True Romance
Hollow Man
Nick of Time
Friday the 13th
Sweet Smell of Success
Dear White People
Antitrust
All About Steve
Save 

In [113]:
accuracy_conversation=result_conversation.merge(films, right_on='title', left_on='title', how='inner')
accuracy_conversation=accuracy_conversation[['title', 'result_2', 'result-src']]
error_conversation_data= len(accuracy_conversation[\
                               (accuracy_conversation['result_2']==0) & (accuracy_conversation['result-src']==1)])\
                               *100/ len(accuracy_conversation)
error_conversation_data

3.9285714285714284

In [114]:
len(accuracy_conversation)

280