#There are three parallel corpora: **train**, **dev**, **test**.  


1.   **train**: train.es and train.en contain the dialogue sentences, whereas train.tags.es-en.en and train.tags.es-en.es contain the dialogue sentences within XML elements and additional (not needed) tags.  Thus, we will only use train.es and train.en.  These are binary files.  Each sentence is probably separated by a new line.
2.   **dev**: IWSLT13.TED.dev2010.es-en.en.xml and IWSLT13.TED.dev2010.es-en.es.xml correspond line-by-line.  We want to extract the dialogue sentences only, which are between "seg" tags.
3.   **test**: IWSLT13.TED.tst2010.es-en.en.xml and IWSLT13.TED.tst2010.es-en.es.xml correspond line-by-line.  We want to extract the dialogue sentences only, which are between "seg" tags.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
root_folder = '/content/drive/MyDrive/DSGA_1011_NLP_Project/Data/TED_TALK_ES-EN /es-en/'
#As directory says: /content/drive/MyDrive/DSGA_1011_NLP_Project/Data/TED_TALK_ES-EN /es-en/IWSLT13.TED.dev2010.es-en.en.xml

In [None]:
import pandas as pd
import numpy as np
pd.set_option('display.max_colwidth', 1000)

**train**: ES

In [None]:
# Read in the binary file
language = 'es'
dataset = 'train'
file = dataset+'.'+language
file_path = root_folder+file
with open(file_path, "r") as handle:
     train_es = pd.DataFrame(handle, columns = [language])
train_es.head()

Unnamed: 0,es
0,El océano puede ser una cosa muy complicada. \n
1,Y podria ser una cosa muy complicada lo que la salud humana es. \n
2,"Y unirlas, podría ser una tarea desalentadora. \n"
3,"Lo que voy a tratar de decir es que aún en esa complejidad, existen temas sencillos que si los entendemos, podemos continuar. \n"
4,"Esos temas sencillos no son realmente temas acerca de la complejidad de lo que está sucediendo, sino de cosas que todos sabemos. \n"


In [None]:
row_count = train_es.shape[0] + 1
print('train_es number of rows: {:.0f}'.format(row_count))

train_es number of rows: 158599


**train**: EN

In [None]:
# Read in the binary file
language = 'en'
dataset = 'train'
file = dataset+'.'+language
file_path = root_folder+file
with open(file_path, "r") as handle:
     train_en = pd.DataFrame(handle, columns = [language])
train_en.head()

Unnamed: 0,en
0,"It can be a very complicated thing, the ocean. \n"
1,"And it can be a very complicated thing, what human health is. \n"
2,"And bringing those two together might seem a very daunting task, but what I'm going to try to say is that even in that complexity, there's some simple themes that I think, if we understand, we can really move forward. \n"
3,"And those simple themes aren't really themes about the complex science of what's going on, but things that we all pretty well know. \n"
4,"And I'm going to start with this one: If momma ain't happy, ain't nobody happy. \n"


In [None]:
row_count = train_en.shape[0] + 1
print('train_en number of rows: {:.0f}'.format(row_count))

train_en number of rows: 158642


Problem: We see above that two sentences in the Spanish corpus becomes one in English, and vice versa.
Potential solution: Use the tag dataset and each row is a full speech (transcript).

**dev**: ES

In [None]:
import xml.etree.ElementTree as ET

In [None]:
# Read in the XML file
language = 'es'
dataset = 'dev'
file = 'IWSLT13.TED.'+dataset+'2010.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
sentences = []
for child in root:
  for child1 in child:
    for child2 in child1:
          if child2.tag == 'seg':
            sentences.append(child2.text)
dev_es = pd.DataFrame(sentences, columns = [language])
dev_es.head()

Unnamed: 0,es
0,"Como saben, uno de los grandes placeres de viajar y uno de los deleites de las investigaciones etnográficas es la oportunidad de vivir entre aquellos que no han olvidado el pasado... que aún lo sienten en el viento... lo tocan en las piedras pulidas por la lluvia... lo sienten en el sabor amargo de las hojas de las plantas."
1,"El simple hecho de saber que el chamán jaguar sigue viajando más allá de la Vía Láctea o que aún se escucha con fuerza el eco de los mitos de los viejos inuit o que en las montañas del Himalaya los monjes budistas siguen aspirando a alcanzar el aliento del Dharma todo esto nos recuerda la revelación principal de la antropología: y esta es, la idea de que nuestro mundo, en el que vivimos, no existe en un sentido absoluto sino que no es más que un modelo de la realidad, la consecuencia de un conjunto concreto de opciones adaptativas que nuestros ancestros hicieron, con mayor o menor éxito, hace muchas generaciones."
2,"Y por supuesto, compartimos los mismos pasos imperativos de la adaptación."
3,Todos nacemos. Traemos nuestros hijos al mundo.
4,Experimentamos ritos de iniciación.


In [None]:
row_count = dev_es.shape[0] + 1
print('dev_es number of rows: {:.0f}'.format(row_count))

dev_es number of rows: 888


**dev**: EN

In [None]:
# Read in the XML file
language = 'en'
dataset = 'dev'
file = 'IWSLT13.TED.'+dataset+'2010.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
sentences = []
for child in root:
  for child1 in child:
    for child2 in child1:
          if child2.tag == 'seg':
            sentences.append(child2.text)
dev_en = pd.DataFrame(sentences, columns = [language])
dev_en.head()

Unnamed: 0,en
0,"You know, one of the intense pleasures of travel and one of the delights of ethnographic research is the opportunity to live amongst those who have not forgotten the old ways, who still feel their past in the wind, touch it in stones polished by rain, taste it in the bitter leaves of plants."
1,"Just to know that Jaguar shamans still journey beyond the Milky Way, or the myths of the Inuit elders still resonate with meaning, or that in the Himalaya, the Buddhists still pursue the breath of the Dharma, is to really remember the central revelation of anthropology, and that is the idea that the world in which we live does not exist in some absolute sense, but is just one model of reality, the consequence of one particular set of adaptive choices that our lineage made, albeit successfully, many generations ago."
2,"And of course, we all share the same adaptive imperatives."
3,We're all born. We all bring our children into the world.
4,We go through initiation rites.


In [None]:
row_count = dev_en.shape[0] + 1
print('dev_en number of rows: {:.0f}'.format(row_count))

dev_en number of rows: 888


**tst**: ES

In [None]:
# Read in the XML file
language = 'es'
dataset = 'tst'
file = 'IWSLT13.TED.'+dataset+'2010.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
sentences = []
for child in root:
  for child1 in child:
    for child2 in child1:
          if child2.tag == 'seg':
            sentences.append(child2.text)
tst_es = pd.DataFrame(sentences, columns = [language])
tst_es.head()

Unnamed: 0,es
0,Un día el columnista de Los Angeles Times Steve Lopez estaba caminando por las calles del centro de Los Angeles cuando escuchó una bella música.
1,"Provenía de un hombre, un hombre afroamericano, encantador, de rostro duro, sin hogar, tocando un violín que sólo tenía dos cuerdas."
2,"Les estoy contando una historia que muchos de ustedes conocen, porque la columna de Steve fue la base para un libro que después se convirtió en una película, con Robert Downey Jr actuando como Steve Lopez y Jamie Fox como Nathaniel Anthony Ayers, el contrabajista entrenado en Julliard cuya prometedora carrera fue interrumpida por una aflicción trágica de esquizofrenia paranoica."
3,"Nathaniel abandonó Julliard, sufrió una crisis total y 30 años más tarde estaba viviendo en las calles de Skid Row en el centro de Los Angeles."
4,"Les animo a que lean el libro de Steve o vean la película para entender no sólo el bello vínculo que se creó entre estos dos hombres sino cómo la música ayudó a moldear ese vínculo, y finalmente jugó un papel decisivo para ayudar a Nathaniel a salir de las calles."


In [None]:
row_count = tst_es.shape[0] + 1
print('tst_es number of rows: {:.0f}'.format(row_count))

tst_es number of rows: 1571


**tst**: EN

In [None]:
# Read in the XML file
language = 'en'
dataset = 'tst'
file = 'IWSLT13.TED.'+dataset+'2010.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
sentences = []
for child in root:
  for child1 in child:
    for child2 in child1:
          if child2.tag == 'seg':
            sentences.append(child2.text)
tst_en = pd.DataFrame(sentences, columns = [language])
tst_en.head()

Unnamed: 0,en
0,"One day, Los Angeles Times columnist Steve Lopez was walking along the streets of downtown Los Angeles when he heard beautiful music."
1,"And the source was a man, an African-American man, charming, rugged, homeless, playing a violin that only had two strings."
2,"And I'm telling a story that many of you know, because Steve's columns became the basis for a book, which was turned into a movie, with Robert Downey Jr. acting as Steve Lopez, and Jamie Foxx as Nathaniel Anthony Ayers, the Juilliard-trained double bassist whose promising career was cut short by a tragic affliction with paranoid schizophrenia."
3,"Nathaniel dropped out of Juilliard, he suffered a complete breakdown, and 30 years later he was living homeless on the streets of Skid Row in downtown Los Angeles."
4,"I encourage all of you to read Steve's book or to watch the movie to understand not only the beautiful bond that formed between these two men, but how music helped shape that bond, and ultimately was instrumental -- if you'll pardon the pun -- in helping Nathaniel get off the streets."


In [None]:
row_count = tst_en.shape[0] + 1
print('tst_en number of rows: {:.0f}'.format(row_count))

tst_en number of rows: 1571


#Seeing how many Ted Talk speeches ("transcipts") have unequal counts of sentences.  If this is small percentage, can throw the sentences within these away maybe.

In [None]:
# Read in the XML file
language = 'en'
dataset = 'train'
file = dataset+'.tags.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
# sentences = []
# for child in root:
#   for child1 in child:
#     for child2 in child1:
#       for child3 in child2:
#           if child3.tag == 'transcript':
#             sentences.append(child3.text)
# tst_es = pd.DataFrame(sentences, columns = [language])
# tst_es.head()
print(root)

<Element 'mteval' at 0x7fdc700d9818>


In [None]:
talkids = []
transcripts = []
for child in root:
  if child.tag == 'talkid':
    talkids.append(child.text)
  if child.tag == 'transcript':
    transcripts.append(child.text)
  #rows.append({"talkids": talk_id, "transcripts": transcript_id})
train_en = pd.DataFrame(list(zip(talkids,transcripts)), columns = ['talkids', 'transcripts'])
train_en#.head(100)

Unnamed: 0,talkids,transcripts
0,899,"\nIt can be a very complicated thing, the ocean. \nAnd it can be a very complicated thing, what human health is. \nAnd bringing those two together might seem a very daunting task, but what I'm going to try to say is that even in that complexity, there's some simple themes that I think, if we understand, we can really move forward. \nAnd those simple themes aren't really themes about the complex science of what's going on, but things that we all pretty well know. \nAnd I'm going to start with this one: If momma ain't happy, ain't nobody happy. \nWe know that, right? We've experienced that. \nAnd if we just take that and we build from there, then we can go to the next step, which is that if the ocean ain't happy, ain't nobody happy. \nThat's the theme of my talk. \nAnd we're making the ocean pretty unhappy in a lot of different ways. \nThis is a shot of Cannery Row in 1932. \nCannery Row, at the time, had the biggest industrial canning operation on the west coast. \nWe piled enormou..."
1,957,"\nLet's start with day and night. \nLife evolved under conditions of light and darkness, light and then darkness. \nAnd so plants and animals developed their own internal clocks so that they would be ready for these changes in light. \nThese are chemical clocks, and they're found in every known being that has two or more cells and in some that only have one cell. \nI'll give you an example -- if you take a horseshoe crab off the beach, and you fly it all the way across the continent, and you drop it into a sloped cage, it will scramble up the floor of the cage as the tide is rising on its home shores, and it'll skitter down again right as the water is receding thousands of miles away. \nIt'll do this for weeks, until it kind of gradually loses the plot. \nAnd it's incredible to watch, but there's nothing psychic or paranormal going on; it's simply that these crabs have internal cycles that correspond, usually, with what's going on around it. \nSo, we have this ability as well. \nA..."
2,1108,"\nAdrian Kohler: Well, we're here today to talk about the evolution of a puppet horse. \nBasil Jones: But actually we're going to start this evolution with a hyena. \nAK: The ancestor of the horse. \nOkay, we'll do something with it. \nThe hyena is the ancestor of the horse because it was part of a production called ""Faustus in Africa,"" a Handspring Production from 1995, where it had to play draughts with Helen of Troy. \nThis production was directed by South African artist and theater director, William Kentridge. \nSo it needed a very articulate front paw. \nBut, like all puppets, it has other attributes. \nBJ: One of them is breath, and it kind of breathes. \nAK: Haa haa haaa. \nBJ: Breath is really important for us. \nIt's the kind of original movement for any puppet for us onstage. \nIt's the thing that distinguishes the puppet -- AK: Oops. \nBJ: From an actor. \nPuppets always have to try to be alive. \nIt's their kind of ur-story onstage, that desperation to live. \nAK: Yeah..."
3,585,"\nI want to help you re-perceive what philanthropy is, what it could be, and what your relationship to it is. \nAnd in doing that, I want to offer you a vision, an imagined future, if you will, of how, as the poet Seamus Heaney has put it, ""Once in a lifetime the longed-for tidal wave of justice can rise up, and hope and history rhyme."" \nI want to start with these word pairs here. \nWe all know which side of these we'd like to be on. \nWhen philanthropy was reinvented a century ago, when the foundation form was actually invented, they didn't think of themselves on the wrong side of these either. \nIn fact they would never have thought of themselves as closed and set in their ways, as slow to respond to new challenges, as small and risk-averse. \nAnd in fact they weren't. They were reinventing charity in those times, what Rockefeller called ""the business of benevolence."" \nBut by the end of the 20th century, a new generation of critics and reformers had come to see philanthropy ju..."
4,1506,"\nSo, how many of you have ever gotten behind the wheel of a car when you really shouldn't have been driving? \nMaybe you're out on the road for a long day, and you just wanted to get home. \nYou were tired, but you felt you could drive a few more miles. \nMaybe you thought, I've had less to drink than everybody else, I should be the one to go home. \nOr maybe your mind was just entirely elsewhere. \nDoes this sound familiar to you? \nNow, in those situations, wouldn't it be great if there was a button on your dashboard that you could push, and the car would get you home safely? \nNow, that's been the promise of the self-driving car, the autonomous vehicle, and it's been the dream since at least 1939, when General Motors showcased this idea at their Futurama booth at the World's Fair. \nNow, it's been one of those dreams that's always seemed about 20 years in the future. \nNow, two weeks ago, that dream took a step forward, when the state of Nevada granted Google's self-driving ca..."
...,...,...
1148,736,"\nIn 2008, Cyclone Nargis devastated Myanmar. \nMillions of people were in severe need of help. \nThe U.N. wanted to rush people and supplies to the area. \nBut there were no maps, no maps of roads, no maps showing hospitals, no way for help to reach the cyclone victims. \nWhen we look at a map of Los Angeles or London, it is hard to believe that as of 2005, only 15 percent of the world was mapped to a geo-codable level of detail. \nThe U.N. ran headfirst into a problem that the majority of the world's populous faces: not having detailed maps. \nBut help was coming. \nAt Google, 40 volunteers used a new software to map 120,000 kilometers of roads, 3,000 hospitals, logistics and relief points. \nAnd it took them four days. \nThe new software they used? Google Mapmaker. \nGoogle Mapmaker is a technology that empowers each of us to map what we know locally. \nPeople have used this software to map everything from roads to rivers, from schools to local businesses, and video stores to t..."
1149,1214,"\nI'm a filmmaker. \nFor the last 8 years, I have dedicated my life to documenting the work of Israelis and Palestinians who are trying to end the conflict using peaceful means. \nWhen I travel with my work across Europe and the United States, one question always comes up: Where is the Palestinian Gandhi? \nWhy aren't Palestinians using nonviolent resistance? \nThe challenge I face when I hear this question is that often I have just returned from the Middle East where I spent my time filming dozens of Palestinians who are using nonviolence to defend their lands and water resources from Israeli soldiers and settlers. \nThese leaders are trying to forge a massive national nonviolent movement to end the occupation and build peace in the region. \nYet, most of you have probably never heard about them. \nThis divide between what's happening on the ground is one of the key reasons why we don't have yet a Palestinian peaceful resistance movement that has been successful. \nSo I'm here to..."
1150,848,"\nHow do you explain when things don't go as we assume? \nOr better, how do you explain when others are able to achieve things that seem to defy all of the assumptions? \nFor example: Why is Apple so innovative? \nYear after year, after year, after year, they're more innovative than all their competition. \nAnd yet, they're just a computer company. \nThey're just like everyone else. \nThey have the same access to the same talent, the same agencies, the same consultants, the same media. \nThen why is it that they seem to have something different? \nWhy is it that Martin Luther King led the Civil Rights Movement? \nHe wasn't the only man who suffered in a pre-civil rights America, and he certainly wasn't the only great orator of the day. \nWhy him? \nAnd why is it that the Wright brothers were able to figure out controlled, powered man flight when there were certainly other teams who were better qualified, better funded ... \nand they didn't achieve powered man flight, and the Wrigh..."
1151,1349,"\nWhen we park in a big parking lot, how do we remember where we parked our car? \nHere's the problem facing Homer. \nAnd we're going to try to understand what's happening in his brain. \nSo we'll start with the hippocampus, shown in yellow, which is the organ of memory. \nIf you have damage there, like in Alzheimer's, you can't remember things including where you parked your car. \nIt's named after Latin for ""seahorse,"" which it resembles. \nAnd like the rest of the brain, it's made of neurons. \nSo the human brain has about a hundred billion neurons in it. \nAnd the neurons communicate with each other by sending little pulses or spikes of electricity via connections to each other. \nThe hippocampus is formed of two sheets of cells, which are very densely interconnected. \nAnd scientists have begun to understand how spatial memory works by recording from individual neurons in rats or mice while they forage or explore an environment looking for food. \nSo we're going to imagine we..."


In [None]:
sentence_count = []
for x in train_en['transcripts']:
  sentence_count.append(len(x.split('\n')))
train_en['sentence_count'] = sentence_count

In [None]:
train_en.head()

Unnamed: 0,talkids,transcripts,sentence_count
0,899,"\nIt can be a very complicated thing, the ocean. \nAnd it can be a very complicated thing, what human health is. \nAnd bringing those two together might seem a very daunting task, but what I'm going to try to say is that even in that complexity, there's some simple themes that I think, if we understand, we can really move forward. \nAnd those simple themes aren't really themes about the complex science of what's going on, but things that we all pretty well know. \nAnd I'm going to start with this one: If momma ain't happy, ain't nobody happy. \nWe know that, right? We've experienced that. \nAnd if we just take that and we build from there, then we can go to the next step, which is that if the ocean ain't happy, ain't nobody happy. \nThat's the theme of my talk. \nAnd we're making the ocean pretty unhappy in a lot of different ways. \nThis is a shot of Cannery Row in 1932. \nCannery Row, at the time, had the biggest industrial canning operation on the west coast. \nWe piled enormou...",146
1,957,"\nLet's start with day and night. \nLife evolved under conditions of light and darkness, light and then darkness. \nAnd so plants and animals developed their own internal clocks so that they would be ready for these changes in light. \nThese are chemical clocks, and they're found in every known being that has two or more cells and in some that only have one cell. \nI'll give you an example -- if you take a horseshoe crab off the beach, and you fly it all the way across the continent, and you drop it into a sloped cage, it will scramble up the floor of the cage as the tide is rising on its home shores, and it'll skitter down again right as the water is receding thousands of miles away. \nIt'll do this for weeks, until it kind of gradually loses the plot. \nAnd it's incredible to watch, but there's nothing psychic or paranormal going on; it's simply that these crabs have internal cycles that correspond, usually, with what's going on around it. \nSo, we have this ability as well. \nA...",35
2,1108,"\nAdrian Kohler: Well, we're here today to talk about the evolution of a puppet horse. \nBasil Jones: But actually we're going to start this evolution with a hyena. \nAK: The ancestor of the horse. \nOkay, we'll do something with it. \nThe hyena is the ancestor of the horse because it was part of a production called ""Faustus in Africa,"" a Handspring Production from 1995, where it had to play draughts with Helen of Troy. \nThis production was directed by South African artist and theater director, William Kentridge. \nSo it needed a very articulate front paw. \nBut, like all puppets, it has other attributes. \nBJ: One of them is breath, and it kind of breathes. \nAK: Haa haa haaa. \nBJ: Breath is really important for us. \nIt's the kind of original movement for any puppet for us onstage. \nIt's the thing that distinguishes the puppet -- AK: Oops. \nBJ: From an actor. \nPuppets always have to try to be alive. \nIt's their kind of ur-story onstage, that desperation to live. \nAK: Yeah...",146
3,585,"\nI want to help you re-perceive what philanthropy is, what it could be, and what your relationship to it is. \nAnd in doing that, I want to offer you a vision, an imagined future, if you will, of how, as the poet Seamus Heaney has put it, ""Once in a lifetime the longed-for tidal wave of justice can rise up, and hope and history rhyme."" \nI want to start with these word pairs here. \nWe all know which side of these we'd like to be on. \nWhen philanthropy was reinvented a century ago, when the foundation form was actually invented, they didn't think of themselves on the wrong side of these either. \nIn fact they would never have thought of themselves as closed and set in their ways, as slow to respond to new challenges, as small and risk-averse. \nAnd in fact they weren't. They were reinventing charity in those times, what Rockefeller called ""the business of benevolence."" \nBut by the end of the 20th century, a new generation of critics and reformers had come to see philanthropy ju...",103
4,1506,"\nSo, how many of you have ever gotten behind the wheel of a car when you really shouldn't have been driving? \nMaybe you're out on the road for a long day, and you just wanted to get home. \nYou were tired, but you felt you could drive a few more miles. \nMaybe you thought, I've had less to drink than everybody else, I should be the one to go home. \nOr maybe your mind was just entirely elsewhere. \nDoes this sound familiar to you? \nNow, in those situations, wouldn't it be great if there was a button on your dashboard that you could push, and the car would get you home safely? \nNow, that's been the promise of the self-driving car, the autonomous vehicle, and it's been the dream since at least 1939, when General Motors showcased this idea at their Futurama booth at the World's Fair. \nNow, it's been one of those dreams that's always seemed about 20 years in the future. \nNow, two weeks ago, that dream took a step forward, when the state of Nevada granted Google's self-driving ca...",94


In [None]:
# Read in the XML file
language = 'es'
dataset = 'train'
file = dataset+'.tags.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
talkids = []
transcripts = []
for child in root:
  if child.tag == 'talkid':
    talkids.append(child.text)
  if child.tag == 'transcript':
    transcripts.append(child.text)
  #rows.append({"talkids": talk_id, "transcripts": transcript_id})
train_es = pd.DataFrame(list(zip(talkids,transcripts)), columns = ['talkids', 'transcripts'])
train_es#.head(100)

Unnamed: 0,talkids,transcripts
0,899,"\nEl océano puede ser una cosa muy complicada. \nY podria ser una cosa muy complicada lo que la salud humana es. \nY unirlas, podría ser una tarea desalentadora. Lo que voy a tratar de decir es que aún en esa complejidad, existen temas sencillos que si los entendemos, podemos continuar. \nEsos temas sencillos no son realmente temas acerca de la complejidad de lo que está sucediendo, sino de cosas que todos sabemos. \nY voy a comezar con ésta. Si mamá no está contenta, nadie lo está. \nlo sabemos, ¿verdad? Lo hemos experimentado. \nSi partimos de esa noción y seguimos desde ahí, podemos dar el siguiente paso, que es que si el océano no está contento, nadie lo está. \nEse es el tema de mi charla. \nY estamos haciendo al océano infeliz de diferentes formas. \nEsta es una foto de Cannery Row en 1932. \nCannery Row, en ese momento,½ tenía la industria de enlatados más grande de la costa oeste. \nAcumulamos grandes cantidades de contaminantes en el aire y en el agua. \nRolf Bolin, quien..."
1,957,"\nEmpecemos por el día y la noche. \nLa Vida evolucionó en condiciones de luz y oscuridad; luz y luego oscuridad. \nLuego las plantas y los animales desarrollaron sus propios relojes internos para ajustarse a estos cambios de iluminación. \nSon relojes químicos y están en todos los seres conocidos que tienen 2 o más células y en algunos unicelulares. \nLes daré un ejemplo. Si uno saca un cangrejo de herradura de la playa, lo lleva al otro extremo del continente, y lo pone dentro de una jaula con pendiente, trepará por el piso de la jaula cuando suba la marea en las costas de su hogar, y descenderá nuevamente mientras el agua retrocede a miles de kms de distancia. \nHará esto durante semanas hasta que, poco a poco, pierda el hilo. \nEs increíble de ver pero no sucede nada psíquico o paranormal; simplemente estos cangrejos tienen ciclos internos que se condicen, por lo general, con lo que sucede a su alrededor. \nNosotros también tenemos esa capacidad. \nEn los humanos lo llamamos r..."
2,1108,"\nAdrian Kohler: Bueno, hoy estamos aquí para contarles la evolución de una marioneta de caballo. \nBasil Jones: Pero, en realidad, vamos a comenzar esta evolución con una hiena. \nAK: El antepasado del caballo. \nBueno, vamos a hacer algo con esto. \nEsta hiena es el antepasado del caballo porque fue parte de una producción llamada ""Fausto en África"", una producción de Handspring de 1995 en la que tenía que jugar a las damas con Helena de Troya. \nEsta producción fue dirigida por el artista sudafricano y director de teatro William Kentridge. \nPor eso necesitaba una garra delantera muy articulada. \nPero, como toda marioneta, tiene otros atributos. \nBJ: Uno es la respiración, una cierta respiración. \nAK: . \nBJ: La respiración es muy importante para nosotros. \nEs un movimiento original de nuestras marionetas en escena. \nEs lo que distingue a la marioneta... AK: ¡Epa! \nBJ: ...del actor. \nLas marionetas siempre tienen que tratar de estar vivas. \nEsta es su historia en escena..."
3,585,"\nYo quiero ayudarlos a re-percibír lo que es la filantropía, lo que puede llegar a ser, y cual es su relación con ella. \nY al hacer esto, les quiero ofrecer una visión, un futuro imaginario, podriamos decír, de como, al decír del poeta Seamus Heaney, "" Una vez en toda la vida la esperada marea de la justícia puede elevarse, y la esperanza y la historia rimarán"" \nQuiero empezar con estos pares de palabras. \nSabemos de que lado de estas palabras nos gustaría estar. \nCuando la filantropía se reinventó hace un siglo, cuando el formato de fundación actualmente se inventó, ellos tampoco pensaron estar del lado equivocado de estas palabras. \nDe hecho ellos jamás pensaron que eran cerrados y fijos en sus ideas, ni con respuestas lentas para responder a nuevos desafíos, ni pequeños y evitando riesgos \nY de hecho no lo estaban. Ellos reinventaron la caridad en esos tiempos. Lo que Rockefeller llamó "" El negocio de la benevolencia"" \nPero para finales del siglo XX. una nueva generació..."
4,1506,"\n¿Quién alguna vez ha estado al volante y en realidad no debería haber conducido? \nQuizá estuvieron en el camino todo el día y no ven la hora de llegar a casa. \nEstaban cansados pero sentían que podían conducir unos kilómetros más. \nQuizá pensaron que deberían haber bebido menos y haber vuelto a casa. \nO quizá tenían la cabeza en otro lado. \n¿Les resulta familiar? \nY, en esas situaciones, ¿no sería genial tener un botón en el tablero que pudiéramos presionar para que el coche volviera a casa a salvo? \nEsa ha sido la promesa del coche auto-conducido, del vehículo autónomo, y ha sido el sueńo al menos desde 1939, cuando General Motors presentó esta idea en su stand Futurama de la Feria Mundial. \nY es uno de esos sueńos que siempre parecen estar a 20 ańos en el futuro. \nPero hace dos semanas ese sueńo dio un paso más cuando el estado de Nevada otorgó al coche auto-conducido de Google la primera licencia a un coche autónomo, sentando el precedente legal para hacer pruebas en..."
...,...,...
1148,736,"\nEn 2008 el ciclón Nargis devastó Myanmar. \nMillones de personas tenían una necesidad severa de ayuda \nLa ONU quería enviar inmediatamente gente y provisiones al área. \nPero no había mapas, mapas de las carreteras ningún mapa indicando los hospitales, ni forma para llegar a las víctimas del ciclón. \nCuando miramos un mapa de Los Ángeles o de Londres es difícil de creer que hacia el 2005 solo el 15% del mundo estaba cartografiado a un nivel de detalle geocodificable. \nLa ONU se topó directamente con el problema con el que la mayoría de la población mundial se enfrenta: no tener mapas detallados. \nPero la ayuda estaba llegando. \nEn Google, 40 voluntarios usaron un nuevo software para cartografiar 120.000 km de carretera, 3.000 hospitales, puntos logísticos y de ayuda \nY les costó cuatro días. \nEl nuevo software que usaron? Google Mapmaker. \nGoogle Mapmaker es una tecnología que da a cada uno de nosotros la capacidad de cartografiar lo que conocemos de nuestra zona. \nLa g..."
1149,1214,"\nSoy cineasta. \nDurante los últimos 8 años, he dedicado mi vida a hacer documentales sobre el trabajo de israelíes y palestinos que tratan de poner fin al conflicto por medios pacíficos. \nCuando viajo con este material por toda Europa y los Estados Unidos, hay preguntas que siempre surgen: ¿Dónde está el Gandhi palestino? \n¿Por qué los palestinos no adoptan la resistencia no violenta? \nEl desafío que enfrento ante estas preguntas es que a menudo acabo de regresar de Oriente Próximo donde me dedico a filmar decenas de palestinos que usan la no violencia para defender sus tierras y recursos hídricos de los soldados y colonos israelíes. \nEstos líderes están tratando de forjar un gran movimiento no violento nacional para poner fin a la ocupación y traer la paz en la región. \nSin embargo, muchos de Uds. probablemente nunca han oído hablar de ellos. \nEsta contradicción entre lo que está ocurriendo en realidad es una de las razones claves por las que aún no tenemos un movimiento ..."
1150,848,"\n¿Cómo se explica cuando las cosas no salen como se supone? \nO mejor, ¿cómo se explica cuando otros son capaces de lograr cosas que parecen desafiar todas las hipótesis? \nPor ejemplo: ¿Por qué Apple es tan innovador? \nAño tras año, tras año, tras año, son más innovadores que toda su competencia. \nY, sin embargo, son sólo una empresa de computadoras. \nSon como todas los demás. \nTienen el mismo acceso a los mismos talentos, las mismas agencias, los mismos consultores, los mismos medios. \n¿Entonces por qué es que parecen tener algo diferente? \n¿Por qué es que Martin Luther King dirigió el movimiento de derechos civiles? \nNo fue el único hombre que sufrió la era previa a los derechos civiles en EE.UU. Y ciertamente no era el único gran orador del momento. \n¿Por qué él? \n¿Y por qué es que los hermanos Wright fueron capaces de idear los vuelos tripulados autopropulsados cuando ciertamente había otros equipos mejor calificados, mejor financiados \nque no lograron un vuelo tri..."
1151,1349,"\nAl aparcar en un estacionamiento grande, ¿Cómo hacemos para recordar dónde estacionamos? \nÉste es el problema que enfrenta Homero. \nY trataremos de comprender qué sucede en su cerebro. \nComenzaremos con el hipocampo, en amarillo, que es el órgano de la memoria. \nSi se daña, como sucede en la enfermedad de Alzheimer, no se pueden recordar cosas como dónde estacionamos el auto. \nEs el nombre en latín de “caballo de mar”, debido a su semejanza. \nY como el resto del cerebro, está compuesto de neuronas. \nAsí el cerebro humano posee un centenar de millones de neuronas. \nÉstas se comunican entre sí enviando pequeños impulsos o picos eléctricos mediante sus conexiones. \nEl hipocampo está formado por dos láminas de células densamente conectadas. \nLos científicos comenzaron a comprender cómo funciona la memoria espacial rastreando las neuronas individuales en ratas o ratones mientras ellos exploran el ambiente en busca de alimento. \nImaginemos que registramos una neurona del hi..."


In [None]:
sentence_count = []
for x in train_es['transcripts']:
  sentence_count.append(len(x.split('\n')))
train_es['sentence_count'] = sentence_count

In [None]:
train_es.head()

Unnamed: 0,talkids,transcripts,sentence_count
0,899,"\nEl océano puede ser una cosa muy complicada. \nY podria ser una cosa muy complicada lo que la salud humana es. \nY unirlas, podría ser una tarea desalentadora. Lo que voy a tratar de decir es que aún en esa complejidad, existen temas sencillos que si los entendemos, podemos continuar. \nEsos temas sencillos no son realmente temas acerca de la complejidad de lo que está sucediendo, sino de cosas que todos sabemos. \nY voy a comezar con ésta. Si mamá no está contenta, nadie lo está. \nlo sabemos, ¿verdad? Lo hemos experimentado. \nSi partimos de esa noción y seguimos desde ahí, podemos dar el siguiente paso, que es que si el océano no está contento, nadie lo está. \nEse es el tema de mi charla. \nY estamos haciendo al océano infeliz de diferentes formas. \nEsta es una foto de Cannery Row en 1932. \nCannery Row, en ese momento,½ tenía la industria de enlatados más grande de la costa oeste. \nAcumulamos grandes cantidades de contaminantes en el aire y en el agua. \nRolf Bolin, quien...",146
1,957,"\nEmpecemos por el día y la noche. \nLa Vida evolucionó en condiciones de luz y oscuridad; luz y luego oscuridad. \nLuego las plantas y los animales desarrollaron sus propios relojes internos para ajustarse a estos cambios de iluminación. \nSon relojes químicos y están en todos los seres conocidos que tienen 2 o más células y en algunos unicelulares. \nLes daré un ejemplo. Si uno saca un cangrejo de herradura de la playa, lo lleva al otro extremo del continente, y lo pone dentro de una jaula con pendiente, trepará por el piso de la jaula cuando suba la marea en las costas de su hogar, y descenderá nuevamente mientras el agua retrocede a miles de kms de distancia. \nHará esto durante semanas hasta que, poco a poco, pierda el hilo. \nEs increíble de ver pero no sucede nada psíquico o paranormal; simplemente estos cangrejos tienen ciclos internos que se condicen, por lo general, con lo que sucede a su alrededor. \nNosotros también tenemos esa capacidad. \nEn los humanos lo llamamos r...",35
2,1108,"\nAdrian Kohler: Bueno, hoy estamos aquí para contarles la evolución de una marioneta de caballo. \nBasil Jones: Pero, en realidad, vamos a comenzar esta evolución con una hiena. \nAK: El antepasado del caballo. \nBueno, vamos a hacer algo con esto. \nEsta hiena es el antepasado del caballo porque fue parte de una producción llamada ""Fausto en África"", una producción de Handspring de 1995 en la que tenía que jugar a las damas con Helena de Troya. \nEsta producción fue dirigida por el artista sudafricano y director de teatro William Kentridge. \nPor eso necesitaba una garra delantera muy articulada. \nPero, como toda marioneta, tiene otros atributos. \nBJ: Uno es la respiración, una cierta respiración. \nAK: . \nBJ: La respiración es muy importante para nosotros. \nEs un movimiento original de nuestras marionetas en escena. \nEs lo que distingue a la marioneta... AK: ¡Epa! \nBJ: ...del actor. \nLas marionetas siempre tienen que tratar de estar vivas. \nEsta es su historia en escena...",146
3,585,"\nYo quiero ayudarlos a re-percibír lo que es la filantropía, lo que puede llegar a ser, y cual es su relación con ella. \nY al hacer esto, les quiero ofrecer una visión, un futuro imaginario, podriamos decír, de como, al decír del poeta Seamus Heaney, "" Una vez en toda la vida la esperada marea de la justícia puede elevarse, y la esperanza y la historia rimarán"" \nQuiero empezar con estos pares de palabras. \nSabemos de que lado de estas palabras nos gustaría estar. \nCuando la filantropía se reinventó hace un siglo, cuando el formato de fundación actualmente se inventó, ellos tampoco pensaron estar del lado equivocado de estas palabras. \nDe hecho ellos jamás pensaron que eran cerrados y fijos en sus ideas, ni con respuestas lentas para responder a nuevos desafíos, ni pequeños y evitando riesgos \nY de hecho no lo estaban. Ellos reinventaron la caridad en esos tiempos. Lo que Rockefeller llamó "" El negocio de la benevolencia"" \nPero para finales del siglo XX. una nueva generació...",103
4,1506,"\n¿Quién alguna vez ha estado al volante y en realidad no debería haber conducido? \nQuizá estuvieron en el camino todo el día y no ven la hora de llegar a casa. \nEstaban cansados pero sentían que podían conducir unos kilómetros más. \nQuizá pensaron que deberían haber bebido menos y haber vuelto a casa. \nO quizá tenían la cabeza en otro lado. \n¿Les resulta familiar? \nY, en esas situaciones, ¿no sería genial tener un botón en el tablero que pudiéramos presionar para que el coche volviera a casa a salvo? \nEsa ha sido la promesa del coche auto-conducido, del vehículo autónomo, y ha sido el sueńo al menos desde 1939, cuando General Motors presentó esta idea en su stand Futurama de la Feria Mundial. \nY es uno de esos sueńos que siempre parecen estar a 20 ańos en el futuro. \nPero hace dos semanas ese sueńo dio un paso más cuando el estado de Nevada otorgó al coche auto-conducido de Google la primera licencia a un coche autónomo, sentando el precedente legal para hacer pruebas en...",94


In [None]:
train_combined = pd.merge(train_en, train_es, on='talkids', how='inner')

In [None]:
train_combined.head(1000)

Unnamed: 0,talkids,transcripts_x,sentence_count_x,transcripts_y,sentence_count_y
0,899,"\nIt can be a very complicated thing, the ocean. \nAnd it can be a very complicated thing, what human health is. \nAnd bringing those two together might seem a very daunting task, but what I'm going to try to say is that even in that complexity, there's some simple themes that I think, if we understand, we can really move forward. \nAnd those simple themes aren't really themes about the complex science of what's going on, but things that we all pretty well know. \nAnd I'm going to start with this one: If momma ain't happy, ain't nobody happy. \nWe know that, right? We've experienced that. \nAnd if we just take that and we build from there, then we can go to the next step, which is that if the ocean ain't happy, ain't nobody happy. \nThat's the theme of my talk. \nAnd we're making the ocean pretty unhappy in a lot of different ways. \nThis is a shot of Cannery Row in 1932. \nCannery Row, at the time, had the biggest industrial canning operation on the west coast. \nWe piled enormou...",146,"\nEl océano puede ser una cosa muy complicada. \nY podria ser una cosa muy complicada lo que la salud humana es. \nY unirlas, podría ser una tarea desalentadora. Lo que voy a tratar de decir es que aún en esa complejidad, existen temas sencillos que si los entendemos, podemos continuar. \nEsos temas sencillos no son realmente temas acerca de la complejidad de lo que está sucediendo, sino de cosas que todos sabemos. \nY voy a comezar con ésta. Si mamá no está contenta, nadie lo está. \nlo sabemos, ¿verdad? Lo hemos experimentado. \nSi partimos de esa noción y seguimos desde ahí, podemos dar el siguiente paso, que es que si el océano no está contento, nadie lo está. \nEse es el tema de mi charla. \nY estamos haciendo al océano infeliz de diferentes formas. \nEsta es una foto de Cannery Row en 1932. \nCannery Row, en ese momento,½ tenía la industria de enlatados más grande de la costa oeste. \nAcumulamos grandes cantidades de contaminantes en el aire y en el agua. \nRolf Bolin, quien...",146
1,957,"\nLet's start with day and night. \nLife evolved under conditions of light and darkness, light and then darkness. \nAnd so plants and animals developed their own internal clocks so that they would be ready for these changes in light. \nThese are chemical clocks, and they're found in every known being that has two or more cells and in some that only have one cell. \nI'll give you an example -- if you take a horseshoe crab off the beach, and you fly it all the way across the continent, and you drop it into a sloped cage, it will scramble up the floor of the cage as the tide is rising on its home shores, and it'll skitter down again right as the water is receding thousands of miles away. \nIt'll do this for weeks, until it kind of gradually loses the plot. \nAnd it's incredible to watch, but there's nothing psychic or paranormal going on; it's simply that these crabs have internal cycles that correspond, usually, with what's going on around it. \nSo, we have this ability as well. \nA...",35,"\nEmpecemos por el día y la noche. \nLa Vida evolucionó en condiciones de luz y oscuridad; luz y luego oscuridad. \nLuego las plantas y los animales desarrollaron sus propios relojes internos para ajustarse a estos cambios de iluminación. \nSon relojes químicos y están en todos los seres conocidos que tienen 2 o más células y en algunos unicelulares. \nLes daré un ejemplo. Si uno saca un cangrejo de herradura de la playa, lo lleva al otro extremo del continente, y lo pone dentro de una jaula con pendiente, trepará por el piso de la jaula cuando suba la marea en las costas de su hogar, y descenderá nuevamente mientras el agua retrocede a miles de kms de distancia. \nHará esto durante semanas hasta que, poco a poco, pierda el hilo. \nEs increíble de ver pero no sucede nada psíquico o paranormal; simplemente estos cangrejos tienen ciclos internos que se condicen, por lo general, con lo que sucede a su alrededor. \nNosotros también tenemos esa capacidad. \nEn los humanos lo llamamos r...",35
2,1108,"\nAdrian Kohler: Well, we're here today to talk about the evolution of a puppet horse. \nBasil Jones: But actually we're going to start this evolution with a hyena. \nAK: The ancestor of the horse. \nOkay, we'll do something with it. \nThe hyena is the ancestor of the horse because it was part of a production called ""Faustus in Africa,"" a Handspring Production from 1995, where it had to play draughts with Helen of Troy. \nThis production was directed by South African artist and theater director, William Kentridge. \nSo it needed a very articulate front paw. \nBut, like all puppets, it has other attributes. \nBJ: One of them is breath, and it kind of breathes. \nAK: Haa haa haaa. \nBJ: Breath is really important for us. \nIt's the kind of original movement for any puppet for us onstage. \nIt's the thing that distinguishes the puppet -- AK: Oops. \nBJ: From an actor. \nPuppets always have to try to be alive. \nIt's their kind of ur-story onstage, that desperation to live. \nAK: Yeah...",146,"\nAdrian Kohler: Bueno, hoy estamos aquí para contarles la evolución de una marioneta de caballo. \nBasil Jones: Pero, en realidad, vamos a comenzar esta evolución con una hiena. \nAK: El antepasado del caballo. \nBueno, vamos a hacer algo con esto. \nEsta hiena es el antepasado del caballo porque fue parte de una producción llamada ""Fausto en África"", una producción de Handspring de 1995 en la que tenía que jugar a las damas con Helena de Troya. \nEsta producción fue dirigida por el artista sudafricano y director de teatro William Kentridge. \nPor eso necesitaba una garra delantera muy articulada. \nPero, como toda marioneta, tiene otros atributos. \nBJ: Uno es la respiración, una cierta respiración. \nAK: . \nBJ: La respiración es muy importante para nosotros. \nEs un movimiento original de nuestras marionetas en escena. \nEs lo que distingue a la marioneta... AK: ¡Epa! \nBJ: ...del actor. \nLas marionetas siempre tienen que tratar de estar vivas. \nEsta es su historia en escena...",146
3,585,"\nI want to help you re-perceive what philanthropy is, what it could be, and what your relationship to it is. \nAnd in doing that, I want to offer you a vision, an imagined future, if you will, of how, as the poet Seamus Heaney has put it, ""Once in a lifetime the longed-for tidal wave of justice can rise up, and hope and history rhyme."" \nI want to start with these word pairs here. \nWe all know which side of these we'd like to be on. \nWhen philanthropy was reinvented a century ago, when the foundation form was actually invented, they didn't think of themselves on the wrong side of these either. \nIn fact they would never have thought of themselves as closed and set in their ways, as slow to respond to new challenges, as small and risk-averse. \nAnd in fact they weren't. They were reinventing charity in those times, what Rockefeller called ""the business of benevolence."" \nBut by the end of the 20th century, a new generation of critics and reformers had come to see philanthropy ju...",103,"\nYo quiero ayudarlos a re-percibír lo que es la filantropía, lo que puede llegar a ser, y cual es su relación con ella. \nY al hacer esto, les quiero ofrecer una visión, un futuro imaginario, podriamos decír, de como, al decír del poeta Seamus Heaney, "" Una vez en toda la vida la esperada marea de la justícia puede elevarse, y la esperanza y la historia rimarán"" \nQuiero empezar con estos pares de palabras. \nSabemos de que lado de estas palabras nos gustaría estar. \nCuando la filantropía se reinventó hace un siglo, cuando el formato de fundación actualmente se inventó, ellos tampoco pensaron estar del lado equivocado de estas palabras. \nDe hecho ellos jamás pensaron que eran cerrados y fijos en sus ideas, ni con respuestas lentas para responder a nuevos desafíos, ni pequeños y evitando riesgos \nY de hecho no lo estaban. Ellos reinventaron la caridad en esos tiempos. Lo que Rockefeller llamó "" El negocio de la benevolencia"" \nPero para finales del siglo XX. una nueva generació...",103
4,1506,"\nSo, how many of you have ever gotten behind the wheel of a car when you really shouldn't have been driving? \nMaybe you're out on the road for a long day, and you just wanted to get home. \nYou were tired, but you felt you could drive a few more miles. \nMaybe you thought, I've had less to drink than everybody else, I should be the one to go home. \nOr maybe your mind was just entirely elsewhere. \nDoes this sound familiar to you? \nNow, in those situations, wouldn't it be great if there was a button on your dashboard that you could push, and the car would get you home safely? \nNow, that's been the promise of the self-driving car, the autonomous vehicle, and it's been the dream since at least 1939, when General Motors showcased this idea at their Futurama booth at the World's Fair. \nNow, it's been one of those dreams that's always seemed about 20 years in the future. \nNow, two weeks ago, that dream took a step forward, when the state of Nevada granted Google's self-driving ca...",94,"\n¿Quién alguna vez ha estado al volante y en realidad no debería haber conducido? \nQuizá estuvieron en el camino todo el día y no ven la hora de llegar a casa. \nEstaban cansados pero sentían que podían conducir unos kilómetros más. \nQuizá pensaron que deberían haber bebido menos y haber vuelto a casa. \nO quizá tenían la cabeza en otro lado. \n¿Les resulta familiar? \nY, en esas situaciones, ¿no sería genial tener un botón en el tablero que pudiéramos presionar para que el coche volviera a casa a salvo? \nEsa ha sido la promesa del coche auto-conducido, del vehículo autónomo, y ha sido el sueńo al menos desde 1939, cuando General Motors presentó esta idea en su stand Futurama de la Feria Mundial. \nY es uno de esos sueńos que siempre parecen estar a 20 ańos en el futuro. \nPero hace dos semanas ese sueńo dio un paso más cuando el estado de Nevada otorgó al coche auto-conducido de Google la primera licencia a un coche autónomo, sentando el precedente legal para hacer pruebas en...",94
...,...,...,...,...,...
995,565,"\nWhat's happening to the climate? \nIt is unbelievably bad. \nThis is, obviously, that famous view now of the Arctic, which is likely to be gone at this point in the next three or four or five years. Very, very, very scary. \nSo we all look at what we can do. \nAnd when you look at the worldwide sources of CO2, 52 percent are tied to buildings. \nOnly nine percent is passenger cars, interestingly enough. \nSo we ran off to a sushi bar. \nAnd at that sushi bar we came up with a great idea. \nAnd it was something called EcoRock. \nAnd we said we could redesign the 115-year-old gypsum drywall process that generates 20 billion pounds of CO2 a year. \nSo it was a big idea. We wanted to reduce that by 80 percent, which is exactly what we've done. \nWe started R&D in 2006. \nDecided to use recycled content from cement and steel manufacturing. \nThere is the inside of our lab. We haven't shown this before. \nBut our people had to do some 5,000 different mixes to get this right, to hit ou...",52,"\n¿Qué le está pasando al clima? \nEstá increíblemente mal. \nEsto es, obviamente, la famosa vista del Ártico, que probablemente ya se habrá ido en los próximos tres, cuatro o cinco años. Da mucho, mucho miedo. \nAsí que vemos lo que podemos hacer al respecto. \nY cuando vemos las fuentes mundiales de CO2, 52 porciento están ligadas a edificios. \nInteresantemente, solo el nueve porciento proviene de los carros individuales. \nAsí que nos fuimos a un bar sushi. \nY en el bar sushi se nos ocurrió una gran idea. \nY era algo llamado ""EcoRock"" . \nY dijimos que podríamos rediseñar el viejo proceso de yeso de 115 años de antigüedad, que genera 20 billones de libras de CO2 al año. \nFue una gran idea. Queríamos reducirlo en un 80 porciento. Y es exactamente lo que hemos hecho. \nEmpezamos Investigación y Desarrollo en el 2006. \nDecidimos usar materiales reciclados del cemento y de la manufactura del acero. \nAhí está el interior de nuestro laboratorio. No hemos mostrado esto antes. \n...",52
996,1297,"\nOver the last 13 years -- one, three, 13 years -- I've been part of an exceptional team at InSightec in Israel and partners around the world for taking this idea, this concept, noninvasive surgery, from the research lab to routine clinical use. \nAnd this is what I'll tell you about. \n13 years -- for some of you, you can empathize with that number. \nFor me, today, on this date, it's like a second bar mitzvah experience. \n So this dream is really enabled by the convergence of two known technologies. \nOne is the focused ultrasound, and the other one is the vision-enabled magnetic resonance imaging. \nSo let's first talk about focused ultrasound. \nAnd I hold in my hand a tissue-mimicking phantom. \nIt is made out of silicon. \nIt is transparent, made just for you. \nSo you see, it's all intact, completely transparent. \nI'll take you now to the acoustic lab. \nYou see the phantom within the aquarium. \nThis is a setup I put in a physics lab. \nOn the right-hand side, you see a...",167,"\nDurante los últimos 13 años he sido parte de un equipo increíble en InSightec en Israel y en lugares asociados por todo el mundo donde estamos llevando esta idea, este concepto de cirugía no invasiva del laboratorio de investigación al uso clínico normal. \nAsí que les hablaré de esto. \n13 años; dado este tiempo algunos de ustedes compartirán mi felicidad. \nPara mí, hoy, en esta fecha es como pasar por un segundo bar mitzvah. \n Y este sueño está convirtiéndose en realidad dada la convergencia de dos tecnologías utilizadas hoy. \nUna de estas es el ultrasonido focalizado y la otra es la generación de imágenes por resonancia magnética. \nHablemos primero del ultrasonido focalizado. \nTengo en mi mano un dispositivo que imita tejidos. \nEstá hecho de silicona. \nEs transparente, hecho para mostrarlo acá. \nY pueden ver que está totalmente intacto, es totalmente transparente. \nAhora les voy a mostrar el laboratorio de acústica. \nPueden ver este elemento en el acuario. \nArmé e...",167
997,866,"\nI heard this amazing story about Miuccia Prada. \nShe's an Italian fashion designer. \nShe goes to this vintage store in Paris with a friend of hers. \nShe's rooting around, she finds this one jacket by Balenciaga -- she loves it. \nShe's turning it inside out. \nShe's looking at the seams. She's looking at the construction. \nHer friend says, ""Buy it already."" \nShe said, ""I'll buy it, but I'm also going to replicate it."" \nNow, the academics in this audience may think, ""Well, that sounds like plagiarism."" \nBut to a fashionista, what it really is is a sign of Prada's genius: that she can root through the history of fashion and pick the one jacket that doesn't need to be changed by one iota, and to be current and to be now. \nYou might also be asking whether it's possible that this is illegal for her to do this. \nWell, it turns out that it's actually not illegal. \nIn the fashion industry, there's very little intellectual property protection. \nThey have trademark protection, ...",169,"\nEscuché esta fascinante historia de Miucha Prada. \nEs una diseñadora de moda italiana. \nVa a cierta tienda vintage en París con una amiga. \nEstá rebuscando. Encuentra una chaqueta de Balenciaga. Le encanta. \nLa vuelve del revés. \nLe mira todas las costuras. Le mira la hechura. \nSu amiga le dice, ''Cómpratela ya"". \nElla contesta, 'Me la compraré, pero también la voy a copiar"". \nLos académicos del público pueden pensar, ''Eso suena a plagio''. \nPero para un fashionista lo que representa es una muestra de la genialidad de Prada, que puede rebuscar en la historia de la moda y escoger la chaqueta que no necesita ni un solo cambio, para ser moderna y actual. \nPuede que se estén preguntando si es posible que lo que está haciendo sea ilegal. \nBueno, resulta que en realidad no es ilegal. \nEn la industria de la moda hay muy poca protección para la propiedad intelectual. \nTienen protección de marcas registradas, pero no derechos de autor, y casi ninguna protección de patentes....",169
998,948,"\nThis strange-looking plant is called the Llareta. \nWhat looks like moss covering rocks is actually a shrub comprised of thousands of branches, each containing clusters of tiny green leaves at the end and so densely packed together that you could actually stand on top of it. \nThis individual lives in the Atacama Desert in Chile, and it happens to be 3,000 years old. \nIt also happens to be a relative of parsley. \nFor the past five years, I've been researching, working with biologists and traveling all over the world to find continuously living organisms that are 2,000 years old and older. \nThe project is part art and part science. \nThere's an environmental component. \nAnd I'm also trying to create a means in which to step outside our quotidian experience of time and to start to consider a deeper timescale. \nI selected 2,000 years as my minimum age because I wanted to start at what we consider to be year zero and work backward from there. \nWhat you're looking at now is a t...",126,"\nEsta planta de aspecto extraño se llama yareta. \nLo que se ve como musgo que cubre las piedras en realidad es un arbusto compuesto por miles de ramas, y cada una contiene racimos de hojitas verdes en las puntas tan densamente empaquetadas que uno podría pararse encima. \nEste individuo vive en el desierto de Atacama en Chile, y resulta que tiene 3.000 años. \nTambién resulta ser un pariente del perejil. \nDurante los últimos 5 años he estado investigando, trabajando con los biólogos y viajando por todo el mundo para encontrar organismos vivientes de 2.000 años o más. \nEl proyecto es en parte arte y en parte ciencia. \nHay un componente ambiental. \nY también estoy tratando de crear un medio para salirnos de la experiencia cotidiana del tiempo y empezar a considerar una escala de tiempo más profunda. \nSeleccioné 2.000 años como edad mínima porque quería empezar por lo que consideramos el año cero y trabajar hacia atrás desde allí. \nLo que estamos viendo ahora es un árbol llam...",126


In [None]:
len(train_combined['transcripts_x'][0].split('\n'))

146

In [None]:
len(train_combined['transcripts_y'][0].split('\n'))

146

In [None]:
train_combined['diff'] = train_combined['sentence_count_x'].equals(train_combined['sentence_count_y']) 
train_combined.head()

Unnamed: 0,talkids,transcripts_x,sentence_count_x,transcripts_y,sentence_count_y,diff
0,899,"\nIt can be a very complicated thing, the ocean. \nAnd it can be a very complicated thing, what human health is. \nAnd bringing those two together might seem a very daunting task, but what I'm going to try to say is that even in that complexity, there's some simple themes that I think, if we understand, we can really move forward. \nAnd those simple themes aren't really themes about the complex science of what's going on, but things that we all pretty well know. \nAnd I'm going to start with this one: If momma ain't happy, ain't nobody happy. \nWe know that, right? We've experienced that. \nAnd if we just take that and we build from there, then we can go to the next step, which is that if the ocean ain't happy, ain't nobody happy. \nThat's the theme of my talk. \nAnd we're making the ocean pretty unhappy in a lot of different ways. \nThis is a shot of Cannery Row in 1932. \nCannery Row, at the time, had the biggest industrial canning operation on the west coast. \nWe piled enormou...",146,"\nEl océano puede ser una cosa muy complicada. \nY podria ser una cosa muy complicada lo que la salud humana es. \nY unirlas, podría ser una tarea desalentadora. Lo que voy a tratar de decir es que aún en esa complejidad, existen temas sencillos que si los entendemos, podemos continuar. \nEsos temas sencillos no son realmente temas acerca de la complejidad de lo que está sucediendo, sino de cosas que todos sabemos. \nY voy a comezar con ésta. Si mamá no está contenta, nadie lo está. \nlo sabemos, ¿verdad? Lo hemos experimentado. \nSi partimos de esa noción y seguimos desde ahí, podemos dar el siguiente paso, que es que si el océano no está contento, nadie lo está. \nEse es el tema de mi charla. \nY estamos haciendo al océano infeliz de diferentes formas. \nEsta es una foto de Cannery Row en 1932. \nCannery Row, en ese momento,½ tenía la industria de enlatados más grande de la costa oeste. \nAcumulamos grandes cantidades de contaminantes en el aire y en el agua. \nRolf Bolin, quien...",146,True
1,957,"\nLet's start with day and night. \nLife evolved under conditions of light and darkness, light and then darkness. \nAnd so plants and animals developed their own internal clocks so that they would be ready for these changes in light. \nThese are chemical clocks, and they're found in every known being that has two or more cells and in some that only have one cell. \nI'll give you an example -- if you take a horseshoe crab off the beach, and you fly it all the way across the continent, and you drop it into a sloped cage, it will scramble up the floor of the cage as the tide is rising on its home shores, and it'll skitter down again right as the water is receding thousands of miles away. \nIt'll do this for weeks, until it kind of gradually loses the plot. \nAnd it's incredible to watch, but there's nothing psychic or paranormal going on; it's simply that these crabs have internal cycles that correspond, usually, with what's going on around it. \nSo, we have this ability as well. \nA...",35,"\nEmpecemos por el día y la noche. \nLa Vida evolucionó en condiciones de luz y oscuridad; luz y luego oscuridad. \nLuego las plantas y los animales desarrollaron sus propios relojes internos para ajustarse a estos cambios de iluminación. \nSon relojes químicos y están en todos los seres conocidos que tienen 2 o más células y en algunos unicelulares. \nLes daré un ejemplo. Si uno saca un cangrejo de herradura de la playa, lo lleva al otro extremo del continente, y lo pone dentro de una jaula con pendiente, trepará por el piso de la jaula cuando suba la marea en las costas de su hogar, y descenderá nuevamente mientras el agua retrocede a miles de kms de distancia. \nHará esto durante semanas hasta que, poco a poco, pierda el hilo. \nEs increíble de ver pero no sucede nada psíquico o paranormal; simplemente estos cangrejos tienen ciclos internos que se condicen, por lo general, con lo que sucede a su alrededor. \nNosotros también tenemos esa capacidad. \nEn los humanos lo llamamos r...",35,True
2,1108,"\nAdrian Kohler: Well, we're here today to talk about the evolution of a puppet horse. \nBasil Jones: But actually we're going to start this evolution with a hyena. \nAK: The ancestor of the horse. \nOkay, we'll do something with it. \nThe hyena is the ancestor of the horse because it was part of a production called ""Faustus in Africa,"" a Handspring Production from 1995, where it had to play draughts with Helen of Troy. \nThis production was directed by South African artist and theater director, William Kentridge. \nSo it needed a very articulate front paw. \nBut, like all puppets, it has other attributes. \nBJ: One of them is breath, and it kind of breathes. \nAK: Haa haa haaa. \nBJ: Breath is really important for us. \nIt's the kind of original movement for any puppet for us onstage. \nIt's the thing that distinguishes the puppet -- AK: Oops. \nBJ: From an actor. \nPuppets always have to try to be alive. \nIt's their kind of ur-story onstage, that desperation to live. \nAK: Yeah...",146,"\nAdrian Kohler: Bueno, hoy estamos aquí para contarles la evolución de una marioneta de caballo. \nBasil Jones: Pero, en realidad, vamos a comenzar esta evolución con una hiena. \nAK: El antepasado del caballo. \nBueno, vamos a hacer algo con esto. \nEsta hiena es el antepasado del caballo porque fue parte de una producción llamada ""Fausto en África"", una producción de Handspring de 1995 en la que tenía que jugar a las damas con Helena de Troya. \nEsta producción fue dirigida por el artista sudafricano y director de teatro William Kentridge. \nPor eso necesitaba una garra delantera muy articulada. \nPero, como toda marioneta, tiene otros atributos. \nBJ: Uno es la respiración, una cierta respiración. \nAK: . \nBJ: La respiración es muy importante para nosotros. \nEs un movimiento original de nuestras marionetas en escena. \nEs lo que distingue a la marioneta... AK: ¡Epa! \nBJ: ...del actor. \nLas marionetas siempre tienen que tratar de estar vivas. \nEsta es su historia en escena...",146,True
3,585,"\nI want to help you re-perceive what philanthropy is, what it could be, and what your relationship to it is. \nAnd in doing that, I want to offer you a vision, an imagined future, if you will, of how, as the poet Seamus Heaney has put it, ""Once in a lifetime the longed-for tidal wave of justice can rise up, and hope and history rhyme."" \nI want to start with these word pairs here. \nWe all know which side of these we'd like to be on. \nWhen philanthropy was reinvented a century ago, when the foundation form was actually invented, they didn't think of themselves on the wrong side of these either. \nIn fact they would never have thought of themselves as closed and set in their ways, as slow to respond to new challenges, as small and risk-averse. \nAnd in fact they weren't. They were reinventing charity in those times, what Rockefeller called ""the business of benevolence."" \nBut by the end of the 20th century, a new generation of critics and reformers had come to see philanthropy ju...",103,"\nYo quiero ayudarlos a re-percibír lo que es la filantropía, lo que puede llegar a ser, y cual es su relación con ella. \nY al hacer esto, les quiero ofrecer una visión, un futuro imaginario, podriamos decír, de como, al decír del poeta Seamus Heaney, "" Una vez en toda la vida la esperada marea de la justícia puede elevarse, y la esperanza y la historia rimarán"" \nQuiero empezar con estos pares de palabras. \nSabemos de que lado de estas palabras nos gustaría estar. \nCuando la filantropía se reinventó hace un siglo, cuando el formato de fundación actualmente se inventó, ellos tampoco pensaron estar del lado equivocado de estas palabras. \nDe hecho ellos jamás pensaron que eran cerrados y fijos en sus ideas, ni con respuestas lentas para responder a nuevos desafíos, ni pequeños y evitando riesgos \nY de hecho no lo estaban. Ellos reinventaron la caridad en esos tiempos. Lo que Rockefeller llamó "" El negocio de la benevolencia"" \nPero para finales del siglo XX. una nueva generació...",103,True
4,1506,"\nSo, how many of you have ever gotten behind the wheel of a car when you really shouldn't have been driving? \nMaybe you're out on the road for a long day, and you just wanted to get home. \nYou were tired, but you felt you could drive a few more miles. \nMaybe you thought, I've had less to drink than everybody else, I should be the one to go home. \nOr maybe your mind was just entirely elsewhere. \nDoes this sound familiar to you? \nNow, in those situations, wouldn't it be great if there was a button on your dashboard that you could push, and the car would get you home safely? \nNow, that's been the promise of the self-driving car, the autonomous vehicle, and it's been the dream since at least 1939, when General Motors showcased this idea at their Futurama booth at the World's Fair. \nNow, it's been one of those dreams that's always seemed about 20 years in the future. \nNow, two weeks ago, that dream took a step forward, when the state of Nevada granted Google's self-driving ca...",94,"\n¿Quién alguna vez ha estado al volante y en realidad no debería haber conducido? \nQuizá estuvieron en el camino todo el día y no ven la hora de llegar a casa. \nEstaban cansados pero sentían que podían conducir unos kilómetros más. \nQuizá pensaron que deberían haber bebido menos y haber vuelto a casa. \nO quizá tenían la cabeza en otro lado. \n¿Les resulta familiar? \nY, en esas situaciones, ¿no sería genial tener un botón en el tablero que pudiéramos presionar para que el coche volviera a casa a salvo? \nEsa ha sido la promesa del coche auto-conducido, del vehículo autónomo, y ha sido el sueńo al menos desde 1939, cuando General Motors presentó esta idea en su stand Futurama de la Feria Mundial. \nY es uno de esos sueńos que siempre parecen estar a 20 ańos en el futuro. \nPero hace dos semanas ese sueńo dio un paso más cuando el estado de Nevada otorgó al coche auto-conducido de Google la primera licencia a un coche autónomo, sentando el precedente legal para hacer pruebas en...",94,True


In [None]:
train_combined.query('diff == False').head()

Unnamed: 0,talkids,transcripts_x,sentence_count_x,transcripts_y,sentence_count_y,diff


#Importing the binary led to split sentences, but the XML way was fine, as we see above.  So we will create train via the XML way.

In [None]:
# Read in the XML file
language = 'es'
dataset = 'train'
file = dataset+'.tags.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
transcripts = []
for child in root:
  if child.tag == 'transcript':
    transcripts.append(child.text)
  #rows.append({"talkids": talk_id, "transcripts": transcript_id})
transcripts_sentences = []
for x in transcripts:
  for a in x.split('\n'):
    transcripts_sentences.append(a)
train_es = pd.DataFrame(transcripts_sentences, columns = ['es'])
train_es.head(100)

In [None]:
# Read in the XML file
language = 'en'
dataset = 'train'
file = dataset+'.tags.es-en.'+language+'.xml'
file_path = root_folder+file
tree = ET.parse(file_path)
root = tree.getroot()

In [None]:
transcripts = []
for child in root:
  if child.tag == 'transcript':
    transcripts.append(child.text)
  #rows.append({"talkids": talk_id, "transcripts": transcript_id})
transcripts_sentences = []
for x in transcripts:
  for a in x.split('\n'):
    transcripts_sentences.append(a)
train_en = pd.DataFrame(transcripts_sentences, columns = ['en'])
train_en.head(100)

Unnamed: 0,en
0,
1,"It can be a very complicated thing, the ocean."
2,"And it can be a very complicated thing, what human health is."
3,"And bringing those two together might seem a very daunting task, but what I'm going to try to say is that even in that complexity, there's some simple themes that I think, if we understand, we can really move forward."
4,"And those simple themes aren't really themes about the complex science of what's going on, but things that we all pretty well know."
...,...
95,"How many people have seen a ""beach closed"" sign?"
96,Why does that happen?
97,It happens because we have jammed so much into the base of the natural ocean pyramid that these bacteria clog it up and overfill onto our beaches.
98,Often what jams us up is sewage.


In [None]:
row_count = train_es.shape[0] + 1
print('train_es number of rows: {:.0f}'.format(row_count))

train_es number of rows: 154421


In [None]:
row_count = train_en.shape[0] + 1
print('train_en number of rows: {:.0f}'.format(row_count))

train_en number of rows: 154421


#Use the last Code blocks for training (the XML way).