In [33]:
# load in all the modules we're going to need
import nltk, re, string, collections
from nltk.util import ngrams # function for making ngrams

# this corpus is pretty big, so let's look at just one of the files in it
with open("./archive/spanish_corpus/spanishText_15000_20000", "r", encoding='latin-1') as file:
    text = file.read()

# check to make sure the file read in alright; let's print out the first 1000 characters
text[0:1000]

'<doc id="32449" title="Himno de las Américas" nonfiltered="1" processed="1" dbindex="15001">\nEl Himno de las Américas es cantado en todas las ceremonias y actos oficiales en conmemoración al Día de las Américas (14 de abril). Letra y música de Rodolfo Sciamarella.\n\n Letra .\n\nUn canto de amistad, de buena vecindad, ;\nunidos nos tendrá eternamente. ;\nPor nuestra libertad, por nuestra lealtad, ;\ntenemos que vivir gloriosamente.\n\nUn símbolo de paz alumbrará el vivir ;\nde todo el Continente Americano. ;\nFuerza de Optimismo, fuerza de Hermandad ;\nserá este canto de buena vecindad.\n\nArgentina, Brasil y Bolivia,\nColombia, Chile y Ecuador;\nUruguay, Venezuela y Honduras ;\nGuatemala y El Salvador,\nCosta Rica, Haití, Nicaragua,\nCuba y Paraguay, ;\nNorteamérica, México y Perú,\nSanto Domingo y Panamá;\n\n¡Son hermanos soberanos de la libertad!\n¡Son hermanos soberanos de la libertad!\n\nEn otras versiones se incluyen Cuba y Canadá.\nSanto Domingo es el nombre colonial de Repúbl

In [34]:
# let's do some preprocessing. We don't care about the XML notation, new lines 
# or punctuation marks other than periods. (We'll consider the end of the sentence
# a "word") We also don't want to consider capitalization. 

# get rid of all the XML markup
text = re.sub('<.*>','',text)

# get rid of the "ENDOFARTICLE." text
text = re.sub('ENDOFARTICLE.','',text)

# get rid of punctuation (except periods!)
punctuationNoPeriod = "[" + re.sub("\.","",string.punctuation) + "]"
text = re.sub(punctuationNoPeriod, "", text)

# make sure it looks ok
text[0:1000]

'\nEl Himno de las Américas es cantado en todas las ceremonias y actos oficiales en conmemoración al Día de las Américas 14 de abril Letra y música de Rodolfo Sciamarella\n\n Letra \n\nUn canto de amistad de buena vecindad \nunidos nos tendrá eternamente \nPor nuestra libertad por nuestra lealtad \ntenemos que vivir gloriosamente\n\nUn símbolo de paz alumbrará el vivir \nde todo el Continente Americano \nFuerza de Optimismo fuerza de Hermandad \nserá este canto de buena vecindad\n\nArgentina Brasil y Bolivia\nColombia Chile y Ecuador\nUruguay Venezuela y Honduras \nGuatemala y El Salvador\nCosta Rica Haití Nicaragua\nCuba y Paraguay \nNorteamérica México y Perú\nSanto Domingo y Panamá\n\n¡Son hermanos soberanos de la libertad\n¡Son hermanos soberanos de la libertad\n\nEn otras versiones se incluyen Cuba y Canadá\nSanto Domingo es el nombre colonial de República Dominicana\n\n Enlaces externos \n Canción en YouTube\n\n\n\n\n\n\n\n\nEl King Kong es un dulce típico de la Gastronomía del P

In [35]:
# first get individual words
tokenized = text.split()

# and get a list of all the bi-grams
esBigrams = ngrams(tokenized, 2)

# If you like, you can uncomment the next like to take a look at 
# the first ten to make sure they look ok. Please note that doing so 
# will consume the generator & will break the next block of code, so you'll
# need to re-comment it and run this block again to get it to work.
# list(esBigrams)[:10]

In [36]:
# get the frequency of each bigram in our corpus
esBigramFreq = collections.Counter(esBigrams)

# what are the ten most popular ngrams in this Spanish corpus?
esBigramFreq.most_common(10)

[(('de', 'la'), 45682),
 (('de', 'los'), 19374),
 (('en', 'el'), 19323),
 (('en', 'la'), 18617),
 (('a', 'la'), 12692),
 (('de', 'las'), 11335),
 (('que', 'se'), 8181),
 (('y', 'el'), 6498),
 (('y', 'la'), 6286),
 (('a', 'los'), 5330)]

In [37]:
tokenized = text.split()
esTrigrams = ngrams(tokenized, 3)

In [38]:
esTrigramFreq = collections.Counter(esTrigrams)
esTrigramFreq.most_common(10)

[(('de', 'la', 'ciudad'), 1898),
 (('uno', 'de', 'los'), 1804),
 (('una', 'de', 'las'), 1266),
 (('a', 'través', 'de'), 1052),
 (('la', 'ciudad', 'de'), 1047),
 (('los', 'Estados', 'Unidos'), 965),
 (('parte', 'de', 'la'), 904),
 (('de', 'la', 'población'), 894),
 (('por', 'lo', 'que'), 872),
 (('en', 'el', 'que'), 844)]

# Primera Pregunta 


1. Find the most frequent n-grams in another file in this corpus. You can find the other files by entering "../input/spanish_corpus/" in a code chunk and then hitting the Tab key. All of the files will be listed in a drop-down menu. Are the most frequent bigrams the same as they were in this file?

## Cargamos otro archivo (1)


In [80]:
import nltk, re, string, collections
from nltk.util import ngrams 


with open("./archive/spanish_corpus/spanishText_20000_25000", "r", encoding='latin-1') as file:
    text = file.read()


text[0:1000]

'<doc id="46051" title="(737) Arequipa" nonfiltered="1" processed="1" dbindex="20000">\nArequipa es el nombre del asteroide número 737 de la serie. Conocido previamente con la designación provisional 1912 QB y la adicional 1961 JH el asteroide (737) fue descubierto en Winchester de 7 de diciembre de 1912 por J.H. Metcalf y bautizado en honor de la ciudad peruana en la cual funcionó de 1889 a 1927 el Observatorio Boyden, una instalación de observación del hemisferio sur del Harvard College Observatory.\n\n\n\n\n\n\n\n\n\n\n\n\n\nENDOFARTICLE.\n</doc>\n<doc id="46052" title="Provincia de Teherán" nonfiltered="2" processed="2" dbindex="20001">\n\n\nLa provincia de Teherán (Farsi:            ) es una de las 30 provincias de Irán, tiene cerca de 12 millones de habitantes y es la provincia más densamente problada de Irán. Tiene una extensión de alrededor de 18.637 km² y se encuentra al norte de la meseta central iraní. \n\nLa provincia de Teherán limita con las provincias de Mazandarán al no

In [81]:
tokenized = text.split()
esBigrams = ngrams(tokenized, 2)

In [82]:
esBigramFreq = collections.Counter(esBigrams)
esBigramFreq.most_common(10)

[(('de', 'la'), 45340),
 (('en', 'el'), 19598),
 (('de', 'los'), 18648),
 (('en', 'la'), 18317),
 (('a', 'la'), 13042),
 (('de', 'las'), 10822),
 (('que', 'se'), 8508),
 (('y', 'el'), 6486),
 (('de', 'su'), 6257),
 (('y', 'la'), 6059)]

## Cargamos otro archivo (2)


In [8]:
import nltk, re, string, collections
from nltk.util import ngrams 


with open("./archive/spanish_corpus/spanishText_345000_350000", "r", encoding='latin-1') as file:
    text = file.read()


text[0:1000]

'<doc id="1363964" title="Sonnewalde" nonfiltered="1" processed="1" dbindex="345000">\n\n\n\n\nSonnewalde es un municipio del distrito de Elbe-Elster, en Brandeburgo, (Alemania). Está situado a 8 km al noroeste de Finsterwalde. \n\n Enlaces externos .\nwww.stadt-sonnewalde.de  (en alemán);\n\n\n\n\n\n\n\n\n\n\n\n\nENDOFARTICLE.\n</doc>\n<doc id="1363965" title="José María Ramos Loscertales" nonfiltered="2" processed="2" dbindex="345001">\nJosé María Ramos y Loscertales (Zaragoza, 1890; Salamanca, 1956) es un importante historiador español de finales del siglo XIX y principios-mediados del siglo XX.\n\nDiscípulo de Hinojosa en el Centro de Estudios Históricos, entre sus compañeros allí se encontraban historiadores destacados como Sánchez Albornoz y Galo Sánchez, entre otros.\n\nFue catedrático de Historia de España en la Universidad de Salamanca y dedicó sus investigaciones a la España antigua y a la historia del derecho, especialmente del aragonés. Fue rector de la Universidad, cargo d

In [9]:
tokenized = text.split()
esBigrams = ngrams(tokenized, 2)

In [10]:
esBigramFreq = collections.Counter(esBigrams)
esBigramFreq.most_common(10)

[(('de', 'la'), 16755),
 (('en', 'el'), 8545),
 (('en', 'la'), 7553),
 (('de', 'los'), 5852),
 (('ENDOFARTICLE.', '</doc>'), 4719),
 (('</doc>', '<doc'), 4719),
 (('a', 'la'), 4321),
 (('de', 'las'), 3650),
 (('que', 'se'), 2535),
 (('y', 'el'), 2422)]

# Comparacion

### BIGRAM 1

In [36]:
# get the frequency of each bigram in our corpus
esBigramFreq = collections.Counter(esBigrams)

# what are the ten most popular ngrams in this Spanish corpus?
esBigramFreq.most_common(10)

[(('de', 'la'), 45682),
 (('de', 'los'), 19374),
 (('en', 'el'), 19323),
 (('en', 'la'), 18617),
 (('a', 'la'), 12692),
 (('de', 'las'), 11335),
 (('que', 'se'), 8181),
 (('y', 'el'), 6498),
 (('y', 'la'), 6286),
 (('a', 'los'), 5330)]

### BIGRAM 2


In [82]:
esBigramFreq = collections.Counter(esBigrams)
esBigramFreq.most_common(10)

[(('de', 'la'), 45340),
 (('en', 'el'), 19598),
 (('de', 'los'), 18648),
 (('en', 'la'), 18317),
 (('a', 'la'), 13042),
 (('de', 'las'), 10822),
 (('que', 'se'), 8508),
 (('y', 'el'), 6486),
 (('de', 'su'), 6257),
 (('y', 'la'), 6059)]

### BIGRAM 3

In [10]:
esBigramFreq = collections.Counter(esBigrams)
esBigramFreq.most_common(10)

[(('de', 'la'), 16755),
 (('en', 'el'), 8545),
 (('en', 'la'), 7553),
 (('de', 'los'), 5852),
 (('ENDOFARTICLE.', '</doc>'), 4719),
 (('</doc>', '<doc'), 4719),
 (('a', 'la'), 4321),
 (('de', 'las'), 3650),
 (('que', 'se'), 2535),
 (('y', 'el'), 2422)]

## Conclusión


Respuesta:De acuerdo a los resultados podemos concluir que para este corpus la gran mayoria de veces se tiene los mismos bigramas 

# EJERCICIO N-GRAMS 1 (Ingles)

In [41]:
import nltk, re, string, collections
from nltk.util import ngrams 


with open("./Corpus/song/avicii_lyrics.txt", "r", encoding='UTF-8') as file:
    text = file.read()


text[0:1000]

"Feeling my way through the darkness Guided by a beating heart I can't tell where the journey will end But I know where to start\n\nThey tell me I'm too young to understand They say I'm caught up in a dream Well life will pass me by if I don't open up my eyes Well that's fine by me\n\nSo wake me up when it's all over When I'm wiser and I'm older All this time I was finding myself And I didn't know I was lost\n\nI tried carrying the weight of the world But I only have two hands Hope I get the chance to travel the world But I don't have any plans\n\nWish that I could stay forever this young Not afraid to close my eyes Life's a game made for everyone And love is the prize\n\nSo wake me up when it's all over When I'm wiser and I'm older All this time I was finding myself And I didn't know I was lost\n\nDidn't know I was lost I didn't know I was lost I didn't know I was lost I didn't know (didn't know, didn't know)\n\nWe are one\nOne for sure\nAll united\nYou'll want some more\n\nOh Oh Oh O

In [42]:
tokenized = text.split()
esBigrams = ngrams(tokenized, 2)

In [43]:
esBigramFreq = collections.Counter(esBigrams)
esBigramFreq.most_common(10)

[(('Tell', 'me'), 46),
 (('on', 'the'), 43),
 (('And', 'I'), 42),
 (('I', 'get'), 40),
 (('in', 'the'), 39),
 (('me', "I'm"), 37),
 (('me', "can't"), 37),
 (("can't", 'you'), 37),
 (('tell', 'me'), 35),
 (('I', "can't"), 33)]

In [44]:
tokenized = text.split()
esTrigrams = ngrams(tokenized, 3)

In [45]:
esTrigramFreq = collections.Counter(esTrigrams)
esTrigramFreq.most_common(10)

[(('me', "can't", 'you'), 37),
 (('Tell', 'me', "can't"), 31),
 (('My', 'feelings', 'for'), 26),
 (('feelings', 'for', 'you'), 26),
 (("can't", 'you', 'feel'), 23),
 (("I'm", 'gonna', 'love'), 22),
 (('me', "I'm", 'the'), 20),
 (('on', 'the', 'run'), 18),
 (('I', 'can', 'do'), 18),
 (('can', 'do', 'so'), 18)]

# Sopranos Español Ejercicio 2


## Analizamos los dialogos de los primeros 4 capitulos de la primera temporada 

In [75]:
import nltk, re, string, collections
from nltk.util import ngrams 

# Capitulo 1
with open("./Corpus/Sopranos/The Sopranos-1x1.txt", "r", encoding='UTF-8') as file:
    text1 = file.read()
    
#Capitulo 2
with open("./Corpus/Sopranos/The Sopranos-1x2.txt", "r", encoding='UTF-8') as file:
    text2 = file.read()

#Capitulo 3
with open("./Corpus/Sopranos/The Sopranos-1x3.txt", "r", encoding='UTF-8') as file:
    text3 = file.read()
    
#capitulo 4
with open("./Corpus/Sopranos/The Sopranos-1x4.txt", "r", encoding='UTF-8') as file:
    text4 = file.read()
    


text = text1 + text2 + text3 + text4

text[0:100000]

'¿señor Soprano?\nSí.\nTome asiento.\nSegún me dice el doctor Cusamano...\n...su médico de cabecera,\nusted se desmayó.\nPosiblemente fue\nun ataque de pánico.\nNo podía respirar.\nEllos dijeron que fue\nun ataque de pánico...\n...pues los análisis de sangre y estudios\nneurológicos fueron negativos...\n...y me enviaron aquí.\n¿No cree haber tenido\nun ataque de pánico?\n¿Cómo se siente ahora?\nBien.\nGenial. Volví a trabajar.\n¿En qué trabaja?\nConsultoría de manejo\nde desperdicios.\nMire, es imposible que hable\ncon un psiquiatra.\n¿Tiene idea de por qué se desmayó?\nNo lo sé.\nQuizá por estrés.\n¿Sobre qué?\nNo lo sé.\nEstuve pensando en la mañana\ndel día en que me descompuse.\nEs bueno estar en algo\ndesde el principio.\nPero llegué muy tarde para eso, lo sé.\nÚltimamente tengo la sensación\nde que llegué al final.\nQue lo mejor ya pasó.\nMuchos estadounidenses\nse sienten así, me parece.\nPienso en mi padre. El nunca llegó\na la altura en que estoy yo...\n...pero de muchas maner

In [76]:
tokenized = text.split() 
esBigrams = ngrams(tokenized, 2)

In [77]:
esBigramFreq = collections.Counter(esBigrams)
esBigramFreq.most_common(10)

[(('en', 'la'), 49),
 (('lo', 'que'), 47),
 (('en', 'el'), 41),
 (('a', 'la'), 40),
 (('que', 'no'), 37),
 (('de', 'la'), 35),
 (('¿Por', 'qué'), 30),
 (('que', 'me'), 22),
 (('a', 'mi'), 20),
 (('No', 'lo'), 19)]

In [78]:
tokenized = text.split()
esTrigrams = ngrams(tokenized, 3)

In [79]:
esTrigramFreq = collections.Counter(esTrigrams)
esTrigramFreq.most_common(10)

[(('¿Por', 'qué', 'no'), 10),
 (('No', 'lo', 'sé.'), 8),
 (('¿De', 'qué', 'hablas?'), 7),
 (('que', 'no', 'puedo'), 6),
 (('de', 'lo', 'que'), 5),
 (('Ese', 'es', 'el'), 4),
 (('que', 'no', 'lo'), 4),
 (('¿A', 'qué', 'te'), 4),
 (('qué', 'te', 'refieres?'), 4),
 (('de', 'Tony', 'Soprano.'), 4)]

# Carlos Andres Mendoza Martinez T00055203