# Introducción a Python y NLP: capítulos 4-6

In [None]:
%%capture
import nltk 
nltk.download("book")
from nltk.book import *

## Asignaciones

Tal como en el lenguaje natural, Python permite relaciones de referencia entre elementos. En otras palabras, podemos ocupar una palabra como *dummy* que permita referir otro fenómeno, tal como realizan los pronombres en el lenguaje natural, con la diferencia es que en el lenguaje Pyhton estos pronombres no representan categorías cerradas, sino que son abiertas según la asignación que creemos. Por ejemplo, el objeto `empty` puede ser comprendido como un pronombre, en tanto la modificación del elemento `empty` en `nested` termina por modificar la lista vacía del `empty` original.

In [2]:
empty = []
nested = [empty, empty, empty]
print(nested)

nested[1].append('Python')
print(nested)

[[], [], []]
[['Python'], ['Python'], ['Python']]


Desde esta perspectiva la lista vacía `[]` representa el referente, el objeto que es referenciado por la referencia `empty`. Así, la modificación del "pronombre" `empty` produce la modificación del referente `[]`. 

**Your Turn: Use multiplication to create a list of lists: nested = [[]] * 3. Now modify one of the elements of the list, and observe that all the elements are changed. Use Python’s id() function to find out the nu- merical identifier for any object, and verify that id(nested[0]), id(nested[1]), and id(nested[2]) are all the same.**

In [13]:
nested = [[]] * 3
nested[1].append("Python")
nested
print(id(nested[0]))
print(id(nested[1]))
print(id(nested[2]))

140157029605192
140157029605192
140157029605192


True

De esta forma, es posible distinguir dos fenómenos en torno a la modificación de objetos: la **referencia a un objeto** y la **sobreescritura de un objeto**. En el primer caso, tal como ya se observó, la referencia modifica el referente por completo. En el segundo caso, la sobreescritura modifica un único objeto señalado:

In [21]:
nested = [[]] * 3
nested[1].append("Python") # Modificación por referencia a objeto
nested[1] = ["Mapache"] # Modificación por sobreescritura de objeto
nested

[['Python'], ['Mapache'], ['Python']]

## Igualdades

En Python, existe dos tipos de relaciones de igualdad: `==` y `is`. En el primer caso, el operador `==` identifica que los tipos de objetos sean identificos. Es decir, que sean exactamente iguales en su instanciación:

In [25]:
print("Perro" == "Perro")
print("Perro" == "perro")

True
False


En cambio, la función `is` evalúa que  los objetos observados sean similares en tanto tokens, o IDs. Por ejemplo, aun cuando los objetos `nested[0]` y `nested[2]` son exactamente iguales en su instanciación (i.e. "Python"), ambos poseen IDs diferentes.

In [29]:
print([i for i in nested])
[id(nested) for i in nested]

[['Python'], ['Mapache'], ['Python']]


[140157029654984, 140157029654984, 140157029654984]

## Condicionales
Los condicionales son una forma de dirigir el flujo de trabajo a través de una "toma de decisión" por parte del programa. Los condicionales `if` y `elif` son los principales. Así, `if` evalúa una cadena o lista no-vacía como `True` y una vacía como `False`. Al cumplir la condición, la secuencia se realizará. En caso contrario, se salta la condición y continúa el flujo. 

`if` y `elif` cumplen funciones diferentes. `if` busca evaluar si la condición es verdadera o no. En caso de que lo sea, continúa el flujo sin considerar el `elif`. En otras palabras, `elif` solo se ejecuta si el `if == False` y puede ser entendido como un "en caso de". Por ejemplo:

In [25]:
import re
copulative = ["es", "ser", "tiene", "tener", "parecer", "parece"]

if "ser" in copulative: # si "ser" está en la lista copulative
  print(1)  # imprime 1
  
elif "tiene" in copulative: # en caso de que no esté "ser" en la lista, busca si "tiene" está en la lista
  print(2) # si es asi imprime 2

1


Estos condicionales pueden integrarse en `list comprehension` así como en `for` loops. En el código siguiente, la lista comprehensiva devuelve todas las cadenas de `sentence` que dentro posean algún verbo copulativo de la lista `copulative`:

In [33]:
sentence = ["La casa de mi amigo es linda", "El perro atacó la fiesta", "El covid parece malo",
            "Naruto quiere cambiarse de nombre", "El otaku no le canta a poño",
            "La incapacidad de hacer amigos"]
copulative = ["es", "ser", "tiene", "tener", "parecer", "parece"]

[s  # devuelve la oracion s
 for s in sentence # para cada oracion s en sentence
 for i in copulative # por cada elemento i en copulativa
 if i in s] # si el elemento en copulative i está presente en la oración s

['La casa de mi amigo es linda',
 'El perro atacó la fiesta',
 'El covid parece malo']

Las funciones `all()` y `any()` pueden usar en condicionales para evaluar si `todos` o `al menos 1` elemento revisado cumple una condición. Por ejemplo, en el código siguiente se evalúa si existen oraciones en `sentence` que cumplan la condición de `> 10` caracteres.

In [42]:
print(any(len(s) > 20 for s in sentence), ": al menos una oración es mayor a 20 caracteres")
print(all(len(s) > 20 for s in sentence), ": no todas las oraciones son mayores a 20 caracteres")

True : al menos una oración es mayor a 20 caracteres
False : no todas las oraciones son mayores a 20 caracteres


## Secuencias


## Ejercicios

**Develop a simple extractive summarization tool, that prints the sentences of a document which contain the highest total word frequency. Use FreqDist() to count word frequencies, and use sum to sum the frequencies of the words in each sentence. Rank the sentences according to their score. Finally, print the n highest-scoring sentences in document order. Carefully review the design of your program, especially your approach to this double sorting. Make sure the program is written as clearly as possible.**

In [None]:
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# carga las stopwords del ingles
stopword = nltk.corpus.stopwords.words('english')

# importa un texto en inglés
texto_prueba = nltk.corpus.brown.sents("cn07")

def more_freq(text):
  '''
  return more frequents words from a text tokenized in sentences
  type : string
  return: tupple
  '''
  text = [palabra.lower() for oracion in texto_prueba for palabra in oracion]
  conteo = [w 
            for w in text 
            if w.lower() not in stopword 
            and w.isalpha()]
  conteo_final = FreqDist(conteo)
  #maximo = conteo_final[conteo_final.max()]
  #ponderado = [round((conteo_final[w]/maximo), 2) for w in conteo_final.keys()]
  return conteo_final
 
def weigth_sentence(text):
  text = text.lower()
  text = re.findall(r'.', text)
  

more_freq(texto_prueba)
#summarization(texto_prueba)

#type(texto_prueba)

NameError: ignored

In [None]:

[palabra.lower() for oracion in texto_prueba for palabra in oracion]
[p.lower() for o in texto_prueba for p in o]

['the',
 'flat',
 ',',
 'hard',
 'cap',
 'was',
 'small',
 ',',
 'but',
 'he',
 'thrust',
 'it',
 'to',
 'the',
 'back',
 'of',
 'his',
 'head',
 '.',
 '``',
 'tie',
 'him',
 'up',
 "''",
 '.',
 '``',
 'hell',
 'with',
 'it',
 "''",
 '.',
 'before',
 'they',
 'could',
 'guess',
 'his',
 'intention',
 'rankin',
 'stepped',
 'forward',
 'and',
 'swung',
 'the',
 "guard's",
 'own',
 'gun',
 'against',
 'the',
 'uncovered',
 'head',
 ',',
 'hard',
 '.',
 'the',
 'man',
 'went',
 'over',
 'without',
 'sound',
 ',',
 'falling',
 'to',
 'the',
 'bare',
 'floor',
 '.',
 'barton',
 'said',
 'harshly',
 ',',
 '``',
 'why',
 'did',
 'you',
 'do',
 'that',
 "''",
 '?',
 '?',
 'rankin',
 'sneered',
 'at',
 'him',
 '.',
 '``',
 'what',
 'did',
 'you',
 'want',
 'me',
 'to',
 'do',
 ',',
 'kiss',
 'him',
 '?',
 '?',
 'he',
 'dumped',
 'me',
 'in',
 'solitary',
 'twice',
 "''",
 '.',
 'barton',
 'caught',
 'the',
 'lighter',
 "man's",
 'shoulder',
 'and',
 'swung',
 'him',
 'around',
 '.',
 '``',
 "le