# **Análisis automático de textos en Humanidades**
### Javier Vera Zúñiga, jveraz@pucp.edu.pe

### **Repaso Python**

## 1. ¿Qué es Python?

**Python** es una forma organizada (una especie de juego) que nos permite a través de elementos, reglas e instrucciones ejecutar acciones en una máquina. Python puede dividirse en dos módulos:

- **Módulo de elementos básicos:** operadores, reglas, condiciones lógicas
- **Módulo de las variables:** el valor actual de las variables

Un **código** es esencialmente una **combinación de elementos básicos** que cambian el **valor actual de las variables.** 

In [31]:
## Un ejemplo, construyamos un código que elimine signos de puntación de un string

## string ejemplo
s = 'Sustantivo, Virgencita y Ramona son los gatos del zoológico de esta casa.'
## el valor actual de s está dado por su última ejecución

## ahorra borremos las comas
s = s.replace(',','')

In [32]:
## pueden notar que s cambió!
s

'Sustantivo Virgencita y Ramona son los gatos del zoológico de esta casa.'

In [33]:
## ahora, lo hacemos cambiar nuevamente para eliminar el punto
## ahorra borremos el punto
s = s.replace('.','')

In [35]:
## Finalmente, s tiene un último valor (suponiendo que este es el valor buscado)
s

'Sustantivo Virgencita y Ramona son los gatos del zoológico de esta casa'

**Ejercicio!**

Baje las palabras a minúscula, divida en tokens, cuente el número de tokens. Persiga el valor de las variables que use ¿Qué limitaciones observa?

In [None]:
## solución! s en minuscula + división tokens + contar tokens

## 2. Un poco sobre variables

Las **variables** tienen **dos características fundamentales:**
    
- Almacenan información temporalmente
- El tipo de información nos dice el tipo de la variable

Estas características se asignan de dos formas:
    
- Mediante la sintaxis "variable = información"; o
- Mediante las iteraciones con **for** (:O)

Existen variables de diversos tipos: números, strings, listas, diccionarios, valores de verdad.

**Ejercicio!**

Considere el string s = 'sustantivo'. Acceda sucesivamente a todos los caracteres. Use la variable **index.** ¿Qué valores toma esta variable? 

In [37]:
s = 'sustantivo'

for x in s:
    print(x)

s
u
s
t
a
n
t
i
v
o


In [38]:
index = 0
print(s[index])

s


In [39]:
index = 1
print(s[index])

u


## 3. Strings!

Los **strings** son una clase especial de variables, que permite representar secuencias de caracteres. Para nosotros, los strings son algo muy importante. Tienen diversas características interesantes:

- Los strings están ordenados!
- Es posible acceder a sus posiciones usando s[i], si **s** es el string, e **i** el índice.
- Las posiciones empiezan desde **0** hasta **len(s) - 1**.
- Podemos concatenar strings usando **+.**

**Ejercicio!**

Parta del string **s_vacio = ''.** Copie el string **s = 'sustantivo'** en **s_vacio** usando únicamente concatenaciones. 

In [53]:
s_vacio = s

In [54]:
s_vacio

'sustantivo'

In [46]:
s

'sustantivo'

In [47]:
s_vacio = s_vacio + s[0] 

In [48]:
s_vacio

'su'

In [49]:
## string vacío
s_vacio = ''

## agregamos caracteres
s_vacio = s_vacio + s[0]

In [50]:
s_vacio

's'

In [51]:
## agregamos caracteres
s_vacio = s_vacio + s[1]

In [52]:
s_vacio

'su'

## 4. Listas!

Las **listas** y los **strings** son esencialmente lo mismo. Los caracteres de un string se comportan como los elementos de una lista. Las listas tienen algunas características interesantes:

- Las listas están ordenadas!
- Es posible acceder a sus posiciones usando L[i], si **L** es el string, e **i** el índice.
- Las posiciones empiezan desde **0** hasta **len(L) - 1**.
- Podemos concatenar strings usando **+.**

(Si notan, son las mismas caracerísticas de los strings!)

La única diferencia es que los elementos de una lista están separados por comas, mientras que en un string están uno al lado del otro. Otra gran diferencia es que los strings están formados por caracteres seleccionados en un conjunto finito, en cambio las listas están formadas por cualquier cosa. 

In [57]:
## Para agregar elementos, usamos el signo +

## lista inicial
L = []
print(len(L))

## agregamos un elemento
L = L + ['palabra']

0


In [61]:
## ¿Por qué el siguiente código genera un error?
L = L + 'palabra'

TypeError: can only concatenate list (not "str") to list

**Ejercicio!**

Parta de la lista **L = [].** Copie los caracteres del string **s = 'sustantivo'** como elementos en **L**. 

## 5. Un poco de lógica en Python!

Una parte esencial de Python es que podemos jugar con proposiciones lógicas, ya sean verdaderas o falsas. Existen operadores que nos permiten **preguntar** si una afirmación es verdadera o falsa:

- **in**
- **==**
- **>**
- **<**

Toda expresión lógica tiene **tres elementos:** dos que se comparan, y un operador central. El resultado de esto, siempre es **True** o **False.**

Existe otro operador importante: **not.** 

In [62]:
## algunos ejemplos

## números que se comparan
2 < 3

True

In [63]:
## más números
3 < 2

False

In [65]:
## una lista
'sustantivo' in ['sustantivo']

True

In [67]:
## otra lista
'sustantivo' in ['verbo','sustantivo']

True

In [68]:
## uso de not

## números
print(2 < 3)

## uso de not
print(not 2 < 3)

True
False


In [72]:
## uso de not en listas

## una lista
print('sustantivo' in ['sustantivo'])

## uso de not
print('sustantivo' not in ['sustantivo'])


True
False


## Ejercicio!

## Escriba un pequeño código que entregue True usando combinaciones de not, in, <, and

In [77]:
## proposición verdadera

('palabra' in ['palabra']) and (not 2 > 3)

True

In [78]:
('palabra' in ['palabra']) or (2 > 3)

True

Las condiciones lógicas deben usarse a nuestra conveniencia. En general, si queremos que algo ocurra en cierto caso, debemos expresar ese caso como algo que pueda ser **True** o **False.** Para esto usamos **if.** La escructura es siempre igual: **if** + proposición verdadera. La **proposición verdadera** se construye como hemos visto. 

In [81]:
if ('palabra' in ['palabra']) and (not 2 > 3):
    print('hola!')

hola!


In [110]:
## Ejercicio!

## elementos
L = ['palabra','palabra','otra palabra','otra otra palabra']

## lista vacía
Lu = []

## proposición P: un elemento de L no está en Lu

## agregue la palabra si P es verdadera

## :)

In [111]:
Lu

[]

In [112]:
## variable: la primera palabra, o token!
primer_token = L[0]

## agregamos primer_token a Lu
if primer_token not in Lu: ## algo = la variable primer_token no está en Lu
    Lu = Lu + [primer_token]

In [113]:
Lu

['palabra']

In [114]:
## variable: la primera palabra, o token!
segundo_token = L[1]

In [115]:
segundo_token not in Lu

False

In [116]:
## agregamos segundo_token a Lu
if segundo_token not in Lu:
    Lu = Lu + [segundo_token]

In [117]:
Lu

['palabra']

In [138]:
L

['palabra', 'palabra', 'otra palabra', 'otra otra palabra']

In [139]:
Lu = []

In [146]:
## indice!
index = 0 ## 0, 1, 2, 3 [0,1,2,3]

consulta = L[index]

## condición

if consulta not in Lu:
    Lu = Lu + [consulta]
else:
    print('no la agregamos porque ya está!')

In [147]:
Lu

['palabra', 'otra palabra', 'otra otra palabra']

Problema! ¿Qué pasa si L es una lista muuuuuuy grande? ¿De qué forma podemos **recorrer L**?

## 6. El famoso ciclo for, un caso de asignación sucesiva de variables

Supongamos que tenemos la lista 

In [82]:
L = ['palabra','palabra','otra palabra','otra otra palabra']

Y queremos copiar los elementos de L en otra lista Lu, sujetos a cierta condición. Una opción es ir uno a uno, en un proceso que puede ser tedioso. ¿Cómo resolvemos esto? En vez de hacer esto,

In [83]:
variable = 'palabra' ## (o variable = L[0])

luego

In [84]:
variable = 'palabra' ## (o variable = L[1])

luego

In [85]:
variable = 'otra palabra' ## (o variable = L[2])

...

Usamos **for**

In [149]:
L

['palabra', 'palabra', 'otra palabra', 'otra otra palabra']

In [157]:
## uso de for
for item in L:
    print(item)

## ¿Qué es item? ¿Cuál es su valor?

palabra
palabra
otra palabra
otra otra palabra


In [151]:
item

'otra otra palabra'

In [160]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [158]:
## uso de for
for indice in range(len(L)):
    print(L[indice])

palabra
palabra
otra palabra
otra otra palabra


In [161]:
L

['palabra', 'palabra', 'otra palabra', 'otra otra palabra']

In [172]:
Lu = []

In [173]:
consulta = 'casa'

In [174]:
## transformar este código usando for!

## la variable consulta "toma" valores en la lista
## L
for consulta in L:
    print(consulta)
    ## condición
    if consulta not in Lu:
        Lu = Lu + [consulta]

palabra
palabra
otra palabra
otra otra palabra


In [171]:
Lu

['palabra', 'otra palabra', 'otra otra palabra']

In [176]:
## lista vacía
Lu = []

## transformar este código usando índices!

## la variable consulta "toma" valores en la lista
## L
for indice in range(len(L)):
    ## elemento de L
    elemento = L[indice]
    ## condición
    if elemento not in Lu:
        Lu = Lu + [elemento]

In [177]:
Lu

['palabra', 'otra palabra', 'otra otra palabra']

In [90]:
## Ejercicio!

## Copie la lista L en otra lista L_copia usando un ciclo for

## lista vacía
L_copia = []

In [91]:
## Ejercicio! (observación! las listas se comportan igual que los strings)

## Copie el string s = 'sustantivo' en otro string s_copia usando un ciclo for

## string vacío
s_copia = ''

In [87]:
## Ejercicio!

## elementos
L = ['palabra','palabra','otra palabra','otra otra palabra']

## lista de palabras prohibidas!
Lp = ['otra palabra']

## Defina una nueva lista L_filtrada que tenga los elementos de L, 
## sin los elementos de Lp

## método! haganlo sin pensar

## sin pensar!
## ¿sirve partir con una lista vacía? Sí

L_filtrada = []

## sin pensar 2!
## ¿Sirve un ciclo for? Sí ...

for ...
    if ...

In [181]:
## solución :)

## elementos
L = ['palabra','palabra','otra palabra','otra otra palabra']

## lista de palabras prohibidas!
Lp = ['otra palabra']

## lista
L_filtrada = []

## queremos definir una nueva lista L_filtrada en donde no aparezcan 
## los elementos de Lp

## ¿Qué hacemos?
## recorremos la lista L
for elemento in L:
    ## condición: elemento no esté en Lp
    if elemento not in Lp:
        ## guardamos
        ## L_filtrada.append(elemento)
        L_filtrada = L_filtrada + [elemento]

In [182]:
L_filtrada

['palabra', 'palabra', 'otra otra palabra']

In [94]:
## Ejercicio! Contemos frecuencias!

## Identifique los types de la lista 
L = ['palabra','palabra','otra palabra','otra otra palabra']

## Cuente cuántas veces aparece cada elemento de Lt en L. 
## Use L.count(item)

In [183]:
## lista de types
Lt = []

## recorremos L
for elemento in L:
    ## condición
    if elemento not in Lt:
        Lt = Lt + [elemento]

In [184]:
Lt

['palabra', 'otra palabra', 'otra otra palabra']

In [186]:
L.count('otra palabra')

1

In [189]:
for elemento in Lt:
    print(elemento, L.count(elemento))

palabra 2
otra palabra 1
otra otra palabra 1


In [192]:
## ¿Dónde podemos almacenar estos resultados?

R = []

for elemento in Lt:
    
    R = R + [L.count(elemento)]

In [194]:
R, Lt

([2, 1, 1], ['palabra', 'otra palabra', 'otra otra palabra'])

In [92]:
## Ejercicio! Juntemos todo

## Identifique los types de la lista
L = ['palabra','palabra','otra palabra','otra otra palabra']

## Remueva los elementos que están en lista de elementos prohibidos
L_p = ['otra palabra']

In [93]:
## Ejercicio! Otra versión de juntar todo

## Identifique los types de la lista (remueva los signos de puntuación: use replace y no use replace)
L = ['palabra,','palabra.','otra palabra;','otra otra palabra']

## Remueva los elementos que están en lista de elementos prohibidos
L_p = ['otra palabra']

## problemas &#x1F916;!

In [28]:
## puede cambiar el nombre

archivo = open('funes el memorioso-borges.txt', 'r', encoding='utf-8')

In [29]:
## esta será la variable elegida!

archivo = archivo.read()

In [30]:
archivo

'Lo recuerdo (yo no tengo derecho a pronunciar ese verbo sagrado, solo un hombre en la tierra tuvo derecho y ese hombre ha muerto) con una oscura pasionaria en la mano, viéndola como nadie la ha visto, aunque la mirara desde el crepúsculo del día hasta el de la noche, toda una vida entera. Lo recuerdo, la cara taciturna y aindiada y singularmente remota, detrás del cigarrillo. Recuerdo (creo) sus manos afiladas de trenzador. Recuerdo cerca de esas manos un mate, con las armas de la Banda Oriental; recuerdo en la ventana de la casa una estera amarilla, con un vago paisaje lacustre. Recuerdo claramente su voz; la voz pausada, resentida y nasal del orillero antiguo, sin los silbidos italianos de ahora. Más de tres veces no lo vi; la última, en 1887… Me parece muy feliz el proyecto de que todos aquellos que lo trataron escriban sobre él; mi testimonio será acaso el más breve y sin duda el más pobre, pero no el menos imparcial del volumen que editarán ustedes. Mi deplorable condición de arg

Considere una lista un poco más grande

In [25]:
## nueva versión de L. Usamos .split(' ')
L = 'Lo recuerdo (yo no tengo derecho a pronunciar ese verbo sagrado, solo un hombre en la tierra tuvo derecho y ese hombre ha muerto) con una oscura pasionaria en la mano, viéndola como nadie la ha visto, aunque la mirara desde el crepúsculo del día hasta el de la noche, toda una vida entera.'.split(' ')

In [26]:
L

['Lo',
 'recuerdo',
 '(yo',
 'no',
 'tengo',
 'derecho',
 'a',
 'pronunciar',
 'ese',
 'verbo',
 'sagrado,',
 'solo',
 'un',
 'hombre',
 'en',
 'la',
 'tierra',
 'tuvo',
 'derecho',
 'y',
 'ese',
 'hombre',
 'ha',
 'muerto)',
 'con',
 'una',
 'oscura',
 'pasionaria',
 'en',
 'la',
 'mano,',
 'viéndola',
 'como',
 'nadie',
 'la',
 'ha',
 'visto,',
 'aunque',
 'la',
 'mirara',
 'desde',
 'el',
 'crepúsculo',
 'del',
 'día',
 'hasta',
 'el',
 'de',
 'la',
 'noche,',
 'toda',
 'una',
 'vida',
 'entera.']

En este caso, si queremos guardar los elementos en otra lista, al parecer, el trabajo manual parece interminable ¿Qué hacemos? **Python** nos ofrece la posibilidad de **recorrer** los elementos de una lista usando el hecho de que los elementos de la lista están ordenados. 

In [27]:
## una nueva lista vacía
l = []

In [58]:
## en vez de escribir

## paso 1
l = l + [L[0]]

## paso 2
l = l + [L[0]]

## y así sucesivamente

In [59]:
## usamos los ciclos for!

## una nueva lista vacía
l = []

## recorremos los elementos de L
for elemento in L:
    l = l + [elemento]

In [60]:
l

['Lo',
 'recuerdo',
 '(yo',
 'no',
 'tengo',
 'derecho',
 'a',
 'pronunciar',
 'ese',
 'verbo',
 'sagrado,',
 'solo',
 'un',
 'hombre',
 'en',
 'la',
 'tierra',
 'tuvo',
 'derecho',
 'y',
 'ese',
 'hombre',
 'ha',
 'muerto)',
 'con',
 'una',
 'oscura',
 'pasionaria',
 'en',
 'la',
 'mano,',
 'viéndola',
 'como',
 'nadie',
 'la',
 'ha',
 'visto,',
 'aunque',
 'la',
 'mirara',
 'desde',
 'el',
 'crepúsculo',
 'del',
 'día',
 'hasta',
 'el',
 'de',
 'la',
 'noche,',
 'toda',
 'una',
 'vida',
 'entera.']

¿Qué es **elemento**?

**Desafío!** Construya una nueva lista que incluya los elementos de **L** sin repeticiones. Por ejemplo, si L fuera [1,1,2]
la lista que buscamos sería [1,2]. 

**Desafío!** Construya una lista que contenga las frecuencias de todos los types de la lista **L.** ¿Cuáles son las palabras **más frecuentes**? ¿y **menos frecuentes**? ¿qué **aplicaciones** (desde su disciplina) podrían tener este tipo de cálculos?