# Python para Lingüistas

Notebook 5: Archivos

Alejandro Ariza

Universitat de Barcelona 2022

### Strings, Listas, Diccionarios

En este notebook vamos a continuar la última práctica acerca de strings, listas y diccionarios para extraer estadísticas básicas de los textos.

Sin embargo, ahora vamos a usar ficheros de texto en vez de variables fijas.


In [2]:
# Para leer un fichero, primero debemos abrirlo

# Comencemos abriendo el fichero "manel.txt"
# El fichero "manel.txt" se encuentra en la misma carpeta que este script, por lo que no la ruta relativa es sencilla
# Veamos la diferencia entre leer el fichero entero en un string y leerlo en una lista de string
with open('manel.txt', 'r', encoding='utf-8') as f: 
    manel_str = f.read()

with open('manel.txt', 'r', encoding='utf-8') as f_2:
    manel_list = f_2.readlines()

# Cuando cambiamos la indentación en Python con la función open(), Python cerrará el fichero automáticamente
# cuando termine la indentación y no podremos utilizar f o f_2 (porque el fichero no está abierto).
# Es importante cerrar los ficheros por lo que utilizar la estructura with open() as f: evitará que nos olvidemos
# de cerrarlo. Otra opción sería: f = open(...) y cuando terminemos de leerlo, cerrarlo con f.close()

print("El fichero leído como string")
print(manel_str)


El fichero leído como string
El gos devia bordar quan ha sortit, Teresa Rampell
No ho admetràs però et veus en el mirall
de l'ascensor i et trobes guapa
Uns amics fan sonar el clàxon
des de l'altra banda del carrer
S’obre un motor accelerant
sobre el Pont de Vallcarca
Que soni un rock’n’roll,
que abaixin les persianes tot els comerciants
Que hi hagi una conversa “tonta” sota una lluna clara
El barri dorm tranquil aliè a que hagi arribat el dia gran
La cara de la Teresa s'il•lumina
quan un cotxe ve de cara, ve de cara
Uns “macarres” us saluden al semàfor i somrius
I mentre arranquen el més “xulo”,
abans que se'l mengi la nit, et mira als ulls
I juraries que diu:
Que ve l'amor, que ve l'amor,
que ve l’amor resonant com un exèrcit de timbals
L'amor ja es va propagant com un incendi forestal
Teresa Rampell, avui l'amor, per fi, retorna a la ciutat
Camina decidida entre billars, Teresa Rampell
Detecta els foresters mentre t’apropes a la vostra taula
Desplaça tot el teu talent conscient dels

In [3]:
# Veamos los primeros 100 caracteres del fichero:
print(manel_str[:100])

# Observad como print() procesa el string y correctamente muestra los saltos de línea
# Si queremos ver el texto exáctamente con la forma que toma en el fichero, deberíamos utilizar la función repr()
# Como podéis ver el fichero es un string muy largo (una única línea). El carácter especial \n marca el salto de línea
print(repr(manel_str[:100]))


El gos devia bordar quan ha sortit, Teresa Rampell
No ho admetràs però et veus en el mirall
de l'asc
"El gos devia bordar quan ha sortit, Teresa Rampell\nNo ho admetràs però et veus en el mirall\nde l'asc"


In [4]:
# Ahora, veamos la versión en la que leemos el fichero como una lista de líneas
print(manel_list[:5])

['El gos devia bordar quan ha sortit, Teresa Rampell\n', 'No ho admetràs però et veus en el mirall\n', "de l'ascensor i et trobes guapa\n", 'Uns amics fan sonar el clàxon\n', "des de l'altra banda del carrer\n"]


In [5]:
# Finalmente, veamos cómo leer el fichero línea por línea con un bucle for

num_lines = 0

with open('manel.txt', 'r', encoding='utf-8') as f_3:
    for cur_line in f_3:
        # Aunque en este código solamente imprimimos el número de línea y la línea, en programas más avanzados
        # podríamos procesar el texto también (splitting, counting, etc)
        print("Imprimiento la línea número " + str(num_lines))
        print(cur_line)
        num_lines +=1

Imprimiento la línea número 0
El gos devia bordar quan ha sortit, Teresa Rampell

Imprimiento la línea número 1
No ho admetràs però et veus en el mirall

Imprimiento la línea número 2
de l'ascensor i et trobes guapa

Imprimiento la línea número 3
Uns amics fan sonar el clàxon

Imprimiento la línea número 4
des de l'altra banda del carrer

Imprimiento la línea número 5
S’obre un motor accelerant

Imprimiento la línea número 6
sobre el Pont de Vallcarca

Imprimiento la línea número 7
Que soni un rock’n’roll,

Imprimiento la línea número 8
que abaixin les persianes tot els comerciants

Imprimiento la línea número 9
Que hi hagi una conversa “tonta” sota una lluna clara

Imprimiento la línea número 10
El barri dorm tranquil aliè a que hagi arribat el dia gran

Imprimiento la línea número 11
La cara de la Teresa s'il•lumina

Imprimiento la línea número 12
quan un cotxe ve de cara, ve de cara

Imprimiento la línea número 13
Uns “macarres” us saluden al semàfor i somrius

Imprimiento la línea 

In [6]:
# La escritura de ficheros funciona de igual forma a lo visto en la teoría:
with open('test.txt', 'w', encoding='utf-8') as f_4:
    f_4.write("Un texto aquí")
    # El símbolo "\n" sirve para escribir un salto de línea
    f_4.write("\n")
    # También podemos utilizar una variable para escribir su contenido en el fichero
    str_to_write = "Otro texto que termina con un salto de línea.\n"
    f_4.write(str_to_write)
    
    # Podéis abrir el fichero con un editor de texto como notepad para ver lo que se ha escrito

Para el ejercicio de hoy, continuaremos trabajando con estadísticas de texto sencillas.

Usaremos el ejercicio de la semana pasada para leer un corpus, crear un vocabulario y contar las frecuencias de las palabras.

Sin embargo, en vez de usar un corpus predefinido en una lista, lo leeremos de un fichero de texto.

También pondremos requerimientos adicionales a la hora de contar caracteres.

In [7]:
# La siguiente función abrirá un fichero y lo leerá línea por línea.
# Hay 3 corpus disponibles en este laboratorio: "manel", "macbeth" y "quijote".

def readLineFromText(text):
    with open(text+'.txt', 'r', encoding='utf-8') as f:
        for line in f:
            yield line
            
# Observa el comportamiento de la función readLineFromText():
# Es el mismo que el ejemplo que vimos previamente.

for sentence in readLineFromText("manel"):
    print("Esto es una frase: ")
    print(sentence)

Esto es una frase: 
El gos devia bordar quan ha sortit, Teresa Rampell

Esto es una frase: 
No ho admetràs però et veus en el mirall

Esto es una frase: 
de l'ascensor i et trobes guapa

Esto es una frase: 
Uns amics fan sonar el clàxon

Esto es una frase: 
des de l'altra banda del carrer

Esto es una frase: 
S’obre un motor accelerant

Esto es una frase: 
sobre el Pont de Vallcarca

Esto es una frase: 
Que soni un rock’n’roll,

Esto es una frase: 
que abaixin les persianes tot els comerciants

Esto es una frase: 
Que hi hagi una conversa “tonta” sota una lluna clara

Esto es una frase: 
El barri dorm tranquil aliè a que hagi arribat el dia gran

Esto es una frase: 
La cara de la Teresa s'il•lumina

Esto es una frase: 
quan un cotxe ve de cara, ve de cara

Esto es una frase: 
Uns “macarres” us saluden al semàfor i somrius

Esto es una frase: 
I mentre arranquen el més “xulo”,

Esto es una frase: 
abans que se'l mengi la nit, et mira als ulls

Esto es una frase: 
I juraries que diu:

Es

In [8]:
# Utilizaremos las mismas funciones que creamos la semana pasada para imprimir y visualizar estadísticas del texto
# No las modifiquéis
import collections
import matplotlib.pyplot as plt
def mostCommonWords(d):
    c = collections.Counter(d)
    most = c.most_common(10)
    print('Rank\t\tWord\t\tFrequency')
    print('----\t\t----\t\t---------')
    for i,(w,f) in enumerate(most):
        print(str(i+1)+ '\t\t' + w + '\t\t' + str(f))

def plot(d):
    c = collections.Counter(d)
    most = c.most_common()
    plt.plot([x[1] for x in most])
    plt.grid()
    plt.xlabel('Rank (palabra)')
    plt.ylabel('Frequencia')
    
    


In [13]:
# Tarea 1

# Usa la función readLineFromText() para procesar el fichero de texto entero
# Cuando leas la frase, separa todas las palabras usando split() y guárdalas en una lista, similar a como lo hicimos
# en la Tarea 1 de la clase anterior

palabras = []
gen_lineas = readLineFromText('manel')
for linea in gen_lineas:
    palabras.append(linea.split())  # Lista de listas
    # palabras.extend(linea.split())

print(palabras)

[['El', 'gos', 'devia', 'bordar', 'quan', 'ha', 'sortit,', 'Teresa', 'Rampell'], ['No', 'ho', 'admetràs', 'però', 'et', 'veus', 'en', 'el', 'mirall'], ['de', "l'ascensor", 'i', 'et', 'trobes', 'guapa'], ['Uns', 'amics', 'fan', 'sonar', 'el', 'clàxon'], ['des', 'de', "l'altra", 'banda', 'del', 'carrer'], ['S’obre', 'un', 'motor', 'accelerant'], ['sobre', 'el', 'Pont', 'de', 'Vallcarca'], ['Que', 'soni', 'un', 'rock’n’roll,'], ['que', 'abaixin', 'les', 'persianes', 'tot', 'els', 'comerciants'], ['Que', 'hi', 'hagi', 'una', 'conversa', '“tonta”', 'sota', 'una', 'lluna', 'clara'], ['El', 'barri', 'dorm', 'tranquil', 'aliè', 'a', 'que', 'hagi', 'arribat', 'el', 'dia', 'gran'], ['La', 'cara', 'de', 'la', 'Teresa', "s'il•lumina"], ['quan', 'un', 'cotxe', 've', 'de', 'cara,', 've', 'de', 'cara'], ['Uns', '“macarres”', 'us', 'saluden', 'al', 'semàfor', 'i', 'somrius'], ['I', 'mentre', 'arranquen', 'el', 'més', '“xulo”,'], ['abans', 'que', "se'l", 'mengi', 'la', 'nit,', 'et', 'mira', 'als', 'ull

In [17]:
# Tarea 2 
# Crea un vocabulario para los ficheros de texto, similar a como lo hicimos en la Tarea 2 de la clase anterior
# El vocabulario no debe depender del uso de mayúsculas o minúsculas ("SPAIN", "Spain" y "spain" corresponden a la
# misma entrada en el diccionario)
# Ignora las stopwords y no las añadas al vocabulario
# Por simplitud del ejercicio, consideraremos stopwords, aquellas palabras con longitud 3 o inferior
# De forma alternativa, cread una variable de tipo lista con stopwords y comprobad que la palabra no se encuentra en esa lista

sw = ['el', 'la']
vocab = []
gen_lineas = readLineFromText('manel')
for line in gen_lineas:
    for palabra in line.lower().split():
        if palabra not in vocab and len(palabra) > 3:
            vocab.append(palabra)
            
print(vocab)
    


['devia', 'bordar', 'quan', 'sortit,', 'teresa', 'rampell', 'admetràs', 'però', 'veus', 'mirall', "l'ascensor", 'trobes', 'guapa', 'amics', 'sonar', 'clàxon', "l'altra", 'banda', 'carrer', 's’obre', 'motor', 'accelerant', 'sobre', 'pont', 'vallcarca', 'soni', 'rock’n’roll,', 'abaixin', 'persianes', 'comerciants', 'hagi', 'conversa', '“tonta”', 'sota', 'lluna', 'clara', 'barri', 'dorm', 'tranquil', 'aliè', 'arribat', 'gran', 'cara', "s'il•lumina", 'cotxe', 'cara,', '“macarres”', 'saluden', 'semàfor', 'somrius', 'mentre', 'arranquen', '“xulo”,', 'abans', "se'l", 'mengi', 'nit,', 'mira', 'ulls', 'juraries', 'diu:', "l'amor,", 'l’amor', 'resonant', 'exèrcit', 'timbals', "l'amor", 'propagant', 'incendi', 'forestal', 'rampell,', 'avui', 'retorna', 'ciutat', 'camina', 'decidida', 'entre', 'billars,', 'detecta', 'foresters', 't’apropes', 'vostra', 'taula', 'desplaça', 'talent', 'conscient', 'dels', 'cadascun', 'moviments', 'ball', 'teus', 'malucs', 'balanceig', 'arracades', 'importen', 'tant',

In [23]:
vocab = set("la la la hola que tal".split())
other_sent = set('la hago hago yo'.split())
vocab.union(other_sent)

{'hago', 'hola', 'la', 'que', 'tal', 'yo'}

In [33]:
vocab = set()
gen_lineas = readLineFromText('manel')
# for line in gen_lineas:
#     palabras = [palabra for palabra in line.split() if len(palabra) > 3]
#     vocab = vocab.union(set(palabras))
    
vocab = set([palabra.lower() for line in gen_lineas for palabra in line.split() if len(palabra) > 3])
vocab

{'"cubates"',
 'abaixin',
 'abans',
 'accelerant',
 'admetràs',
 'aliè',
 'amaga',
 'amics',
 'antiga',
 'arracades',
 'arranquen',
 'arribat',
 'avui',
 'balanceig',
 'ball',
 'ballen',
 'banda',
 'barri',
 'billars,',
 'bordar',
 'brindis',
 'cadascun',
 'camina',
 'cantem',
 'cara',
 'cara,',
 'carrer',
 'ciutat',
 'clara',
 'clàxon',
 'comences',
 'comerciants',
 'conscient',
 'conversa',
 'cotxe',
 "d'homes",
 'decidida',
 'decidit',
 'dels',
 'desastres',
 'desplaça',
 'detecta',
 'devia',
 'diries',
 'discussió',
 'diu:',
 'dona',
 'dorm',
 'enemic',
 'entre',
 'entregaràs',
 'estressat',
 'exèrcit',
 'foradaràs',
 'forestal',
 'foresters',
 'força',
 'gavardina',
 'gent,',
 'gran',
 'guapa',
 'hagi',
 'hagis',
 'importen',
 'incendi',
 'interrompen',
 'joves',
 'juraries',
 "l'aigua",
 "l'altra",
 "l'amor",
 "l'amor,",
 "l'ascensor",
 'lluna',
 'lluny',
 'l’amor',
 'malucs',
 'mans',
 'mengi',
 'mentre',
 'milers',
 'minuts',
 'mira',
 'mirall',
 'motor',
 'moviments',
 'nit,',

In [36]:
# Tarea 3
# Calculad la frecuencia de las palabras de los ficheros de texto, similar la Tarea 3 de la clase anterior
# Usa el vocabulario de la Tarea 2, ignorando mayúsculas y minúsculas e ignorando stopwords

freq_dict = {}
gen_lineas = readLineFromText('manel')
for line in gen_lineas:
    for palabra in line.lower().split():
        if len(palabra) > 3:
            freq_dict[palabra] = freq_dict.get(palabra, 0) + 1

freq_dict

{'el': 13,
 'gos': 1,
 'devia': 1,
 'bordar': 1,
 'quan': 3,
 'ha': 5,
 'sortit,': 1,
 'teresa': 5,
 'rampell': 2,
 'no': 3,
 'ho': 1,
 'admetràs': 1,
 'però': 2,
 'et': 4,
 'veus': 1,
 'en': 2,
 'mirall': 1,
 'de': 12,
 "l'ascensor": 1,
 'i': 19,
 'trobes': 1,
 'guapa': 1,
 'uns': 3,
 'amics': 1,
 'fan': 1,
 'sonar': 1,
 'clàxon': 1,
 'des': 1,
 "l'altra": 1,
 'banda': 1,
 'del': 1,
 'carrer': 1,
 's’obre': 1,
 'un': 13,
 'motor': 1,
 'accelerant': 1,
 'sobre': 1,
 'pont': 1,
 'vallcarca': 1,
 'que': 20,
 'soni': 1,
 'rock’n’roll,': 1,
 'abaixin': 1,
 'les': 5,
 'persianes': 1,
 'tot': 2,
 'els': 5,
 'comerciants': 1,
 'hi': 3,
 'hagi': 2,
 'una': 4,
 'conversa': 1,
 '“tonta”': 1,
 'sota': 1,
 'lluna': 1,
 'clara': 1,
 'barri': 1,
 'dorm': 1,
 'tranquil': 1,
 'aliè': 1,
 'a': 8,
 'arribat': 1,
 'dia': 1,
 'gran': 1,
 'la': 9,
 'cara': 3,
 "s'il•lumina": 1,
 'cotxe': 1,
 've': 8,
 'cara,': 2,
 '“macarres”': 1,
 'us': 1,
 'saluden': 1,
 'al': 2,
 'semàfor': 1,
 'somrius': 1,
 'mentre': 

In [38]:
# Tarea 4
# Experimenta con el uso del diccionario Counter() de la librería collections
# A diferencia de un diccionario normal, un Counter() no devuelve error al intentar modificar una clave que no existe
# Por defecto, el valor para una clave nueva es 0
# Podéis crear un nuevo contados con el siguiente código
import collections
count = counts = collections.Counter()

# Re-haced la tarea 3 usando un diccionario Counter en vez de uno normal
gen_lineas = readLineFromText('manel')
for line in gen_lineas:
    for palabra in line.lower().split():
        if len(palabra) > 3:
            count[palabra] += 1
    
count

Counter({'el': 13,
         'gos': 1,
         'devia': 1,
         'bordar': 1,
         'quan': 3,
         'ha': 5,
         'sortit,': 1,
         'teresa': 5,
         'rampell': 2,
         'no': 3,
         'ho': 1,
         'admetràs': 1,
         'però': 2,
         'et': 4,
         'veus': 1,
         'en': 2,
         'mirall': 1,
         'de': 12,
         "l'ascensor": 1,
         'i': 19,
         'trobes': 1,
         'guapa': 1,
         'uns': 3,
         'amics': 1,
         'fan': 1,
         'sonar': 1,
         'clàxon': 1,
         'des': 1,
         "l'altra": 1,
         'banda': 1,
         'del': 1,
         'carrer': 1,
         's’obre': 1,
         'un': 13,
         'motor': 1,
         'accelerant': 1,
         'sobre': 1,
         'pont': 1,
         'vallcarca': 1,
         'que': 20,
         'soni': 1,
         'rock’n’roll,': 1,
         'abaixin': 1,
         'les': 5,
         'persianes': 1,
         'tot': 2,
         'els': 5,
         'comerc

In [41]:
# Tarea 5 (Avanzada)
# Normaliza las frecuencias
# Ahora cambiamos de frecuencias absolutas a frecuencias relativas por lo que cada frecuencia es el ratio de 
# ocurrencia de esa clave, con respecto al número total de ocurrencias en el corpus. Visualiza los nuevos resultados.
# 
# Pistas:
# - la frecuencia relativa de x = frecuencia absoluta x / suma de todas las frecuencias absolutas
# - No necesitáis sumar todas las frecuencias absolutas cada vez que calculáis una frecuencia relativa
#   Esto se debe a que es un valor constante. En su lugar, podéis calcularla una vez, guardarla en una variable y
#   reusarla.
import collections
count = counts = collections.Counter()

n_palabras = 0
gen_lineas = readLineFromText('manel')
for line in gen_lineas:
    for palabra in line.lower().split():
        if len(palabra) > 3:
            count[palabra] += 1
            n_palabras += 1
        
        
for key in count:
    count[key] /= n_palabras

count

Counter({'el': 0.03324808184143223,
         'gos': 0.0025575447570332483,
         'devia': 0.0025575447570332483,
         'bordar': 0.0025575447570332483,
         'quan': 0.0076726342710997444,
         'ha': 0.01278772378516624,
         'sortit,': 0.0025575447570332483,
         'teresa': 0.01278772378516624,
         'rampell': 0.005115089514066497,
         'no': 0.0076726342710997444,
         'ho': 0.0025575447570332483,
         'admetràs': 0.0025575447570332483,
         'però': 0.005115089514066497,
         'et': 0.010230179028132993,
         'veus': 0.0025575447570332483,
         'en': 0.005115089514066497,
         'mirall': 0.0025575447570332483,
         'de': 0.030690537084398978,
         "l'ascensor": 0.0025575447570332483,
         'i': 0.04859335038363171,
         'trobes': 0.0025575447570332483,
         'guapa': 0.0025575447570332483,
         'uns': 0.0076726342710997444,
         'amics': 0.0025575447570332483,
         'fan': 0.0025575447570332483,
      

In [43]:
sum(count.values())

1.000000000000003

In [44]:
abs(-32)

32