# Python para Lingüistas

Notebook 5: Archivos

Alejandro Ariza

Universitat de Barcelona 2022

### Strings, Listas, Diccionarios

En este notebook vamos a continuar la última práctica acerca de strings, listas y diccionarios para extraer estadísticas básicas de los textos.

Sin embargo, ahora vamos a usar ficheros de texto en vez de variables fijas.


In [None]:
# Para leer un fichero, primero debemos abrirlo

# Comencemos abriendo el fichero "manel.txt"
# El fichero "manel.txt" se encuentra en la misma carpeta que este script, por lo que no la ruta relativa es sencilla
# Veamos la diferencia entre leer el fichero entero en un string y leerlo en una lista de string
with open('manel.txt', 'r', encoding='utf-8') as f: 
    manel_str = f.read()

with open('manel.txt', 'r', encoding='utf-8') as f_2:
    manel_list = f_2.readlines()

# Cuando cambiamos la indentación en Python con la función open(), Python cerrará el fichero automáticamente
# cuando termine la indentación y no podremos utilizar f o f_2 (porque el fichero no está abierto).
# Es importante cerrar los ficheros por lo que utilizar la estructura with open() as f: evitará que nos olvidemos
# de cerrarlo. Otra opción sería: f = open(...) y cuando terminemos de leerlo, cerrarlo con f.close()

print("El fichero leído como string")
print(manel_str)


In [None]:
# Veamos los primeros 100 caracteres del fichero:
print(manel_str[:100])

# Observad como print() procesa el string y correctamente muestra los saltos de línea
# Si queremos ver el texto exáctamente con la forma que toma en el fichero, deberíamos utilizar la función repr()
# Como podéis ver el fichero es un string muy largo (una única línea). El carácter especial \n marca el salto de línea
print(repr(manel_str[:100]))


In [None]:
# Ahora, veamos la versión en la que leemos el fichero como una lista de líneas
print(manel_list[:5])

In [None]:
# Finalmente, veamos cómo leer el fichero línea por línea con un bucle for

num_lines = 0

with open('manel.txt', 'r', encoding='utf-8') as f_3:
    for cur_line in f_3:
        # Aunque en este código solamente imprimimos el número de línea y la línea, en programas más avanzados
        # podríamos procesar el texto también (splitting, counting, etc)
        print("Imprimiento la línea número " + str(num_lines))
        print(cur_line)
        num_lines +=1

In [None]:
# La escritura de ficheros funciona de igual forma a lo visto en la teoría:
with open('test.txt', 'w', encoding='utf-8') as f_4:
    f_4.write("Un texto aquí")
    # El símbolo "\n" sirve para escribir un salto de línea
    f_4.write("\n")
    # También podemos utilizar una variable para escribir su contenido en el fichero
    str_to_write = "Otro texto que termina con un salto de línea.\n"
    f_4.write(str_to_write)
    
    # Podéis abrir el fichero con un editor de texto como notepad para ver lo que se ha escrito

Para el ejercicio de hoy, continuaremos trabajando con estadísticas de texto sencillas.

Usaremos el ejercicio de la semana pasada para leer un corpus, crear un vocabulario y contar las frecuencias de las palabras.

Sin embargo, en vez de usar un corpus predefinido en una lista, lo leeremos de un fichero de texto.

También pondremos requerimientos adicionales a la hora de contar caracteres.

In [None]:
# La siguiente función abrirá un fichero y lo leerá línea por línea.
# Hay 3 corpus disponibles en este laboratorio: "manel", "macbeth" y "quijote".

def readLineFromText(text):
    with open(text+'.txt', 'r', encoding='utf-8') as f:
        for line in f:
            yield line
            
# Observa el comportamiento de la función readLineFromText():
# Es el mismo que el ejemplo que vimos previamente.

for sentence in readLineFromText("manel"):
    print("Esto es una frase: ")
    print(sentence)

In [None]:
# Utilizaremos las mismas funciones que creamos la semana pasada para imprimir y visualizar estadísticas del texto
# No las modifiquéis
import collections
import matplotlib.pyplot as plt
def mostCommonWords(d):
    c = collections.Counter(d)
    most = c.most_common(10)
    print('Rank\t\tWord\t\tFrequency')
    print('----\t\t----\t\t---------')
    for i,(w,f) in enumerate(most):
        print(str(i+1)+ '\t\t' + w + '\t\t' + str(f))

def plot(d):
    c = collections.Counter(d)
    most = c.most_common()
    plt.plot([x[1] for x in most])
    plt.grid()
    plt.xlabel('Rank (palabra)')
    plt.ylabel('Frequencia')
    
    


In [None]:
# Tarea 1

# Usa la función readLineFromText() para procesar el fichero de texto entero
# Cuando leas la frase, separa todas las palabras usando split() y guárdalas en una lista, similar a como lo hicimos
# en la Tarea 1 de la clase anterior

In [None]:
# Tarea 2 
# Crea un vocabulario para los ficheros de texto, similar a como lo hicimos en la Tarea 2 de la clase anterior
# El vocabulario no debe depender del uso de mayúsculas o minúsculas ("SPAIN", "Spain" y "spain" corresponden a la
# misma entrada en el diccionario)
# Ignora las stopwords y no las añadas al vocabulario
# Por simplitud del ejercicio, consideraremos stopwords, aquellas palabras con longitud 3 o inferior
# De forma alternativa, cread una variable de tipo lista con stopwords y comprobad que la palabra no se encuentra en esa lista


In [None]:
# Tarea 3
# Calculad la frecuencia de las palabras de los ficheros de texto, similar la Tarea 3 de la clase anterior
# Usa el vocabulario de la Tarea 2, ignorando mayúsculas y minúsculas e ignorando stopwords


In [None]:
# Tarea 4
# Experimenta con el uso del diccionario Counter() de la librería collections
# A diferencia de un diccionario normal, un Counter() no devuelve error al intentar modificar una clave que no existe
# Por defecto, el valor para una clave nueva es 0
# Podéis crear un nuevo contados con el siguiente código
import collections
count = counts = collections.Counter()

# Re-haced la tarea 3 usando un diccionario Counter en vez de uno normal

In [None]:
# Tarea 5 (Avanzada)
# Normaliza las frecuencias
# Ahora cambiamos de frecuencias absolutas a frecuencias relativas por lo que cada frecuencia es el ratio de 
# ocurrencia de esa clave, con respecto al número total de ocurrencias en el corpus. Visualiza los nuevos resultados.
# 
# Pistas:
# - la frecuencia relativa de x = frecuencia absoluta x / suma de todas las frecuencias absolutas
# - No necesitáis sumar todas las frecuencias absolutas cada vez que calculáis una frecuencia relativa
#   Esto se debe a que es un valor constante. En su lugar, podéis calcularla una vez, guardarla en una variable y
#   reusarla.