# Leyendo y escribendo en un fichero
[Pablo A. Haya](https://pablohaya.com)

Hasta el momento hemos trabajado con textos que definíamos en el propio código empleando variables que inicializamos con una cadena de caracteres. En cambio, la mayor parte de los textos interesantes los encontramos en ficheros externos. `Python` incluye funciones que facilitan leer ficheros, y cargar el contenido en variables.

Las operaciones básicas para trabajar con el contenido de un fichero son:

1. Abrimos el fichero indicando la ruta donde se encuentra.
2. Leemos el texto, y lo almacenamos en una variable.

El siguiente código abre un fichero, guarda el contenido en la variable `text`, e imprime la longitud del mismo.

In [None]:
with open("corpus/pg320.txt") as file:
    text = file.read()
print(len(text))

El primer paso lo realizamos con la función `open()` conjuntamente con el comando `with`. Este último indica el ámbito donde el fichero se encuentra abierto. Fuera del `with`, el fichero se cierra, y no se puede trabajar con él hasta que no se vuelva a reabrir.

La ruta la podemos definir de manera absoluta o relativa. Las rutas absolutas especifican la localización del fichero desde la raiz de la unidad de disco. Por ejemplo, `C:\Users\pablo\documents\corpus\Lazarillo.txt`. En cambio, las rutas relativas parten desde el directorio donde se encuentra el propio _notebook_. Así, si el notebook está ubicado en `C:\Users\pablo\documents`, la ruta relativa del archivo sería `corpus\Lazarillo.txt`. 

Cuando el `notebook` que queremos abrir se encuentra en otra rama del árbol de directorios, se puede utilizar `..` para hacer referencia al directorio superior. Por ejemplo, si el bloc de notas se encuentra en `C:\Users\pablo\programas\analiza.ipynb`, para poder hacer referencia al fichero `Lazarillo.txt` pondríamos la ruta `..\corpus\Lazarillo.txt`.  

Con el fichero localizado, la manera más sencilla para leer el texto es mediante el método `read()` que permite leer **todo** el contenido del fichero, y volcarlo en una variable.

Una vez que tenemos una cadena de caracteres podemos realizar cualquiera de la manipulaciones que ya conocemos:

In [None]:
print(text[:100].upper())

El método `read()` permite limitar el número de caracteres que queremos leer.

In [None]:
with open("corpus/pg320.txt") as file:
    text = file.read(100)
print(len(text))
print(text)

Otra facilidad que nos aporta `Python` es leer línea a línea mediante el método `readlines()`

In [None]:
with open("corpus/pg320.txt") as file:
    lines = file.readlines()
print(lines[:10])

Como se puede comprobar el resultado que devuelve `readlines()` es una lista cuyos elementos son las líneas leidas. Estas líneas incluyen el caracter `\n` que indica el salto de líneas. Cuando aparece únicamente este caracter es que hemos leido una línea en blanco.  

**Prueba tú mismo** Imprime el número de líneas que tiene el fichero anterior.

---
**Para saber más**

Tanto el método `read()` como `readlines()` leen en memoria siempre todos los caracteres. En el caso de archivos muy voluminosos es posible que sea necesario manipularlos por partes. De esta manera, el número de caracteres que se cargan en memoria no supere un máximo durante toda la ejecución del programa.

El siguiente código permite pasar a mayúsculas un texto leyendo bloques de 1024 caracteres cada vez. También se podría haber utilizado `readlines()`. Recuerda que el parámetro `end` de la función `print()` evita que se descompoga el texto al eliminar el fin de línea.

In [None]:
with open('corpus/pg320.txt') as file:
    while True:
        s = file.read(1024)
        if not s:
            break
        print(s.upper(), end="")

---

De la misma manera que se puede leer de un fichero, se puede escribir el contenido de una cadena de caracteres en fichero nuevo con el método `write()`.

In [None]:
text = "Hola mundo!"
with open("resources/borra.me", "w") as file:
    file.write(text)

La sintaxis es similar añadiendo el parámetro `w` que indica que se crea un nuevo fichero, y se abre en modo escritura. Hay que tener en cuenta que si ya existiera un fichero con el mismo nombre se sobreesribe el contenido antiguo por el nuevo.

Para comprobar que hemos creado un nuevo archivo, leemos su contenido.

In [None]:
with open("resources/borra.me") as file:
    text = file.read()
print(text)

**Prueba tú mismo** Copia el contenido de un archivo de texto en otro archivo

**Prueba tú mismo** Cambia el modo de `w` a `a` y comprueba que en vez de sobreescribir se añade el contenido al final del fichero.

**Prueba tú mismo** a eliminar el parámetro `end` del código anterior, y mira como cambia la salida.

---
**Para saber más**

Por defecto, el modo en que se abre un fichero es lectura (`r` de read). No es necesario especificarlo en la función `open()` como hemos comprobado. Los otros dos modos son escritura (`w` de write), y añadir (`a` de append). Tanto `w` como `a` crean un nuevo fichero si no existería.

Otro modo avanzado es `x` que crea un nuevo fichero, y en caso de que ya existira notifica un error, y no permite seguir con la operación (al contrario que `w` que sobreescribe el contenido).

---

In [None]:
#"\n".join(list_of_lines)
# file.write(lines)


## Ejercicios

**1. Ejercicio** Leer un fichero e imprimirlo eliminando las líneas en blanco

In [None]:
with open("corpus/pg320.txt") as file:
    lines = file.readlines()
    print(len(lines))

new_lines = [line for line in lines if not line == "\n"]
print(len(new_lines))

**2. Ejercicio** Desarrollar un programa que devuelva los tokens de un fichero de texto. Se imprimirá un token por línea en el mismo orden que se leen. Crear una funcion `limpia()` que elimine todos los caracteres al principio y al final del token que no le pertenezcen. 

In [None]:
from string import whitespace
from string import punctuation

def limpia(s):
    return s.strip(punctuation + whitespace + "¿¡«»")

with open("corpus/pg320.txt") as file:
    texto = file.read()
    for token in texto.split()[200:220]:
        print(limpia(token))    

**3. Ejercicio** Ampliar el ejecicio anterior para que los tokens que se muestran sean únicos, y se muestren ordenados. Añadir una función adicional `normaliza()` que pase a mayúsculas el token una vez limpiado. Ademas, emplear la siguiente función `unique()`:

```
def sort-u(l):
    return(sorted(list(set(l))))
```

In [None]:
from string import whitespace
from string import punctuation

def limpia(s):
    return(s.strip(punctuation + whitespace + "¿¡«»"))

def normaliza(s):
    return(limpia(s).lower())

def unique(l):
    return(list(set(l)))

with open("corpus/pg320.txt") as file:
    texto = file.read()
    tokens = [normaliza(token) for token in texto.split()]
    tokens = sorted(unique(tokens))
    for token in tokens[-120:-100]:
        print(token)

**4. Ejercicio** Añadir al listado anterior el token original además del normalizado separado un espacio

In [None]:
from string import whitespace
from string import punctuation

def limpia(s):
    return(s.strip(punctuation + whitespace + "¿¡«»"))
           
def normaliza(s):
    return(limpia(s).lower())

def unique(l):
    return(list(set(l)))

with open("corpus/pg320.txt") as file:
    texto = file.read()
    
   # tokens = {normaliza(token):limpia(token) for token in texto.split()}
    tokens = {} 
    for token in texto.split():
        key = normaliza(token)
        if not key in tokens:
            tokens[key] = []
        tokens[key].append(limpia(token))
    
    for k,v in sorted(tokens.items()):
        print(k,unique(v))

**5. Ejercicio** Extraer todas las siglas de un texto (_palabras en mayúsculas_) en orden de aparición.

In [None]:
from string import whitespace
from string import punctuation

def limpia(s):
    return(s.strip(punctuation + whitespace + "¿¡«»"))
           
def normaliza(s):
    return(limpia(s).lower())

def unique(l):
    return(list(set(l)))

def es_mayuscula(c):
    return(c == c.upper())

def es_sigla(s):
    return(len(s) > 1 and 
           all([(es_mayuscula(c) or c == ".") and not c.isdigit() for c in s]))

with open("corpus/pg320.txt") as file:
    texto = file.read()
    tokens = [limpia(token) for token in texto.split()]
    tokens = sorted(unique(tokens))
    for token in tokens:
        if es_sigla(token):
            print(token)

**6. Ejercicio** Eliminar de un texto una serie de palabras prohibidas que se encuentran definidas en otro fichero.  

In [None]:
def limpia(s):
    return(s.strip(punctuation + whitespace + "¿¡«»"))
           
def normaliza(s):
    return(limpia(s).lower())

sentence = "En lugar de la Mancha de cuyo nombre no quiero acordarme"
with open("resources/spanish") as f:
    stopwords = [w.strip() for w in f.readlines()]
    newsentence = [w for w in sentence.split() if not normaliza(w) in stopwords]

print(sentence) 
print(" ".join(newsentence)) 

**7. Ejercicio** Extraer los lemas de un texto en orden de aparición. Emplear un fichero externo que contenga una relación de lemas y formas.

In [None]:
import csv
from string import punctuation
from string import whitespace

def limpia(s):
    return(s.strip(punctuation + whitespace + "¿¡«»"))
           
def normaliza(s):
    return(limpia(s).lower())

with open("resources/lemmatization-es.txt", encoding="utf-8-sig") as file:
    reader = csv.DictReader(file, delimiter='\t')

    formas = {}
    for row in reader:
        formas[row["forma"]] = row["lema"]
    
    with open("corpus/pg320.txt") as file:
        texto = file.read()
        
    for token in texto.split():
        token = normaliza(token)
        if token in formas.keys():
            print(formas[token].upper())
        else:
            print(token)

**8. Ejercicio** Leer el fichero XXX, y guardar en otro fichero todos la frecuencia de aparición de los términos ordenados de mayor a menor 