# Archivos de Texto

In [6]:
# Directorio en el que trabajaremos

CURR_DIR = "../data"
CURR_DIR

'../data'

Para usuarios de linux y mac

In [43]:
!ls "../data"

Shakespeare.txt  blakepoems.txt  my_text.txt  pc_rose.txt


In [44]:
#!dir "../data"

---

Uno de los usos más importantes de Python para el procesamiento de datos es la lectura, modificación y escritura de archivos de texto. Los datos a menudo se almacenan en archivos de texto porque estos se pueden transferir fácilmente entre diferentes programas. Existen varios formatos estandarizados para los archivos de texto, como los archivos de "valores separados por comas" (CSV o comma separated values). Python admite formatos de archivo de texto particulares mediante módulos, algunos de los cuales se discutirán más adelante. Este capítulo se centrará en abrir, leer, escribir y cerrar cualquier archivo de texto, independientemente del formato.

---

## Archivos de texto plano

Cuando los programadores se refieren a "archivos de texto" o "archivos de texto plano," se refieren a archivos donde todos los caracteres deben ser leídos como caracteres normales, como los que escribirías con un teclado. Por ejemplo, los archivos de programas de Python son archivos de texto plano, al igual que los archivos HTML. Sin embargo, los documentos de procesadores de texto no son archivos de texto plano, ni tampoco lo son las imágenes. Si quieres saber si un archivo es un archivo de texto o no, puedes intentar abrirlo en un editor de texto (como el editor IDLE que viene con Python). Si solo ves texto legible, es probable que el archivo sea un archivo de texto. De lo contrario, es un "archivo binario."

Los archivos de texto consisten en líneas de texto. Al final de una línea, hay un símbolo de "nueva línea," que en Python es el carácter "`\n`". Los diferentes sistemas operativos usan formas ligeramente diferentes de almacenar este carácter en un archivo de texto: algunos programas de Windows lo almacenan como un "retorno de carro" y también como "alimentación de línea" ("`\r\n`", a veces visto como un remanente de antiguas máquinas de escribir), mientras que en Linux siempre se almacena como un solo "`\n`". Siempre que accedas a un archivo desde Python como un archivo de texto normal, Python convertirá los caracteres que lee al estándar "`\n`", y viceversa cuando escriba. Por lo tanto, normalmente no tendrás que preocuparte por estas diferencias (excepto cuando necesites transferir archivos de texto entre sistemas operativos).

No obstante, si abres un archivo en otros editores, como el Bloc de Notas, a veces no interpreta correctamente los caracteres de fin de línea y muestra todo en una sola línea.

### Controladores y punteros de archivos (File handles and pointers)

Cuando trabajas con un archivo en un programa, necesitas abrirlo. Abrir un archivo proporciona lo que se llama un "manejador de archivos." Un manejador de archivos puede verse como un punto de acceso al archivo. Contiene un "puntero" que indica una ubicación específica en el archivo. Este puntero se utiliza al leer o escribir en el archivo. Por ejemplo, cuando lees el archivo, comienza a leer desde el puntero y mueve el puntero hacia adelante en el archivo.

Cuando abres un archivo, **el puntero se coloca en una ubicación específica del archivo**, dependiendo de cómo hayas abierto el archivo.

* Si has abierto el archivo solo para lectura, el puntero se coloca al principio del archivo.
* Lo mismo sucede cuando abres el archivo tanto para leer como para escribir.
* Si abres el archivo para "añadir" (es decir, para colocar nuevos datos al final del archivo), el puntero del archivo se colocará al final del archivo.
* Finalmente, si abres un archivo solo para escribir, el archivo se vacía completamente y el puntero del archivo se coloca al principio del archivo, ahora vacío. **texto en negrita**

Para crear un archivo nuevo (es decir, un archivo con un nombre que aún no existe), lo abres solo para "escritura."

Después de abrir el archivo, el manejador de archivos es el único punto de acceso al archivo. Todas las acciones que realizas en el archivo las haces como métodos para el manejador de archivos.

**Ten en cuenta que cualquier sistema operativo solo permite abrir un número limitado de archivos simultáneamente. Por lo tanto, deberías cerrar los archivos con los que ya no necesites trabajar.**

### Mover el puntero del archivo

El puntero del archivo, que indica dónde estás trabajando en un archivo, se mueve automáticamente. Por ejemplo, cuando lees 10 caracteres de un archivo, el puntero del archivo indica el primero de esos 10 caracteres y, mientras lee, se mueve 10 caracteres hacia adelante, por lo que su nueva posición es 10 caracteres más adelante en el archivo que antes. Cuando se trata de archivos de texto, los movimientos automáticos del puntero del archivo son exactamente lo que necesitas. Es posible colocar manualmente el puntero del archivo utilizando métodos específicos, pero estos métodos, en general, solo se usan al tratar con archivos binarios.

### Almacenamiento en memoria intermedia (Buffering)

Cuando haces cambios en los archivos, a menudo no se guardan en los archivos de inmediato. En su lugar, el sistema operativo **"almacena"** los cambios en la memoria y solo escribe estos búferes en los archivos reales cuando lo considera necesario. Puedes forzar el vaciado de los búferes cerrando un archivo. Los búferes también se vacían cuando el programa termina normalmente.

Sin embargo, cuando tu programa falla (por ejemplo, debido a un error en tiempo de ejecución), es posible que los búferes no se vacíen y que tus archivos no se actualicen hasta el punto en que ocurrió el error. Por lo tanto, no puedes confiar en el contenido del archivo al intentar depurar un programa.

### Programas de procesamiento de archivos

La mayoría de los programas que manejan archivos de texto siguen un proceso que, en un bucle:

- lee el contenido de un archivo,
- procesa este contenido de alguna manera,
- y luego escribe el contenido en otro archivo.

Por ejemplo, un programa puede leer líneas de un archivo de texto y, para cada línea, ordenar las palabras, luego escribir las palabras ordenadas en otro archivo de texto. Esto no es muy diferente de un programa que pide al usuario que proporcione, en un bucle, una línea de texto, luego ordena las palabras en la línea y las muestra con la función `print()`.

Sin embargo, a menudo se experimenta como algo más complicado.

Aunque trabajar con archivos puede dar una sensación de falta de control, durante el desarrollo del programa siempre puedes incluir declaraciones `print()` para obtener una visión de lo que está haciendo el programa. Por ejemplo, cuando lee una línea, puedes imprimir esa línea, y cuando escribe una línea, también puedes imprimir esa línea. De esta manera, tu comprensión del funcionamiento interno del programa no es diferente, independientemente de si utilizas entradas manuales y salidas en pantalla, o entradas y salidas de archivos.

---

## Leyendo archivos de texto

Para leer el contenido de un archivo, primero debes abrirlo, luego leer el contenido, y después cerrarlo.

### Abriendo un archivo usando `open()`

Para abrir un archivo, utiliza la función `open()`.

La función `open()` recibe dos argumentos, el segundo de los cuales es opcional. El primer argumento es el nombre del archivo. Si el archivo no se encuentra en el directorio actual, debes incluir la ruta completa del archivo para que Python pueda encontrarlo. El segundo argumento es el "modo". El modo indica cómo deseas manejar el archivo. El modo predeterminado (que se elige cuando no proporcionas el segundo argumento) es abrir el archivo como un archivo de texto solo para lectura. Cómo establecer otros modos se comentará más adelante.

La función `open()` devuelve un identificador de archivo, que utilizas para todas las funcionalidades restantes.

En lugar de escribir "`<handle> = open(<filename>)`", a menudo verás programas de Python que lo escriben como "`open(<filename>) as <handle>`". El segundo método tiene una ventaja de la que hablaremos más adelante.

### Leyendo un archivo con `read()`

La manera más sencilla de leer el contenido de un archivo es utilizar el método `read()`, sin argumentos, en el controlador del archivo (handle). Esto devuelve una cadena que contiene el contenido completo del archivo. `read()` puede recibir un argumento, pero solo se usa para archivos binarios.

Leer un archivo mueve el puntero del archivo justo después de la parte que se ha leído. Esto significa que si utilizas el método `read()` sin argumentos, el puntero del archivo se moverá al final del archivo. Esto implica que si intentas usar `read()` por segunda vez, no se leería nada, ya que no queda nada por leer después del punto donde se encuentra el puntero del archivo.

In [12]:
#filepath = f"{CURR_DIR}/my_text.txt"
#f = open(filepath, "r") # handler
#print(f.read())

#alternativa para no tener que cerrarlo luego
with open(filepath, "r") as f:
    print(f.read())

Hello!
P
Y
T
H
O
N
This is Python


In [10]:
# f.close()

### Cerrar un archivo usando `close()`

Para cerrar un archivo, utiliza el método `close()` en el manejador del archivo. Cada archivo que abras deberías cerrarlo en algún momento de tu programa. Esto es especialmente cierto en estos cuadernos, ya que cada página de cuaderno se considera un programa completo; esto significa que si no cierras un archivo, permanecerá abierto incluso después de que termine el fragmento de código que ejecutaste.

Si todo lo que necesitas hacer con un archivo se realiza en un solo bloque, puedes escribir ese bloque de la siguiente manera:

     with open( <nom del fitxer> ) as <handle>:
         <declaraciones>
        
Esta construcción sintáctica tiene la ventaja de que el archivo se cerrará automáticamente después de que finalice el bloque `<declaraciones>`, por lo que no es necesario incluir una llamada explícita a `close()`. Esta construcción es típicamente de Python; no lo verás en muchos otros lenguajes de programación.

In [45]:
with open(filepath, "r") as f:
  print(f.read())

1609

THE SONNETS

by William Shakespeare



                     1
  From fairest creatures we desire increase,
  That thereby beauty's rose might never die,
  But as the riper should by time decease,
  His tender heir might bear his memory:
  But thou contracted to thine own bright eyes,
  Feed'st thy light's flame with self-substantial fuel,
  Making a famine where abundance lies,
  Thy self thy foe, to thy sweet self too cruel:
  Thou that art now the world's fresh ornament,
  And only herald to the gaudy spring,
  Within thine own bud buriest thy content,
  And tender churl mak'st waste in niggarding:
    Pity the world, or else this glutton be,
    To eat the world's due, by the grave and thee.


                     2
  When forty winters shall besiege thy brow,
  And dig deep trenches in thy beauty's field,
  Thy youth's proud livery so gazed on now,
  Will be a tattered weed of small worth held:
  Then being asked, where all thy beauty lies,
  Where all the treasure of thy lus

### Muestra el contenido de un archivo

Ahora que conocemos las primeras funciones y métodos para manejar archivos de texto, podemos mostrar algún código que lee el contenido de un archivo.

A continuación, puedes ver tres maneras de mostrar el contenido de archivos de texto.

In [17]:
filepath = f"{CURR_DIR}/Shakespeare.txt"    

In [13]:
# context manager
def display_contents_file(file_name):
    #fp = open(file_name, "r")
    with open( file_name ) as fp:
        buffer = fp.read()
    print( buffer )

display_contents_file(filepath)

Hello!
P
Y
T
H
O
N
This is Python


In [14]:
# text handler
def display_contents_file(file_name):
    fp = open(file_name, "r")
    #with open( file_name ) as fp:
    buffer = fp.read()
    print( buffer )
    fp.close()

display_contents_file(filepath)

Hello!
P
Y
T
H
O
N
This is Python


### Leyendo líneas usando `readline()`

---



Para leer un archivo de texto línea por línea, puedes usar el método `readline()`. El método `readline()` lee caracteres desde el puntero del archivo hasta el siguiente carácter de "nueva línea" (incluido), y los devuelve como una cadena. Puedes reconocer que has llegado al final del archivo por el hecho de que ya no se leen más caracteres, es decir, la cadena que se devuelve está vacía y, por lo tanto, hemos llegado al final del archivo.

In [17]:
def display_contents_file2(file_name):
    fp = open( file_name )
    while True:
        buffer = fp.readline()             
        if buffer == "":
            break     
        print( buffer )
    fp.close()
display_contents_file2(filepath)

#esto es cutre, porque es posible que nos encontremos líneas vacías en un texto
# fran no lo recomienda

Hello!

P

Y

T

H

O

N

This is Python


In [21]:
fp = open(filepath, "r")                                       
list_ = fp.readline()
print (list_)
#for line in line:
 #   print(line)

#print(fp.readline())
fp.close ()

1609



Ten en cuenta que la salida del código anterior tiene una línea en blanco entre cada una de las líneas que se muestran. ¿De dónde viene esta línea adicional? Piénsalo.

La línea adicional está ahí porque el método `readline()` devuelve una cadena de caracteres leídos, incluyendo el carácter de nueva línea. Así que, cuando se imprime el "buffer", también imprime un carácter de nueva línea. Y como la función `print()` también se mueve a una nueva línea después de ejecutarse, se imprime una línea en blanco después de cada línea de texto.

Una variación del método `readline()` es el método `readlines()`. `readlines()` lee todas las líneas del archivo y las devuelve como una lista de cadenas. Las cadenas incluyen los caracteres de nueva línea.

In [16]:
# readlines()
def display_contents_file(file_name):
    #with open( file_name ) as fp:
    fp = open(file_name, "r")
    buffer = fp.readlines()
    for line in buffer:
        print(line, end="")
    print(buffer)
    fp.close()

display_contents_file(filepath)

Hello!
P
Y
T
H
O
N
This is Python['Hello!\n', 'P\n', 'Y\n', 'T\n', 'H\n', 'O\n', 'N\n', 'This is Python']


### Cuándo y qué método de lectura de archivos utilizar

Tanto el método `read()` como `readlines()` leen un archivo completo a la vez. Obviamente, esto es aceptable para archivos pequeños, pero para archivos largos, es posible que no tengas suficiente memoria para almacenar el contenido del archivo de manera eficiente. En estas circunstancias (o cuando no conoces el tamaño del archivo), deberías leer un archivo línea por línea con el método `readline()`.

A menudo es una buena idea, durante el desarrollo del código, procesar solo las primeras líneas de un archivo. De esta manera, limitas la cantidad de tiempo que el programa necesita para procesar un archivo y reduces su salida, lo que facilita la depuración. Por ejemplo, el siguiente código procesa las primeras 10 líneas de uno de los archivos más largos.

In [18]:
def display_contents_file4(file_name):
    fp = open(file_name)
    count = 0
    while count < 10:
        buffer = fp.readline()
        if buffer == "":
            break
        print( buffer, end="" )
        count += 1
    fp.close()

display_contents_file4( filepath)

Hello!
P
Y
T
H
O
N
This is Python

Una vez que el programa esté finalizado y depurado, puedes eliminar las referencias a `count` y cambiar el bucle a `while True` para procesar todo el archivo.



### **Ejercicio 1** 

Comienza copiando el código anterior en el bloque de código de abajo. Luego, adáptalo para contar con qué frecuencia aparece la palabra "from" (en cualquier mayúscula) en todo el texto. Imprime solo el número de ocurrencias de esta palabra.

In [27]:
# escribe tu código aquí
# readlines()
# import re 
# readlines()
#import re

# Adaptar este codigo para que en cada linea cuente cuantos "From" distintos tengo.
# 1- Inicializar un contador_from a 0 fuera del FOR.
# 2- Para cada linea cuento cuantos From aparecen (funcion count de listas) y le sumo el resultado al contador. Como hay
# diferentes variantes de from (e.g. from, From, FROM, frOm), antes de contar, tendre que estandarizar todas las palabras
# convirtiendolas a minusculas. 
# 3- Printo el valor de contador.

def display_contents_file(file_name):
    #with open( file_name ) as fp:
    fp = open(file_name, "r") # --> Abro el fichero
    buffer = fp.readlines() # --> Leo las lineas y me las guardo en una lista. [ linea1, linea2, linea3, ..., lineaN]
    #print(buffer)
    #text = fp.read() # --> Esto nos guardaria todo el texto en una variable
    contador = 0
    for line in buffer: # --> Itero linea a linea
        line = line.lower().replace(",", "").replace(".", "").replace(":", "") # --> Esto no es lo mas eficiente, mejor usar el modulo "re"
        num_froms_line = line.count("from")
        contador = contador + num_froms_line # contador += num_froms_line

    print(f"La palabra 'from' aparece un total de {contador} veces")
    fp.close()


filepath = "../data/Shakespeare.txt"
display_contents_file(filepath)







La palabra 'from' aparece un total de 4 veces


### Escribiendo archivos de texto

Escribir un archivo de texto es similar a leer. Abres el archivo, escribes en él y lo cierras.

### Abrir un archivo para escribir

Para abrir un archivo para escribir, y solo para escribir, proporciona el valor "w" como segundo argumento a la función open(). Si el archivo aún no existe, se creará. Si existe, se borrará su contenido.

> **¡ATENCIÓN!** Cuando abres un archivo para escribir y ya existe, ¡su contenido se borra! No hay ningún mensaje de advertencia que diga "¿Estás seguro?" El archivo simplemente se vacía. Por lo tanto, debes tener mucho cuidado al abrir un archivo para escribir. Normalmente escribimos los programas de manera que primero se verifique si un archivo existe antes de abrirlo para escribir, y se muestra un mensaje de error si ya existe. Las funciones para verificar si un archivo existe se tratan más adelante en este notebook.

In [36]:
my_file=f"{CURR_DIR}/my_text.txt"

fp = open( my_file , "w" )
while True:
  text = input( "Please enter a line of text: " )
  if text == "":
    break
  fp.write( text )
fp.close()

Please enter a line of text:  puto el que lee
Please enter a line of text:  


In [None]:
fp = open( my_file )
buffer = fp.read()
fp.close()
print( buffer )

Hola!ABVV


Si ejecutaste el bloque anterior, te habrás dado cuenta de que todo el texto que introdujiste está en el archivo, pero todo está en una sola línea. No hay nuevas líneas entre medio. La razón es que debes escribir explícitamente los caracteres de nueva línea cuando quieras nuevas líneas en tu archivo. Presionar Enter no genera un carácter de nueva línea en la cadena que devuelve `input()`. Así que tienes que agregarlo manualmente a la cadena que estás escribiendo o codificarlo tú mismo, de hecho...

### Ejercicio 2
Adapta el código anterior de manera que cada línea de texto que introduzcas sea una línea independiente en el archivo que estás escribiendo.

In [None]:
# escribe tu código aquí

## Escribir utilizando writelines()

Usando el método writelines(), que toma una lista como argumento, puedes escribir una lista de cadenas de una sola vez. Cada una de las cadenas de la lista debe terminar con un carácter de nueva línea si deseas esos caracteres de nueva línea en el archivo de salida. `writelines()` es lo opuesto a `readlines()`; si usas la lista que `readlines()` devuelve como argumento para `writelines()`, el contenido del archivo de salida será exactamente el mismo que el contenido del archivo de entrada.

Ten en cuenta que no existe el método `writeline()` ya que sería exactamente lo mismo que el método `write()`.

### Ejercicio 3

Escribe un programa que lea el contenido de "pc_rose.txt" y escriba exactamente el mismo contenido en el archivo "pc_writetest.tmp". Luego, abre el archivo "pc_writetest.tmp" y visualiza el contenido. Puedes construir este programa fácilmente combinando partes del código que se han mostrado anteriormente.

In [63]:
# escribe tu código aquí
#
# 1. leer el contendio de pc_rose.txt y guardarlo en una variable data
#     puede ser con el metodo read y guardar como un str
# 2. guardar data en otro fichero .txt que se llame pc_writetext.txt
#

fp = open( "../data/pc_rose.txt" , "r" )
texto = fp.read()
fp.close()

fp_nuevo = open("pc_writetest.tmp", "w")
fp_nuevo.write(texto)
fp_nuevo.close()      #importante el close cada vez que se use el open
print(texto)

Tis but thy name that is my enemy.
Thou art thyself, though not a Montague.
What's Montague? it is nor hand, nor foot,
Nor arm, nor face, nor any other part
Belonging to a man. O, be some other name!
What's in a name? That which we call a rose
By any other name would smell as sweet.
So Romeo would, were he not Romeo call'd,
Retain that dear perfection which he owes
Without that title. Romeo, doff thy name;
And for that name, which is no part of thee,
Take all myself.


In [64]:
#solución de Fran

# escriu el teu codi aquíç

#PSEUDOCODIGO:

#1- Leer el contenido de pc_rose.txt y guardarmelo en una variable data--> read() 
#2- Guardar data en otro fichero txt que se llame pc_writetest.txt


rose_filename = f"{CURR_DIR}/pc_rose.txt"
temp_filename = f"{CURR_DIR}/pc_writetest.tmp" 

with open(rose_filename, "r") as read_file:
    with open(temp_filename, "w") as write_file:
        for line in read_file:
            write_file.write(line)




In [66]:
#versión de vanessa


input_file = "../data/pc_rose.txt"
output_file = "../data/pc_writetest.tmp"


with open(input_file, "r") as file:
    content = file.read()


with open(output_file, "w") as file:
    file.write(content)


with open(output_file, "r") as file:
    copied_content = file.read()


print("Content of 'pc_writetest.tmp':")
print(copied_content)

Content of 'pc_writetest.tmp':
Tis but thy name that is my enemy.
Thou art thyself, though not a Montague.
What's Montague? it is nor hand, nor foot,
Nor arm, nor face, nor any other part
Belonging to a man. O, be some other name!
What's in a name? That which we call a rose
By any other name would smell as sweet.
So Romeo would, were he not Romeo call'd,
Retain that dear perfection which he owes
Without that title. Romeo, doff thy name;
And for that name, which is no part of thee,
Take all myself.


### Ejercicio 4

Escribe un programa que lea el contenido de "pc_rose.txt", invierta cada una de las líneas y escriba las líneas invertidas en el archivo "pc_writetest_reverse.tmp". Luego, abre el archivo "pc_writetest_reverse.tmp" y visualiza el contenido.

In [15]:
# escribe tu código aquí

input_file = "../data/pc_rose.txt"
output_file = "../data/pc_ writetestreverse.tmp"

with open(input_file, "r") as read_file:
    lineas = read_file.readlines()
    with open(output_file, "w") as write_file:
      write_file.writelines(lineas[::-1])

        

<_io.TextIOWrapper name='../data/pc_ writetestreverse.tmp' mode='w' encoding='UTF-8'>


In [10]:
mystring = "Fran"
print(list(reversed(mystring)))
print("".join(reversed(mystring)))
print(mystring[::-1])
print(mystring[1:3])

['n', 'a', 'r', 'F']
narF
narF
ra


In [13]:



input_file = "../data/pc_rose.txt"
output_file = "../data/pc_ writetestreverse.tmp"


with open(input_file, "r") as read_file

SyntaxError: expected ':' (1732239187.py, line 5)

##  Adjuntando texto

"Adjuntar" (Appending) se refiere a escribir al final de un archivo existente. Cuando abres un archivo para continuar escribiendo, el contenido no se borra, pero el puntero del archivo se coloca al final del archivo, donde puedes escribir nuevos datos. Abres un archivo en modo de "adjuntar" utilizando "a" como argumento de modo al abrir el archivo.

El siguiente código primero muestra el contenido de "pc_writetest.tmp" (que debería existir ya). Luego, pide al usuario las líneas para adjuntar al archivo. Finalmente, muestra el contenido del nuevo archivo.

In [16]:
FILENAME = f"{CURR_DIR}/pc_writetest.tmp"
def displaycontents( filename ):
  fp = open( filename )
  print( fp.read() )
  fp.close()

displaycontents( FILENAME )

NameError: name 'CURR_DIR' is not defined

In [None]:
fp = open( FILENAME , "a" )
while True:
  text = input( "Please enter a line of text: " )
  if text == "":
    break
  fp.write( text+"\n" )
fp.close()

displaycontents( FILENAME )

## Sistema de archivos

El sistema de archivos de un ordenador consta de una organización estructurada en forma de árbol de directorios y archivos.



Hay un directorio "raíz", que es el punto de acceso principal para todos los demás directorios. El directorio raíz se identifica con una barra inclinada (`/`) o una barra invertida (`\`), dependiendo del sistema operativo. En Windows es una barra invertida, en Mac OS y Linux es una barra inclinada.

Sin embargo, ahora Windows también admite la barra inclinada. Es recomendable usar la barra inclinada en la mayoría de los casos, ya que en las cadenas, la barra invertida indica un símbolo especial, por lo que si quieres usar una barra invertida en una cadena como separador de directorios, debes usar una doble barra invertida (para poder escapar su uso reservado). Esto suele ser confuso, por lo que te recomiendo usar la barra inclinada.

"Debajo" del directorio raíz hay muchos otros directorios, cada uno identificado con un nombre, y normalmente también varios archivos, cada uno identificado con un nombre. Debajo de cada directorio puede haber más directorios y archivos.


Cada sistema operativo tiene ciertas restricciones sobre qué nombres de archivos y directorios se pueden utilizar, pero en general se admiten la mayoría de caracteres. Es convencional que los archivos normales tengan una extensión, que se coloca al final del nombre del archivo y se separa del nombre del archivo con un punto.

La extensión identifica qué tipo de archivo es, por ejemplo:

* un programa ejecutable (.exe),
* un archivo de texto plano (.txt), o
* un archivo Python (.py).

También es convencional que los nombres de directorios no tengan esta extensión. Sin embargo, esto no es una regla, y es posible que encuentres archivos sin extensión y directorios con extensión. **Ten en cuenta que en el entorno visual, las extensiones de los archivos a menudo están ocultas, pero están ahí; simplemente no las ves.**

**Para identificar de manera única un archivo, es necesario conocer su "ruta" exacta desde la raíz hasta el archivo, siguiendo los directorios.**

El nombre de la ruta del archivo es:

> `/<directorio>/<directorio>/.../<nombre del archivo>`.

En Windows, se puede colocar una letra de unidad delante de esta ruta, haciéndola:

> `<unidad>:/<directorio>/<directorio>/.../<nombre del archivo>`.

Por ejemplo, si en Windows, en la unidad "`C`", bajo la raíz hay un directorio "`Python34`", debajo del cual hay un directorio "`Lib`", en el que puedes encontrar un archivo "`os.py`", la ruta para este archivo es `C:/Python34/Lib/os.py`.

**En Windows, esta ruta no distingue entre mayúsculas y minúsculas, por lo que puedes usar letras minúsculas si lo deseas. Sin embargo, esto no es el caso en todos los sistemas operativos.**

Cuando trabajas en el sistema de archivos (y siempre estás trabajando en el sistema de archivos, aunque no te des cuenta), hay un "directorio actual", que se identifica con un punto (.). Si deseas acceder a un archivo en el directorio actual, no necesitas conocer la ruta completa; basta con saber el nombre del archivo. Un directorio "superior" al directorio actual (es decir, el directorio principal) se identifica con un doble punto (..). El directorio principal de la raíz es la raíz misma.

## Métodos de `os`

El módulo `os` admite muchas funciones que te permiten interactuar con el sistema de archivos. Mencionaremos solo algunas de ellas, ya que muchas son realmente un poco peligrosas de usar (puedes eliminar fácilmente archivos que querías conservar) y no las necesitas de todos modos. Si estás realmente interesado en manipular el sistema de archivos, puedes leer sobre las docenas de otras funciones que admite `os`.

### getcwd()

`getcwd()` devuelve el directorio de trabajo actual como una cadena de texto.

In [17]:
from os import getcwd
print(getcwd())

/home/jovyan/work/ESP


### chdir()

`chdir()` cambia el directorio de trabajo actual. El nuevo directorio se proporciona como una cadena de texto.

In [27]:
from os import getcwd , chdir
home = getcwd()
print( home )
chdir( ".." )
print( getcwd() )
chdir( home )
print( getcwd() )

c:\Users\alana.olivieri\Documents\CodeOp\2024\DSPP02\00-AAA\1-05-3-text-files\ESP
c:\Users\alana.olivieri\Documents\CodeOp\2024\DSPP02\00-AAA\1-05-3-text-files
c:\Users\alana.olivieri\Documents\CodeOp\2024\DSPP02\00-AAA\1-05-3-text-files\ESP


## Métodos de `os.path`

En este punto ya sabes todo lo que necesitas para gestionar archivos de texto en Python. Sin embargo, hay varias funciones útiles que te facilitan la vida cuando trabajas con archivos. Estas están recopiladas en el módulo `os.path`. Como es habitual, no las enumeraremos todas, pero mencionaremos las que más utilizarás.

En estas funciones, el término "ruta (path)" se refiere a un nombre de archivo o de directorio, junto con los directorios principales (y la letra de la unidad). Los directorios padres (y la letra de la unidad) no necesitan estar explícitamente, pero aunque no lo estén, implícitamente sí lo están, ya que cada archivo y cada directorio se encuentra en un lugar determinado del sistema de archivos.

### `exists()`

La función `exists()` recibe una ruta como argumento y devuelve `True` si esa ruta existe, y `False` si no.

In [28]:
from os.path import exists

def check_if_path_exists(file_name):
    if exists(file_name ):
        return( file_name + " exists" )
    else:
        return( file_name + " does not exist" )

print(check_if_path_exists("Shakespeare.txt")) # not in current directory
print(check_if_path_exists("my_text.txt")) # not in current directory

exists(f"{CURR_DIR}/Shakespeare.txt") # it is in our handcrafted path

Shakespeare.txt does not exist
my_text.txt does not exist


True

### `isfile()`

`isfile()` prueba si la ruta proporcionada como argumento es un archivo. Si lo es, devuelve "True". Si no lo es, devuelve "False". Si la ruta no existe, la función también devuelve `False`.

In [29]:
from os.path import isfile

def check_if_file_exists(file_name):
    if isfile( file_name ):
        return( file_name + " is a file" )
    else:
        return( file_name + " is not a file" )
    
print(check_if_file_exists("Shakespeare.txt"))

Shakespeare.txt is not a file


In [30]:
print(check_if_file_exists(f"{CURR_DIR}/Shakespeare.txt"))

C:/Users/alana.olivieri/Documents/CodeOp/2024/DSPP02/00-AAA/1-05-3-text-files/data/Shakespeare.txt is a file


### `isdir()`

`isdir()` prueba si la ruta proporcionada como argumento es un directorio. Si lo es, devuelve "True". Si no lo es, devuelve "False". Si la ruta no existe, la función también devuelve `False`.

In [31]:
from os.path import isdir

def check_if_path_is_dir(file_name):
    if isdir( file_name):
        print( file_name + " Sheakspeare is a directory" )
    else:
        print(file_name + " is not a directory" )
        
check_if_path_is_dir(filepath)

C:/Users/alana.olivieri/Documents/CodeOp/2024/DSPP02/00-AAA/1-05-3-text-files/data/Shakespeare.txt is not a directory


In [32]:
check_if_path_is_dir(CURR_DIR)

C:/Users/alana.olivieri/Documents/CodeOp/2024/DSPP02/00-AAA/1-05-3-text-files/data Sheakspeare is a directory


### `basename()`

`basename()` extrae el nombre del archivo de una ruta y lo devuelve.

In [33]:
from os.path import basename

print("Real path:\t",filepath)
print("Basename:\t", basename( filepath ) )

Real path:	 C:/Users/alana.olivieri/Documents/CodeOp/2024/DSPP02/00-AAA/1-05-3-text-files/data/Shakespeare.txt
Basename:	 Shakespeare.txt


### `dirname()`

`dirname()` extrae el nombre del directorio de una ruta y lo devuelve.

In [34]:
from os.path import dirname

print("dirname:\t", dirname(filepath ) )

dirname:	 C:/Users/alana.olivieri/Documents/CodeOp/2024/DSPP02/00-AAA/1-05-3-text-files/data


### `join()`

`join()` toma una o más partes de una ruta como argumento y las concatena de manera inteligente en un nombre "legal" para una ruta. Esto significa que agregará y eliminará barras según sea necesario. `join()` es especialmente útil en combinación con `listdir()`.

La razón por la cual `join()` es útil con `listdir()` es que `listdir()` da como resultado una lista de nombres de archivos que no incluyen los nombres de los directorios.

Normalmente, cuando solicitas una lista de nombres de archivos, tienes la intención de abrirlos en algún momento. Pero para abrir un archivo que no está en el directorio actual, necesitas conocer el nombre completo de la ruta que lleva al archivo. Cuando aplicas `listdir()`, sabes dónde estás buscando los archivos, por lo que conoces los elementos del nombre de la ruta.

Para construir el nombre de ruta completo para cada archivo, debes concatenar los elementos del nombre de la ruta con el nombre del archivo. En lugar de intentar decidir dónde debes agregar barras y qué tipo de barras deben ser, puedes dejarlo todo a la función `join()`.

El siguiente código busca todos los archivos en el directorio actual y los enumera, incluyendo su nombre de ruta completo. Observa cómo se utiliza `join()` para construir este nombre de ruta a partir del directorio actual y el nombre del archivo.

In [37]:
from os import listdir , getcwd
from os.path import join

def print_paths(dir_path):
  filelist = listdir( dir_path )

  if dir_path == ".":
    dir_path = getcwd()
 
  for name in filelist:
    pathname = join( dir_path, name )
  print( pathname )

print_paths(".")



c:\Users\alana.olivieri\Documents\CodeOp\2024\DSPP02\00-AAA\1-05-3-text-files\ESP\README.md


In [None]:
import os
#string_que_representa_ruta = "C:/Users/Fran/..."
path_donde_estoy_ahora = os.getcwd()
print(path_donde_estoy_ahora)
#path_test = path_donde_estoy_ahora + "/test"
path_test = os.path.join(path_donde_estoy_ahora, "test", "example.txt")
print(path_test)
path_test = os.path.join(path_donde_estoy_ahora, "data")
print(path_test)

In [36]:
print_paths(dirname(filepath))

C:/Users/alana.olivieri/Documents/CodeOp/2024/DSPP02/00-AAA/1-05-3-text-files/data\Shakespeare.txt


### `getsize()`

`getsize()` obtiene el tamaño del archivo que se proporciona como argumento y lo devuelve como un número entero. El archivo debe existir, de lo contrario obtendrás un error de ejecución.

In [39]:
filepath

'C:/Users/alana.olivieri/Documents/CodeOp/2024/DSPP02/00-AAA/1-05-3-text-files/data/Shakespeare.txt'

In [38]:
from os.path import getsize

numbytes = getsize( filepath )
print( numbytes )

6910


---

## Codificación de archivos

Los archivos de texto utilizan una "codificación", es decir, un sistema que prescribe cómo deben interpretarse los caracteres en los archivos. Esta codificación puede variar entre sistemas operativos. Puedes ver la codificación preferida que usa tu sistema con una llamada a `sys.getfilesystemencoding()`.

In [40]:
from sys import getfilesystemencoding

print( getfilesystemencoding() )

utf-8


Si lees un archivo de texto que usa una codificación diferente a la preferida por tu sistema de archivos, es posible que obtengas un "UnicodeDecodeError". Si recibes o no este error para un archivo en particular está relacionado con tu sistema operativo. Una consecuencia molesta de esto es que cuando trasladas el código de Python que lee un archivo a otro sistema, un archivo que tu código podía leer previamente puede causar que tu código se bloquee después del traslado.

Una manera sencilla de evitar este problema es añadiendo un parámetro adicional al abrir un archivo, que indique el mecanismo de codificación que deseas usar al leer el archivo. Puedes hacer esto agregando el parámetro "`encoding=<encodingname>`", donde `<encodingname`> es una cadena que puede tener una variedad de valores, de los cuales algunos son típicos:

    codificación ascii de 7 bits, admite caracteres con valores en el rango 00-7F
    codificación latin-1 de 8 bits, admite caracteres con valores en el rango 00-FF
    codificación mbcs de 2 bytes, que actualmente está siendo reemplazada por UTF-8
    codificación utf-8 de bytes variables

Normalmente, los archivos de texto se crean con la codificación "ascii" o "latin-1". Dado que `ascii` está incorporado en `latin-1`, puedes abrir cualquier archivo de texto de manera segura especificando `latin-1` como la codificación. Es posible que para los caracteres más allá del rango `ascii`, obtengas caracteres diferentes a los que la persona que creó el archivo quería que vieras, esto depende del mecanismo de codificación que utilice tu sistema de archivos. Pero al menos se evita el `UnicodeDecodeError`.

Ten en cuenta que, aunque `utf-8` admite un rango de caracteres mucho más amplio que `latin-1`, aún puedes obtener el `UnicodeDecodeError` al leer un archivo de texto que utiliza la codificación `latin-1` en un sistema que utiliza la `codificación utf-8`, ya que `utf-8` no tiene caracteres correspondientes con valores en el rango 80-FF.

Si quieres ver qué caracteres especiales se admiten con valores en el rango 80-FF en tu sistema, ejecuta el siguiente código. El valor numérico de un carácter en la tabla se puede derivar calculando `16*fila+col`, donde `fila` y `col` son el número hexadecimal de fila y columna, respectivamente. No muestro los caracteres del rango 80-9F, ya que normalmente no están ocupados.

In [41]:
for i in range(16):
    if i < 10:
        print( ' '+chr( ord( '0' )+i ), end='' )
    else:
        print( ' '+chr( ord( 'A' )+i-10 ), end='' )
print()
for i in range( 10, 16 ):
    print( chr( ord( 'A' )+i-10 ), end='' )
    for j in range( 16 ):
        c = i*16+j
        print( ' '+chr( c ), end='' )
    print()

 0 1 2 3 4 5 6 7 8 9 A B C D E F
A   ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯
B ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿
C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E à á â ã ä å æ ç è é ê ë ì í î ï
F ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ


---

## Ejercicios

### Ejercicio 5

Escribe un programa que lea el contenido del archivo "blakepoems.txt", lo divida en palabras (donde todo lo que no sea una letra se considera un límite de palabra) y cree un diccionario sin distinguir entre mayúsculas y minúsculas que almacene para cada palabra con qué frecuencia aparece en el texto. Luego, imprime todas las palabras con sus cantidades en orden alfabético.

In [47]:





# escriu el teu codi aquí

#"""
#PSEUDOCODIGO:
#1- Leer todo el texto del fichero y guardarmelo en variable "texto".
#2- Convertir todo el texto a minisculas, sustituir lo que no sean letras
#por espacios (--> Iterar letra a letra y comprobar si es letra o no 
#usando el metodo isalpha(), y dividir texto por espacios.
#3- Contar cuantas veces aparece cada palabra --> patron contador multiple
#4- Ordenar alfabeticamente.


#PARTES 1 y 2:
#1- Para guardarme todo el texto en una variable, tendre que abrir el fichero, 
#y usar el metodo read().
#2- Creo un string vacio para ir almacenando el texto limpio. texto_limpio = ""
#3- Itero sobre cada caracter del texto y voy mirando caracter a caracrter si 
#forma parte del alfabeto.
#--> Si forma parte del alfabeto, añado la letra al texto_limpio
#--> Si no forma parte del alfabeto, añado un espacio al texto_limpio
#4- Retorno el texto limpio
#"""

#PARTES 3 Y 4:
#partimos de un string, ahora me interesan las palabras, para contar cuántas veces aparece cada una

# 1 convertir el str a una lista de palabras
    # dividir el str usando los espacios como separadores --> fc split
        # esto devuelve lista con cada palabra

# 2 creo diccionario vacio para contar palabras = {}
    # si la palabra no es key, inicio contador contador_palabras[palabra] = 1
    # si la palbra ya es key, sumo 1 

# 3 itero sobre la lista, y para cada palabra

# 4 ordenar alfabéticamente.
    # convertir diccionario a lista y ordenar con sort(key=???)




# Comptant paraules en blakepoems.txt.
fp = open( "../data/blakepoems.txt")

texto = fp.read().lower()
texto_limpio = ""

for caracter in texto:
    if caracter.isalpha():
        texto_limpio += caracter
    else:
        texto_limpio += " "

fp.close()
# print(texto_limpio)


texto_separado = texto_limpio.split(" ")

lista_final = []
for palabra in texto_separado:
    if palabra != "" and palabra != " ":
        lista_final.append(palabra)

dict_palabras = {}
for palabra in lista_final:
    if palabra not in dict_palabras:
        dict_palabras[palabra] = 1
    else:
        dict_palabras[palabra] += 1

#dict_palabras_ordenado = dict(sorted(key)(dict_palabras.items()))


dict_ordenado = dict(sorted(dict_palabras.items(), key=lambda item: item[0]))
dict_ordenado2 = dict(sorted(dict_palabras.items(), key=lambda item: item[1]))
print(dict_ordenado)

print("  ")
    
print(dict_ordenado2)

{'a': 128, 'about': 1, 'abroad': 1, 'abstract': 1, 'ache': 1, 'admired': 1, 'adona': 1, 'afar': 1, 'affright': 1, 'after': 2, 'again': 3, 'against': 1, 'age': 2, 'aged': 1, 'agree': 1, 'ah': 7, 'air': 6, 'airy': 1, 'alas': 1, 'albion': 1, 'ale': 1, 'alehouse': 1, 'all': 39, 'allay': 1, 'alone': 1, 'altar': 1, 'always': 1, 'am': 16, 'ambush': 1, 'among': 8, 'an': 21, 'ancient': 3, 'and': 348, 'angel': 9, 'angels': 2, 'angry': 2, 'annoy': 1, 'another': 8, 'answer': 2, 'answerd': 3, 'answered': 2, 'anvil': 1, 'anxious': 1, 'any': 3, 'appall': 1, 'appals': 1, 'apparel': 1, 'appear': 2, 'appeared': 1, 'appears': 1, 'appendix': 1, 'apple': 1, 'are': 25, 'arise': 9, 'arm': 2, 'armed': 4, 'arms': 1, 'arose': 1, 'around': 5, 'arrow': 1, 'arrows': 1, 'art': 6, 'artful': 1, 'as': 16, 'ask': 2, 'asleep': 2, 'aspire': 2, 'astonish': 1, 'at': 7, 'author': 1, 'away': 24, 'awoke': 1, 'babe': 2, 'babes': 2, 'back': 3, 'bags': 2, 'baits': 1, 'balmy': 1, 'ban': 1, 'band': 1, 'bands': 2, 'bandy': 1, 'bane

In [53]:
# solución de FRAN
#PARTE 1

fp = open("../data/blakepoems.txt")
texto = fp.read()
fp.close()

#print(texto)

def solo_letras(texto):
    texto_limpio = ""
    texto_min = texto.lower()
    #print(texto_min)
    for caracter in texto_min:
        if caracter.isalpha():
            texto_limpio += caracter
        else:
            texto_limpio += " "

    return texto_limpio

#texto_limpio = solo_letras(texto)

def contar_palabras(texto):
    contador_palabras = {}
    for palabra in texto.split():
        if palabra not in contador_palabras:
            contador_palabras [palabra] = 1
        else:
            contador_palabras [palabra] += 1
    return contador_palabras

contador_palabras = contar_palabras(texto_limpio)

contador_palabras_tupla = list(contador_palabras.items())
contador_palabras_tupla.sort()
print(contador_palabras_tupla)

[('a', 128), ('about', 1), ('abroad', 1), ('abstract', 1), ('ache', 1), ('admired', 1), ('adona', 1), ('afar', 1), ('affright', 1), ('after', 2), ('again', 3), ('against', 1), ('age', 2), ('aged', 1), ('agree', 1), ('ah', 7), ('air', 6), ('airy', 1), ('alas', 1), ('albion', 1), ('ale', 1), ('alehouse', 1), ('all', 39), ('allay', 1), ('alone', 1), ('altar', 1), ('always', 1), ('am', 16), ('ambush', 1), ('among', 8), ('an', 21), ('ancient', 3), ('and', 348), ('angel', 9), ('angels', 2), ('angry', 2), ('annoy', 1), ('another', 8), ('answer', 2), ('answerd', 3), ('answered', 2), ('anvil', 1), ('anxious', 1), ('any', 3), ('appall', 1), ('appals', 1), ('apparel', 1), ('appear', 2), ('appeared', 1), ('appears', 1), ('appendix', 1), ('apple', 1), ('are', 25), ('arise', 9), ('arm', 2), ('armed', 4), ('arms', 1), ('arose', 1), ('around', 5), ('arrow', 1), ('arrows', 1), ('art', 6), ('artful', 1), ('as', 16), ('ask', 2), ('asleep', 2), ('aspire', 2), ('astonish', 1), ('at', 7), ('author', 1), ('a

### Ejercicio 6

Haz lo mismo que hiciste en el ejercicio anterior, pero ahora procesa el texto línea por línea. Esto es algo que deberías hacer si tuvieras que procesar un texto muy largo (como es el caso).

In [None]:
# Contando palabras línea por línea.

# escribe tu código aquí

### Ejercicio 7 (Opcional)

En este directorio encontrarás un archivo `blakepoems.txt`. Escribe un programa que procese el contenido de este archivo, línea por línea. Crea un archivo de salida en el directorio de trabajo actual llamado `blkpms.txt`, que tenga el mismo contenido que `blakepoems.txt`, excepto que se eliminen todas las vocales (sin distinguir entre mayúsculas y minúsculas). Al final, muestra cuántos caracteres has leído y cuántos caracteres has escrito. Si deseas comprobar el contenido de `blkpms.txt`, puedes abrirlo en un editor de texto o mostrar las primeras 10 líneas al final de tu programa.

In [None]:
# Eliminando vocales.

# escribe tu código aquí

---