<img src="img/Recurso-26.png" width="200">

## TERCER MODULO - Ficheros

![logo](img/python_logo.png)

*Santiago Carrasco*


# Acceso a ficheros

## Ficheros

* *File* es un tipo de objeto predefinido en Python (*built-in*).
* Permite acceder a ficheros desde programas Python.
* Los ficheros son de un tipo especial:
    * Son *built-in*, pero no son ni *números*, ni *secuencias*, ni *mappings*. Tampoco responden a operadores en expresiones.
* La función *open* permite crear objetos de tipo fichero.

Formato general para abrir un fichero:

```
afile = open(filename, mode)
```

* *mode* es opcional. Por defecto, los ficheros se abren en modo lectura.
* Los datos leidos de un fichero siempre se obtienen en formato *string*. Lo mismo ocurre con escritura.
* Los ficheros se deben cerrar invocando *close* (liberación de recursos).

In [2]:
# Lectura desde fichero usando método 'read'. Devuelve todo el contenido del fichero.
mi_fichero = open('res/multiple_lines.txt')
print(mi_fichero.read())
mi_fichero.close()

Este fichero
contiene tres
lineas de texto.
Santiago Carrasco


In [3]:
# Lectura linea a linea a través del bucle 'for'.
mi_fichero = open('res/multiple_lines.txt')
for linea in mi_fichero:
    print(f"{linea}")
mi_fichero.close()

Este fichero

contiene tres

lineas de texto.

Santiago Carrasco


In [4]:
# leer de un archivo a una lista.
mi_fichero = open('res/multiple_lines.txt')
lineas = mi_fichero.readlines()
mi_fichero.close()

print(lineas)

['Este fichero\n', 'contiene tres\n', 'lineas de texto.\n', 'Santiago Carrasco']


- Resolución de paths independiente de plataforma

In [5]:
import os
ruta = os.path.join("res", "multiple_lines.txt")
print(ruta)

res\multiple_lines.txt


In [None]:
dataset_file_path = ["res","multiple_lines.txt"]
ruta = os.path.join(*dataset_file_path)
print(ruta)

* *close* autómatico con sentencia *with.* Esta es la forma habitual de leer de fichero en Python, context manager

In [6]:
with open(ruta) as mi_fichero:
    for linea in mi_fichero:
        print(linea, end= '')

Este fichero
contiene tres
lineas de texto.
Santiago Carrasco

* Se puede abrir varios ficheros en un mismo *with*.

In [7]:
#abrir varios ficheros en el mismo with
ruta1 = os.path.join("res", "one_line.txt")
ruta2 = os.path.join("res", "multiple_lines.txt")
with open(ruta1) as fichero1, open(ruta2) as fichero2:
    print(fichero1.readlines())
    print(fichero2.readlines())

['Hola mundo desde un fichero aqui estamos en machine.']
['Este fichero\n', 'contiene tres\n', 'lineas de texto.\n', 'Santiago Carrasco']


## Modos de acceso

* Al crear un objeto de tipo *File* se puede espeficiar el modo de acceso (lectura/escritura).

| Modo Acceso | Descripción |
|:---------|:-----|
| r | Solo Lectura |
| w | Solo Escritura (Borra si el archivo ya existe) |
| x | Solo Escritura (Falla si el archivo ya existe) |
| a | Crea Fichero (Si existe lo abre y se añade al final) |
| r+ | Lectura y Escritura |
| b | Se puede añadir a otros modos para acceso binario
| t | Acceso para archivos de texto (default) |

## Acceso para escritura

In [8]:
def crear_lista(tamanyo):
    lista = []
    for i in range(tamanyo):
        lista.append(str(i) + '\n')
    return lista

ruta = os.path.join("res", "a_dummy.txt")
with open(ruta, 'wt') as fichero:
    fichero.write('Cabecera del ciclo del for en el ejemplo\n')
    lista = crear_lista(25)
    fichero.writelines(lista)
    print("archivo creado")

archivo creado


#### Buffering

* Por defecto, el texto que transfieres desde tu programa a un fichero no se guarda en disco inmediatamente. Se almacena en un buffer.
* Acciones como cerrar un fichero o invocar el método **flush** fuerzan que se transfiera el contenido del buffer a disco.

In [9]:
ruta = os.path.join("res", "FicheroParaEscritura.txt")
fichero_write = open(ruta, 'w')
fichero_write.write('Pyhon2026')

fichero_read = open(ruta, "r")
print(fichero_read.readlines())

fichero_write.flush()

print(fichero_read.readlines())

fichero_write.close()
fichero_read.close()

[]
['Pyhon2026']


## Archivos CSV

* Python permite leer datos de ficheros CSV y también escribir ficheros en este formato.
* Popular formato en ciencia de datos.

In [10]:
# tabla_operaciones.csv contiene valores separados por comas
import csv
ruta = os.path.join("res", "tabla_operaciones.csv")

with open(ruta) as fichero:
    data_reader = csv.reader(fichero, delimiter=',')
    for linea in data_reader:
        print(linea[0] + '  ----  ' + linea[1])

Operacion  ----  Descripcion
a + b  ----  suma a y b
a - b  ----  resta a menos b
a / b  ----  a dividido
a // b  ----  a dividido entre b (quitando decimales)
a % b  ----  devuelve el resto de la divisiÃ³n a/b (modulus)
a * b  ----  a multiplicado por b
a ** b  ----  a elevado a b


In [11]:
ruta = os.path.join("res", "tabla_operaciones.csv")
f = open(ruta)
data_reader = csv.reader(f, delimiter = ',')

ruta_o = os.path.join("res", "4_tabla_operaciones.csv")
with open(ruta_o, 'w') as f2:
    csv_writer = csv.writer(f2, delimiter = '|')
    for line in data_reader:
        print(line)
        csv_writer.writerow(line)
        
f.close()

['Operacion', 'Descripcion']
['a + b', 'suma a y b']
['a - b', 'resta a menos b']
['a / b', 'a dividido']
['a // b', 'a dividido entre b (quitando decimales)']
['a % b', 'devuelve el resto de la divisiÃ³n a/b (modulus)']
['a * b', 'a multiplicado por b']
['a ** b', 'a elevado a b']


# Docstrings

* Python permite adjuntar documentación a los objetos e inspeccionarla a través de la línea de comandos o durante la ejecución del programa.
* Los docstrings se almacenan en el atributo *\_\_doc\_\_* de cada objeto.
* El valor de dicho atributo se puede mostrar por medio de la función *help*.

In [None]:
help(open)

* No es necesario editar este atributo directamente.
* Para asociar un docstring a un objeto basta con escribir el texto (entre triples comillas) al principio de los modulos, funciones o clases, antes del codigo ejecutable.

In [12]:
def funcion_de_prueba():
    """Esta es la documentación de la función de prueba"""
    pass

help(funcion_de_prueba)

Help on function funcion_de_prueba in module __main__:

funcion_de_prueba()
    Esta es la documentación de la función de prueba



* Accediendo al atributo *\_\_doc\_\_* sólo se obtiene el docstring.

In [13]:
print(funcion_de_prueba.__doc__)

Esta es la documentación de la función de prueba


Como se puede observar, *help* añade información adicional. Por ejemplo, para entidades más grandes, *help* muestra el docstring dividido en secciones.

In [15]:
import sys
help(sys)

Help on built-in module sys:

NAME
    sys

MODULE REFERENCE
    https://docs.python.org/3.13/library/sys.html

    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This module provides access to some objects used or maintained by the
    interpreter and to functions that interact strongly with the interpreter.

    Dynamic objects:

    argv -- command line arguments; argv[0] is the script pathname if known
    path -- module search path; path[0] is the script directory, else ''
    modules -- dictionary of loaded modules

    displayhook -- called to show results in an interactive session
    excepthook -- called to handle any uncaught exception other than SystemExit
      To customize printing in an inte

Los docstrings que ocupan más de una línea suelen tener estas partes:

* Resumen en la primera línea.
* Línea en blanco.
* Descripción detallada.
* Otra línea en blanco antes del código.

In [None]:
def funcion_de_prueba2():
    """Esta es la línea para el resumen.
    
    Este es el párrafo donde se puede escribir una descripción más
    detallada de la función. Observa que el resumen y la descripción
    detallada van separados por una línea en blanco. También hay
    otra línea en blanco antes de empezar el código.
    """
    
    pass

help(funcion_de_prueba2)

Algunos comentarios adicionales:

* Comentarios con '#' suelen asociarse a expresiones sencillas, instrucciones individuales o pequeños bloques de código.
* Los docstrings son más apropiados para construcciones de más alto nivel: funciones, clases y módulos.

## Sphinx

* Herramienta de documentación.
* Especialmente útil para sistemas grandes.
* Da soporte a una gran variedad de formatos de salida: HTML, LaTeX, ePub, ...

Web de [Sphinx](https://www.sphinx-doc.org/).

[Proyectos](https://www.sphinx-doc.org/en/master/examples.html) que usan Sphinx.

## Estilo

* Es importante que los docstrings sean consistentes.
* El equipo de desarrollo debe acordar un formato y seguirlo rigurosamente.

#### Google Python Style Guide

Google define la siguiente [guía de estilo](https://github.com/google/styleguide/blob/gh-pages/pyguide.md#38-comments-and-docstrings).

Contiene reglas para los docstrings de:

* Módulos.
* Métodos y funciones.
* Clases.

## Ejercicios

1. Escribe una función que reciba una ruta de un fichero de texto y una cadena de caracteres a buscar y determine si la cadena aparece en el fichero.

2. Escribe una función que reciba una lista, una ruta destino y un número *n*. La función debe crear un fichero en la ruta especificada. El contenido del fichero serán los primeros *n* elementos de la lista. La función debe controlar de manera apropiada los posibles valores de *n* que estén fuera de rango.

3. Escribe una función que reciba una ruta de un fichero de texto devuelva un diccionario con la frecuencia de aparición de cada palabra. Ejemplo: un fichero que contenga la frase 'es mejor que venga que que no venga' devolverá el siguiente diccionario: {'es' : 1, 'mejor' : 1, 'que' : 3, 'venga' : 2, 'no' : 1}. Para dividir un string en palabras puedes hacer uso del método *split*.

In [13]:
#1. Escribe una función que reciba una ruta de un fichero de texto y una cadena de caracteres
#a buscary determine si la cadena aparece en el fichero
def buscar_cadena(ruta, cadena):
    with open(ruta, "r", encoding="utf-8") as f:
        texto = f.read()
    return cadena in texto


In [14]:
#2. Escribe una función que reciba una lista, una ruta destino y un número *n*. La función debe crear un fichero en la ruta especificada. El contenido del fichero serán los primeros *n* elementos de la lista. La función debe controlar de manera apropiada 
#los posibles valores de *n* que estén fuera de rango.
def guardar_primeros_n(lista, ruta_destino, n):
    if n < 0 or n > len(lista):
        print("Error: n fuera de rango")
        return

    with open(ruta_destino, "w", encoding="utf-8") as f:
        for i in range(n):
            f.write(str(lista[i]) + "\n")


In [15]:
#3. Escribe una función que reciba una ruta de un fichero de texto devuelva un 
#diccionario con la frecuencia de aparición de cada palabra. 
#Ejemplo: un fichero que contenga la frase 'es mejor que venga que que no venga' 
#devolverá el siguiente diccionario: {'es' : 1, 'mejor' : 1, 'que' : 3, 'venga' : 2, 'no' : 1}. 
#Para dividir un string en palabras puedes hacer uso del método *split*.
def frecuencia_palabras(ruta):
    with open(ruta, "r", encoding="utf-8") as f:
        texto = f.read()

    palabras = texto.split()
    diccionario = {}

    for p in palabras:
        if p in diccionario:
            diccionario[p] += 1
        else:
            diccionario[p] = 1

    return diccionario
