# Ficheros

Esta sección muestra cómo se lee y escribe contenido en ficheros. También algunas operaciones para la gestión de carpetas.

## Escritura: Open en modo escritura (w)

En Python, para abrir un fichero usaremos la función `open`. Dicha función recibe como primer parámetro la ruta donde se encuentra el nombre del archivo a abrir.

__modos:__

Por defecto, si no indicamos nada, el fichero se abre en modo lectura (`mode= "r"`). Si queremos abrir un fichero en modo escritura, hay que indicarlo como segundo parámetro de la función `open` (`mode= "w"`).
Además, a veces puede ser interesante abrir un fichero para añadir (`append`) información (`mode= "a"`)

In [2]:
f = open('./nuevo.txt', mode = 'w')

salto ='\n'    # esto es un salto de linea

f.write('1 21 13 74' + salto)
f.write('5 62 34 41' + salto)
f.write('1 12 33 14' + salto)
f.write('1 42 53 29' + salto)
f.write(str(4555555))

f.close()

In [3]:
f = open('./nuevo.txt', mode = 'a')

salto ='\n'    # esto es un salto de linea

f.write(salto)
f.write('5 62 34 413452345' + salto)
f.write('1 12 33 14345' + salto)
f.write('1 42 53 2923452' + salto)
f.write(str(4555234523452355))

f.close()

Al terminar de trabajar con un fichero, es recomendable cerrarlo ya que lo que se haya escrito no se guardará realmente hasta no cerrar el fichero.

## Open en modo lectura (r)


Asumimos que en mismo directorio donde se ejecuta el programa que contiene la instrucción open
se encuentra un fichero del sistema de directorios que se llama `texto.txt`.

In [59]:
fichero = open("./nuevo.txt")

La función `open`  abrirá el fichero con el nombre indicado. En este caso el fichero __nuevo.txt__. Si no tiene éxito, se lanzará un error.
Si se ha podido abrir el fichero correctamente, la variable __fichero__ nos permitirá manipularlo.

Si la función `open` lanza un  error, es posible que el fichero no se encuentre en la ruta indicada por el argumento. 

La operación más sencilla a realizar sobre un archivo es leer su contenido. Para procesarlo línea por línea, es posible hacerlo de la siguiente forma:

In [60]:
fichero = open("./nuevo.txt")
for linea in fichero:
    print(linea)

1 21 13 74

5 62 34 41

1 12 33 14

1 42 53 29

4555555

5 62 34 413452345

1 12 33 14345

1 42 53 2923452

4555234523452355


Es posible, además, obtener todas las líneas del archivo utilizando una sola llamada a la función `readlines`. Esta función devuelve una lista de líneas. 

In [61]:
fichero = open("./nuevo.txt")
m = fichero.readlines()
m

['1 21 13 74\n',
 '5 62 34 41\n',
 '1 12 33 14\n',
 '1 42 53 29\n',
 '4555555\n',
 '5 62 34 413452345\n',
 '1 12 33 14345\n',
 '1 42 53 2923452\n',
 '4555234523452355']

En este caso, la variable `líneas` tendrá una lista de cadenas con todas las líneas del fichero.

Es importante tener en cuenta que cuando se utilizan funciones como `archivo.readlines()`, se está cargando en memoria el fichero completo. Siempre que una instrucción cargue un fichero completo debe tenerse cuidado de utilizarla sólo con ficheros pequeños, ya que de otro modo podría agotarse la memoria.

En el siguiente ejemplo, se accede a la primera línea del fichero y posteriormente se eliminan los saltos de línea mediante la función de cadenas `strip`.

In [62]:
fichero = open("./nuevo.txt")

lista = []
for l in fichero:
    lista.append( l.strip() )
lista

['1 21 13 74',
 '5 62 34 41',
 '1 12 33 14',
 '1 42 53 29',
 '4555555',
 '5 62 34 413452345',
 '1 12 33 14345',
 '1 42 53 2923452',
 '4555234523452355']

## Open en modo  escritura posicionándose al final del archivo (a)

En este caso se crea el fichero, si no existe, pero en caso de que exista se posiciona al final, manteniendo el contenido original.

In [63]:
fichero = open('./nuevo.txt', 'a')
fichero.write('Este es el final')

16

In [64]:
open('./nuevo.txt').readlines()

['1 21 13 74\n',
 '5 62 34 41\n',
 '1 12 33 14\n',
 '1 42 53 29\n',
 '4555555\n',
 '5 62 34 413452345\n',
 '1 12 33 14345\n',
 '1 42 53 2923452\n',
 '4555234523452355']

## Gestión de archivos

El módulo  `os` de Python nos proporciona ciertas utilidades para la gestión e archivos. Para usarlo, tenemos que importarlo en el notebook.

In [5]:
import os

A continuación mostramos algunos ejemplo de lo que podemos hacer usando este módulo.

### Consultar el path de la carpeta de trabajo (directorio)

In [6]:
os.getcwd()

'E:\\Documentos(E)\\Docencia BigData\\UAH_master_periodismo\\material_T6\\Tema_6'

In [7]:
%pwd

'E:\\Documentos(E)\\Docencia BigData\\UAH_master_periodismo\\material_T6\\Tema_6'

### Listar el contenido de una carpeta

#### Contenido de la carpeta actual

In [8]:
lista_files = os.listdir()
lista_files

['.ipynb_checkpoints',
 'datos',
 'images',
 'nuevo.txt',
 't17_files.html',
 't5_ficheros.ipynb']

#### Contenido de una carpeta concreta

In [9]:
path = os.getcwd() + '\\datos'
print(path)
os.listdir(path)

E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos


['contaminacion.csv',
 'dataset.txt',
 'ejemplo.txt',
 'facturas',
 'facturas.txt',
 'nuevo.txt',
 'trafico']

#### Lista de ficheros de un cierto tipo (no carpetas) contenidos en una carpeta

In [10]:
path = os.getcwd()+ '\\datos'
print(path)
files = [ f for f in os.listdir(path) if f[-4:] == '.csv']
files

E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos


['contaminacion.csv']

### Crear una nueva carpeta

In [11]:
# nueva carpeta en el directorio actual
os.makedirs("new_carpeta2")
%ls

 El volumen de la unidad E es DATOS
 El n£mero de serie del volumen es: 7C12-F937

 Directorio de E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6

07/03/2023  12:56    <DIR>          .
07/03/2023  12:56    <DIR>          ..
07/03/2023  12:50    <DIR>          .ipynb_checkpoints
22/02/2022  15:36    <DIR>          datos
21/02/2022  10:23    <DIR>          images
07/03/2023  12:56    <DIR>          new_carpeta2
07/03/2023  12:50               124 nuevo.txt
22/02/2022  15:41           304.951 t17_files.html
07/03/2023  12:55            23.337 t5_ficheros.ipynb
               3 archivos        328.412 bytes
               6 dirs  292.121.870.336 bytes libres


In [12]:
# nueva carpeta cuyo nombre depende de la hora del sistema
from datetime import datetime
name = "sensor" + datetime.now().strftime("%Y_%m_%d_%H_%M_%S")
os.makedirs(name)
%ls

 El volumen de la unidad E es DATOS
 El n£mero de serie del volumen es: 7C12-F937

 Directorio de E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6

07/03/2023  12:56    <DIR>          .
07/03/2023  12:56    <DIR>          ..
07/03/2023  12:50    <DIR>          .ipynb_checkpoints
22/02/2022  15:36    <DIR>          datos
21/02/2022  10:23    <DIR>          images
07/03/2023  12:56    <DIR>          new_carpeta2
07/03/2023  12:50               124 nuevo.txt
07/03/2023  12:56    <DIR>          sensor2023_03_07_12_56_47
22/02/2022  15:41           304.951 t17_files.html
07/03/2023  12:55            23.337 t5_ficheros.ipynb
               3 archivos        328.412 bytes
               7 dirs  292.121.870.336 bytes libres


## Gestión de ficheros con `pathlib`

La librería `pathlib` proporciona varias funciones de manipulación de rutas. 

En el siguiente ejemplo, mostramos cómo imprimir las rutas completas de los elementos de una carpeta:

In [13]:
import pathlib
wd = os.getcwd() + '\\datos'

directorio = pathlib.Path(wd)
for fichero in directorio.iterdir():
    print(f'File: {fichero.name},\nRuta: {fichero}\n', '---')


File: contaminacion.csv,
Ruta: E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos\contaminacion.csv
 ---
File: dataset.txt,
Ruta: E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos\dataset.txt
 ---
File: ejemplo.txt,
Ruta: E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos\ejemplo.txt
 ---
File: facturas,
Ruta: E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos\facturas
 ---
File: facturas.txt,
Ruta: E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos\facturas.txt
 ---
File: nuevo.txt,
Ruta: E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos\nuevo.txt
 ---
File: trafico,
Ruta: E:\Documentos(E)\Docencia BigData\UAH_master_periodismo\material_T6\Tema_6\datos\trafico
 ---


Si queremos crear una lista que contenga solo los ficheros que haya en una carpeta, podemos usar la función `is_file()`:

In [73]:
ficheros = [ f  for f in directorio.iterdir() if f.is_file()]
ficheros

[WindowsPath('E:/Documentos(E)/Docencia BigData/UAH_master_periodismo/material_T6/Tema_6/datos/contaminacion.csv'),
 WindowsPath('E:/Documentos(E)/Docencia BigData/UAH_master_periodismo/material_T6/Tema_6/datos/dataset.txt'),
 WindowsPath('E:/Documentos(E)/Docencia BigData/UAH_master_periodismo/material_T6/Tema_6/datos/ejemplo.txt'),
 WindowsPath('E:/Documentos(E)/Docencia BigData/UAH_master_periodismo/material_T6/Tema_6/datos/facturas.txt'),
 WindowsPath('E:/Documentos(E)/Docencia BigData/UAH_master_periodismo/material_T6/Tema_6/datos/nuevo.txt')]

Si queremos crear una lista que contenga solo las carpetas qque haya en una carpeta, podemos usar la función `is_dir()`:

In [74]:
ficheros = [ f  for f in directorio.iterdir() if f.is_dir()]
ficheros

[WindowsPath('E:/Documentos(E)/Docencia BigData/UAH_master_periodismo/material_T6/Tema_6/datos/facturas'),
 WindowsPath('E:/Documentos(E)/Docencia BigData/UAH_master_periodismo/material_T6/Tema_6/datos/trafico')]

## Ejemplos

### Ejemplo 1

Crear un índice de palabras de meses, junto con el número de facturas de cada mes. 

Dado un archivo de texto `.datos/facturas.txt` crear un diccionario donde cada elemento es de la forma `mes : número de facturas`.

Lo primero es leer el fichero:

In [77]:
fich = open('./datos/facturas.txt')
for line in fich:
    print(line)

Enero 12342.31 f01

Febrero 456.45 f03

Mayo 12342.67 f01

Febrero 34.56 f03

Marzo 456.45 f03

Enero 12342.67 f01

Febrero 34.56 f03

Agosto 567.15 f06

Agosto 23.46 f05

Octubre 456.45 f03

Noviembre 12342.67 f01

Diciembre 34.56 f03

Marzo 456.45 f03

Septiembre 5643.88 f06

Septiembre 456.45 f03

Mayo 9.99 f05

Abril 66.31 f01

Febrero 43.45 f03

Enero 12.67 f01

Enero 567.15 f06

Febrero 23.46 f05

Julio 456.45 f03

Junio 12342.67 f01

Abril 9.99 f05

Enero 567.15 f06

Abril 23.46 f05

Julio 12342.67 f01

JUNIO 34.56 f03

Junio 456.45 f03

Enero 5643.88 f06

Marzo 456.45 f03

EnERO 12342.67 f01

Mayo 34.56 f03

Marzo 9.99 f05

Junio 23.46 f05

Junio 5643.88 f06

Julio 23.46 f05

Julio 5643.88 f06

Junio 34.56 f03



Vamos a crearnos una lista con los meses que aparecen en el texto. Ahora vamos a crear el diccionario. Partimos de un diccionario vacío.

In [78]:
# Sol:


El mes de `Enero` aparece dos veces. Lo mismo con `Junio`.

__¿Cuántas facturas hay del mes de Enero?__

__Crear un diccionario donde la claves sean los meses y los valores sean de la forma (n,m), donde n es el número de facturas y m el importe total de las facturas.__

__¿Cuál es el importe facturado el mes de Junio?__

------