![Files](images/files/files.jpg)

Photo by [Maarten van den Heuvel](https://unsplash.com/photos/8EzNkvLQosk?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText) on [Unsplash](https://unsplash.com/search/photos/files?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText)

# Motivación

La *persistencia de la información* es un elemento clave dentro del desarrollo de software. Si sólo tuviéramos la pospibilidad de trabajar en memoria principal (RAM) perderíamos los datos con los que trabajamos.

Es por ello que el manejo de ficheros es una destreza fundamental dentro del aprendizaje de cualquier lenguaje de programación.

# Guión

1. Ficheros de texto
2. Lectura de ficheros
3. Escritura de ficheros

# Ficheros de texto
---

# Formatos de ficheros

Existen infinidad de formatos de ficheros en función de cuál sea su finalidad y qué software trabaje sobre él, pero sí podemos establecer una clasificación de los ficheros atendiendo a la forma de almacenamiento de la información:
- Ficheros de texto.
- Ficheros binarios

En esta sección nos vamos a centrar en los **ficheros de texto**, ya que permiten trabajar de manera sencilla mediante el uso de cadenas de texto, tanto para lectura como para escritura.

Por citar algunos ejemplos de ficheros de texto (plano): *css, html, xml, yaml, txt, dat, csv, python, c, ruby, etc.*

# Lectura de ficheros
---

# Manejador del fichero

Cuando abrimos un fichero en cualquier programa debemos *"localizar"* ese fichero e indicar su ruta. En ese momento se crea una *referencia* interna al fichero que permitirá posteriormente leer y/o escribir.

En Python las cosas funcionan de manera análoga. Cuando abrimos un fichero habrá que indicar su ruta y el modo de apertura. Nos devolverá un **manejador del fichero** que utilizaremos en todas las operaciones posteriores:

Vamos a partir de un *fichero csv* publicado en [Kaggle](https://www.kaggle.com/chasewillden/netflix-shows/version/1) que contiene características de 1000 series de Netflix.

In [1]:
!head -n 4 resources/files/netflix_shows.csv

title,rating,ratingLevel,ratingDescription,release year,user rating score,user rating size
White Chicks,PG-13,crude and sexual humor language and some drug content,80,2004,82,80
Lucky Number Slevin,R,strong violence sexual content and adult language,100,2006,NA,82
Grey's Anatomy,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2016,98,80


# Apertura de un fichero

In [2]:
file_path = 'resources/files/netflix_shows.csv'

La función `open` recibe como parámetros la ruta al fichero y el modo de apertura:

In [3]:
file_handler = open(file_path, 'r')
file_handler

<_io.TextIOWrapper name='resources/files/netflix_shows.csv' mode='r' encoding='UTF-8'>

El modo de apertura por defecto de ficheros en Python es *lectura*, con lo cual no es obligatorio pasar `'r'`.

# Lectura de un fichero

Hay distintas formas de leer el contenido de un fichero. En una primera aproximación podemos leer todo el contenido del fichero de una sola vez utilizando el método `read`:

In [4]:
file_content = file_handler.read()
# mostramos sólo los 1000 primeros caracteres
file_content[:1000]

"title,rating,ratingLevel,ratingDescription,release year,user rating score,user rating size\nWhite Chicks,PG-13,crude and sexual humor language and some drug content,80,2004,82,80\nLucky Number Slevin,R,strong violence sexual content and adult language,100,2006,NA,82\nGrey's Anatomy,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2016,98,80\nPrison Break,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2008,98,80\nHow I Met Your Mother,TV-PG,Parental guidance suggested. May not be suitable for all children.,70,2014,94,80\nSupernatural,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2016,95,80\nBreaking Bad,TV-MA,For mature audiences.  May not be suitable for children 17 and under.,110,2013,97,80\nThe Vampire Diaries,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2017,91,80\nThe Walking Dead,TV-MA,For mature audiences.  May not be su

Podemos ver que se trata de una cadena de texto incluyendo todos los caracteres de control (tabulares, saltos de línea, etc.)

# Cerrando el fichero

Un detalle importante cuando manejamos ficheros es recordar que debemos cerrarlos una vez que hemos terminado su lectura y/o escritura. En caso de no hacerlo podríamos dejar el fichero en un estado indeterminado que puede dar lugar a resultados no deseados:

In [5]:
file_handler.close()

Hecho esto, podríamos abrir de nuevo el fichero y procesarlo como antes:

In [6]:
# modo de lectura por defecto
file_handler = open(file_path)
file_content = file_handler.read()
file_content[:500]

"title,rating,ratingLevel,ratingDescription,release year,user rating score,user rating size\nWhite Chicks,PG-13,crude and sexual humor language and some drug content,80,2004,82,80\nLucky Number Slevin,R,strong violence sexual content and adult language,100,2006,NA,82\nGrey's Anatomy,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2016,98,80\nPrison Break,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2008,98,80\nHow I Met Y"

# Lectura de un fichero como listas de cadenas de texto

Existe la posibilidad de leer un fichero y almacenar el contenido en una lista de cadenas de texto. Para ellos utilizamos el método `readlines`:

In [7]:
file_handler = open(file_path)
file_content = file_handler.readlines()
file_handler.close()
# mostramos las 5 primeras líneas del fichero
file_content[:5]

['title,rating,ratingLevel,ratingDescription,release year,user rating score,user rating size\n',
 'White Chicks,PG-13,crude and sexual humor language and some drug content,80,2004,82,80\n',
 'Lucky Number Slevin,R,strong violence sexual content and adult language,100,2006,NA,82\n',
 "Grey's Anatomy,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2016,98,80\n",
 'Prison Break,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2008,98,80\n']

Se puede ver que cada línea del fichero corresponde con un elemento de la lista. También se leen los caracteres de control.

# Lectura de un fichero línea a línea

Hay otra alternativa para leer un fichero y es recuperar una línea cada vez que accedemos al fichero. A priori esto puede parecer prescindible ya que existe la posibilidad de leer todas las líneas a la vez. Sin embargo hay que pensar en un escenario donde estemos leyendo ficheros *muy grandes* que pueden ocupar una cantidad ingente de memoria principal:

In [8]:
file_handler = open(file_path)
# número máximo de líneas a mostrar
LINES_LIMIT = 3
line_no = 1
line = file_handler.readline()
while line:
    print(line, end='')
    line = file_handler.readline()
    if line_no >= LINES_LIMIT:
        break
    line_no += 1
file_handler.close()

title,rating,ratingLevel,ratingDescription,release year,user rating score,user rating size
White Chicks,PG-13,crude and sexual humor language and some drug content,80,2004,82,80
Lucky Number Slevin,R,strong violence sexual content and adult language,100,2006,NA,82


## Estrategia alternativa para leer un fichero línea a línea

Si iteramos sobre un manejador de fichero obtendremos una colección con todas las líneas del mismo. Así, podríamos leer el contenido de un fichero línea a línea de la siguiente forma:

In [9]:
file_handler = open(file_path)

for i, line in enumerate(file_handler):
    # mostrar las 5 primeras líneas
    if i >= 5:
        break
    print(line, end='')

file_handler.close()

title,rating,ratingLevel,ratingDescription,release year,user rating score,user rating size
White Chicks,PG-13,crude and sexual humor language and some drug content,80,2004,82,80
Lucky Number Slevin,R,strong violence sexual content and adult language,100,2006,NA,82
Grey's Anatomy,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2016,98,80
Prison Break,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2008,98,80


# Uso de contextos en lectura de ficheros

Ya hemos visto la necesidad de cerrar un fichero cuando estamos trabajando con él. Python nos ofrece una forma más elegante y sencilla de gestionar estas situaciones y es a través de los [contextos](https://docs.python.org/3/reference/compound_stmts.html#with) (sentencia `with`):

In [10]:
with open(file_path) as file_handler:
    file_content = file_handler.readlines()

Con este código conseguimos que Python cierre por nosotros el fichero al salir del contexto. Incluso, si se lanzara alguna excepción (error) dentro del contexto, cerraría el fichero de forma segura para no incurrir en resultados no deseados.

# Lectura de todas las líneas de un fichero

Usando contexto y bucle *for* podemos recorrer fácilmente todas las líneas de un fichero:

In [11]:
file_path = 'resources/files/netflix-favs'

with open(file_path) as file_handler:
    for line in file_handler.readlines():
        print(line.strip())

Altered Carbon
Kingdom
Élite
House of Cards
The Last Kingdom


## Simplificando la lectura de todas las líneas de un fichero

Python nos proporciona un *"atajo"* para leer las líneas de un fichero y es utilizar un bucle *for* directamente como si accediéramos a una colección:

In [12]:
file_path = 'resources/files/netflix-favs'

with open(file_path) as file_handler:
    for line in file_handler:    # <--- diferencia
        print(line.strip())

Altered Carbon
Kingdom
Élite
House of Cards
The Last Kingdom


# Lectura y "limpieza" del contenido de un fichero

Como ya hemos visto, cuando leemos el contenido de un fichero también leemos los caracteres de control (principalmente saltos de línea). A continuación vamos a ver una forma de leer el contenido del fichero en una lista "limpiando" la información:

In [13]:
file_path = 'resources/files/netflix_shows.csv'

with open(file_path) as file_handler:
    file_content = [line.strip() for line in file_handler]  # lista por comprensión

# mostramos las 5 primeras líneas
print('\n'.join(file_content[:5]))

title,rating,ratingLevel,ratingDescription,release year,user rating score,user rating size
White Chicks,PG-13,crude and sexual humor language and some drug content,80,2004,82,80
Lucky Number Slevin,R,strong violence sexual content and adult language,100,2006,NA,82
Grey's Anatomy,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2016,98,80
Prison Break,TV-14,Parents strongly cautioned. May be unsuitable for children ages 14 and under.,90,2008,98,80


# Almacenando el contenido de un fichero de forma estructurada

Vamos a utilizar una lista de diccionarios para almacenar el contenido del fichero *csv* que contiene información de las series de Netflix:

In [14]:
netflix_shows = []
with open(file_path) as file_handler:
    # la primera fila contiene los encabezados = títulos de columnas
    line = file_handler.readline()
    columns = line.strip().split(',')
    for line in file_handler.readlines():
        show = {}
        values = line.strip().split(',')
        for i, value in enumerate(values):
            show[columns[i]] = value
        netflix_shows.append(show)

Mostramos los 3 primeros elementos de la lista:

In [15]:
netflix_shows[:3]

[{'title': 'White Chicks',
  'rating': 'PG-13',
  'ratingLevel': 'crude and sexual humor language and some drug content',
  'ratingDescription': '80',
  'release year': '2004',
  'user rating score': '82',
  'user rating size': '80'},
 {'title': 'Lucky Number Slevin',
  'rating': 'R',
  'ratingLevel': 'strong violence sexual content and adult language',
  'ratingDescription': '100',
  'release year': '2006',
  'user rating score': 'NA',
  'user rating size': '82'},
 {'title': "Grey's Anatomy",
  'rating': 'TV-14',
  'ratingLevel': 'Parents strongly cautioned. May be unsuitable for children ages 14 and under.',
  'ratingDescription': '90',
  'release year': '2016',
  'user rating score': '98',
  'user rating size': '80'}]

# 💡 Ejercicio

Dado [este fichero que contiene series y años de lanzamiento](resources/my-netflix-favs.csv), lea el contenido del mismo y cree un diccionario llamado `my_netflix_favs` cuyas **claves** sean los **nombres de las series** y los **valores** sean los **años de lanzamiento**.

In [None]:
# %load "resources/files/my-netflix-favs.csv"

In [17]:
# Escriba aquí su solución

## ⭐️ Solución

In [None]:
# %load "solutions/files/read_csv.py"

# Escritura de ficheros
---

# Modo escritura

La única diferencia con lo que hemos visto hasta ahora, es que para abrir un fichero en modo escritura, hay que pasarle el parámetro `'w'` indicando que se trata de modo *write*.

Supongamos que tenemos el siguiente *Netflix-favs*:

In [19]:
netflix_favs = ['Altered Carbon', 'Kingdom', 'Élite', 'House of Cards', 'The Last Kingdom']

Queremos guardar nuestras series favoritas en un fichero de texto:

In [20]:
with open('resources/files/netflix-favs', 'w') as file_handler:
    for serie in netflix_favs:
        file_handler.write(serie + '\n')

## Comprobación de escritura

Vamos a comprobar que el fichero se ha creado satisfactoriamente:

In [None]:
# %load resources/files/netflix-favs

# 💡 Ejercicio

Partiendo del fichero `resources/files/netflix_shows.csv` genere otro fichero `resources/files/netflix_shows.min.csv` que contenga filas con nombre de serie y año de lanzamiento separadas por una barra vertical:

`<title>|<release year>`

**Detalles de implementación**:
- Cree una función `read_csv(filepath)` que recibe la ruta al fichero de origen y devuelve un *diccionario* cuyas claves son los nombres de las series y sus valores son los años de lanzamiento.
- Cree una función `write_csv(filepath, info)` que recibe la ruta al fichero de destino y el diccionario que ha devuelto la función anterior.

In [22]:
# Escriba aquí su solución

## ⭐️ Solución

In [None]:
# %load "solutions/files/file_transfer.py"