# 10. Ficheros

## Leer y escribir ficheros

- En Python hay diferentes módulos para trabajar con diferentes archivos, pero también vienen por defecto funcionalidades para abrir documentos.
- Por defecto y sin necesidad de librerías, los ficheros se abren con **`open(path, modo)`**.
    - Los modos de apertura son los siguientes:


|Modo|Description|
|----|---|
|`'r'`| Read (default).
|`'w'`| Write (truncate). Ojo, que sobreescribe|
|`'x'`| Write or fail if the file already exists.|
|`'a'`| Append.|
|`'w+'`| Read and write (truncate).|
|`'r+'`| Read and write from the start.|
|`'a+'`| Read and write from the end.|
|`'t'`| Text mode (default).|
|`'b'`| Binary mode.|

- Hay que cerrar el fichero una vez se ha terminado de trabajar con el mismo, con `fichero.close()`

- **Nota**: Normalmente, usamos funciones de más alto nivel para leer ficheros que automáticamente se ocupan del manejo del archivo (abrirlo, cerrarlo, los permisos necesarios...). Esto quiere decir que el `open` no se suele usar mucho, usaremos `pandas`, `numpy`...

- Veamos un ejemplo de cómo se sobreescribe un archivo:
    - Con el primer código crearemos un archivo llamado `prueba.txt` que contendrá un texto determinado.
    - Con el segundo código se sobreescribirá el código al completo

In [1]:
f = open("prueba.txt", "w")
f.write("Mi\n")
f.write("primer\n")
f.write("fichero!\n")
f.close()

In [2]:
f = open("prueba.txt", "w")
f.write("Mi\n")
f.write("fichero\n")
f.write("sobreescrito!\n")
f.close()

## Métodos de archivos

- Como se puede ver, f es de tipo *text wrapper*

In [2]:
type(f)

_io.TextIOWrapper

- Eso quiere decir que tiene sus propios métodos y atributos

In [6]:
help(f)

Help on TextIOWrapper object:

class TextIOWrapper(_TextIOBase)
 |  TextIOWrapper(buffer, encoding=None, errors=None, newline=None, line_buffering=False, write_through=False)
 |  
 |  Character and line based layer over a BufferedIOBase object, buffer.
 |  
 |  encoding gives the name of the encoding that the stream will be
 |  decoded or encoded with. It defaults to locale.getpreferredencoding(False).
 |  
 |  errors determines the strictness of encoding and decoding (see
 |  help(codecs.Codec) or the documentation for codecs.register) and
 |  defaults to "strict".
 |  
 |  newline controls how line endings are handled. It can be None, '',
 |  '\n', '\r', and '\r\n'.  It works as follows:
 |  
 |  * On input, if newline is None, universal newlines mode is
 |    enabled. Lines in the input can end in '\n', '\r', or '\r\n', and
 |    these are translated into '\n' before being returned to the
 |    caller. If it is '', universal newline mode is enabled, but line
 |    endings are return

In [5]:
f.readable()

False

In [6]:
f.writable()

True

In [7]:
f.mode

'w'

In [8]:
f.name

'prueba.txt'

In [9]:
f.closed

False

In [10]:
f.close()

In [11]:
f.closed

True

## Context managers

- Evitan que tengamos que estar pendientes de cerrar el fichero. En el momento en el que nos salgamos de la identación del with, cierra el fichero, es igual a `f.close( )`
- En general, administran recursos consumidos por nuestro código.

In [12]:
with open('prueba.txt', 'w') as f:
    f.write('Esto\n')
    f.write('es\n')
    f.write('una\n')
    f.write('prueba\n')

In [13]:
f.closed

True

- En el caso de abrir ficheros, la instancia `open(path, mode)` actúa de context manager.
- Podemos definir nuestros propios context managers.
- Todos los context managers tienen que tener implementados dos métodos:
```python
def __enter__()
def __exit__()
```

In [15]:
with open('prueba.txt', 'r') as f: 
    print(dir(f))

['_CHUNK_SIZE', '__class__', '__del__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '_checkClosed', '_checkReadable', '_checkSeekable', '_checkWritable', '_finalizing', 'buffer', 'close', 'closed', 'detach', 'encoding', 'errors', 'fileno', 'flush', 'isatty', 'line_buffering', 'mode', 'name', 'newlines', 'read', 'readable', 'readline', 'readlines', 'reconfigure', 'seek', 'seekable', 'tell', 'truncate', 'writable', 'write', 'write_through', 'writelines']


Como se puede ver el f que acabamos de definir tiene open y exit, así que es un context manager.

- Para leer podemos usar los métodos:
    - `read()` -> Leemos todo el fichero y devolvemos un string
    - `readline()` -> Leemos sólo una línea
    - `readlines()` -> Leemos todas las líneas y las devolvemos como una lista de strings.

Con **`read()`** se puede leer todo el documento

In [13]:
with open("prueba.txt", "r") as f:
    line = f.read()
print(line)

Esto
es
una
prueba



Con **`readline()`** se puede leer línea a línea.

In [31]:
f = open("prueba.txt", "r")
line = f.readline()
print(line)

Esto



Pero observad qué ocurre si se vuelve a ejecutar sin abrir el documento:

In [32]:
print(f.readline())

es



Como se puede ver, ha pasado a la segunda línea. Esto se debe a que conserva el puntero. Para volver arriba, hay que utilizar **`seek()`** para recolocar el puntero.

In [33]:
f.seek(0)
print(f.readline())

Esto



In [34]:
print(f.readlines())

['es\n', 'una\n', 'prueba\n']


## Pickle o `pkl`

- Las variables se pueden guardar de forma serializada utilizando la librería `pickle`. 
- Serializado significa que los objetos conservan su estructura de Python, por lo que los archivos `.pkl` sólo pueden leerse desde Python.
- Como se verá posteriormente, los `pkl` deben guardarse en modo `wb` porque son archivos binarios (w = write; b = binary).
- Los `pkl` no son seguros, por lo que solo se debe hacer "unpickle" de archivos en los que confiemos. (NUNCA se descargan pickle de internet)
- Como alternativa, es mejor usar archivos 
    - `.json` (JSON -> JavaScript Object Notation)
    - `.csv` (CSV -> Comma-Separated Values).
- Sin embargo, los `pkl` son útiles para uso propio. Por ejemplo, si cargamos un fichero con datos a los cuales limpiamos y damos estructura desde Python, entonces es útil guardar estos datos en un `.pkl` para no tener que volver aplicar el mismo proceso cuando queramos vovler a usarlo. 
- Sin embargo, los pickles no son muy utilizados, ya que podemos copiar proyectos, etc.

- Para guardar

In [8]:
import pickle

In [9]:
lista = ['hola', 'me', 'guardo']
dicc = {'key': 'info'}
def adios():
    print('Adios!')

-  Como se ha mencionado, deben ser guardados en modo `wb` porque los `pkl` son binarios

In [10]:
with open('variables.pkl', 'wb') as f:
    pickle.dump(lista, f)
    pickle.dump(dicc, f)
    pickle.dump(adios, f)

- Para leer, igualmente se usa `rb` porque son archivos binarios

In [22]:
with open('variables.pkl', 'rb') as f:
    lista_g = pickle.load(f)
    dicc_g = pickle.load(f)
    adios_g = pickle.load(f)

In [23]:
lista_g

['hola', 'me', 'guardo']

In [24]:
dicc_g

{'key': 'info'}

In [25]:
adios_g

<function __main__.adios()>

In [26]:
adios_g()

Adios!


## JSON

- Formato estandar para almacenar e intercambiar datos (otros: YAML, XML, CSV)
- Python tienen un JSON decoder/encoder.
- Los propios notebooks son documentos tipo `.json`.
- Muy parecidos a un diccionario de Pyhon (pero no son lo mismo!)

In [27]:
import json

In [30]:
dic = {
    'estaciones': {
        'verano': 'calor',
        'invierno': 'frío'
    },
    'números': [0, 5, 2.5]
}

In [31]:
with open('json_data_1.json', 'w') as f:
    json.dump(dic, f)

- En el ejemplo de debajo se va a poner con la identación del lenguaje Python (`ident=4`), para facilitar su lectura.

In [32]:
with open('json_data_2.json', 'w') as f:
    json.dump(dic, f, indent=4)

In [33]:
with open('json_data_1.json', 'r') as f:
    dic_g = json.load(f)

In [34]:
dic_g

{'estaciones': {'verano': 'calor', 'invierno': 'frío'}, 'números': [0, 5, 2.5]}

- También existen los métodos `dumps()` and `loads()` que interpretan un json que venga como una única string.

In [35]:
json_string = json.dumps(dic)
json_string

'{"estaciones": {"verano": "calor", "invierno": "fr\\u00edo"}, "n\\u00fameros": [0, 5, 2.5]}'

In [36]:
type(json_string)

str

In [37]:
dic_s = json.loads(json_string)
print(dic_s)
type(dic_s)

{'estaciones': {'verano': 'calor', 'invierno': 'frío'}, 'números': [0, 5, 2.5]}


dict

# `requests`

- El módulo `requests` permite hacer llamadas a un servidor y obtener información a través de `requests.get`.
- Es muy útil para obtener información de internet

In [37]:
import requests
respuesta = requests.get("https://www.sony.co.uk/")

SSLError: HTTPSConnectionPool(host='www.sony.co.uk', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')])")))

Otro ejemplo

In [41]:
respuesta.text

'[\n  {\n    "userId": 1,\n    "id": 1,\n    "title": "delectus aut autem",\n    "completed": false\n  },\n  {\n    "userId": 1,\n    "id": 2,\n    "title": "quis ut nam facilis et officia qui",\n    "completed": false\n  },\n  {\n    "userId": 1,\n    "id": 3,\n    "title": "fugiat veniam minus",\n    "completed": false\n  },\n  {\n    "userId": 1,\n    "id": 4,\n    "title": "et porro tempora",\n    "completed": true\n  },\n  {\n    "userId": 1,\n    "id": 5,\n    "title": "laboriosam mollitia et enim quasi adipisci quia provident illum",\n    "completed": false\n  },\n  {\n    "userId": 1,\n    "id": 6,\n    "title": "qui ullam ratione quibusdam voluptatem quia omnis",\n    "completed": false\n  },\n  {\n    "userId": 1,\n    "id": 7,\n    "title": "illo expedita consequatur quia in",\n    "completed": false\n  },\n  {\n    "userId": 1,\n    "id": 8,\n    "title": "quo adipisci enim quam ut ab",\n    "completed": true\n  },\n  {\n    "userId": 1,\n    "id": 9,\n    "title": "molesti

In [44]:
json_data = json.loads(respuesta.text)
print(type(json_data))
json_data[:5]

<class 'list'>


[{'userId': 1, 'id': 1, 'title': 'delectus aut autem', 'completed': False},
 {'userId': 1,
  'id': 2,
  'title': 'quis ut nam facilis et officia qui',
  'completed': False},
 {'userId': 1, 'id': 3, 'title': 'fugiat veniam minus', 'completed': False},
 {'userId': 1, 'id': 4, 'title': 'et porro tempora', 'completed': True},
 {'userId': 1,
  'id': 5,
  'title': 'laboriosam mollitia et enim quasi adipisci quia provident illum',
  'completed': False}]

- Sus opciones son

In [40]:
from utils import midir
midir(respuesta)

['_content',
 '_content_consumed',
 '_next',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

In [84]:
dictionary = {}
list = ["pepe","juan","jose"]

for persona in list:
    dictionary.update({persona:random.randint(40000,300000)})
    
print(dictionary)

{'pepe': 113701, 'juan': 79986, 'jose': 236216}
