# N5. Lectura y escritura de ficheros

En la mayoría de problemas de ciencia de datos necesitamos leer los datos desde algún archivo y podemos necesitar escribir los resultados en otro.  
<ul style="list-style-type:none">
    <li><a href='#1.-Ficheros-de-texto'>1. Ficheros de texto</a></li>
       <li><a href='#2.-Interacción con el sistema'>2. Interacción con el sistema</a></li>      
      <li><a href="#3.-Ejercicios-para-practicar">3. Ejercicios </a></li>
    <ul style="list-style-type:none">
</ul>

## 1. Ficheros de texto
Para abrir un fichero usaremos la función predeterminada `open` y para cerrarla el método `close`.

In [30]:
f = open('test.txt', 'w') # path puede ser absoluto o relativo
f.write("prueba")         # Escribimos la palabra 'prueba' en el archivo
f.close()                 # cerramos archivo

Siempre hay que recordar cerrar el archivo al terminar, porque si no estamos gastando recursos innecesariamente. Alternativamente, podemos usar la sentencia `with` al abrir el archivo, así cuando salimos de ese contexto, Python cierra automáticamente el archivo.

In [31]:
with open('test2.txt', 'w') as f:
    # Escribimos 'otra prueba' en el archivo
    f.write("otra prueba")

In [32]:
# "r" nos permite leer
with open('test2.txt', 'r') as f:
    print(f.read())

otra prueba


La función `open` coge como primer argumento el *path* (relativo o absoluto) y como segundo el modo de apertura. Con este modo especificamos con qué finalidad se abre el fichero. Los más comunes son:

En relación con el modo de apertura, Python reconoce los siguientes modificadores, que se pueden combinar entre ellos para especificar cómo y con qué finalidad se abre el fichero:

* `r`, modo de lectura (del inglés, _**r**eading_).
* `w`, modo de escritura (del inglés, _**w**riting_), sobrescribe el contenido del archivo si éste ya existe, o bien crea el archivo si no existe.
* `a`, modo de escritura, escribe al final del archivo, después del contenido ya existente en el archivo (del inglés, _**a**ppend_), o bien crea el archivo si no existe.

Podéis ver todos los posibles modos [aquí](https://docs.python.org/3/library/functions.html#open)

Tal como hemos usado el método `read` leemos todo el contenido del fichero a la vez. Cuando el fichero es muy grande esto puede no ser lo más eficiente, sobretodo si no necesitamos todo el contenido del archivo. Para eso podemos ir línea a línea:

In [33]:
with open('test.txt', 'r') as f:
    for line in f:
        print(line)

prueba


Vemos unos datos reales sacados de esta página [meteoblue](https://www.meteoblue.com/es/tiempo/historyclimate/weatherarchive/santander_españa_3109718)

In [8]:
with open('../data/data.csv') as f:
    for line in f:
        print(line)

timestamp, temperature (2m)

20220101T0000,6.4902453

20220101T0100,6.0602455

20220101T0200,5.5602455

20220101T0300,4.630245

20220101T0400,3.6602454

20220101T0500,3.8802452

20220101T0600,3.6502452

20220101T0700,3.1102452

20220101T0800,2.7302456

20220101T0900,2.5102453

20220101T1000,2.4402454

20220101T1100,4.2502456

20220101T1200,6.5302453

20220101T1300,8.290245

20220101T1400,10.090245

20220101T1500,11.3102455

20220101T1600,12.100245

20220101T1700,10.530245

20220101T1800,7.3002453

20220101T1900,5.9902453

20220101T2000,5.8002453

20220101T2100,5.170245

20220101T2200,4.4902453

20220101T2300,3.9102454

20220102T0000,3.5702453

20220102T0100,3.4202452

20220102T0200,2.8802452

20220102T0300,3.0202456

20220102T0400,2.3602452

20220102T0500,2.3102455

20220102T0600,2.3802454

20220102T0700,2.4202454

20220102T0800,2.5802455

20220102T0900,2.9402456

20220102T1000,3.5602455

20220102T1100,5.0602455

20220102T1200,6.540245

20220102T1300,8.340245

20220102T1400,9.950245

2

Vamos a separar cabecera y gaurdar los datos

In [10]:
datos = []
with open('../data/data.csv') as f:
    header = next(f)
    for line in f:
        datos.append(line)
        

In [11]:
header

'timestamp, temperature (2m)\n'

In [14]:
datos[0]

'20220101T0000,6.4902453\n'

In [15]:
datos[0]*2

'20220101T0000,6.4902453\n20220101T0000,6.4902453\n'

Python está hecho para solucionarnos la vida

In [21]:
from csv import reader
# open file in read mode
fecha = []
temperatura = []
with open('../data/data.csv', 'r') as f:
    # pass the file object to reader() to get the reader object
    header = next(f)
    csv_reader = reader(f)
    # Iterate over each row in the csv using reader object
    for row in csv_reader:
        # row variable is a list that represents a row in csv
        fecha.append(row[0])
        temperatura.append(row[1])
        

In [22]:
temperatura

['6.4902453',
 '6.0602455',
 '5.5602455',
 '4.630245',
 '3.6602454',
 '3.8802452',
 '3.6502452',
 '3.1102452',
 '2.7302456',
 '2.5102453',
 '2.4402454',
 '4.2502456',
 '6.5302453',
 '8.290245',
 '10.090245',
 '11.3102455',
 '12.100245',
 '10.530245',
 '7.3002453',
 '5.9902453',
 '5.8002453',
 '5.170245',
 '4.4902453',
 '3.9102454',
 '3.5702453',
 '3.4202452',
 '2.8802452',
 '3.0202456',
 '2.3602452',
 '2.3102455',
 '2.3802454',
 '2.4202454',
 '2.5802455',
 '2.9402456',
 '3.5602455',
 '5.0602455',
 '6.540245',
 '8.340245',
 '9.950245',
 '11.590245',
 '12.150246',
 '12.020246',
 '11.270246',
 '10.740245',
 '10.660245',
 '11.000245',
 '11.720245',
 '12.5602455',
 '12.240245',
 '12.300245',
 '12.290245',
 '12.460245',
 '12.460245',
 '12.550245',
 '12.370245',
 '11.910245',
 '11.740245',
 '11.670245',
 '11.670245',
 '11.680245',
 '11.800245',
 '11.920245',
 '12.190246',
 '12.370245',
 '12.330245',
 '12.270246',
 '12.040245',
 '11.860246',
 '11.510245',
 '11.420245',
 '11.350245',
 '11.42024

Aunque en Python siempre hay una manera más sencilla de hacerlo

In [30]:
import pandas as pd
df = pd.read_csv('../data/data.csv')
df

Unnamed: 0,timestamp,temperature (2m)
0,20220101T0000,6.490245
1,20220101T0100,6.060245
2,20220101T0200,5.560245
3,20220101T0300,4.630245
4,20220101T0400,3.660245
...,...,...
12907,20230622T1900,
12908,20230622T2000,
12909,20230622T2100,
12910,20230622T2200,


In [29]:
type(df)

pandas.core.frame.DataFrame

## 2. Interacción con el sistema
El módulo `os` nos permite interaccionar con el sistema y gestionar archivos. Aquí veremos algunas cosas como abrir y cerrar carpetas, pero podéis ver los detalles [aquí](https://docs.python.org/3/library/os.html). 

In [2]:
import os  # cargamos módulo

folder = "nueva_carpeta2"
os.mkdir(folder)

También podríamos abrir varias carpetas contenidas unas en otras a la vez con `makedirs`, por ejemplo:


In [11]:
folder = "nueva_carpeta/test1/test2"
os.makedirs(folder)

Y ahora ya podríamos escribir un archivo dentro de algunas de estas carpetas: 

In [12]:
with open('nueva_carpeta/fichero_de_prueba.txt', 'a') as f:
    f.write("más pruebas")

También podemos borrar archivos o carpetas

In [36]:
os.remove('test2.txt')

Podéis ver todos las funciones:

In [None]:
os.

Otra función de ´os´ muy útil es poder hacer una lista de los archivos que tenemos en una carpeta. 

In [35]:
l = os.listdir()

['0385886.jpg',
 'N1_PythonBasic.ipynb',
 'test2.txt',
 'test3.txt',
 'carpeta_prueba',
 'images',
 'N4_lectura_y_escritura_de_ficheros.ipynb',
 'N1_PythonBasic-Copy1.ipynb',
 '__pycache__',
 'img',
 'modulo_prueba.py',
 'N2_Estructuras_de_control_de_flujo.ipynb',
 'Numpy_y_visualization.ipynb',
 'Ejercicios_Resueltos_intro.ipynb',
 'test.txt',
 '.ipynb_checkpoints',
 'logo_light.png',
 'N3_Funciones.ipynb',
 'data',
 '81kv0vHJ0QL.jpg',
 'nueva_carpeta',
 'N0_JupyterNotebook.ipynb']

Para escoger solo las notebooks `.ipynb` solo tendría que analizar la lista 

In [20]:
# o de forma más compacta podemos usar una list comprehension:
l2_txt = [file_name for file_name in os.listdir() if file_name.endswith(".ipynb")]
l2_txt

['N1_PythonBasic.ipynb',
 'N4_lectura_y_escritura_de_ficheros.ipynb',
 'N2_Estructuras_de_control_de_flujo.ipynb',
 'Numpy_y_visualization.ipynb',
 'Ejercicios_Resueltos_intro.ipynb',
 'N3_Funciones.ipynb',
 'N0_JupyterNotebook.ipynb']

## 3. Ejercicios para practicar

**1.** Crea un archivo de texto vacío llamado "estudiantes.txt" y guárdalo en el mismo directorio que tu script de Python. 

- Escribe una función llamada `registrar_estudiante(nombre, edad, municipio, aficion)` que tome como argumentos el nombre, la edad, de donde es, y algo que le guste y lo guarde en el archivo "estudiantes.txt". Pregunta a algunso de tus compañeros los datos para registrarlo en una nueva línea en el archivo. 

- Escribe una función llamada `leer_estudiantes()` que lea y guarde en el formato adecuado cada variable. 

- Calcula el promedio de edad de los estudiantes. 

- Se repite alguna afición parecida entre los estudiantes? Si es que si cuáles? 

In [33]:
# Código

**2.** Lee el archivo csv data/winemag-data_first150k.csv sobre críticas de vinos y responde: 

2.1. ¿Cuántos vinos españoles hay?

2.2. Haz un histograma de los precios generales, y otro con los precios españoles.
¿Puedes sacar alguna conclusión a simple vista?   (Usa la función `hist` del paquete `matplotlib.pyplot`, usa el parámetro opcional density = True para que estén normalizados)

2.3. Guarda los datos solo de los vinos españoles en un archivo llamado spanish_wines.csv

**Nota**: Evita usar pandas. 


In [1]:
# Código

**3.** Escribe una función que coja un path de un directorio, compruebe que el directorio exista, que cuente cuántos archivos hay dentro de cada extensión y que escriba los resultados, con tantas líneas como extensiones se encuentren en la carpeta, de tal manera que quede:

    "Para la extensión tal hay tantos archivos" 
    "Para la extensión tal hay tantos archivos" 

Usa print(f"") o print("".format()) para facilitarte la escritura.  

Para hacerlo te serán útiles las funciones de `os.path` que tenéis en [aquí](https://docs.python.org/3/library/os.path.html) 

3.1 Aplica esta función a la carpeta `images` que tendréis en este directorio.


In [2]:
# Código 
