<a href="https://colab.research.google.com/github/valentitos/Colabs-CC1002/blob/main/Clase_20_Archivos/Clase20_Archivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 20: Archivos

## Repaso: Diccionarios

Un diccionario es una estructura que permite asociar **llaves** a un conjunto de **valores**

![asd](diccionario_ej.svg)


Las `llaves` son únicas y solo pueden ser `num` o `str`. Los valores pueden ser de cualquier tipo y pueden ser modificados

Las operaciones tipicas sobre diccionarios son:

| Operación    | Significado                                                 |
|---------------|-------------------------------------------------------------------------------------------|
| ``D = {}``   | Crea un diccionario vacío (0 asociaciones)     |
| ``len(D)``   |  Indica cuantos pares ``llave:valor`` tiene ``D``           |
| ``D[llave]``   | Obtiene el ``valor`` asociado a la ``llave`` en ``D``         |
| ``k in D``   | ``True`` si la ``llave`` ``k`` existe en ``D``     |
| ``D == {..}``  | Indica si dos diccionarios tienen el mismo contenido (pares ``llave:valor``)                                    |
| ``D[llave] = valor``   | Si no existe la ``llave`` en ``D``, la agrega a ``D``, asociada al ``valor`` indicado.|
| `` `` | Si existe la ``llave`` en ``D``, modifica el ``valor`` asociado |
| ``del D[llave]``   | Elimina la ``llave`` de ``D``, junto a su ``valor`` asociado     |
| ``D.keys()``   | Entrega un conjunto iterable con todas las ``llaves`` de ``D``     |
| ``D.values()``   | Entrega un conjunto iterable con todos los ``valores`` de ``D``     |

Para crear un diccionario vacio, realizamos:

```python
D = {}
```

Podemos crear diccionarios con asociaciones pre-existentes

```python
D = {'gatitos':5, 'perritos':2, 'pajaritos':4 }
```

Para obtener un ``valor`` asociado a una ``llave``, accedemos por su "índice" (``llave``)

```python
>>> D = {'gatitos':5, 'perritos':2, 'pajaritos':4 }
>>> D['gatitos']
    5
```

Si intentamos acceder a una `llave` que no existe, arrojará un error

```python
>>> D = {'gatitos':5, 'perritos':2, 'pajaritos':4 }
>>> D['capibara']
    Traceback (most recent call last)
    KeyError: 'capibara'
```

Al asignar, si la ``llave`` **no existe**, la agrega al diccionario, junto a su ``valor``

```python
>>> D = {'gatitos':5, 'perritos':2, 'pajaritos':4 }
>>> D['capibara'] = 1
>>> print(D)
    {'gatitos': 5, 'perritos': 2, 'pajaritos': 4, 'capibara': 1}
```

Si la `llave` **ya existía**, entonces reemplaza su `valor` asociado

```python
>>> D = {'gatitos':5, 'perritos':2, 'pajaritos':4 }
>>> D['gatitos'] = 8
>>> print(D)
    {'gatitos': 8, 'perritos': 2, 'pajaritos': 4}
```

Los diccionarios pueden ser recorridos a traves de sus `llaves`

```python
for llave in D:
    print(llave,'->',D[llave])
```

O a traves de sus `valores`

```python
for valor in D.values():
    print('->',valor)
```

O a traves de ambos al mismo tiempo

```python
for llave,valor in D.items():
    print(llave,'->',valor)
```

## Archivos (definición)

Un archivo es un medio que contiene información o datos, que se encuentra almacenado en el disco del computador. En general, se caracterizan por tener un nombre, fecha de creación y modificación, su contenido, formato, etc.

En particular, los archivos de texto (.txt) se caracterizan porque son legibles naturalmente por una persona (y son sencillos de operar con ellos en Python)

Hay que hacer una pequeña distinción entre los tipos de memoria que tiene un computador

|                 | Ram     | Disco (HDD) | Disco (SSD) |
|-----------------|---------|-------------|-------------|
| Tipo de memoria | Volátil | Persistente | Persistente |
| Velocidad       | Muy rápida | Lenta | Rápida |
| Tiempo de acceso | Constante | Variable | Constante |
| Costo monetario | Caro (`~3500[CLP/GB]`) | Barato (`~40[CLP/GB]`) | No tan Barato (`~90 [CLP/GB]`) |
| Capacidad | Limitada `(4GB - 128GB)` | Extensa `(512GB - 16TB)` | No tan limitada `(128GB - 4TB)` |

En general, los archivos viven en el Disco

## Archivos (operaciones)

La siguiente tabla resume las operaciones que se pueden realizar con archivos

| Operación    | Significado                                                 |
|---------------|-------------------------------------------------------------------------------------------|
| ``A = open(archivo, mode)``   | Abre el archivo indicado en el modo indicado (lectura, escritura)    |
| ``linea = A.readline()``   | En un archivo abierto en modo lectura, lee una línea del archivo |
| ``A.write(linea + '\n')``   | En un archivo en modo escritura, escribe una línea en el archivo y sitúa el cursor en la línea siguiente  |
| ``A.close()``   | Guarda y cierra el archivo |

### Creación (Abrir en modo escritura)

Para escribir en un archivo, usamos la función ``open``

```python
archivo = open('nombre_del_archivo.txt','w')
```

- `archivo` es la variable que representa un puntero/vinculo al archivo almacenado en disco

- `w` es el String que representa el modo del archivo. 'w' representa 'write' (modo escritura)

- El *cursor* de grabación, se ubicará al principio del archivo

- Si el archivo **no existe**, se **crea** en el momento

- Si el archivo **existe**, entonces lo **borra** y lo recrea en blanco


### Escribir

Una vez que tenemos abierto el archivo en modo escritura, podemos usar la operación ``.write(…)`` para escribir contenido en el

```python
archivo.write(linea + '\n')
```

- Esto escribe el string guardado en la variable ``linea``, en el ``archivo``

- Al final de la línea, se agrega el carácter especial ``\n`` conocido como **newline** o **salto de línea** (que sirve para marcar el final de una línea)

- Una vez escrita la línea, el *cursor* de grabación se ubica al principio de la siguiente línea (idéntico a lo que hace apretar la tecla ``Enter``)

- Si omitimos el carácter ``\n``, entonces es como si no hiciéramos un ``Enter``, quedando las líneas del mensaje pegadas en la misma línea del archivo

### Cerrar

Cuando terminemos de escribir datos en el archivo, es necesario guardarlo y cerrarlo. Usamos la instrucción ``.close()``

```python
archivo.close()
```

- Se encarga de cerrar el archivo y agregar una marca que denota el fin del archivo (conocida como ``EOF: End of File``) 

- Una vez cerrado el ``archivo``, **no se puede volver a usar**, es decir, no se pueden realizar acciones sobre archivo, a menos que se vuelva a abrir


## Ejemplo 1: Carrito de Compras

Creemos una función que pregunte por una cantidad indeterminada de productos a comprar, hasta que se ingrese la palabra ``fin``. Los productos se guardan uno por línea, en el archivo ``compras.txt``

```python
>>> escribirCarrito()
    Ingrese Producto: manzanas
    Ingrese Producto: dulces suny
    Ingrese Producto: arena para gato
    Ingrese Producto: chocapic sin Stevia
    Ingrese Producto: fin
    Archivo guardado!
>>> 
```

Pasos a seguir:

- Abrir un archivo para escribir

- Al no saber a priori cuantos elementos recibiremos, usamos un ciclo ``while``

  - Preguntamos por un producto a agregar

  - Si es la palabra ``"fin"``, rompemos el ciclo

  - Si no lo es, lo escribimos en el archivo

- Al terminar el ciclo, cerramos el archivo


In [7]:
# escribirCarrito: None -> None
# lee indefinidamente un producto y lo guarda en un archivo
# ej: escribirCarrito()
def escribirCarrito():

    # abrimos el archivo en modo lectura
    arch = open('compras.txt', 'w')

    # por "siempre"
    while True:

        #obtenemos un producto desde la persona
        prod = input('Ingrese Producto: ')

        #condicion de quiebre
        if prod == 'fin':
            break

        #agregamos el producto al archivo
        arch.write(prod + '\n')

    #cerramos el archivo y terminamos
    arch.close()
    print('Archivo Guardado!!')
    return None

In [8]:
escribirCarrito()

Archivo Guardado!!


## Archivos (operaciones) (cont.)

### Acceso (abrir en modo lectura)

Para leer el contenido de un archivo, usamos la función ``open``

```python
archivo = open('nombre_del_archivo.txt','r')
```

- La ``'r'`` representa ``'read'`` (modo lectura)

- La instrucción open ubica el cursor al principio del archivo

- Si el archivo no existe, el programa arrojará un error

### Leer una línea

Una vez que tenemos abierto el archivo en modo lectura, podemos usar la operación ``.readline()`` para leer una línea del archivo

```python
línea = archivo.readline()
```

- Esta instrucción guarda el contenido de una línea del archivo (como string) en la variable ``linea``

- Una vez leída la línea, el *cursor* de lectura se ubica al principio de la siguiente línea del archivo

### Leer varias líneas

En general cuando se trabaja con la lectura de archivo, vamos a querer leer todas las líneas del archivo, por lo que la instrucción anterior no es muy cómoda para tales propósitos. Por lo que se suelen leer, con ayuda de un ciclo ``for``

```python
for linea in archivo
    instrucciones con la linea
```

- En cada iteración del ``for``, se lee una línea y se almacena en la variable ``linea``, para ser procesada

- Podríamos decir que un archivo se comporta como un conjunto de strings (líneas de texto)

Luego de leer los archivos, no hay que olvidar cerrarlos, con la operación `.close()`


## Precauciones al Leer

Un detalle importante al leer líneas (ya sea con ``.readline()`` o con el ciclo ``for``) es que al leerlas, también se lee el carácter de salto de línea ``'\n'``. 

Por ejemplo, si leemos el archivo de compras, y guardamos cada línea en una lista

In [9]:
# muestraSalto: None -> List
# lee el contenido de un archivo y lo separara en sus caracteres
# ej: muestraSalto()
def muestraSalto():

    #abrimos el archivo en modo lectura
    arch = open('compras.txt', 'r')

    L = []
    # cada linea del archivo, la agregamos a una lista
    for linea in arch:
        L.append(linea)

    # cerramos el archivo y entregamos la lista
    arch.close()
    return L

In [10]:
muestraSalto()

['manzanas\n', 'dulces suny\n', 'arena para gato\n', 'chocapic sin Stevia\n']

Notemos la existencia de los caracteres de salto de línea en cada una de las frases de la lista.

Esto puede presentar efectos indeseados en algunos contextos, por ejemplo, al momento de imprimir las líneas de un archivo una a una

In [11]:
# imprimirConSalto: None -> None
# lee el contenido de un archivo y lo imprime sin sacar el salto de linea
# ej: imprimirConSalto()
def imprimirConSalto():

    # abrimos el archivo en modo lectura
    arch = open('compras.txt', 'r')

    # para cada linea del archivo, la imprimimos
    for linea in arch:
        print(linea)

    #cerramos el archivo y terminamos
    arch.close()
    return None

In [12]:
imprimirConSalto()

manzanas

dulces suny

arena para gato

chocapic sin Stevia



Notar que al momento de imprimir una línea, se imprime una línea en blanco adicional. Esto es debido a que se está imprimiendo el salto de línea ``\n``, adicional al "enter" que nos entrega gratis el ``print``

Para eliminar el salto de línea al momento de ir leyendo las líneas del archivo y guardarlo en memoria, tenemos tres formas:

### Forma 1: `slicing`

Usando trucos de slicing. podemos expresar que queremos todos los caracteres, salvo el último

```python
linea = linea[:-1]
```

### Forma 2: `replace`

Usando ``replace``. Reemplazamos el salto de línea por el string vacío

```python
linea = linea.replace('\n', '')
```

### Forma 3: `strip`

Usando ``strip``. En particular, ``.strip()`` elimina los espacios de los saltos de línea

```python
linea = linea.strip()
```

## Ejemplo 2: Imprimir sin saltos de linea

Ahora, corrigiendo el programa anterior, para leer el archivo, ignorando los saltos de línea


In [13]:
# imprimirSinSalto: None -> None
# lee el contenido de un archivo y lo imprime sacando el salto de linea
# ej: imprimirSinSalto()
def imprimirSinSalto():

    # abrimos el archivo en modo lectura
    arch = open('compras.txt', 'r')

    # para cada linea del archivo
    for linea in arch:

        #le limpiamos el salto de linea 
        linea = linea.strip()

        # y la mostramos en pantalla
        print(linea)

    #cerramos el archivo y terminamos
    arch.close()
    return None

In [14]:
imprimirSinSalto()

manzanas
dulces suny
arena para gato
chocapic sin Stevia


### Ejemplo 3: Contar líneas y caracteres de un archivo

Queremos crear una función que recibe el nombre de un archivo, y muestra en pantalla la cantidad de líneas y caracteres (sin contar ``'\n'``) que tiene el archivo

```python
>>> contarArchivo('compras.txt')
    Lineas: 4
    Caracteres: 53
```

Tenemos que:

- Abrir el archivo recibido en modo lectura

- Crear variables contadores para líneas y caracteres

- Para cada línea del archivo
  
  - Contar una línea
  
  - Contar los caracteres de la línea, excluyendo el salto

- Cerrar el archivo

- Mostrar los resultados en pantalla




In [15]:
# contarArchivo: str -> None
# lee cuantas lineas y caracteres tiene el archivo
# ej: contarArchivo('compras.txt')
def contarArchivo(nombre_arch):
    assert type(nombre_arch) == str

    # En ocasiones, hay que especificar un tercer parametro llamado
    # "encoding", que indica el mapa de caracteres valido para el
    # archivo. utf8 es el mas usado
    arch = open(nombre_arch,'r', encoding = 'utf8')

    nlineas = 0
    ncarac = 0

    # para cada linea del archivo
    for linea in arch:
        # limpiamos la linea
        linea = linea.strip()

        # contamos una linea, y los caracteres en la linea
        nlineas += 1
        ncarac += len(linea)

    # mostramos los resultados y terminamos
    print("Lineas:",nlineas)
    print("Caracteres:",ncarac)
    arch.close()
    return None

In [16]:
contarArchivo('compras.txt')

Lineas: 4
Caracteres: 53


In [17]:
contarArchivo('el_quijote.txt')

Lineas: 2186
Caracteres: 1036211


In [18]:
contarArchivo('cien_años_de_soledad.txt')

Lineas: 11929
Caracteres: 805431


## Ejemplo 4: Contar apariciones de una palabra en un archivo

Queremos crear una función que dado el nombre de un archivo y una palabra, nos entregue cuantas veces aparece esa palabra en el texto. Por ejemplo

```python
>>> contarApariciones('compras.txt','gato')
    1
```

Tenemos que:

- Abrir el archivo recibido en modo lectura

- Crear una variable para contar apariciones

- Para cada línea del archivo

  - Limpiar la linea y separarla en palabras

  - Contar cuantas veces aparece la palabra en la linea

- Cerrar el archivo

- Mostrar los resultados en pantalla

In [19]:
# contarApariciones: str str -> int
# lee cuantas lineas y caracteres tiene el archivo
# ej: contarApariciones('compras.txt', 'gato') entrega 1
def contarApariciones(nombre_arch, palabra):
    # tenemos que confiar que el archivo existe y es un nombre valido
    assert type(nombre_arch) == str
    assert type(palabra) == str

    arch = open(nombre_arch,'r', encoding = 'utf8')

    cuenta = 0
    # para cada linea del archivo
    for linea in arch:
        # limpiamos la linea
        linea = linea.strip()
        # separamos la linea en palabras individuales
        L = linea.split(" ")
        # contamos todas las palabras que coincidan con la buscada
        cuenta += L.count(palabra)

    # terminamos entregando el resultado
    arch.close()
    return cuenta

In [20]:
contarApariciones('compras.txt','gato')

1

In [21]:
contarApariciones('el_quijote.txt','Sancho')

312

In [22]:
contarApariciones('cien_años_de_soledad.txt','Macondo')

93

## Archivos .CSV

Los archivos CSV (Comma Separated Values), son archivos de texto estructurados de una forma específica, para poder representar datos tabulados

Donde entendemos datos tabulados como tablas o planillas de datos (Excel, Google Sheets, etc.)

Cada fila del archivo corresponde a una fila de datos, la cual se puede subdividir en una o más "columnas"


Un archivo CSV usa caracteres o símbolos especiales para separar su contenido. En particular hay que identificar el símbolo utilizado como:

- Separador de columnas

- Separador decimal

- Separador de miles

No hay un estándar único para que símbolos usar para cada separador

Los símbolos/caracteres más utilizados son:

- Punto ( `.` )

- Punto y coma ( `;` )

- Coma ( `,` )

- Tabulación ( ` ` ` ` ` ` ` ` )
 
- Espacio ( ` ` )

Típicamente en Sudamérica se usa:

- Sep. Columnas:	`;`

- Sep. Decimal:	`,`

- Sep. Miles:	`.`

En USA y UK usualmente se usa:

- Sep. Columnas:	`,`

- Sep. Decimal:	`.`

- Sep. Miles:    ` `

Al momento de leer un archivo CSV, es importante conocer cuáles son los separadores utilizados, para que los datos sean leídos de manera consistente


### Trabajando con archivos CSV

Supongamos que tenemos el siguiente archivo de notas de cierto curso

`notas.csv`
```text
Nombre,NotaC1,NotaC2,NotaC3
Amanda,4.6,3.8,6.7
Benito,4.2,5.7,5.9
Camila,1.2,4.4,6.3
Daniel,1.6,6.1,1.0
Emilia,6.8,6.2,5.6
Fernanda,2.2,4.9,6.9
Hernan,5.3,2.0,7.0
```

Y queremos realizar algunas cosas, como, por ejemplo:

- Calcular el promedio por persona
  
  - y guardarlo en una lista de listas `[nombre, promedio]`

- Calcular el promedio por control

  - Y guardarlo como un diccionario `{control: promedio}`



### Promedio por Persona

Para calcular el promedio por persona, necesitamos:

- Abrir el archivo en modo lectura

- Como sabemos que es un archivo csv

  - La primera línea son los encabezados/títulos, por lo que tenemos que saltarla
  
  - Los datos están organizados en una línea/string de la forma: `nombre,C1,C2,C3`
  
  - El separador es el símbolo `,`
  
- Construimos una lista, en donde para cada línea del archivo, guardamos una lista en esa lista, que contenga el nombre de la persona, y su promedio asociado


In [5]:
# calcularPromedio: str -> list(list)
# Lee el archivo de notas indicado, y calcula el promedio por persona
# guardandolos en una tabla
# ej: calcularPromedio("notas.csv") entrega ...
def calcularPromedio(nombre_arch):
    
    # Abrimos el archivo, y leemos la primera línea que contiene los encabezados 
    # y no los datos a procesar, para que avance el cursor
    A = open(nombre_arch,'r', encoding = 'utf8')
    encabezado = A.readline()
    
    listaFinal = []
    
    for linea in A:
            linea = linea[:-1]
            listaPersona = []
            
            # Como es un archivo csv, el separador usado en cada línea es la coma, por lo que la splitteamos
            L = linea.split(',')
            
            # De la línea separada, extraemos los datos importantes
            nombre = L[0]
            C1 = float(L[1])
            C2 = float(L[2])
            C3 = float(L[3])
            
            # Realizamos los cálculos y los guardamos en la lista final
            promedio = (C1 + C2 + C3)/3
            promedio = round(promedio,1)
            
            listaPersona.append(nombre)
            listaPersona.append(promedio)
            listaFinal.append(listaPersona)
            
    A.close()
    return listaFinal

In [6]:
calcularPromedio("notas.csv")

[['Amanda', 5.0],
 ['Benito', 5.3],
 ['Camila', 4.0],
 ['Daniel', 2.9],
 ['Emilia', 6.2],
 ['Fernanda', 4.7],
 ['Hernan', 4.8]]

### Promedio por Evaluación

Para calcular el promedio por persona, necesitamos:

- Abrir el archivo en modo lectura

- Como sabemos que es un archivo csv

  - La primera línea son los encabezados/títulos, por lo que tenemos que saltarla
  
  - Los datos están organizados en una línea/string de la forma: `nombre,C1,C2,C3`
  
  - El separador es el símbolo `,`
  
- Construimos una lista por cada evaluación, en donde para cada línea del archivo, extraemos las notas y las guardamos en su lista respectiva


In [7]:
# calcularPromedioEV: str -> list(list)
# Lee el archivo de notas indicado, y calcula el promedio por evaluacion
# guardandolos en un diccionario
# ej: calcularPromedioEV("notas.csv") entrega ...
def calcularPromedioEV(nombre_arch):
    
    # Abrimos el archivo, y leemos la primera línea que contiene los encabezados
    # y no los datos a procesar, para que avance el cursor
    A = open(nombre_arch,'r', encoding = 'utf8')
    encabezado = A.readline()
    
    LC1 = []
    LC2 = []
    LC3 = []
    
    for linea in A:
            linea = linea[:-1]
            
            # # Como es un archivo csv, el separador usado en cada línea es la coma, por lo que la splitteamos
            L = linea.split(',')
            
            # De la línea separada, extraemos los datos importantes
            C1 = float(L[1])
            C2 = float(L[2])
            C3 = float(L[3])
            
            # Agregamos cada nota a una lista, para calcular los promedios una vez que tengamos todas las notas
            LC1.append(C1)
            LC2.append(C2)
            LC3.append(C3)
            
    A.close()
    
    # Creamos un diccionario, y calculamos cada promedio como la suma dividida por el total de notas de cada lista
    Dfinal = {}
    Dfinal['Control1'] = round(sum(LC1)/len(LC1), 1)
    Dfinal['Control2'] = round(sum(LC2)/len(LC2), 1)
    Dfinal['Control3'] = round(sum(LC3)/len(LC3), 1)
    
    return Dfinal

In [8]:
calcularPromedioEV("notas.csv")

{'Control1': 3.7, 'Control2': 4.7, 'Control3': 5.6}

Propuesto:
- Pensar como generalizar este procedimiento, cuando no se conocen a priori cuantas columnas de notas tiene el archivo

## Conclusiones

Los archivos son una forma flexible de manejar información, y se comportan como una lista de strings/líneas

Podemos leerlos y cargarlos en la memoria de Python para procesarlos (lectura), o bien, podemos crearlos desde Python para escribir información en el disco (escritura)

En general, el primer paso es leer y entender la forma en que vienen los datos y luego, dependiendo si los datos se guardaron en una lista, string, diccionario, etc… el problema se convierte en un ejercicio de manipulación de tales estructuras indexadas.

Recuerden tener cuidado con los saltos de línea al procesar archivos!