# Sesion 5 - Conjuntos, Diccionarios y Archivos
<div style="text-align: right">Autor: Luis A. Muñoz - 2020 </div>

Ideas clave:

* Los conjuntos son contenedores de datos en Python que no admiten valores duplicados.
* Un conjunto tiene el formato {val1, val2, ...}
* Los valores en un conjunto (set) se agregan con el método add y si el valor a añadir ya se encuentra en el conjunto, este se descarta
* Los conjunto soportan operaciones de interacción, union, diferencia y diferencia simétrica.

* Un diccionario es un tipo de datos de Python que convierte un dato en otro
* Funciona como un formulario de datos: los campos a llenar se llaman llaves (keys) y los datos con que se llenan los campos con valores (values)
* Un diccionario tiene el formato {key1: value1, key2: value2, ....}
* Un diccionario utiliza las llaves como índices para acceder a los valores

* Los archivos son objetos almacenados en el File System del Sistema Operativo.
* Un archivo puede ser de texto o de datos binarios.
* Python puede acceder a los archivos utilizando la instrucción open() y luego cerrarlos con la instucción close(). No se debe dejar un archivo abierto en el sistema.
* Se puede utilizar un Context Manager (with) para controlar el acceso a los archivos.
* Al abrir un archivos Python genera un cursor, un puntero que "apunta" a la primera linea de un archivo de texto.
* Los métodos read(), readline() y readlines() permite leer el texto de un archivo de texto.
* Lo métodos write(), writelines() permiten escribir en un archivo de texto.
* El cursor de un archivo de texto es un iterable; esto es, que si se incluye en un lazo for leera cada línea de un archivo de texto hasta el final.
* Un archivo CSV es un archivo de texto con un formato específico en donde se almacenan los valores seperados por comas y al que se tiene acceso de forma interactiva importando el módulo CSV.

Informacion:
* https://recursospython.com/guias-y-manuales/conjuntos-sets/
* https://recursospython.com/guias-y-manuales/diccionarios/
* https://uniwebsidad.com/libros/algoritmos-python/capitulo-11

---

# Sets
<img src="https://miro.medium.com/proxy/0*_Pc2_6NV9IUgTQ9m.png" alt="Drawing" style="width: 400px;"/>
Un conjunto `set` es una colección no ordenada de objetos únicos. Los conjuntos son ampliamente utilizados en lógica y matemática, y desde el lenguaje podemos sacar provecho de sus propiedades para crear código más eficiente y legible en menos tiempo.

Para crear un conjunto se utiliza la siguiente sintáxis:

In [None]:
s = {1, 2, 3, 4, 5, 6, 7, 8, 9}
print(type(s))
print(s)

La idea más importante a recordar respecto a un conjunto es que no puede contener elementos repetidos:

In [None]:
s = {1, 2, 3, 4, 5, 5, 5, 6, 7, 8, 8, 8, 9}
print(s)

Como se observa, los elementos repetidos se descartan del conjunto y solo estan presentes una sola vez. Esto tiene sentido si considera la noción matematica de un conjunto: una colección de elementos únicos y cuyo orden es irrelevante. Esto es que este es un conjunto válido:

In [None]:
pares = {4, 2, 16, 24, 102}
print(pares)

Note que la impresión de los valores no tiene un orden específico ya que su orden es irrelvante; esto quiere decir que no exste algo como "el primer elemento", o "el último elemento" o "el n-ésimo elemento". Lo que a su veces significa que los elementos de un conjunto no están indexados ("*not suscriptable*"):

In [None]:
pares[0]

Estas características pueden ayudar a resolver algunos problemas. Por ejemplo, descartar un número si es que tiene dígitos repetidos:

In [None]:
# Pruebe con diferentes valores de num (como str)
num = '1293'

# Lista por comprehension de cada caracter del str num que luego se convierte en un set
numeros = set([n for n in num])      # ['1', '2', '3', '3']

# Si el numero de elementos del str num es igual al numero de elementos del set
# quiere decir que todos los caracteres son diferentes
if len(num) == len(numeros):
    print("Todos los digitos son diferentes")
else:
    print("Hay digitos repetidos")

Los métodos disponibles en un conjunto se pueden observar con la directorio de un set:

In [None]:
dir(set)

De este listado, los métodos para la manipulación de los elementos son:
    
    - add()          Agrega un elemento al conjunto
    - remove()       Elimina un elemento de un conjunto y si el elemento no existe genera una excepción
    - discard()      Equivalente a remove(), pero en caso el elemento a eliminar no exista esta operación se descarta.
    - pop()          Extrae un elemento aleatorio del conjunto
    
Un detalle a considerar, para inicializar un conjunto vacio hay que utilizar la instrucción `set()` y no `{}`.

In [None]:
# Conjunto vacio
s = set()

# Se agrgan elementos al conjunto
s.add(0)
s.add(1)
s.add(3)
s.add(10)
s.add(7)
print(s)

# Se descartan elementos de un conjunto
s.discard(3)
s.discard(20)    # Esto no genera una excepcion
print(s)

# Se extrae un valor aleatorio
val = s.pop()
print("\nValor extraido aleatorio:", val)
print(s)

val = s.pop()
print("\nValor extraido aleatorio:", val)
print(s)

Los conjunto soportan las siguientes operaciones:
    
    * &      Intersaccion
    * |      Union
    * -      Diferencia
    * ^      Diferencia simétrica

In [None]:
pares = {0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20}
mult_3 = {0, 3, 6, 9, 12, 15, 18, 21}
mult_5 = {0, 5, 10, 15, 20, 25}

print(pares & mult_3)    # Equivalente al método: pares.intersection(mult_3)
print(mult_5 | mult_3)   # Equivalente al método: mult_3.union(mult_5)
print(pares - mult_3)    # Equivalente al método: pares.difference(mult_3)
print(mult_3 ^ mult_5)   # Equivalente al método: mult_3.symetric_difference(mult_5)

Un conjunto es un "iterable", esto es que puede ser parte de un lazo for y lo retornará serán sus elementos:

In [None]:
for element in {1, 2, 3, 3, 4, 5, 5}:
    print(element)

# Dict
<img src="https://www.i2tutorials.com/wp-content/uploads/2020/05/Append-a-Dictionary-to-a-list-in-Python-5-i2tutorials.jpg" alt="Drawing" style="width: 500px;"/>
Un diccionario es una colección no ordenada de objetos. Es por eso que para identificar un valor cualquiera dentro de él, especificamos una llave (a diferencia de las listas y tuplas, cuyos elementos se identifican por su posición). Las llaves suelen ser números enteros o cadenas, aunque cualquier otro objeto inmutable puede actuar como una clave. Los valores, por el contrario, pueden ser de cualquier tipo, incluso otros diccionarios.

Un diccionario vacío se puede expresar de dos formas: `dict()` o `{}` y tiene el formato `(key: value)`:

In [None]:
d = {"Python": 1991, "C": 1972, "Java": 1996}

print(type(d))
print(d)
print("Num de elementos:", len(d))

Como se puede observar, cada par "llave:valor" se considera un elemento, pero estos no tiene índices:

In [None]:
d[0]

En un diccionario el elemento que se utiliza para especificar un elemento es la llave:

In [None]:
d['Python']

Y se puede utilizar el operador `=` para asignarle un valor o agregar un nuevo elemento: 

In [None]:
d['Python'] = 2001
d['C++'] = 1983

print(d)

Como las llaves son empleados en lugar de los índices, estos no pueden ser duplicados, a diferencia de los valores que si pueden ser repetidos:

In [None]:
d["JavaScript"] = 1995
d["PHP"] = 1995

print(d)

Cuando se considera el uso de un diccionario como parte de un código de programación, se debe pensar en un diccionario como un formulario. Considere el siguiente diccionario:

In [None]:
# El diccionario 'persona' almacena cada dato de una persona en llaves
persona = {'nombre': 'Elvio',
           'apellido': 'Lado',
           'edad': 20,
           'telefono': '976-765-262',
           'direccion': 'Av. Separadora Industrial 2134, Ate'}

print(persona)

# Observe en esta línea como el diccionario aclara el código pues en lugar de usar un índice
# en 'persona' se usa el nombre de la llave y se puede entender que primero se imprime el nombre
# y luego el apellido.
print(persona['nombre'] + ' ' + persona['apellido'])

¿Como se cambiaría el teléfono de la persona en el diccionario?

In [None]:
persona['telefono'] = '987-363-999'
print(persona)

¿Y cómo se agregaría el email de esta persona en el diccionario?

In [None]:
persona['email'] = 'elado@mail.com'
print(persona)

## dict como un iterable
Un diccionario también es un iterable, pero que retorna: ¿las llaves, los valores, ambos?

In [None]:
meses = {1: 'ene', 2: 'feb', 3: 'mar',
         4: 'abr', 5: 'may', 6: 'jun',
         7: 'jul', 8: 'ago', 9: 'set',
         10: 'oct', 11: 'nov', 12: 'dic'}


for data in meses:
    print(data)

Las llaves. Esto tiene sentido ya que con las llaves se pueden obtener los valores, y no se pueden obtener las llaves de los valores (ya que estos últimos pueden ser duplicados). Esto puede modificarse utilizando los siguientes métodos:

    * dict.keys()      Retorna una lista con las llaves de un diccionario
    * dict.values()    Retorna una lista con los valores de un diccionario
    * dict.items()     Retorna una lista de tuplas con los pares (llave, valor)

In [None]:
print("Método keys()")
for data in meses.keys():
    print(data)
else:
    print()

print("Método values()")
for data in meses.values():
    print(data)
else:
    print()

print("Método items()")
for data in meses.items():
    print(data)

## Métodos en un diccionario
Adicionalmente a los métodos anteriores, también se tienen los siguientes métodos:

In [None]:
dir(dict)

Los siguientes métodos realizan las siguientes acciones:    
    
    * clear()         Elimina todos los elementos de un diccionario
    * copy()          Copia los elementos de un diccionario en otro, equivalente a las listas
    * fromkeys()      Crea un dict a partir de los elementos de una lista que servirán como llaves y con valores = None
    * get()           Retorna un valor de una llave. Equivalente a dict[key], 
                      pero no genera una excepcion si la llave no existe
    * pop()           Extrae el valor de una diccionario a partir de una llave.
    * popitem()       Extrae un par (llave, valor) de forma aleatoria
    * setdefault      Crea un diccionario a partir de una llave y un valor por defecto. 
                      En caso la llave ya existe la operacion se descarta
    * update()        Actualiza los elementos de un diccionadio a partir de otro
    
Creemos un diccionario `numeros` y saquemos un valor con `pop()`:

In [None]:
numeros = {1: 'uno', 2: 'dos', 3: 'tres', 4: 'cuatro', 5: 'cinco', 6: 'seis', 7: 'siete', 8: 'ocho', 9: 'nueve'}

val = numeros.pop(9)
print(val)
print(numeros)

Si utilizamos la sintaxis `dict[key]` para obtener el valor de una llave, tendrémos una excepción porque esta llave no existe:

In [None]:
# Esto genera un excepción porque la llave 9 ya no existe
numeros[9]

Es preferible utilizar el método `get()` para obtener el valor de una llave:

In [None]:
# Esto no genera una excepcion
numeros.get(9)

# E incusive puede devolver algo en caso esta llave no exista
numeros.get(9, "No existe")

Un uso muy útil del método setdefault() es para contar las diferentes letras de una cadena de caracteres:

In [None]:
# Este es un uso util del método setdafault: contar cuantas letras diferentes tiene una cadena
texto = "este mensaje tiene muchas letras y quisiera saber cuantas letras hay de cada letra en general"
letras = {}

for char in texto:
    # Esta linea genera una entrada {char: 0} por cada letra nueva en el diccionario 'letras'
    letras.setdefault(char, 0)      # letras = {'e': 2, 's': 1, 't': 1, }
    # Si esta llave ya existe entonces se descarta la operacion anterior y solo se incrementa el valor asociado
    letras[char] = letras[char] + 1
    
print(letras)

Se puede combinar la función `zip` con dos listas para crear un diccionario a partir de valores predefinidos en listas:

In [None]:
meses_n = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 
          'jul', 'ago', 'set', 'oct', 'nov', 'dic']
meses_d = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

meses = dict(zip(meses_d, meses_n))
print(meses)

El operador `in` también se puede utilizar para verificar si una llave esta presente en un diccionario:

In [None]:
print(3 in meses)        # Esta llave esta en el diccionario
print('ene' in meses)    # Este valor esta en el diccionario, pero 'in' no busca valores

## Listas en un diccionario
Se pueden incluír listas como valores de un diccionario. Considere el siguiente código:

In [None]:
leng_prog = {'juan': ['Python'],
             'maria': ['C', 'C++'],
             'elvio': ['HTML', 'JavaScript', 'PHP'],
             'clodoaldo': ['Assembler', 'Haskell'],
             'rosa': ['Python', 'VisualBasic']
             }

# El lazo for extrae los pares (llave, valor) con el metodo items()
for nombre, lenguajes in leng_prog.items():
    print("Lenguajes favoritos de", nombre.capitalize() +  ":")
    for idx, lenguaje in enumerate(lenguajes):
        print("  {}: {}".format(idx+1, lenguaje))
    else:
        print()

## Diccionarios en listas
Se pueden tener diccionario como elementos de una lista. Considere el siguiente código:

In [None]:
# alumnos[0]['apellido']
alumnos = [{'nombre': 'Elvio',
            'apellido': 'Lado',
            'codigo': 'A8383783',
            'email': 'elado@yahoo.com',
           },
           {'nombre': 'Maria',
            'apellido': 'Jimenez',
            'codigo': 'A8309806',
            'email': 'mjimenez@mail.com',
           },
          ]

# Se extraen los elementos de alumnos, donde cada elemento es un diccionario
for idx, alumno in enumerate(alumnos):
    print("ALUMNO", idx+1)
    # Se extraen los pares (llave,valor) de los diccionarios
    for k, v in alumno.items():
        print("  {}: {}".format(k.capitalize(), v))
    else:
        print()

## Dicionarios en un diccionario
Se puede tener un diccionario donde los elementos serán diccionarios a la vez

In [None]:
alumnos = {'elazo': 
                {'nombre': 'Elvio',
                'apellido': 'Lado',
                'codigo': 'A8383783',
                'email': 'elado@yahoo.com',
                'telefono': {'movil': '987-345-222',
                             'fijo': '245-3783',
                            }
                },
           'mjimenez': {'nombre': 'Maria',
                'apellido': 'Jimenez',
                'codigo': 'A8309806',
                'email': 'mjimenez@mail.com',
                'telefono': {'movil': '918-727-272',
                            }
               },
          }

# Se extraen las llaves (nombre de usuario) y los valores (diccionarios internos)
for username, user_info in alumnos.items():
    print("\n* Nombre de usuario: {}".format(username))
    print("  * Nombres: {}, {}".format(user_info['apellido'], user_info['nombre']))
    print("  * Codigo: {}".format(user_info['codigo']))
    print("  * Email: {}".format(user_info['email']))
    print("  * Telefono:")
    # Se extraen los pares (llave,valor) de los diccionarios internos
    for tipo_telef, num_telef in user_info['telefono'].items():
        print("    - {}: {}".format(tipo_telef.capitalize(), num_telef))

In [None]:
# BONUS TRACK
import requests 

r = requests.get("https://pomber.github.io/covid19/timeseries.json")
data_dict = r.json()
for k, v in data_dict['Peru'][-1].items():
    print(k, v)

Ahora: **descanse**. Tómese un respiro, distraigase un poco antes de entrar la gestión de archivos en Python.

<img src="https://webcomicms.net/sites/default/files/clipart/167194/think-time-cliparts-167194-188108.png" alt="Drawing" style="width: 400px;"/>

## Archivos en Python
Python puede acceder al File System del Sistema Operativo para leer o escribír archivos, ya sea de texto o binarios. A este nivel, vamos a trabajar con archivos de texto.

Para Python, un archivo es un objeto al que se accede por medio de un cursor. Este cursor apunta a cada una de las lineas de un archivo de texto.

NOTA: ¡Tenga precaución al momento de operar con archivos! Puede borrar información importante en el sistema Operativo.

Considere el siguiente diccionario de meses:

In [None]:
meses_n = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 
          'jul', 'ago', 'set', 'oct', 'nov', 'dic']
meses_d = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

meses = dict(zip(meses_d, meses_n))
print(meses)

Para abrir un archivo de texto utilizamos la función `open`. El acceso a un archivo de texto se da en diferentes modos que deben ser especificados:

    mode = 'r'      Se desea leer (read) el archivo. Este archivo debe de existír
    mode = 'w'      Se desea escribir (write) en el arvhivo. Si el archivo no existe este se crea y si existe se sobreescribe
    mode = 'a'      Se desea agregar (append) sobre un archivo. Si el archivo no existe se crea
    
Otra especificación opcional la del interprete de codificación de los caracteres. A veces se leen archivos de texto cuyas caracteres no son reconocidos (nos arroja un error `charmap`):

    encoding = 'utf-8'    Interpreta los caracteres segun la codificación UTF-8
    encoding = 'latin-1'  Interpreta los caracteres segun la codificacion en español
    
Consideremos, como ejemplos, que se quiere almacenar esta información en un archivo que llamaremos `meses.txt` que tenga el siguiente formato:
    
    1  ene
    2  feb
    3  mar
    .
    .
    .
    10 oct
    11 nov
    12 dic
    
La secuencia de acciones al momento de trabajar con archivos de texto es la siguiente:

<img src="https://ucarecdn.com/c0f593fb-5ab5-4c5d-aa03-4fc15b480a69/" alt="Drawing" style="width: 500px;"/>

In [None]:
# Se abre el archivo de texto en modo escritura
file = open("meses.txt", mode='w', encoding='utf-8')

# Se modifica el archivo
for num, nombre in meses.items():
    file.write("{:2} {}".format(num, nombre))

# Se cierra el archivo
file.close()

Debe de haberse generado un nuevo archivo en el directorio de trabajo. Reviselo. ¿Tiene la información según lo esperado? Vamos a leer el archivo generado utilizando Python:

In [None]:
file = open("meses.txt", mode='r', encoding='utf-8')
texto = file.read()
file.close()

print(texto)

¿Qué es lo que esta faltando? Los saltos de línea. Estos son caracteres que son parte de la información y también tienen  que considerarse.

In [None]:
file = open("meses.txt", mode='w', encoding='utf-8')

for num, nombre in meses.items():
    file.write("{:2} {}\n".format(num, nombre))     # \n: Salto de linea

file.close()

In [None]:
file = open("meses.txt", mode='r', encoding='utf-8')
texto = file.read()
file.close()

print(texto)

Note que el arvhivo se abrio con `open` y se cierra con `close` y que entre estas funciones se realiza la escritura con `write` o la lecrura con `read`. En ambos casos se trabaja con `str` (un `str` de entada para la escritura, un `str` de salida para la lectura.

## Context Manager: with
Otra forma de realizar lo mismo (y la forma preferida en Python) es utilizar un Context Manager, lo que es equivalente a crear un bloque `with`. Un bloque `with` asocia un objeto a un bloque y esta se administra segun el contexto. Cuando el bloque termina, el objeto asociado se cierra de forma automática. Esto quiere decir que el archivo abierto controlado por un bloque `with` se cierra una vez terminado el bloque.

Consideremos resolver el ejemplo anterior utilizando un bloque `with`:

In [None]:
# Creamos el cursor con un bloque with y cuando este termine el archivo se cerrara
with open("meses.txt", mode='w', encoding='utf-8') as file:
    for num, nombre in meses.items():
        file.write("{:2} {}\n".format(num, nombre))     # \n: Salto de linea

In [None]:
# No utilizaremos el modo ya que por defecto es 'r' (lectura)
with open("meses.txt", encoding='utf-8') as file:
    texto = file.read()

print(texto)

In [None]:
RUTA RELATIVA: "./MiMusica"
RUTA ABSOLUTA: "C:/User/UserName/Music/MiMusica"

## Un archivo como iterador
Así como se puede escribír el archivo línea por línea, también se puede acceder a cada línea, una por una, utilizando algunos métodos de un objeto archivo:

    * readline()         Retorna el str al que esta apuntando el cursor hasta \n (incluyendo el \n)
    * readlines()        Retorna una lista con las líneas del archivo de texto, incluyendo el \n al final de cada elemento
    
Probemos estos métodos:

In [None]:
# Utilizemos los parametros por defecto: lectura, encoding estandar
with open("meses.txt") as file:
    print(file.readline())
    print(file.readline())
    print(file.readline())


In [None]:
with open("meses.txt") as file:
    print(file.readlines())


Note que el ejemplo de `readline()` (así como el de `readlines()`) incluye el caracter `\n`. Esto hace, por ejemplo, que la impresión de cada línea tenga un espacio en blanco entre cada línea (ya que la función `print` también incluye un salto de línea. Lo normal al momento de leer cada línea es no incluir el salto de línea. Para esto utiliremos el métodos de los string `strip()`:

In [None]:
with open("meses.txt") as file:
    print(file.readline().strip())
    print(file.readline().strip())
    print(file.readline().strip())

El problema con esta última aproximación es que es necesario condicionar un lazo para saber en que momento debemos de dejar de leer cada una de las líneas de un archivo de texto. Una forma mejor de tener acceso a cada línea es utilizar el cursor de un arvhivo como un iterable, es decir, como parte de un lazo for:

In [None]:
with open("meses.txt") as file:
    for linea in file:
        print(linea.strip())

## Archivos CSV
Un archivo CSV es un archivo con valores separados por comas (Comma-Separated Values). Es uno de los formatos estándar para el intercambio de información. Tiene la ventaja de que es un archivo de texto por lo que su acceso es sencillo, y por otro lado tiene un formato sencillo que permite almacenar mucha información de manera ordenada. Por ejemplo, considere que quiere guardar la sigueinte información:

    - Nombre
    - Telefono
    - Email
    
Utilizando el formato de CSV, se pueden almacenar los datos de varias personas de la forma:

    nombre,telefono,email
    
Los archivos CSV suelen tener un encabezado que especifica el dato de cada campo. Un archivo CSV es reconocido por Excel (en su última versión, con valores separados por ";" ya que la "," es utilizada en algunos paises como separador de miles), pero no debe de olvidar que un archivo CSV no es mas que un archivo de texto pero con una extensión diferente.

Para leer un archivo CSV se utiliza el modiulo `csv` de Python. Los método mas importante en el módulo `csv` para leer archivo CSV en reader:

    * cursor = reader(csv_file)        Retorna un cursor sobre el archivo csv_file
    
Una vez establecido un reader este se puede incluir en un lazo for (que es un iterable) para poder extraer cada línea del archivo CSV. Cuando se lee un `reader` este retorna los datos de la línea del archivo en forma de lista, donde los elementos de la lista serán los valores separados por coma sin incluír el \n.

Por ejemplo, copie y pegue el siguiente texto en un archivo y guardelo como 'meses.txt' (no importa si la extension no es CSV):

    numero,mes
    1,enero
    2,febrero
    3,marzo
    4,abril
    5,mayo
    6,junio
    7,julio
    8,agosto
    9,setiembre
    10,octubre
    11,noviembre
    12,diciembre
    
Una vez hecho, probemos el siguiente código para leer el archivo CSV:

In [None]:
import csv

with open("meses.txt") as csv_file:
    # Creamos el cursor reader del arvhivo CSV
    reader = csv.reader(csv_file)
    
    # el reader es un iterable: next() realiza una iteración manual y 
    # al hacerlo descarta la primera linea, que es el encabezado de datos que
    # en este momento no no importa
    next(reader)
    
    # Se hace un lazo for con el cursor para extraer cada linea
    for data_line in reader:
        # data_linea sera una lista donde los elementros serán cada uno de los
        # valores separados por comas por cada linea, en este caso [numero, nombre_del_mes]
        print("El mes numero {} es el mes de {}".format(data_line[0], data_line[1]))